Научная статья на тему 'Исследование феномена создания интерлингвы самим сервисом "Google translate"'

Исследование феномена создания интерлингвы самим сервисом "Google translate" Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
307
52
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
GOOGLE / ГЛУБОКОЕ ОБУЧЕНИЕ / DEEP LEARNING / НЕЙРОННЫЕ СЕТИ / NEURAL NETWORKS / МАШИННЫЙ ПЕРЕВОД / MACHINE TRANSLATION / ПЕРЕВОД / TRANSLATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Баринов Владимир Романович, Баринова Наталья Владимировна

В статье изложен материал о новой системе перевода, созданной корпорацией Google в 2016 году. В основе системы «Zero-Shot Translation» лежит метод нейронного машинного перевода, позволяющий системе развиваться и создавать внутреннюю интерлингву. С помощью этого новая система имеет возможность осуществлять перевод с других языков, ранее не заложенных в программу. Возможности новой системы перевода позволяют встраивать систему переводов в различные приложения и программы, при помощи сервиса «Google API». В статье приведены преимущества новой системы и обозначены перспективы развития.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Баринов Владимир Романович, Баринова Наталья Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Исследование феномена создания интерлингвы самим сервисом "Google translate"»

10. Калмыкова О.М. Проблемы обеспечения безопасного передвижения маршрутных транспортных средств по установленному маршруту / Калмыкова О.М., Калмыков Б.Ю., Копылов С.В. // Наука, техника и образование, 2016. № 6 (24). С. 41-42.

11. Калмыкова О.М. Проблемы обеспечения безопасности дорожного движения на улицах города с плотной застройкой и высокой интенсивностью движения транспортных средств. / Калмыкова О.М., Черткова Ю.А., Калмыков Б.Ю. // В сборнике: Научная весна-2016. Материалы: Научное электронное издание, 2016. С. 102 - 107.

12. Калмыкова О.М. Повышение безопасности участия детей в дорожном движении / Калмыкова О.М., Гармидер А.С. // В сборнике: Безопасность, дорога, дети: практика, опыт, перспективы и технологии материалы форума, г. Ростов-на-Дону. Редколлегия: Г.Е. Давыдова, В.В. Зырянов, Б.Г. Гасанов, И. Н. Щербаков, 2015. С. 145 -148.

ИССЛЕДОВАНИЕ ФЕНОМЕНА СОЗДАНИЯ ИНТЕРЛИНГВЫ САМИМ СЕРВИСОМ «GOOGLE TRANSLATE» Баринов В.Р.1, Баринова Н.В.2 Email: Barinov1133@scientifictext.ru

'Баринов Владимир Романович — студент, кафедра информационных систем и дистанционных технологий, Государственное образовательное учреждение высшего образования Московский политехнический университет; 2Баринова Наталья Владимировна — кандидат экономических наук, заместитель начальника отдела, отдел инноваций и научных мероприятий, Государственное образовательное учреждение высшего образования Российский экономический университет им. Г.В. Плеханова, г. Москва

Аннотация: в статье изложен материал о новой системе перевода, созданной корпорацией Google в 2016 году. В основе системы «Zero-Shot Translation» лежит метод нейронного машинного перевода, позволяющий системе развиваться и создавать внутреннюю интерлингву. С помощью этого новая система имеет возможность осуществлять перевод с других языков, ранее не заложенных в программу. Возможности новой системы перевода позволяют встраивать систему переводов в различные приложения и программы, при помощи сервиса «Google API». В статье приведены преимущества новой системы и обозначены перспективы развития.

Ключевые слова: Google, глубокое обучение, нейронные сети, машинный перевод, перевод.

THE PHENOMENON OF AN APPEARANCE OF AN INTERLINGUA INSIDE "GOOGLE TRANSLATE" SERVICE Barinov V.R.1, Barinova N.V.2

'Barinov Vladimir Romanovich — Student, INFORMATION SYSTEMS AND TECHNOLOGIES (WEB TECHNOLOGIES) DEPARTMENT MOSCOW POLYTECHNIC UNIVERSITY; 2Barinova Natalya Vladimirovna — PhD in Economics, DEPUTY HEAD OF A DEPARTMENT OF INNOVATION AND SCIENTIFIC EVENTS, PLEKHANOVRUSSIAN UNIVERSITY OF ECONOMICS, MOSCOW

Abstract: the article describes the new material transfer system created by Google in 20'6. At the heart of «Zero-Shot Translation» system is a neural machine translation method, which allows the system to grow and to create an internal Interlingua. With this new system has the ability to translate from other languages not previously incorporated into the program. Features of the new transfer system allow you to embed transfer system in a variety of applications and programs, with the help of «Google API» service. In the article the advantages of the new system and marked prospects.

Keywords: Google, deep learning, neural networks, machine translation, translation.

УДК 004.8

В современной жизни Интернет стал неотъемлемой частью жизни людей. Информационные ресурсы охватывают все аспекты социальной жизни людей. В связи с этим объём информации в Интернете увеличивается с каждым днём, возрастает количество поисковых запросов различного

характера. Вместе с этим растут и требования по поиску необходимой информации, так как среди огромного (и постоянно растущего) количества данных во Всемирной сети, имеющиеся методы поиска отдельных слов на веб-странице, достаточно быстро устаревают.

Решением этой проблемы являются семантические сети. Это системы хранения данных, которые в отличие от реляционных баз данных хранят информацию в графах (а точнее в их узлах), а также создают связи между этими «узлами», в результате которых получаются «правила-зависимости». Таким образом, система может оценивать не только отдельные слова в запросе, но и всё предложение целиком, так как посредством «правил» система может «изучить» грамматику языка. Основным недостатком семантических сетей является их слабая формализованность при том, что большинство информации в мире является формализованной и хорошо записывается в реляционные базы данных. Исключением из этого правила являются человеческие языки. Многообразие лексических форм и правил не позволяет описать их настолько же чётко и ясно, как, например, законы физики. Таким образом, мы можем довольно легко объяснить причины, по которым корпорация «Google» начала внедрение семантических сетей именно со своего сервиса переводов.

Для начала поговорим об общих принципах работы сервисов онлайн-перевода. Все они основаны на одном из нескольких методов машинного перевода: всего их восемь типов, которые условно можно разбить на три большие группы: статистические методы, нейронные методы, гибридные методы. Подавляющее большинство сервисов использует статистический метод перевода. При получении запроса машина ищет в Интернете уже переведённые слова или словосочетания, которые затем выдаёт в качестве ответа. Общий смысл фразы возможно понять, но ни о какой грамматической и семантической точности речи и быть не может.

Несколько лет Корпорация «Google» работала над созданием системы, которая основывается на методе так называемого глубокого изучения. В конце 2016 года «Google» для восьми языков ввёл этот метод в свою систему переводов. Новая система перевода «Google», основанная на методе нейронного машинного перевода, получила название «Zero-Shot Translation».

Рассмотрим принцип действия системы подробнее.

Для начала напомним, что система «Zero-Shot Translation» действует на принципе нейронного машинного перевода, при котором большая нейронная сеть обучается посредством техник глубокого обучения. Модели нейронного машинного перевода требуют меньше памяти, чем стандартные статистические методы, так как система именно моделирует поведение человека и переводит текст, а не сравнивает его с уже переведёнными когда-либо. Таким образом, чем больше запросов получает система, тем больше она развивается и переходит на более совершенный уровень. Другими словами, новая система создала собственную внутреннюю интерлингву, т.е. базирующийся на правилах более совершенный метод перевода. Приведём доказательство этому факту. В книге Майка С. и Мелвина Дж. приводится изображение t-SNE графа, хранящего информацию о 3000 запросах перевода с португальского на английский. Этот граф представляет собой изображение t-SNE (-Distributed Stochastic Neighbor Embedding, т-Распределённое Стохастическое Соседское Отношение) проекции. Это один из алгоритмов машинного обучения, предполагающий сокращение требующихся для сохранения объекта измерений. Такой же принцип заложен в новой системе переводов, который вместе с добавлением префиксов и привёл к созданию внутренней интерлингвы, позволяющей переводить с португальского на испанский, т.е. на язык, который изначально не был заложен в программу [1].

Также Google предоставляет возможность встраивать свою систему переводов в различные приложения и программы, при помощи сервиса «Google API». Получив свой API-код, можно создавать на базе этого сервиса программы. Google предоставляет пользователям возможность использовать листинги для определения слов, задания языков (исходных и целевых) и встраивания переводчика [2].

Для встраивания переводчика, например, в WEB-страницу, используется следующий код, который также предоставляет корпорация (рис. 1).

* Licensed under the Apache License, Version 2.9 (the "License");

* you may not use this file except in compliance with the License.

* Unless required by applicable law or agreed to in writing, software

* distributed under the License is distributed on an ,rAS IS" BASIS,

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

* See the License for the specific language governing permissions and

# Includes the autoloader for libraries installed with composer

Рис. 1. Предоставляемый корпорацией «Google» листинг кода для встраивания переводчика «Google Translate» в WEB-страницу при использовании «Google API»

На основании вышеизложенного стоит отметить, что преимущества новой системы «Google Translate» смогли оценить и разработчики, и пользователи. Другими словами, разработчики создали наиболее современный и эффективный переводчик на сегодняшний день, корпорация Google значительно повысила свою конкурентоспособность и престиж на рынке за счёт увеличения обращений к системе, тем самым улучшая, обучая и развивая её и, конечно же, пользователи, так как получили наиболее эффективный инструмент перевода от проверенного разработчика.

Подводя итоги, стоит отметить, что, несмотря на все недостатки, которые есть у семантических сетей, многие учёные считают, что за ними будущее, потому, что объёмы информации будут неуклонно расти, и как следствие, точность статистического поиска всё время будет падать. Феномен появления интерлингвы в системе лишь подтверждает мнение о том, что нейронные сети -действительно верный путь для развития.

Список литературы / References

1. Mike S., Melvin J., Nikhil T. Google's Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation, Cornel University Library, 2016.

2. Панель для разработчиков ПО корпорации «Google». [Электронный ресурс]. Режим доступа: https://maps-apis.googleblog.com/ (дата обращения: 04.02.2017).

i Надоели баннеры? Вы всегда можете отключить рекламу.