Научная статья на тему 'Компьютерная лингвистика: теория и практика'

Компьютерная лингвистика: теория и практика Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
3482
537
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА / МАШИННЫЙ ПЕРЕВОД / ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ / COMPUTATIONAL LINGUISTICS / MACHINE TRANSLATION / ARTIFICIAL INTELLIGENCE

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Смагин Матвей Романович, Филатова Елена Юрьевна

Человек создал машины, которые помогают людям в разных областях. Однако машину и человека разделяют многие барьеры, одним из которых является языковой барьер. Но надолго ли это?

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Смагин Матвей Романович, Филатова Елена Юрьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

COMPUTATIONAL LINGUISTICS: THEORY AND PRACTICE

The man created machines which help people in different ways. However machine and the man are separated by barriers, one of which is a language barrier. But for how long?

Текст научной работы на тему «Компьютерная лингвистика: теория и практика»

УДК 519.765

Смагин М.Р. , Филатова Е.Ю.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА: ТЕОРИЯ И ПРАКТИКА

Смагин Матвей Романович, студент 1 курса факультета информационных технологий и управления Филатова Елена Юрьевна, преподаватель кафедры иностранных языков, e-mail: [email protected] Российский химико-технологический университет им. Д.И. Менделеева, Москва, Россия 125480, Москва, ул. Героев Панфиловцев, д. 20

Человек создал машины, которые помогают людям в разных областях. Однако машину и человека разделяют многие барьеры, одним из которых является языковой барьер. Но надолго ли это?

Ключевые слова: компьютерная лингвистика; машинный перевод; искусственный интеллект.

COMPUTATIONAL LINGUISTICS: THEORY AND PRACTICE

Smagin M.R., Filatova E.U.

D. Mendeleev University of Chemical Technology of Russia, Moscow, Russia

The man created machines which help people in different ways. However machine and the man are separated by barriers, one of which is a language barrier. But for how long?

Keywords: computational linguistics; machine translation; artificial intelligence.

Компьютерная лингвистика, также называемая математической, машинной или вычислительной лингвистикой, - сравнительно новое явление. Идея заключена том, чтобы использовать машины, а позже и искусственный интеллект (ИИ) для работы с естественными языками. Она появилась на основе информатики, математики, ИИ и лингвистики. В особенности на общую лингвистику опирается развитие данного направления.[2].

Отличие традиционных методов обработки естественного языка от компьютерной лингвистики заключено в том, что первое сосредоточено на моделировании всего, что изучает лингвистика в целом, а во втором внимание обращено на построение математических моделей, способных описать естественные языки[4]. Основную задачу компьютерной лингвистики можно сформулировать, как построение моделей и соответствующих им алгоритмов и программ для автоматической обработки текста.

Самый, наверное, очевидный способ использования машин в лингвистике - это машинный перевод, используемый в наше время каждый день большим количеством людей. В первый раз сама идея применения вычислительной техники для перевода была предложена в США в 1947 году. Первая демонстрация была проведена в 1954 году в штаб-квартире IBM в Нью-Йорке. Хотя система была примитивна, имея словарь во всего лишь 250 слов и 6 грамматических правил и умела переводить лишь несколько простейших фраз, данный эксперимент получил широкий резонанс, из-за чего машинный перевод быстро стал отдельным направлением в науке. Похожий эксперимент состоялся в 1955 году в СССР. В данном эксперименте участвовал англо-русский машинный

переводчик со словарём в 2300 слов из области прикладной математики[3].

Для художественных текстов машинный перевод не подходит, потому что особенности художественного стиля речи могут очень сильно различаться между разными языками.

Машинным переводом достаточно часто пользуются для технических текстов. При наличии специализированных словарей и некоторой настройке программ, получается перевод высокого качества, который нужно будет лишь немного подкорректировать. Наилучший результат машинного перевода достигается, если текст использует технический или официально-деловой стиль.

Существует и автоматизированный перевод, который от машинного отличен тем, что переводит сам человек, пока программа лишь помогает ему, уменьшая затрачиваемое на перевод время и улучшая качество самого переведённого текста.

Так же есть и статистический машинный перевод. В данном случае программа сравнивает большое количество пар предложений, написанных на двух разных языках, но означающих одно и тоже. Такие программы обладают способностью к самообучению. Примером использования такого перевода является переводчик от Google [17].

Но машины можно использовать не только для перевода текста, но и для его обработки. Распознать и синтезировать речь, анализировать и генерировать тексты - главные задачи данного направления. Само понятие слова «понимать» — одна из главных задач ИИ. Языковые неоднозначности - вот главная проблема обработки естественного языка, а их разрешение происходит при помощи перевода

внешнего представления естественных языков во внутреннюю структуру.

Раз мы упомянули генерирование текста, то необходимо обратить внимание и на сами генераторы текста - программы, способные создавать (генерировать) текст, который, обычно, является правильным с точки зрения применения языковых норм, но парадоксально лишён смысла. При создании текста из случайно выбранных слов мы получим некачественный результат, поэтому тексты создаются, применяя заранее написанные шаблонные фразы. Но в наше время с нашим уровнем развития компьютерных технологий для свободного пользования нет генераторов, способных создавать достаточно осмысленные тексты. А генераторы, основанные на использовании шаблонных фраз или просто бессмысленных наборов слов, имеют очень узкую сферу применения. Генераторы текстов можно использовать при создании и поисковой оптимизации сайтов. Были случаи, когда генераторы текста были успешно использованы для выявления низкого качества рецензирования в научных журналах.

Постоянное расширение областей применения ЭВМ для работы с разного рода информацией вызывает растущую потребность в устном общении человека с машиной, из-за чего становится необходимым решение разного рода проблем автоматической обработки речи, таких как распознавание говорящего, распознавание и синтез речи. Весьма широки перспективы использования устного общения человека и машины на практике. Стоит лишь отметить, что человек в среднем воспроизводит и воспринимает около десяти звуков в секунду из фонетического алфавита ёмкостью в 60 звуков, а при наборе с клавиатуры происходит примерно пять ударов в секунду, то есть в два раза меньше, чем при произнесении.

Для создания системы устного общения между человеком и машиной требуется наличие определённого уровня знаний фонетики, лингвистики, вычислительной техники, теории вычислительных систем, обработки сигналов, системного моделирования и теории информации.

Система распознавания речи основана на модели работы органов слуха и речи человека. В то же время синтезатор речи смоделирован на основе процесса речеобразования и способен синтезировать устную речь непосредственно по тексту[4].

Ещё одним достижением компьютерной лингвистики, которым пользуются большое количество людей, считая и самих лингвистов, являются электронные словари и онлайн-словари. Ведь зачем таскать с собой гигантские словари, если они могут быть у вас на электронном устройстве. В таких словарях можно быстро найти любое нужное нам слово, просто заполнив строку поиска [5, 6, 7].

В наше время чуть ли не каждый из нас пользуется интернетом и, следовательно, различными поисковыми системами (Yandex, Google и другие), чтобы найти какого-либо вида

информацию. Процесс такого поиска называется информационным поиском. Сам термин был введён ещё в 1948 Кельвином Муэрсом в его докторской диссертации. Сначала такими системами пользовались лишь в разных высших учебных заведениях и библиотеках, чтобы обеспечить более удобный доступ к информации. Но когда появился интернет, информационный поиск стал очень широко распространён. Процессом поиска является определённая последовательность операций, связанных со сбором, обработкой и предоставлением информации. Поиск делят на несколько видов: полнотекстовой поиск (по всему тексту), поиск по метаданным (по названию документа, автору, дате создания, размеру), поиск изображений (по содержанию изображения). Информационный поиск - междисциплинарная область наук, состоящая из библиотечного дела, семиотики, лингвистики, информационного дизайна, информатики и когнитивной психологии. Главной задачей данной области является помощь пользователю в удовлетворении его

информационной потребности.

Разработки компьютерной лингвистики дошли и до робототехнических систем. Интеллектные робототехнические системы - системы, распознающие объекты и их состояния, используя различные анализаторы, и определяющие последующие действия, основываясь на общении с человеком. В данных системах развит языковой подход к описанию моделей проблемной среды. Такая модель рассматривается как некая семантическая система, в которой кроме синтаксических отношений должны быть включены и семантические, то есть смысловые связи, позволяющие оперировать ими при поиске пути достижения цели. Из-за введения смысловых связей возможно сжатое представление описания модели и обеспечивается в некой степени направленное смысловое преобразование информации [8, 9, 10].

Так же существуют и экспертные системы, которые могут частично заменить эксперта по решению специфичной проблемы. Экспертные системы - человеко-машинные системы, где интеллектуальным ядром является средство машинного восприятия, распознавания и понимания речи из моделей естественного языка с моделями предметной области. Все экспертные системы имеют базу знаний, состоящую из продукций, каждая из которых является простой программой из одного условного оператора. В таких простейших программах последовательность определяется набором возможных преобразований от начального состояния до окончательного решения поставленной задачи. Продукции с помощью специальной программы можно добавить, изменить и исключить. Вопросно-ответная форма обеспечивает простое взаимодействие с пользователем на понятном ему языке [11, 12, 13].

Обычно выделяют два направления в работе по ИИ. Первое сфокусировано на оптимизации совместной работы человеческого и искусственного

интеллектов. Второе же - на улучшении машин и повышении их "интеллектуальности". Именно первая задача тесно связана с психологией и лингвистикой. В исследованиях по ИИ очень важно обеспечение взаимодействия с ЭВМ на естественном языке. Требуется оснащать программы гибким интерфейсом, так как большая аудитория пользователей не желает общения с компьютером на искусственном языке. Хоть многие проблемы в области обработки естественных языков еще не решены, но прикладные системы оснащаются интерфейсом, позволяющим им понимать естественные языки, но только с определенными ограничениями [14, 15, 16].

Компьютерная лингвистика является важным направлением современной науки не только из-за того, что оно углубляет исследования ИИ, но и потому что любое продвижение в этой области помогает нам в понимании эволюционного процесса развития языка и мышления человека.

Человек создал машину, которая облегчила арифметический счет. Позже он начал пользоваться такими машинами для решения большого количества творческих задач, связанных с человеческим знанием. Постоянно накапливались факты, изобретались искусственные языки для обработки знаний, писались компьютерные программы. Данный процесс привел к появлению нового направления, которое получило название "искусственный интеллект". В наше время много теоретических исследований по ИИ, которые получили практическое применение. Созданные роботы могут сочинять стихи, распознавать образы, вести поиски в сложных условиях, осуществлять точные механические операции. Работы по ИИ даже были переведены из разряда теоретических в разряд прикладных наук. Одной из главных проблем ИИ остаётся компьютерное понимание естественного языка[1].

Список литературы

1. Анисимов А. «Компьютерная лингвистика для всех - Мифы, Алгоритмы, Язык »// М. 1991 г.

2. Касевич В.Б. «Элементы общей лингвистики»//М. 1977 г.

3. Леонтьева. Н.Н. «Автоматическое понимание текстов: системы, модели, ресурсы»//М. 2006 г.

4. Шемакин Ю.И. «Начала компьютерной лингвистики».// М. 1992 г.

5. Кузнецова Т.И., Кузнецов И.А. «Особенности развития иноязычной коммуникации в техническом ВУЗе»// М. 2012

6. Кузнецов И.А. «Подготовка студентов технологических и экономических специальностей к иноязычной профессиональной коммуникации в ВУЗах технического профиля»// М. 2012

7. Кузнецова Т.И., Марченко А.Н., Кузнецов И.А., Аристов В.М. «Профессиональный диалект или специальный язык: проблемы обучения

иноязычной профессиональной разговорной речи»// Филология и культура. 2016 г.

8. Катранов С.Н., Кузнецов И.А. «Принципы подготовки переводчиков в сфере профессиональной коммуникации в системе дополнительного образования высшей школы»// Филологические науки. Вопросы теории и практики. 2016 г.

9. Кузнецова Т.И., Кузнецов И.А. «Развитие системы профессионально-ориентированного обучения иностранным языкам в техническом ВУЗе на основе предметно-языковой интеграции»// Вестник Адыгейского государственного университета. Серия 3: Педагогика и психология. 2016 г.

10. Кузнецов И.А., Катранов С.Н. «Повышение эффективности самостоятельного обучения в процессе внеаудиторного чтения профессионально ориентированной литературы на иностранном языке студентами технических ВУЗов»// Филологические науки. Вопросы теории и практики. 2016 г.

11. Кузнецова Т.И., Марченко А.Н., Кузнецов И.А., Коваленко Н.Г. «Совершенствование процесса обучения иностранным языкам в магистратуре технического ВУЗа»// В книге: Актуальные проблемы химико-технологического образования. Шестнадцатая межвузовская учебно-методологическая конференция. 2014 г.

12. Кузнецов И.А., Васильева Л.Г. «Развитие системы подготовки специалистов к иноязычной коммуникации в соответствии с профессиональными стандартами»// Стратегии развития науки и образования в XXI веке. Сборник научных трудов по материалам международной научно-практической конференции. 2016 г.

13. Катранов С.Н., Кузнецов И.А. «Формирование иноязычной компетенции при обучении студентов технического ВУЗа говорению и переводу»// Среднее профессиональное образование. 2016г. - №4.

14. Кузнецова Т.И., Марченко А.Н., Кузнецов И.А. «Теория и практика обучения английскому языку в техническом ВУЗе»// М. 2014 г.

15. Кузнецов И.А. «Иноязычная подготовка аспирантов в системе непрерывного образования технического ВУЗа»// Среднее профессиональное образования. 2015 г. - №4.

16. Zamaletdinov R.R., Kuznetsov I.A., Sakharova N.S., Gladkikh V.G., Erofeeva N.E. Pedagogical tools of professional ideals management of modern student // International review of management and marketing. - 2016. - Т.6. №2. - С. 364-369.

17. Rakhimova D.I., Kolpakova G.V., Kuznetsova T.I., Litvinov A.V., Samokhvalova A.G. Management of civil position's formation of the student youth // International review of management and marketing. - 2016. - Т.6. №2. - С. 339-344.

i Надоели баннеры? Вы всегда можете отключить рекламу.