Научная статья на тему 'Автоматизация составления оценочного словаря широкой предметной области (опыт использования неспециализированного корпуса текстов)'

Автоматизация составления оценочного словаря широкой предметной области (опыт использования неспециализированного корпуса текстов) Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
330
71
i Надоели баннеры? Вы всегда можете отключить рекламу.
Журнал
iPolytech Journal
ВАК
Ключевые слова
КОМПЬЮТЕРНАЯ ЛЕКСИКОГРАФИЯ / COMPUTATIONAL LEXICOGRAPHY / КОРПУСНАЯ ЛИНГВИСТИКА / CORPUS LINGUISTICS / АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ МНЕНИЙ / СЛОВАРЬ ОЦЕНОЧНОЙ ЛЕКСИКИ / AUTOMATED OPINION MINING / OPINION LEXICON

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Куликов Сергей Юрьевич

Описывается методика компьютерной лингвистики автоматизированное составление оценочного словаря при помощи размеченного корпуса текстов. Рассмотрены уже существующие словари, а также исследованы наиболее частотные ошибки обработки текстов Интернета. Приведены результаты апробации методики автоматизированного создания первичного оценочного словаря с использованием русскоязычного Интернет-корпуса общей тематики.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATION OF BROAD-DOMAIN OPINION LEXICON GENERATION (A CASE OF A GENERAL-DOMAIN CORPUS STUDY)

The article describes a computational linguistics technique automated opinion lexicon generation by means of an annotated corpus. Consideration is given to currently existing opinion lexicons as well as to most frequent errors in Web-language processing. The results of testing the technique of automated generation of a primary opinion lexicon by means of a general-domain web-corpus of Russian are presented.

Текст научной работы на тему «Автоматизация составления оценочного словаря широкой предметной области (опыт использования неспециализированного корпуса текстов)»

шительной страсти» [2, с. 772].

С вариантом ЛИ «Катерина Ивановна» читатели встречаются в романе Ф.М. Достоевского «Преступление и наказание» (1866): оно завершает галерею трагических образов обездоленных русских матерей, вынужденных пользоваться подаяниями улицы и заработком торгующим своим телом падчерицы.

Перечисление фольклорных и музыкальных жанров, в которых упоминаются варианты ЛИ Екатерина, а также ХТ, полотен русских художников, мемуарной

литературы, трудов русских историков, связанных с именем Екатерины II, может свидетельствовать в пользу того, что формирование учебных антропони-мических дискурсов - перспективное направление в деятельности кафедр русского языка как иностранного. Пытаясь диалогизировать обучение, мы опираемся на визуальные, слуховые и текстовые средства коммуникации, связанные с конкретным антропонимом.

Статья поступила 09.06.2014 г.

Библиографический список

1. Ариунбат Э., Ким Е.С., Си Д., Крюкова Г.М. Коммуникативно-исторический контекст обращения в обучении иностранных студентов. Язык и культура стран Центральной и Восточной Азии: материалы второй международной научно-практич. конф. Иркутск: Изд-во ИрГТУ, 2009. С. 9-14.

2. Пруцков Н.И. История русской литературы. В 4 т. Л.: Наука, 1982. Т. 3.

3. Конрад Н.И. Запад и Восток: статьи. М.: Главн. ред. вост. литер., 1972. 495 с.

4. Крюкова Г.М. Антропоним в коммуникативных стратегиях японских авторов: материалы междунар. конф. «Новые

возможности общения». Иркутск: Изд-во ИрГТУ, 2011. С. 78.

5. Никонов В.А. Имя и общество. М.: Наука, 1974. 278 с.

6. Система личных имен у народов мира. М.: Наука, 1989. 383 с.

7. Супрун В.И. Ономастическое поле русского языка и его художественно-эстетический потенциал. Волгоград: Перемена, 2000. 76 с.

8. Толстой Л.Н. Собрание сочинений в 12 т. М.: Правда, 1987. Т. 8.

9. Успенский Л.В. Ты и твое имя. Л.: Детская литература, 1972. 573 с.

УДК 81'322.2+81'374

АВТОМАТИЗАЦИЯ СОСТАВЛЕНИЯ ОЦЕНОЧНОГО СЛОВАРЯ ШИРОКОЙ ПРЕДМЕТНОЙ ОБЛАСТИ (ОПЫТ ИСПОЛЬЗОВАНИЯ НЕСПЕЦИАЛИЗИРОВАННОГО КОРПУСА ТЕКСТОВ)

© С.Ю. Куликов1

Институт языкознания РАН,

125009, Москва, Б. Кисловский пер., 1, стр. 1.

Описывается методика компьютерной лингвистики - автоматизированное составление оценочного словаря при помощи размеченного корпуса текстов. Рассмотрены уже существующие словари, а также исследованы наиболее частотные ошибки обработки текстов Интернета. Приведены результаты апробации методики автоматизированного создания первичного оценочного словаря с использованием русскоязычного Интернет-корпуса общей тематики. Библиогр. 8 назв.

Ключевые слова: компьютерная лексикография; корпусная лингвистика; автоматическое извлечение мнений; словарь оценочной лексики.

AUTOMATION OF BROAD-DOMAIN OPINION LEXICON GENERATION (A CASE OF A GENERAL-DOMAIN CORPUS STUDY) S.Yu. Kulikov

Institute of Linguistics of Russian Academy of Sciences, 1 bld. 1 Bolshoi Kislovsky lane, Moscow, 125009, Russia.

The article describes a computational linguistics technique - automated opinion lexicon generation by means of an annotated corpus. Consideration is given to currently existing opinion lexicons as well as to most frequent errors in Web-language processing. The results of testing the technique of automated generation of a primary opinion lexicon by means of a general-domain web-corpus of Russian are presented. 8 sources.

Key words: Computational lexicography; Corpus linguistics; automated opinion mining; opinion lexicon.

В настоящее время Интернет проник практически во все сферы человеческой жизни. Все большее число людей высказывают свое мнение о товарах, услугах, местах или людях в социальных сетях, на форумах, в блогах и на специализированных сайтах отзывов. Для эффективной навигации среди больших объ-

емов пользовательского контента активно используются системы веб-мониторинга, которые могут выступать в качестве рекомендательных систем.

Чтобы помочь пользователю узнать преимущества и недостатки различных услуг (онлайн-магазины, отели, тур-фирмы), предметов потребления (автомо-

1 Куликов Сергей Юрьевич, аспирант, тел.: 89096942679, e-mail: [email protected] Kulikov Sergey, Postgraduate, tel.: 89096942679, e-mail: [email protected]

били, продукты питания) или людей (общественно-политические деятели, работодатели, клиенты), активно применяется комплекс лингвистических технологий, получивших наименование автоматического извлечения мнений. Его задача - выявление отношения говорящего к тому, что он сообщает [2].

Вне зависимости от используемых приемов определения оценочной информации, значительное место при этом занимает словарь оценочной лексики [7]. Такие словари применяются в ходе двух подзадач автоматического извлечения мнений: идентификации предложений, содержащих мнения об объектах анализа, и непосредственного определения негатива или позитива относительно объекта.

Цель данной работы - апробация двухступенчатой методики, использующей неспециализированный корпус текстов для автоматизированного составления списков оценочной лексики. Составленные списки применяются для идентификации предложений, содержащих оценки широкого класса объектов искусства (кино, театр, книги).

Существующая практика создания словарей оценочной лексики подразумевает активное использование различных автоматизированных средств. Методы ручной правки словарей применяются довольно редко, в основном при редактировании полученных словарей [1]. В настоящее время имеется большое количество лингвистических ресурсов, предназначенных для нужд разработчиков систем автоматического извлечения мнений. Их можно разделить на два типа: размеченные оценочными тегами корпусы текстов и словари оценочной лексики. У каждого из названных источников информации есть свои особенности и недостатки.

Рассмотрим обобщенную методику использования готовых словарей. Существует два основных типа оценочных словарей (в виде списка или в виде базы данных). На практике в подавляющем большинстве случаев при генерации нового словаря оценочной лексики используют комбинированный подход, при котором список оценочных слов представляется в виде запросов к базе данных для извлечения связанных слов, учитывая таксономические связи между словами. Наиболее часто используемым ресурсом является тезаурус WordNet и различные его варианты для разных языков (например, EuroWordNet, Ми1Шо^еЦ, а также специализированные версии, ориентированные на автоматическое извлечение мнений (SentiWordNet и SentiWords). Самым значительным преимуществом тезаурусов типа WordNet считается возможность автоматически извлекать антонимы и синонимы для конкретных значений слов. Одной из основных проблем при использовании WordNet следует признать отсутствие единого стандарта при разграничении лексических значений для различных языков и различный объем самих словарей [8]. Другой не менее значимой проблемой является необходимость применения технологий автоматического определения лексических значений, которые в настоящее время для русского языка не дают приемлемого качества. Иногда методы, использующие как источники оценочных словарей

другие словарные ресурсы, подвергаются критике из-за устаревшей лексики, не соответствующей лексике реальных текстов.

Применение корпусных технологий в рамках автоматического извлечения мнений способствует привлечению более актуальных языковых данных и позволяет более оперативно увеличивать объем словаря. Самым популярным подходом считается расширение уже готового словаря за счет логических связей между известными словами и словами, отсутствующими в исходном словаре. Ключевой фактор при этом - правильный отбор материала при формировании корпуса текстов. Чаще всего употребляют данные с одного или нескольких сайтов, имеющих сходные названия, идентичные разделы, т.е. используют узкоспециализированные корпусы. Главным недостатком таких подходов следует признать сложность адаптации к новой предметной области [7], где определенные оценочные слова могут нести противоположную оценку или быть нейтральными. Отдельную проблему составляет со-относимость оценок на различных сайтах (например, преобразование трехбалльной шкалы в пяти- или десятибалльную). Кроме того, сложно определить репрезентативность подобных корпусов текстов.

В настоящее время существует довольно много словарей оценочной лексики, предназначенных для различных нужд автоматического извлечения мнений. Рассмотрим некоторые из таких словарей, составленных для русского и нидерландского языков. Выбор обусловлен незначительным количеством лингвистических ресурсов свободного доступа (open-source) для обоих языков. Словарь И.И. Четверкина и Н.В. Лукашевич [3] представляет собой первичный словарь для определения фрагментов текста, несущих оценочную информацию. Он составлялся при помощи следующей методики: вначале был составлен корпус текстов отзывов о фильмах; затем выявлялись специальные оценочные слова на основе частотного распределения между отзывами о фильмах, описаниями фильмов и общеязыковым корпусом (тексты СМИ). В результате был получен частотный словарь (объемом 18362 слова), из которого посредством ручной разметки извлекли 4079 оценочных слов. Затем различными статистическими процедурами проверялась значимость данных слов для предметной области. (Применение данной методики для других предметных областей показало несущественное расхождение в лексическом составе). После объединения всех списков в один общий объем словаря составляет 5000 лемм.

Анализ содержания позволяет выявить некоторые особенности словника: 1) объекты оценки не отделены от оценочных слов (например, меню, фотография, телевизор); 2) в словаре присутствуют неоценочные или узкоспециализированные оценочные слова (например, советский, голливудский, режиссерский, русскоязычный); 3) некоторые слова получили неверную лемматизацию (например, блютусый (правильная лемма «блютус» либо единичное прилагательное); фентезь (правильная лемма «фентези»), фотикий (правильная лемма «фотик»); 4) исходные текстовые массивы для разных предметных областей получи-

лись разных объемов, что ведет к несбалансированности общего корпуса и нарушению частотного принципа формирования словника (доказательством может служить разная значимость для слов, обозначающих объекты). При составлении словаря использовались традиционные для информационного поиска методы классификации текстов. Выбор в качестве источников отзывов только сайтов Имхонет и Ян-декс.Маркет может повлиять на применимость словаря для отзывов с других сайтов.

Словарь Дэ Шмедта и Далемана [4] содержит только оценочные прилагательные. Он составлен на основе коллекции из 14000 отзывов о книгах. Были отобраны 1100 прилагательных с частотой свыше 4. Затем список отфильтровали вручную. В результате объем словаря составил 1044 леммы. В дальнейшем словник был расширен автоматическими методами с последующей ручной проверкой до 5407 лемм. В качестве ключевых методов здесь использовались два: критерий сочетаемости с одинаковыми существительными и автоматическое расширение при помощи синонимического тезауруса. Как недостаток следует отметить тот факт, что акцент делался на фламандском варианте нидерландского языка. Это может привести к неправильной интерпретации оценочных значений некоторых прилагательных в процессе обработки голландского варианта нидерландского языка.

Перейдем к рассмотрению двухступенчатой методики формирования первичного оценочного словаря. Под первичным оценочным словарем мы понимаем список слов, применяемых на этапе выделения оценочных предложений из текста. На начальной стадии на основе сверхбольшого морфологически размеченного корпуса текстов (свыше 1 млрд словоупотреблений) создается квазисинонимический тезаурус понятий предметной области. Его формирование происходит следующим образом. Первым делом задается лемматизированная форма слова, интуитивно рассматриваемого в качестве базового для конкретной предметной области. Такими словами будут, например, «фильм» - для отзывов о киноиндустрии, «отель» - для гостиничного сектора и т.п. Затем производится поиск похожих слов (по контекстному окружению и ряду других параметров). В результате получается список обозначений, которые достаточно полно покрывают предметную область. В дальнейшем можно провести подобный поиск и для наиболее статистически близких квазисинонимов (коэффициент близости от 0,8). Этот шаг увеличивает полноту покрытия.

Перед переходом ко второму этапу из списка слов удаляются низкочастотные синонимы (коэффициент близости до 0,05). Данный шаг необходим для снижения эффекта поискового шума.

На втором этапе для каждого слова из полученного тезауруса отбираются имена прилагательные (в данной работе мы специально не разграничиваем причастия и прилагательные), встречающиеся на расстоянии 1 слева от слова в запросе. Выбор имен прилагательных связан с тем, что именно они наиболее сильно модифицируют оценку слов в текстах сети Интернет, где значительный процент предложений не

имеет глаголов или предикативных слов [4]. Выбор расстояния обусловлен большим объемом анализируемых данных, что понижает вероятность того, что связанное оценочное прилагательное не будет встречаться непосредственно в препозиции к оцениваемому слову. В результате второго этапа формируется частотный список всех прилагательных. Из данного списка удаляются низкочастотные прилагательные (с встречаемостью ниже 10 словоупотреблений в корпусе). Эта процедура способствует избавлению от ошибок парсинга hmtl и морфологического анализа низкочастотных слов, а также сокращает время ручной постобработки полученного списка.

Последним этапом при создании первичного оценочного словаря является ручная фильтрация полученного списка оценочных слов. На ее необходимость указывает, например, Bing Liu [7]. С целью некоторой автоматизации ручной работы целесообразно рассматривать уже готовые списки заведомо неоценочных слов (например, список прилагательных, обозначающих цвета) и применять словообразовательные шаблоны. Использование словообразовательных шаблонов обусловлено тем фактом, что целый ряд прилагательных образуется от имен и фамилий, а также географических названий (наиболее распространенной моделью для подобных слов, видимо, является окончание корня на согласную букву с последующим суффиксом -ский, например, парижский, советский, сельский, бийский).

Предлагаемая методика близка к методике Дэ Шмедта и Далемана [4] - с той разницей, что: 1) не используется расширение словаря при помощи готовых словарей; 2) в качестве первичного списка берется список существительных, а не прилагательных. Одной из причин подобного выбора является направленность нашей методики на обнаружение предложений, несущих оценку, а не на выявление самой оценки.

В целях апробации описанной методики мы использовали технологию Sketch Engine [6]. В качестве материала был использован корпус ruTenTen [5]. Объем данного корпуса веб-текстов на русском языке составляет 15,8 млрд словоупотреблений. В корпусе представлены тексты 2011 года. Для морфологической разметки текстов применялся анализатор Tree-Tagger. Основной причиной выбора неспециализированного Интернет-корпуса стал принцип независимости словаря от специфических особенностей текстовой выборки. В качестве моделируемой области выбрана область отзывов о фильмах (как частный случай отзывов на объекты искусства).

На первом этапе был составлен квазисинонимический тезаурус - использована опция автоматического построения по поисковому слову, в нашем случае «фильм». Получившийся в результате список содержит следующие группы (в скобках указаны связанные слова): сериал (кинофильм, мультфильм); книга (картина, рассказ, роман, произведение, музыка, статья, сюжет, песня, текст, сказка, литература, творчество, пьеса); кино (комедия, драма); игра (история, проект, программа, реклама, сайт, событие, материал, образ,

тема, идея, слово, вещь, жизнь, стиль, работа, модель, группа, команда); спектакль (выступление, концерт, сцена, театр); ролик (клип); фотография (новость, картинка, запись); серия (версия). Очевидно, что для дальнейшего исследования необходима фильтрация некоторых многозначных слов, использование которых приведет к большому шуму.

Затем были построены частотные сочетания прилагательных и существительных из тезаурусной группы. В рамках данного эксперимента мы ограничились тремя словами (фильм, кинофильм, кино). После удаления низкочастотных слов получилось три списка прилагательных (2307, 596 и 1087). Число общих слов для всех списков составило 170. После фильтрации мы получили единый список в 1514 оценочных слов.

В ходе анализа неоценочных слов выявлены следующие ошибки: парсинга html (отделяется окончание слова, стоящее после дефиса или тире, например, -ское, остающиеся непечатные символы, например, г^рфантастичекое); и ошибки нормализации значений несловарных прилагательных (например, голливудским, голливудских, голливудского, голливудском).

Таким образом, встает необходимость увеличения точности работы морфологического анализа слов, отсутствующих в словаре, для русскоязычных текстов.

В результате анализа ошибок методики выявлено, что фильтрацию низкочастотных слов необходимо проводить после повторной лемматизации с применением морфоанализатора, отличающегося от используемого в системе TreeTagger. После повторной лем-матизации целесообразно произвести пересчет частот. Относительно небольшой объем словаря в дальнейшем предлагается увеличить за счет снижения частотного порога до четырех вхождений в колло-кацию со словом из квазисинонимического тезауруса. Другим способом пополнения словаря может стать привлечение прилагательных, сочетающихся с другими словами из тезауруса.

В данной работе апробирована методика автоматизированного составления оценочного словаря для широкой предметной области. В результате проведенного исследования представлены дальнейшие шаги по увеличению объема оценочного словаря.

Статья поступила 27.05. 2014 г.

Библиографический список

1. Брунова Е.Г. Методика составления оценочного лексикона для контент-анализа мнений // Language & Science. Тюмень: ТГУ. 2012. Вып. 1 [Электронный ресурс]. URL: http://utmn.ru/docs/9317.pdf

2. Куликов С.Ю. Определение автора высказывания при двойном цитировании: сборник научных статей по материалам второй конференции-школы «Проблемы языка: взгляд молодых ученых». М.: Институт языкознания РАН, 2013. С. 209-215.

3. Chetviorkin I.I., Loukachevitch N.V. Extraction of Russian Sentiment Lexicon for Product Meta-Domain // In Proceedings of COLING 2012: Technical Papers, pages 593-610.

4. De Smedt T. and Daelemans W. Vreselijk mooi! (terribly beautiful). A Subjectivity Lexicon for Dutch Adjectives: In Proceedings of the Eight International Conference on Language

Resources and Evaluation (LREC'12), Istanbul, Turkey, European Language Resources Association (ELRA), pp. 3568-3572.

5. Jakubícek M., Kilgarriff A., Kovár V., Rychly P., Suchomel V. The TenTen Corpus Family: In Abstract Book of 7th International Corpus Linguistics Conference, Lancaster, July 2013. Pp. 125-127.

6. Kilgarriff A., Rychly P., Smrz P., Tugwell D. The Sketch Engine: In Proc. of EURALEX 2004, Lorient, France. Pp. 105116.

7. Liu B. Sentiment Analysis and Opinion Mining: Synthesis Lectures on Human Language Technologies #16. 2012. Xiv, 165 p.

8. Maks I., Izquierdo R., Vossen P. Automatic generation of sentiment lexicons in five languages. Leiden: In Abstracts of Clin24, 2014. P. 29.

УДК 34

ПРОБЛЕМЫ ИСПОЛЬЗОВАНИЯ ТЕРМИНОВ И ДЕФИНИЦИЙ В ЗАКОНОДАТЕЛЬСТВЕ О ТРАНСПОРТНОЙ БЕЗОПАСНОСТИ

© Э.Ф. Мамедов1

Иркутский государственный технический университет, 664074, Россия, г. Иркутск, ул. Лермонтова, 83.

Анализируются: понятие транспортной безопасности и производные от него термины. Отмечается, что законодательная дефиниция термина «транспортная безопасность» не в полной мере отражает саму суть транспортной безопасности, так как сформулирована без учета специфических особенностей, присущих различным отраслям транспортной инфраструктуры. В законодательстве о транспортной безопасности до сих пор отсутствуют определения таких понятий, как «воздушный транспорт», «безопасность воздушного движения», «безопасность на водном транспорте», «морской транспорт», «подводный транспорт» и др. Сделан вывод о роли терминов и дефиниций как средств юридической техники в тексте нормативного правового акта. Библиогр. 12 назв.

Ключевые слова: юридическая техника; термины; дефиниции; транспортная безопасность; законодательство; нормативные правовые акты.

1Мамедов Эльшан Фахраддинович, ассистент кафедры государственно-правовых дисциплин, тел.: 89500805932, e-mail: [email protected]

Mamedov Elshan, Assistant Professor of the Department of State Legal Disciplines, tel.: 89500805932, e-mail: [email protected]

i Надоели баннеры? Вы всегда можете отключить рекламу.