Научная статья на тему 'Создание онтологии: параметрические термины'

Создание онтологии: параметрические термины Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
149
45
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
АВТОМАТИЧЕСКИЙ АНАЛИЗ МНЕНИЙ ПОКУПАТЕЛЕЙ / ЛИНГВИСТИЧЕСКАЯ ОНТОЛОГИЯ / ПАРАМЕТРИЧЕСКИЕ ТЕРМИНЫ / ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Яцко Вячеслав Александрович

Описывается опыт разработки системы автоматического анализа мнений покупателей о коммерческих продуктах, которая функционирует на основе лингвистической онтологии и грамматики. Предлагается в качестве компонента онтологии выделить класс параметрических терминов, к которым относятся единицы текста отзыва покупателя, обозначающие оцениваемые объекты и их параметры. Впервые показывается значение параметрических терминов для повышения интеллектуальности анализа текста.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Создание онтологии: параметрические термины»

МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12-2/2016 ISSN 2410-700Х

преученый, по-ученому), рабочий (27 словообразовательных вариантов, например: рабочая, по-рабочему, рабочий-специалист, судорабочий, горнорабочий и др.). Остальные наименования лиц по профессии, включенные в данный словарь, образуют меньшее число дериватов.

Как уже было отмечено выше, значительное количество разнообразных дериватов, как правило, свидетельствует об актуальности той или иной лексемы в сознании носителей языка, однако далеко не все словообразовательные варианты могут входить в активный словарный запас иностранных студентов, изучающих русский язык (даже на продвинутом этапе). Так, например, в словообразовательном гнезде с вершиной врач, актуальными являются дериваты врачиха (при обязательном указании на ее стилистическую маркированность), врачебный, военврач и др. Однако значительный ряд лексики в данной словообразовательной цепочке не относится к активному словарному запасу языка. Например, лексема врачебник является устаревшей, лексемы врачевать, врачевание, зубоврачевание - стилистически маркированными, лексемы врачебно-наблюдательный, врачебно-контрольный - используются в специальных сферах и т.д.

Другой пример: словообразовательное гнездо с вершиной корреспондент содержит как актуальную лексику (корреспондентка, корреспондентский, фотокорреспондент), так и лексику, имеющую узкую сферу функционирования (например, рабкор, рабкорство, рабкоровский, селькор, селькорка, селькоровский и др.). Следует отметить, что многие из перечисленных наименований лиц по профессии в настоящее время утратили актуальность в сознании носителей языка ввиду существенных социально-экономических изменений в жизни страны.

Особого внимания среди дериватов наименований лиц по профессии заслуживает словообразовательная модель с уменьшительно-уничижительными суффиксами, ср.: например, инженерик, писателишка, художничек, шоферишка, учителишка, учителька и др. Показательно, что, по мнению А. Вежбицкой, активность уменьшительно-ласкательных суффиксов свидетельствует как об общей эмоциональности русского языка, так и об особом отношении носителей языка к тем классам явлений, которые обозначаются экспрессивными уменьшительными формами [1,с. 49-50].

Список использованной литературы:

1. Вежбицкая А. Язык. Культура. Познание. Сборник научных статей. - Вып. 35. - М.: Рус. слов., 1997. - 411 с.

2. Тихонов А.Н. Словообразовательный словарь русского языка: В 2 т. Т. 1-2. - М.: Рус. яз., 1990.

© Ян Лю, 2016

УДК 81'322.2

Яцко Вячеслав Александрович

д. филол. наук, профессор ХГУ им. Н.Ф.Катанова,

E-mail: [email protected] г. Абакан, РФ

СОЗДАНИЕ ОНТОЛОГИИ: ПАРАМЕТРИЧЕСКИЕ ТЕРМИНЫ

Аннотация

Описывается опыт разработки системы автоматического анализа мнений покупателей о коммерческих продуктах, которая функционирует на основе лингвистической онтологии и грамматики. Предлагается в качестве компонента онтологии выделить класс параметрических терминов, к которым относятся единицы текста отзыва покупателя, обозначающие оцениваемые объекты и их параметры. Впервые показывается значение параметрических терминов для повышения интеллектуальности анализа текста.

Ключевые слова

Автоматический анализ мнений покупателей, лингвистическая онтология, параметрические термины,

интеллектуальный анализ текста

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12-2/2016 ISSN 2410-700Х_

В последние десятилетия активно разрабатываются системы автоматического анализа мнений покупателей о продуктах и товарах, которые содержатся в блогах, форумах, обзорах и чатах. Такие, созданные в США системы, как Sentiment Metrics3, Nielsen NetRatings4, Biz3605 в результате анализа текста входного документа/документов на выходе генерируют список объектов (имен продуктов) и оценочных терминов. Данные системы относятся к интеллектуальным системам обработки текстовых документов, поскольку выдают пользователю информацию, содержащуюся в имплицитном виде, например, в виде числовых коэффициентов, отражающих степень интенсивности отрицательной или положительной оценки.

Функционирование систем автоматического анализа мнений покупателей основано на двух группах последовательно выполняемых алгоритмов: алгоритмах распознавания оценочных терминов и алгоритмах соотнесения найденных оценочных терминов с терминами, обозначающими объекты (товары, продукты), которые оцениваются. Первая группа алгоритмов выполняется на основе лингвистической онтологии [1], вторая - на основе грамматики [2].

В данной статье описывается класс параметрических терминов как один из компонентов лингвистической онтологии, которую мы создали в процессе работы над проектом экспериментальной системы автоматического анализа мнений покупателей6, локализованной для русского языка. Для того, чтобы сделать систему более универсальной, было решено включить в онтологию термины, относящиеся к трём тематическим категориям: "Фильмы", "Гостиницы", "Телефоны". Таким образом, будут представлены три больших предметных области, связанных с электроникой, услугами, искусством. Предполагается, что пользователь сможет либо выбрать одну из трёх категорий, либо проводить универсальный поиск по любой теме, при этом будут задействованы все термины онтологии.

Создание онтологии проходило в полуавтоматическом режиме с использованием разработанного нами приложения TF*IDF Ranker7, которое позволяет для терминов входного текста получать коэффициенты по классической и модифицированной формуле TF*IDF [3]. Для каждого термина распознавалась основа (стемма) с помощью разработанного нами стеммера.

Для категории "Телефоны" было выявлено 188 параметрических термина (стемм)8, распределение которых имеет отчётливо выраженную иерархическую структуру с глубиной до пяти уровней. На первом уровне находятся слова-гиперонимы по отношению к ядерному слову телефон: девайс, устройств, аппарат. На втором уровне находится ядерное слово телефон и кореферентные термины (смартфон, смарт). Отметим, что имеется ввиду контекстуальная кореферентность, поскольку в лексико-семантическом плане эти термины не являются кореферентными. На третьем уровне находятся гипонимы к термину телефон; на четвертом - гипонимы к терминам третьего уровня, например, девайс - телефон - производительность -тест - АНТУТУ. Наиболее многочисленной является группа терминов на третьем уровне, которые и обозначают основные параметры телефона: связ, ОС, эргономик, энергосбережен, экран, чехол, характеристик, фонарик, софт, сим, сборк, разъем, процессор, плат, настройк, модел, корпус, конструкц, комплект, карт памят, производительн, кабел, камер, зарядк, докстанц, дизайн, датчик, гарнитур, аккумулятор, автономн, адаптер, аксессуар. На четвертом уровне больше всего терминов-гипонимов к параметру связ, что вполне естественно, поскольку это основная функция телефона.

Наиболее малочисленной является класс "Обслуживание", с которым соотносятся всего три термина. Сам по себе термин обслуживание обычно используется в негативном контексте и несет негативную семантику, поскольку в сервисные службы покупатель обращается после появления неполадок. Однозначно отрицательным по значению является и термин ремонт. Мы решили включить его не в категорию семантических терминов, а в отдельную категорию, поскольку сам этот термин может принимать

3 http://www.sentimentmetrics.com

4 http://en-us.nielsen.com/tab/product_families/nielsen_netratings

5 http://www.biz360.com

6 Проект поддержан грантом РФФИ 16-07-00014

7 http://yatsko.zohosites.com/tf-idf-ranker1.html

8 Подчеркнём, что речь идёт именно о количестве стемм, с каждой из которых соотносится достаточно большое количество словоформ.

_МЕЖДУНАРОДНЫЙ НАУЧНЫЙ ЖУРНАЛ «СИМВОЛ НАУКИ» №12-2/2016 ISSN 2410-700Х_

положительную или отрицательную оценку, ср: качественный ремонт - некачественный ремонт. Термины, которые соотносятся с ремонт в качестве гипонимов уже относятся к семантическим, ср., например, дефект и ?качественный дефект. Также как другие семантические оценочные термины, данные термины допускают сочетаемость со словами, изменяющими интенсивность отрицательной семантики: небольшой дефект.

Выделение кореферентных терминов имеет существенное значение адекватного соотнесения оценочных терминов с именем оцениваемого объекта в процессе разрешения анафоры. Выделение гипонимов и гиперонимов важно для реализации функции интеллектуального анализа. Например, в отзыве покупателя могут оцениваться отдельные параметры связи, такие как прием, вай-фай, блютус. Соотнеся эти параметры с термином-гиперонимом, предлагаемая система может автоматически сгенерировать обобщенную оценку в виде фразы качественная связь, которая в самом отзыве не содержится. Так повышается интеллектуальность системы, что является её существенной характеристикой.

Для категории "Гостиницы" было найдено 297 параметрических термина, при этом наиболее многочисленными подкатегориями являются "Номер", (64 термина) и "Питание" (49 терминов) с глубиной иерархии до 5 уровней. Появились новые подкатегории, такие как "Персонал", "Отдых", "Контингент", а также существенно увеличилось количество терминов в категории "Сервис". Это вполне объяснимо, так как постояльцы гостиниц намного больше контактируют с обслуживающим персоналом.

Для категории фильмы выделение параметрических терминов имеет особое значение, так как оценочные термины в текстах отзывов рецензий могут соотноситься не с фильмом, а с описанием персонажей, событий, сюжета. Ср. Между бандитами и полицейскими завязалась жестокая перестрелка и Фильм пропагандирует жестокость, нетерпимость, насилие. Соответственно, эти оценки не должны учитываться. На следующем этапе при разработке грамматики будут созданы специальные правила позволяющие разграничить эти два вида оценок. Глубина иерархии для этой тематической категории также составляет 5 уровней, причем на первых двух уровнях находятся термины-гиперонимы: культура — кинематограф=киноиндустр. Знак равенства обозначает кореферентные термины. Наиболее многочисленным является класс "Персонаж", который включает 29 терминов, а также класс "Сюжет", включающий 23 термина. Именно эти классы важны для разграничения оценок, относящихся к фильму и к событиям в фильме. Всего было выделено 230 параметрических терминов для этой тематической категории.

Заметим, что параметрические термины в литературе не выделяются в качестве отдельного компонента онтологии. Общепринятым является выделение в структуре последней модифицирующих и оценочных терминов [4]. Впервые понятие об этом типе терминов было нами предложено в статье 2011 г. [1], где они рассматривались как синтаксические термины с нулевым значением. В ходе выполнения данного проекта нами впервые было установлено, что параметрические термины составляют отдельный класс терминов онтологии. Их выделение имеет значение: 1) для адекватного соотнесения оценочных терминов с именем оцениваемого объекта; 2) повышения степени интеллектуальности системы благодаря возможности генерировать обобщенные выводы, не содержащиеся в самом тексте отзыва; 3) для разрешения кореференции; 4) снятия омонимии. Именно параметрические термины выполняют функцию моделирования предметной области, которая считается одним из свойств онтологии. Другой класс терминов онтологии, оценочные термины, не имеет чёткой привязки к какой-либо предметной области; он будет рассмотрен нами в следующей статье.

Список использованной литературы.

1. Яцко В.А., Стариков М.С. Опыт разработки онтологии для автоматического анализа мнений пользователей о коммерческих продуктах // Научно-техническая информация. Сер.2. - 2011. - № 7. - C. 9-14.

2. Яцко В.А. Система автоматического анализа мнений покупателей // Прикладная информатика. - 2015 -Т.10. - №4. - С. 5-17.

3. Достоинства и недостатки взвешивания терминов по формуле TF*IDF // В мире научных открытий. - 2013. - № 6. - С. 224-229.

4. Клековкина М. В., Котельников Е. В. Метод автоматической классификации текстов по тональности, основанный на словаре эмоциональной лексики. - [Электронный ресурс]. - Режим доступа: http://ceur-ws.org/Vol-934/paper15.pdf (дата обращения: 19.12.2016).

© Яцко В.А., 2016

i Надоели баннеры? Вы всегда можете отключить рекламу.