Особенности однословной терминологии междисциплинарной предметной области «Интеллектуальные технологии и компьютерная
лингвистика»
Ягунова Е.В., Пивоварова JI.M.*, Савина А.Н.
Санкт-Петербургский государственный университет, * Университет Хельсинки iagounova. elena @ gmail. com. lidia.pivovarova @ gmail. com, an]a. saving @ gmail. com
Аннотация. В статье представлены результаты исследования терминологии междисциплинарной области «Интеллектуальные технологии и компьютерная лингвистика». В работе анализируются корпуса текстов научного функционального стиля в пределах терминологически нестабильной междисциплинарной области. В ходе исследования изучались возможности определения предметных областей/подобластей и тематических признаков, в частности, путем выделения и анализа ключевых слов, а также на основе экспертной оценки.
Ключевые слова: терминология, предметная область, интеллектуальные технологии, компьютерная лингвистика, корпус, тематические признаки, экспертная оценка
1 Введение
В данной статье представлены результаты исследования однословной терминологии междисциплинарной предметной области «Интеллектуальные технологии и компьютерная лингвистика». Русскоязычная терминология в данной предметной области еще окончательно не сформировалась.
Цель исследования — изучение возможности выделения формальных признаков, необходимых для определения предметной области и тематических признаков рассматриваемых корпусов текстов. В рамках исследования ставятся следующие задачи:
1) автоматическое извлечение информации об основных тематических признаках каждого из корпусов;
2) выделение ключевых слов как наиболее информативных структурных единиц, описывающих предметную область;
3) получение экспертной оценки тематических признаков.
Междисциплинарная предметная область «Интеллектуальные технологии и компьютерная лингвистика» представляет собой слияния подходов и терминологии, пришедшие из лингвистики (как теоретической, так и прикладной), а также из решения различных технологических задач обработки текстов на естественном языке. Это, в свою очередь, оказало влияние на выбор материала.
Особенности однословной терминологии междисциплинарной предметной области _«Интеллектуальные технологии и компьютерная лингвистика»
2 Материал
Исследование проводилось на данных четырех корпусов русскоязычных текстов — материалах наиболее представительных для России конференций, отражающих тематику анализируемой междисциплинарной предметной области, а именно:
■ конференция по искусственному интеллекту (сокращенно — КИИ);
■ «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (сокращенно — RCDL);
■ «Корпусная лингвистика»;
■ конференция по компьютерной лингвистике «Диалог».
Первые две из упомянутых выше конференций представляются скорее «техническими», а вторые — «лингвистическими». Это позволяет аналогичным образом условно разделить и корпуса, созданные на основе материалов этих конференций.
Кроме того, каждый из четырех корпусов обладает своей спецификой, поэтому может представлять самостоятельную подобласть.
3 Методика
Методика исследования основана на сопоставлении двух методов выделения ключевых слов с последующей экспертной оценкой результатов.
Первоначально — на этапе предварительного сопоставительного анализа — выделение ключевых слов осуществлялось на основании классического критерия Солтона TF-iDF [Saltón & Buckley, 1988], где TF (Term Frequency) — это частота встречаемости слова в пределах выбранного документа, a iDF (Inverse Document Frequency) — функция от величины, обратной количеству документов, в которых встретилось данное слово.
Второй (и основной в данной работе) метод выделения ключевых слов строился на идеологии близкой критерию TF-iDF. В ней вычисляется TF для текстов анализируемого корпуса (ТРДОкумента) и TF для текстов всех корпусов (ТРколлекщш). Предполагается, что вес слова — основание для выделения слова как ключевого — определяется на основании соотношения ТРДОкумента и ТРК0Ллекции. Такой подход до некоторой степени этот подход соотносим с критериями локальной и глобальной частот [Ландэ и др., 2007; Allen et al., 1998]. «Глобальная частота встречаемости — абсолютная частота встречаемости слова в анализируемом объекте. <...> Локальная частота встречаемости — абсолютная частота встречаемости слова в окне наблюдения из К слов» [Yagunova & Lande, 2012].
С помощью сопоставительных частотных критериев, основанных на мере TF, выделяется первый класс слов, для которых ТРКОллекции
относительно небольшая, а ТРДОкумента — высокая. Именно эти слова, как предполагается, соотносимы с тематикой конкретной конференции. В дополнение к первому классу рассматриваются слова, для которых ТРколлекщш и ТРДОкумента относительно небольшие [Ягунова и Ланде, 2012]. Они образуют второй класс. Таким образом, рассматривается два уровня «ключевости».
Важно отметить, что выделение ключевых слов проводилось на основании эмпирически определенных порогов. Так, для ТРДокумента значение порога составляло 100 (на данном этапе оно не различается в зависимости от объема коллекции), для ТРК0Ллекции на данный момент используется единое значение порога.
В составе каждого класса рассматривалось два вида упорядочивания:
■ по частотности (ТРдокумента);
■ по значению меры странности ^ен-ёпевБ) [СЬеЫогЫп & ЬоикасИеуксЬ, 2011]
т/г
тт7 . 1 документа , 1 ч
УУегшпе^ =--- (1).
ТБ
коллекции
При этом слова в результирующих списках упорядочивались в соответствии со значением меры странности.
Экспертная оценка заключалась в проведении серии экспериментов с информантами, которыми выступали студенты (21 человек) специальностей близких к междисциплинарной предметной области «Интеллектуальные технологии и компьютерная лингвистика». Информантам предлагались списки слов (точнее топы для первого уровня «ключевости») и анкета с заданием:
■ указать название конференции;
■ определить предметную область;
■ оценить по заданной шкале тематику;
■ прокомментировать свой выбор.
4 Обсуждение результатов
Согласно предварительному сопоставительному анализу наборов ключевых слов, выделенных для каждого из корпусов, предметная область «Интеллектуальные технологии и компьютерная лингвистика» содержит скорее «техническую», чем «лингвистическую» терминологию. В данном случае отнесение терминологии к одному из двух классов («лингвистический» уб. «технический») производится на основании соотнесенности с корпусами (конференциями).
В наборах ключевых слов для двух «технических» конференций 87 % единиц уникально, т.е. не присутствуют в материалах «лингвистических» конференциях. Для лингвистических конференций только 67% единиц в сопоставляемых наборах ключевых слов отсутствуют в статьях «технических» конференций. При этом количество пересечений между
Особенности однословной терминологии междисциплинарной предметной области
_«Интеллектуальные технологии и компьютерная лингвистика»
ключевыми терминами в рамках разных конференций одной направленности («технической» или «лингвистической») очень мало и не превосходит 10 %. Можно предположить, что полученные данные демонстрируют высокую тематическую и, главное, терминологическую гетерогенность исследуемой предметной области.
Сопоставление топов ключевых слов, полученных с помощью второго метода (взвешенных на основании меры странности), позволяет оценить иерархию тем рассматриваемых сегментов, достаточно существенную роль тематики каждой из четырех рассматриваемых научных коллекций в контексте нестабильной междисциплинарной зоны «Интеллектуальные технологии и компьютерная лингвистика».
В рамках исследования наиболее подробно был проанализирован взвешенный топ слов, относящихся к первому уровню «ключевости», представленный в таблице 1.
Таблица 1. Топ слов, относящиеся к первому уровню «ключевости»
КИИ КСБЬ Диалог Корпусная лингвистика
ЭБ
нечеткий /электронные библиотеки/ посессор корпусной
следующий веб аллофон национальный
принятие метаданные акцентоноситель параллельный
среда сервис тринотация неоднозначность
обучение каталог инфопортрет формат
интеллект библиотека селькупский буква
заключение архив фонограмма омонимия
логический сервер непереходный частотный
моделирование коллекция дейктический падеж
критерий доступ фразема частота
эксперт публикация жестовый критерий
искусственный распределенный намек ошибка
определять интеграция гласный собственный
атрибут индикатор нарратив категория
рассуждение стандарт повествование текстовый
робот ссылка невербальный предлог
программный обеспечение указательный специальный
обучать Россия пауза род
шаг организация риторический источник
переменный поисковый деривация состав
определяться следующий анекдот база
Эти слова в максимальной степени представляют своеобразие каждой из рассматриваемых четырех подобластей (четырех корпусов).
Такие наборы ключевых слов максимальной «ключевости» позволяют сравнительно точно охарактеризовать своеобразие каждой из предметных подобластей, они достаточны для восстановления основных тем (во всяком случае — для многих специалистов в гетерогенной предметной области).
Для сравнения в таблице 2 представлены некоторые примеры из топа слов, полученного с помощью меры ТБ^ВБ.
Таблица 2. Топ слов, полученный на основе ТРчБР
Корпусная
КИИ КСБЬ Диалог лингвистика
система система слово текст
ЭБ
решение /электронные библиотеки/ текст корпус
знание документ значение слово
модель ресурс система словарь
задача работа русский семантический
множество информация случай система
объект поиск тип единица
метод объект предложение предложение
значение коллекция пример русский
процесс библиотека словарь тип
СР
/спонтанная
правило задача речь/ анализ
анализ соционет семантический глагол
работа пользователь анализ лингвистический
основа текст глагол работа
нечеткий запрос объект следовать
информация один речь форма
оценка технология работа информация
время метод ситуация создание
агент модель структура контекст
область обсерватория отношение исследование
вид база результат класс
ситуация доступ корпус речь
отношение результат форма морфологический
функция область синтаксический признак
результат описание информация корпусной
Важнейшим этапом оценки топов слов являются эксперименты с информантами. Например, в таблице 3 представлены данные эксперимента относительно шкалирования «лингвистической» и «технической» тематик.
Особенности однословной терминологии междисциплинарной предметной области _«Интеллектуальные технологии и компьютерная лингвистика»
Таблица 3. Результаты шкалирования тематик
Корпус (предметная подобласть) «Лингвистическая» тематика «Техническая» тематика
Список №1 Список №2 Список №1 Список №2
Среднее Медиана Среднее Медиана Среднее Медиана Среднее Медиана
КИИ 0,8 0 1,0 0 4,8 5 4,7 5
исоь 1,6 1 1,3 1 4,5 5 4,6 5
Диалог 4,4 5 4,6 5 3,9 4 2,3 2
Корпусная лингвистика 4,5 5 4,4 5 3,0 3 2,1 2
Примечания. Список №1 сформирован из ключевых слов, выделенных на основании ТБ^ЭБ, а список №2 — включает в себя ключевые слова, полученные на основе локальной и глобальной частот, а также взвешенные в соответствии с мерой странности.
«Технические» корпуса текстов характеризуются наибольшей степенью согласованности между собой. Так, максимальное значение для технической тематики у этих корпусов составляет «5», а для лингвистической — «О» для КИИ и «1» для ЯСБЬ (на каждом из списков). Что касается «лингвистических» корпусов, то на первый взгляд тематика «Диалога» может показаться более «лингвистической», чем у «Корпусной лингвистики». Однако результаты эксперимента показывает, что большой разницы в тематике данных корпусов нет («5» ув. «4» для «Диалога» и «5» ув. «3» у «Корпусной лингвистики»). В тоже время у «лингвистических» корпусов наблюдается некоторые отличия на разных списках ключевых слов.
Результаты экспериментов по определению предметной области представлены в таблице 4.
Полученные в ходе экспериментов данные о предметной области позволяют:
■ выделить подобласти, которые представлены в нескольких корпусах;
■ определить соотношение между различными предметными областями в каждом корпусе.
Так, подобласть «программирование» попадает в пересечение «лингвистической» и «технической» корпусов. В то же время подобласть «лингвистика» находится на пересечении двух «лингвистических» корпусов.
Согласно полученным данным «лингвистические» корпуса имеют упрощенную структуру по сравнению с «техническими».
При этом результаты экспертной оценки показывают, что тематика и предметная область корпусов «Диалог» и «Корпусная лингвистика» являются более лингвистическими, несмотря на вычислительные данные представленные в таблице 1.
Таблица 4. Результаты эксперимента по определению предметной области
моделирование
ИСК уССТ ВГ-ННЫП
интеллект программирование
п пин гв истина
□ ЬЯ_Р
□ программирование
□ корпус
□ программирование и данных
□ веб
□ дизайн
и лингвистика
т математическая
■ Лингвистика -. анализ н синтез и речи
□ экспертизе системы ■ модепировзнме
□ кибернетика
□ профаммцроваиие
_ искусствеим! интеллект
□ нечеткая ммв
□ пишвистикэ
ЕЛ фонетике
Р, речевая и1 коммутация
□ программирование
Р1 г^фрчвуе и коллекции
■ база даиньи
□ гииси
□ программирование
■ дизайн
п дистаньцошое ^ оЯучвние
лингвистика
ЫЬР
корпус
филология
Список №1
Список №2
Примечания. Список №1 сформирован из ключевых слов, выделенных на основании ТБ-1ЭБ, а список №2 — включает в себя ключевые слова, полученные на основе локальной и глобальной частот, а также взвешенные в соответствии с мерой странности.
Особенности однословной терминологии междисциплинарной предметной области _«Интеллектуальные технологии и компьютерная лингвистика»
5 Заключение
На наш взгляд, результаты исследования иллюстрируют действенность предлагаемого комплексного подхода для выявления ключевых однословных терминов рассматриваемой предметной области и подобластей; разные типы взвешивания позволяют точно соотносить наборы ключевых слов как с обобщенной предметной областью, так и конкретными подобластями. В дальнейшем планируется продолжить исследование и рассмотреть неоднословную терминологию. Кроме того, экспертную оценку предполагается дополнить серией экспериментов с информантами-экспертами.
6 Благодарности
Пользуясь случаем, выражаем благодарность В.П. Захарову и О.А. Митрофановой за предоставленные материалы конференции «Корпусная лингвистика». Также хотелось бы выразить искреннюю признательность всем участникам экспериментов.
Работа выполнена при поддержке гранта СПбГУ 30.38.305.2014.
7 Список литературы
[Ландэ и др., 2007] ЛандэД.В., Григорьев А.Н., Брайчевский С.М., Дармохвал А.Т., Сиарский А.А. Особенности соотношения локальной и глобальной популярности сообщений электронных СМИ (2007) //MegaLing'2007. Горизонты прикладной лингвистики и лингвистических технологий. Доклады международной конференции. Симферополь, 2007. С. 223-224.
[Пивоварова, Ягунова, 2007] Пивоварова Л.М., ЯгуноваЕ.В. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов (предварительные наблюдения) // Материалы П Международного симпозиума «Терминология и знание» (Москва, 21-22 мая 2010 г.). М., 2010. С. 214-229.
[Allan et al., 1998] Allan J., Papka R., Lavrenko V. On-line new event detection and tracking. In SIGIR'98: Proceedings of the 21st Annual International ACM SIGIR conference on Research and development in information retrieval. Melbourne, Australia, 1998. pp. У1-А5.
[Chetviorkin & Loukachevitch, 2011] Chetviorkin I. and Loukachevitch N. Extraction of Domain-specific Opinion Words for Similar Domains. In Proceedings of the Workshop on Information Extraction and Knowledge Acquisition. Hissar, Bulgaria, 2011. pp. 7-12.
[Salton & Buckley, 1988] SaltonG., Buckley C. Term-weighting approaches in automatic text retrieval. Information Processing and Management, 24(5), 1988. pp. 513-523.
[Yagunova & Lande, 2012] Yagunova E., Lande D. Dynamic frequency features as the basis for the structural description of diverse linguistic objects. In CEUR Workshop Proceedings, 934, 2012. pp. 150-159.