Научная статья на тему '2017. 03. 026. Размер словаря и его влияние на представление тематики / Кун ЛУ, Ксин КА, ажиферуке И. , вольфрам Д. Vocabulary size and its effect on topic representation / Kun Lu, Xin Cai, Ajiferuke I. , Wolfram D. // information processing and management. - 2017. - Vol. 53. - p. 653-665. - mode of access: http://dx. Doi. Org/10. 1016/j. Ipm. 2017. 01. 003'

2017. 03. 026. Размер словаря и его влияние на представление тематики / Кун ЛУ, Ксин КА, ажиферуке И. , вольфрам Д. Vocabulary size and its effect on topic representation / Kun Lu, Xin Cai, Ajiferuke I. , Wolfram D. // information processing and management. - 2017. - Vol. 53. - p. 653-665. - mode of access: http://dx. Doi. Org/10. 1016/j. Ipm. 2017. 01. 003 Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
48
7
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНФОРМАЦИОННЫЙ ПОИСК / ИНФОМЕТРИЯ / ТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ / РАЗМЕР СЛОВАРЯ / ЧАСТОТА УПОТРЕБЛЕНИЯ ТЕРМИНА / ЛАТЕНТНОЕ РАЗМЕЩЕНИЕ ДИРИХЛЕ
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «2017. 03. 026. Размер словаря и его влияние на представление тематики / Кун ЛУ, Ксин КА, ажиферуке И. , вольфрам Д. Vocabulary size and its effect on topic representation / Kun Lu, Xin Cai, Ajiferuke I. , Wolfram D. // information processing and management. - 2017. - Vol. 53. - p. 653-665. - mode of access: http://dx. Doi. Org/10. 1016/j. Ipm. 2017. 01. 003»

ключевых слов целесообразно было бы в будущем провести исследование на базе полного семантического анализа текстов.

А.Э. Анисимова

2017.03.026. РАЗМЕР СЛОВАРЯ И ЕГО ВЛИЯНИЕ НА ПРЕДСТАВЛЕНИЕ ТЕМАТИКИ / КУН ЛУ, КСИН КА, АЖИФЕРУКЕ И., ВОЛЬФРАМ Д.

Vocabulary size and its effect on topic representation / Kun Lu, Xin Cai, Ajiferuke I., Wolfram D. // Information processing and management. -2017. - Vol. 53. - P. 653-665. - Mode of access: http://dx.doi. org/10.1016/j.ipm.2017.01.003

Ключевые слова: информационный поиск; инфометрия; тематическое моделирование; размер словаря; частота употребления термина; латентное размещение Дирихле.

Авторы публикации - специалисты в области библиотечных и информационных наук, сотрудники университетов США и Канады занимаются вопросами «тематического моделирования» (ТМ) (topic modeling) машинным способом при обработке больших массивов данных. ТМ обычно применяется при информационном поиске (ИП) (information retrieval) c целью обнаружения скрытой тематики. Применение технологии ТМ позволяет свести текст, состоящий из миллионов терминов, к нескольким сотням тем, а также определить вероятность, с которой в той или иной тематике генерируются различные слова.

Наиболее распространенными методами ТМ считаются латентное размещение Дирихле (latent Dirichlet allocation - LDA) и вероятностное латентно-семантическое индексирование (probabilistic latent semantic indexing - pLSI). Основы LDA были заложены Д. Блеем, Э. Ыном и М. Джорданом в 2003 г.1

Авторы публикации рассматривают ТМ как альтернативную основу уже ставшему традиционным анализу связей между исследователями на основе подсчета цитирований. В случае наукометрического анализа на основе цитирований цитата становится обязательным условием определения связи между авторами или между

1 Blei D., Ng A.Y., Jordan M.J. Latent Dirichlet allocation // Journal of machine learning research. - 2003. - Vol. 3. - P. 993-1022.

текстами. Однако условие это не всегда может быть соблюдено при наличии реальных связей между текстами или исследовательскими группами.

С.Ю. Хассан и П. Хеддеви предложили интересную модель исследования, в которой на основе ТМ формируется набор исследовательских тем, характерных для определенной страны, а затем путем анализа цитирований исследуется динамика информационных потоков от страны - источника знаний к странам-реципи-ентам1.

Выбор параметров ТМ может существенно повлиять на получаемый результат или же усложнить процедуру расчета. Перед применением ТМ целесообразно проводить предварительное тестирование базы данных, позволяющее оценить характер изменения конечного результата в зависимости от заданного числа определяемых тем или объема учтенного словаря. Именно такое тестирование и проводят авторы исследования.

При применении технологии ТМ порядок документов в коллекции и порядок слов в документе не имеют значения. В основе математической модели лежит частота повторяемости слов, при этом слова, встречающиеся часто в большинстве документов, не важны для определения тематики. При проведении ТМ также возможно исключать от 0,5 до 5% наиболее часто встречающихся слов, а также слова, встречавшиеся лишь однажды. Именно путем исключения повторяющихся с определенной частотой слов и определяется размер словаря, применимого к данному объему текстов. Также можно задавать число тем от 10 до 100, соответственно укрупняя или сужая тематику (с. 656). При этом одни заданные параметры могут менять результат, а другие - нет. Целью данного исследования является определение существенных параметров, влияющих на получаемый результат на массиве трех баз данных.

Коллекции «ОИ8ите&> (база 1) и «Оепот^Об» (база 2) являются собранием биомедицинских исследований, а 8ЮМЕТ (база 3) -собрание научных работ в области искусства и гуманитарных наук. База 3 была предоставлена исследователям для анализа компанией

1 Hassan S.U., Haddawy P. Analyzing knowledge flows of scientific literature through semantic links: A case study in the field of energy // Scientometrics. - 2015. -Vol. 103, N 1. - P. 33-46.

«Эльзевир». Общий объем документов для трех баз - 106 тыс. (с. 656).

На основе вариативных параметров для каждой из баз данных были рассчитаны «плотность документов в потоке» (document space density - DSD), «уровень энтропии» (entropy), «попарная близость тем» (pairwise topic similarity - PTS) и «дивергенция Дженсе-на-Шеннона» (JSdivergence). Варьируя количеством заданных тем и долей исключенных терминов для каждой из баз данных, авторы могут рассчитать оптимальные величины DSD, энтропии, PTS и т. д.

Чем больше тем задается исследователем на входе, тем ниже плотность документов относительно одной темы, однако DSD увеличивается, если убрать часто употребляемые термины, что можно считать негативным эффектом. Исключением оказалась база 2, для которой удаление 0,5% наиболее частых терминов привело к снижению плотности распределения тем, что подтверждает оправданность такого действия для этой базы (с. 658).

Уровень энтропии понижается с уменьшением заданного количества тем, что неудивительно. Размер словаря на этот показатель существенного влияния не оказал.

Для показателя PTS существенным оказалось удаление однажды употребленных терминов, а большое количество заданных тем увеличило вероятность попарной тематической близости. Однако удаление 5% частых слов сводит показатель PTS к 0.

Противоположный показатель - JSdivergence ведет себя по-разному для массивов с большим и маленьким количеством заданных тем. В первом случае при удалении 5% частых слов показатель снижается, а во втором - увеличивается. Иными словами, при большом числе тем не следует удалять значительное число часто употребляемых слов, если среди задач исследователей - изучение разнообразия тематики (с. 658).

В результате исследования авторским коллективом были сделаны следующие основные выводы. Для трех обследованных баз данных удаление однажды употребленных слов не влияет на количество тем, их распределение по документам, а также на их близость между собой. Такой подход имеет существенное значение с точки зрения экономии средств, выделенных на исследование, а также рационального использования памяти компьютера. Удаление

более 0,5% часто употребляемых слов не приводит к увеличению плотности распределения тем, что подтверждает сделанное еще в 1950-е годы Х.П. Луном наблюдение, согласно которому для нужд индексирования текстов наиболее полезны термины, имеющие среднюю частоту употребления.

Данное исследование, реализованное на основе трех баз данных, не позволяет распространить полученные выводы на другие хранилища знаний. Сделанные в публикации выводы хорошо отражают процессы в англоязычных научных базах данных. Для других естественных языков удаление или прибавление группы слов, установление заданного количества тем могут привести к совершенно другим результатам.

А. Э. Анисимова

2017.03.027. ФИНЕЛЛИ С.Дж., БОРРЕГО М., РАСУЛИФАР Г. СОЗДАНИЕ ДЕРЕВА КЛЮЧЕВЫХ СЛОВ ДЛЯ ИССЛЕДОВАНИЙ В ОБЛАСТИ ИНЖЕНЕРНОГО ОБРАЗОВАНИЯ. FINELLI C.J., BORREGO M., RASOULIFAR G. Development of a taxonomy of keywords for engineering education research // European journal of engineering education. - 2016. - Vol. 41, N 3. - P. 231-251. -DOI: 10.1080/03043797.2016.1153045.

Ключевые слова: инженерное образование; таксономия; классификация наук; научные журналы.

Авторы публикации, исследователи из Университета штата Мичиган и Техасского университета в Остине (США), предприняли попытку обновить оптимальную таксономию терминов в области развития инженерного образования по результатам обследования научных журналов, конференций и опроса специалистов. В статье описана процедура составления таксономии. В результате длительных итераций было составлено шестиуровневое дерево из 455 терминов и 14 ветвей (с. 365). Работа выполнена при поддержке Национального научного фонда.

Полученная в результате классификация подходила для составления ключевых слов к 243 статьям из трех специализированных журналов (с. 365). Поскольку все термины распределялись равномерно, авторы пришли к выводу о том, что уровни специали-

i Надоели баннеры? Вы всегда можете отключить рекламу.