Научная статья на тему 'РАЗРАБОТКА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ НАУЧНЫХ ПУБЛИКАЦИЙ В ОБЛАСТИ МЕДИЦИНЫ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ'

РАЗРАБОТКА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ НАУЧНЫХ ПУБЛИКАЦИЙ В ОБЛАСТИ МЕДИЦИНЫ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
223
41
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА / NER / ИМЕНОВАННАЯ СУЩНОСТЬ / WORD2VEC / ВЕКТОРИЗАЦИЯ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Прошина М.В.

Сегодня распознавание именованных сущностей находится лишь на начальном этапе, но огромные возможности такого метода, как Word2Vec могут в полной мере расширишь функционал данного подхода и сделать его крайне полезным инструментом для работы в любой научной области. Все возможные пути решения задачи NER и дальнейшие направления развития не исчерпаны, поэтому ученым и исследователям лишь стоит продолжать исследования в данной области и предложить свои методы и способы для нахождения новых сущностей в специализированных областях. Основой настоящей статьи является реализация системы, способной выдавать наиболее релевантные рекомендации в ответ на запрос пользователя в медицинской области. Данная работа базируется на применении двух подходов к обработке естественного языка: Named Entity Recognition и Word2Vec, а исследования сосредоточены на совершенствовании одного метода за счет другого: на получении новых именованных сущностей посредством использования Word2Vec. В ходе разработки была создана рекомендательная система, работающая с различными текстовыми отрывками и выдающая актуальные для пользователя результаты, в основе работы которой лежит степень сходства между словами (мера косинусной близости их векторных представлений).

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Прошина М.В.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

DEVELOPMENT OF A RECOMMENDER SYSTEM FOR SCIENTIFIC PUBLICATIONS IN THE FIELD OF MEDICINE BASED ON MACHINE LEARNING METHODS

Today, the recognition of named entities is only at the initial stage, but the huge possibilities of such a method as Word2Vec can fully expand the functionality of this approach and make it an extremely useful tool for working in any scientific field. All possible ways to solve the NER problem and further directions of development have not been exhausted, therefore, scientists and researchers should only continue research in this area and offer their own methods and methods for finding new entities in specialized areas. The basis of this article is the implementation of a system capable of issuing the most relevant recommendations in response to a user request in the medical field. This work is based on the application of two approaches to natural language processing: Named Entity Recognition and Word2Vec, and research is focused on improving one method at the expense of the other: on obtaining new named entities through the use of Word2Vec. In the course of development, a recommender system was created that works with various text passages and produces results that are relevant to the user, based on the degree of similarity between words (a measure of the cosine proximity of their vector representations).

Текст научной работы на тему «РАЗРАБОТКА РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ НАУЧНЫХ ПУБЛИКАЦИЙ В ОБЛАСТИ МЕДИЦИНЫ НА ОСНОВЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ»

Разработка рекомендательной системы научных публикаций в области медицины на основе методов машинного обучения

сч сч о сч

IO

О Ш Ш X

<

m о х

X

Прошина Мария Владимировна

магистрант, факультет физико-математических и естественных наук, Российский университет дружбы народов, maryproshina12345@gmail.com

Сегодня распознавание именованных сущностей находится лишь на начальном этапе, но огромные возможности такого метода, как Word2Vec могут в полной мере расширишь функционал данного подхода и сделать его крайне полезным инструментом для работы в любой научной области. Все возможные пути решения задачи NER и дальнейшие направления развития не исчерпаны, поэтому ученым и исследователям лишь стоит продолжать исследования в данной области и предложить свои методы и способы для нахождения новых сущностей в специализированных областях. Основой настоящей статьи является реализация системы, способной выдавать наиболее релевантные рекомендации в ответ на запрос пользователя в медицинской области. Данная работа базируется на применении двух подходов к обработке естественного языка: Named Entity Recognition и Word2Vec, а исследования сосредоточены на совершенствовании одного метода за счет другого: на получении новых именованных сущностей посредством использования Word2Vec. В ходе разработки была создана рекомендательная система, работающая с различными текстовыми отрывками и выдающая актуальные для пользователя результаты, в основе работы которой лежит степень сходства между словами (мера косинусной близости их векторных представлений).

Ключевые слова: интеллектуальный анализ текста, NER, именованная сущность, Word2Vec, векторизация.

Введение

Данная работа посвящена реализации рекомендательной системы, позволяющей создавать ранжированные списки, в ответ за запрос пользователя. В качестве рекомендаций выступают заранее подготовленные тексты медицинских публикаций (статей). Также в ходе работы было продемонстрировано применение такого популярного метода векторизации, как Word2Vec, к решению задачи Named Entity Recognition. Актуальность работы

Целью интеллектуального анализа является обнаружение релевантной информации в тексте путем преобразования текста в данные, которые могут быть использованы в дальнейшем. Интеллектуальный анализ текста позволяет достичь этого с помощью различных методик анализа, одной из которых является обработка естественного языка (Natural Language Processing, NLP).

В то время как структурированные данные обычно контролируются с помощью системы баз данных, текстовые данные как правило управляются с помощью поисковой системы вследствие отсутствия структуры. Поисковая система позволяет пользователю легко находить полезную информацию из готового набора данных с помощью запроса по ключевым словам, а способ повышения результативности и эффективности поисковой системы является центральной темой исследований в области поиска информации, где поднимаются многие вопросы, связанные с поиском, такие как кластеризация текста, категоризация текста, описание и рекомендательные системы.

Тем не менее, исследования в области поиска традиционно сосредоточены на облегчении доступа к данным, а не на анализе информации для обнаружения закономерностей, что является основной целью текстового анализа. Цель доступа к информации заключается в соединении нужной информации с нужными пользователями в нужное время при меньшем акценте на обработку или преобразование текста.

Кроме того, текстовые данные могут быть проанализированы на различных уровнях представления. Например, текстовые данные могут быть легко обработаны 4 в виде «мешка слов», или же в виде строки слов. Тем не менее, эти подходы позволяют получить только поверхностные представления. Однако в большинстве прикладных задач желательно представлять текстовую информацию семантически, чтобы можно было проводить более содержательный и интеллектуальный анализ. Вследствие чего перед исследователями долгое время стоял вопрос решения этой задачи, что послужило толчком к появлению новых методов интеллектуального анализа данных, а также новых подходов к обработке естественного языка. Например, такой метод векторизации, как Word2Vec, позволяющий учитывать контекст при представлении слов в векторном виде, стал одним из самых передовых и широко используемых способов для

обработки естественного языка, а такой подход к работе с естественным языком, как Named Entity Recognition, где осуществляется представление текстовых данных на уровне именованных сущностей (их разновидности ограничены), превратился в одну из самых распространенных задач NLP.

Таким образом, данная тема актуальна, так как на текущий момент большинство поисковых систем основано на поиске по конкретным формулировкам: они не выдают осмысленные результаты, базирующиеся на основе сходства поискового запроса и соответствующего материала. К тому же возможности NER до сих пор остаются зажатыми в рамки определенных для нее на данный момент сущностей. Увеличение числа сущностей, которые сможет распознавать NER, поднимет возможности данного подхода на новый уровень, а также расширит область его применения, что ещё раз подтверждает значимость выбранной темы для будущих исследований в различных направлениях.

Целью настоящей работы является разработка системы, выдающей набор рекомендаций пользователю по запросу, а также исследование значения Word2Vec в качестве дополнения NER для медицинских текстов.

Основными задачами данной работы являются следующие моменты:

1. Показать важность и возможность применения метода векторизации Word2Vec к решению задачи Named Entity Recognition для создания новых 5 сущностей и их использования для улучшения интеллектуального поиска (рекомендации статей);

2. Анализ создания новых видов именованных сущностей для расширения функционала NER;

3. Разработка системы, выполняющей поиск на основе сходства слов;

4. Написание программного кода на языке Python, выдающего релевантные результаты не только для отдельного слова, но и для целого словосочетания.

1. NER - одна из самых распространенных задач NLP

NLP - важная составляющая Text mining

Интеллектуальный анализ текста (text mining) - это технология искусственного интеллекта (AI, Artificial intelligence), в которой используется обработка естественного языка [1] (NLP, Natural language processing) для преобразования неаннотированного текста документов в нормализованные, структурированные данные, пригодные для анализа или для обучения алгоритмами машинного обучения [2].

Естественный язык - это язык, который люди используют для общения. Методы обработки и понимания смысла, заложенного в таких данных, в совокупности называются обработкой естественного языка (Natural Language Processing, NLP). NLP разбивает язык на более короткие, более простые части, называемые токе-нами и пытается понять отношения меду ними [3].

Основные подходы к Named Entity Recognition

Именованная сущность - это последовательность слов, которая обозначает некоторую сущность реального мира, например, «Калифорния», «Стив Джобс» и «Apple Inc.» [4].

Задача распознавания именованных сущностей (NER) состоит в том, чтобы идентифицировать именованные сущности из текста свободной формы и классифицировать их в набор предопределенных типов, таких как человек, организация и местоположение [5].

Ранние решения задачи распознавания именованных сущностей опираются на созданные вручную шаблоны. В более поздних работах по распознаванию именованных сущностей используются статистические методы машинного обучения: cкрытые марковские модели (Hidden Markov Models), модели Маркова с максимальной энтропией (Maximum Entropy Markov Models) и условные случайные поля (Conditional Random Fields). На рисунке 1. отображены основные подходы к Named Entity Recognition.

Рисунок 1. Основные подходы к распознаванию именованных сущностей

2. Word2Vec и другие популярные методы векторизации

В области поиска важной остается задача создания эффективной поисковой системы, способствующей облегчению доступа к информации, получению наиболее корректного результата по запросу при наименьших затратах как на предварительную обработку текста, так и на оптимизацию конечного вывода и повышение его точности [6].

Вследствие необходимости появления нового инструмента, позволяющего производить поиск не просто по конкретно заданным формулировкам, а по контексту, с целью нахождения близкородственных слов, связанных по смыслу, в 2013 году разработчики Google под руководством Томаса Миколова представили модель Word2Vec [7], новый метод для создания векторных представлений слов, значительно оптимизировавший векторизацию слов.

2.1 Архитектура и принцип работы Word2Vec

Word2vec - это набор связанных методов (алгоритмов), которые используются для расчета векторных представлений слов на естественном языке.

Модель Word2Vec включает в себя две архитектуры: Continuous Bag of Words и Skip-gram. Рассмотрим каждую из них по отдельности.

Модель Continuous Bag of Words: этот метод принимает контекст каждого слова в качестве входных данных и пытается предсказать слово, соответствующее этому контексту. Другими словами, векторные представления слов генерируются с помощью контекстных слов. Принцип работы Continuous Bag of Words модели Word2Vec, можно увидеть на рисунке 2.

X X

о го А с.

X

го m

о

О

м м

INPUT

PROJECTION

OUTPUT

Рисунок 2.1. Архитектура Continuous Bag of Words, где w(t) -это данное слово, а w(t-2), w(t-1) .., w(t+1), w(t+2) - близлежащие слова

Однако Continuous Bag of Words не единственный способ для получения векторных представлений слов на основе контекста. Существует еще один способ, позволяющий сделать то же самое. Так, модель Skip-gram использует слово, векторное представление которого мы хотим создать, чтобы предсказать его возможный контекст. Принцип работы Skip-gram модели Word2Vec, можно увидеть на рисунке 3.

INPUT

PROJECTION OUTPUT

сч сч о сч

IO

О Ш Ш X

<

m о х

X

Рисунок 3. Архитектура Skip-gram, где w(t) - это данное слово, а w(t-2), w(t-1) .., w(t+1), w(t+2) - близлежащие слова

2.2. Применение Word2Vec

На текущий момент область использования Word2Vec можно назвать довольно широкой. Так, например, исследователи нашли применение данной модели для:

• нахождения слов, близких семантически;

• изучения тональности текста (например, для анализа пользовательских рецензий на кинофильмы);

• создания кластеров по усредненным значениям векторов (не учитывается порядок слов) для слов, наиболее близких по контексту;

• альтернативного решения задачи поиска, расширения запроса;

• машинного перевода;

• классификации данных по аннотированному корпусу, содержащему в себе деление на заранее заданные классы.

В данной работе Word2Vec используется для получения векторов слов и их дальнейшей кластеризации. В следующем подразделе идет постановка и описание решаемой задачи.

2.3. Обзор решаемой задачи

Функционал Named Entity Recognition ограничен, вследствие чего многие ученые задавались вопросом, как усовершенствовать данный метод, а именно: добавить в него новые расширения, новые сущности, в частности, как применять вышеуказанный подход в области медицины. На практике были предложены многочисленные идеи, начиная с написания различных модификаций и заканчивая ручной разметкой данных, однако ни один из перечисленных вариантов так и не набрал популярность и не получил всеобщее признание, что по-прежнему ограничивает возможности Named Entity Recognition распознаванием таких сущностей, как: люди (имена, например), местоположения и организации (реже возможно выделение времени, дат, денежных единиц, процентов, сооружений и географических сущностей).

С целью нахождения нового подхода к распознаванию именованных сущностей (в частности, выделения сущностей для наборов медицинских публикаций не вручную, а программным образом), а также с перспективой дальнейшего расширения функционала существующих методов было проведено исследование, а именно: показано возможное применение Word2Vec для получения новых разновидностей именованных сущностей в медицинской области, комплект которых не входит в программную архитектуру существующих на данный момент библиотек для работы в этой сфере (например, таковые отсутствуют в таких общеиспользуемых библиотеках на языке программирования Python, как SpaCy (больше используется разработчиками; отсутствует поддержка русского языка) и NLTK (Natural Language Processing Tool Kit) (имеет большой спектр применения в кругах преподавателей и исследователей; включает в себя функционал для работы как с английским, так и с русским языками) [8].

Поскольку в данной работе главной является задача создания оптимальной рекомендательной системы, для исследования был выбран один из самых широко используемых методов векторизации (Word2Vec), который позволяет добиться высоких результатов в области латентно-семантического анализа текста, что делает его актуальным инструментом для решения задачи поиска не по конкретно заданным формулировкам, а по смысловой нагрузке слов.

3. Разработка рекомендательной системы

Векторные представления слов позволяют справиться с важной целью: они служат дополнительным источником информации для решения задачи классификации. Поставленная задача определяет то, как можно провести классификацию наиболее успешно. Итоговое

сходство слов на выходе напрямую зависит от выбранной задачи классификации.

В дальнейшем рассматривается применение векторов слов к решению задачи NER. Данные для исследования

^ ^ J» ^

■ ^ У </

А

Рисунок 4. Распределение данных по корпусам

Для данного исследования был составлен набор корпусов из медицинских публикаций (размерностью до 13 тыс. единиц в коллекции документов). Статьи относились к пяти различным областям медицины:

1. Кардиология (Cardiology);

2. Иммунология (Immunology);

3. Неврология (Neurology);

4. Онкология (Oncology);

5. Фармакология-токсикология (Pharmacology-Toxicology).

Распределение по корпусам отображено на рисунке 4.

Предварительная обработка текста

Для повышения качества векторизации любой текст на естественном языке нуждается в предварительной обработке. Это означает, что данные необходимо сделать пригодными для их дальнейшей обработки алгоритмами машинного обучения (Machine Learning).

Для избавления исходной коллекции документов от шума были выполнены следующие операции (вычисления выполнялись с использованием библиотеки NLTK в среде программирования Python):

1. Перевод всех символов в нижний регистр

2. Токенизация. Токены могут быть представлены отдельными словами, предложениями или даже целыми абзацами;

3. Удаление символов с применением регулярных выражений: ссылок, аббревиатур в скобках, заголовков графиков и таблиц, маркеров в списках текста, дефисов; удаление знаков препинания как спереди, так и сзади слов;

4. Очистка - процесс удаления стоп-слов, которые не влияют на смысловое и содержательное наполнение текста (графические сокращения (et al, viz, eg), предлоги и артикли).

По окончании вышеперечисленных операций данные стали пригодными для дальнейшей векторизации.

Построение модели для извлечения векторов слов

В настоящей работе применяется метод векторизации Word2Vec, который состоит из двух моделей:

1. Continuous Bag of Words (CBOW) первый подход: предсказывает текущее слово, исходя из окружающего его контекста;

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

2. Skip-gram - второй подход, который идёт от обратного: предсказывает близлежащие слова на основании текущего.

Для исследования была использована реализация модели Word2Vec в библиотеке для обработки естественного языка Gensim [9] на таком довольно популярном языке программирования, как Python.

В текущей работе для построения модели Word2Vec за основу взята непрерывная модель skip-gram (sg) (ставится по умолчанию; цифра «1»).

Также были установлены следующие параметры:

- size - размерность векторов слов. В настоящей работе берем размерность, равной 100, так как используется корпус с небольшим набором данных;

- window - размер контекстного окна, максимальное расстояние между данным словом и соседним словом. Для данной работы устанавливаем размер окна, равный 5;

- min_count - минимальная встречаемость слова в тексте. Для проведения исследования было решено учитывать слова, встречающиеся в тексте не менее 5 раз, то есть принять min_count = 5.

Значения остальных параметров были сохранены по умолчанию.

Ключевые слова

Из выбранной коллекции документов были записаны в отдельный файл ключевые слова для каждой научной публикации. Эти данные также подверглись частичной предварительной обработке: была выполнена токенизация по словам для подсчета среднего векторного значения по отдельным токенам для ключевых слов типа «Coronary flow reserve», а также удаление скобок для аббревиатур, например, «Cadmium-zinc-telluride (CZT)» стало «Cadmium-zinc-telluride CZT». К тому же все слова были переведены в нижний регистр.

Вследствие того, что при построении модели Word2Vec вхождение каждого слова было ограничено параметром min_count, можно сделать вывод, что модель содержит векторные представления не для всех ключевых слов. Для очистки документа от невекторизо-ванных слов была написана функция keywords_cleaned(), которая проверяет наличие того или иного ключевого слова в словаре Word2Vea

Кластеризация

Следующим этапом является применение кластеризации. Word2Vec генерирует кластеры слов, близкие по смыслу, поэтому за основу кластеризации также можно взять сходство слов в одном кластере. Подобный метод кластеризации определяют как кластеризацию методом «векторного квантования» [10]. Начальным этапом реализации является нахождение центров кластеров слов, для нахождения которых выбор пал на такой алгоритм кластеризации, как k-means.

Для успешного запуска алгоритма k-means необходимо задать только один параметр - "k", число кластеров, на которое мы бы хотели разбить набор наших данных. Возникает вопрос: «На сколько кластеров лучше всего разбить корпус для наивысшей точности результата?» Опытным путем было установлено, что деление данных на 57 кластеров дает наилучшие результаты. Для разработки кода была использована библиотека scikit-learn в среде программирования Python.

Разработка рекомендательной системы

Рекомендация научного материала будет производиться на основе ключевых слов, извлеченных из каждой публикации.

X X

о

го А с.

X

го m

о

2 О

м м

сч сч о сч

о ш m

X

<

m о х

X

Для ускорения процесса поиска было найдено несколько средних векторных значений (они записываются в отдельную таблицу) для:

1. Различных медицинских областей:

• Кардиология (Cardiology);

• Иммунология (Immunology);

• Неврология (Neurology);

• Онкология (Oncology);

• Фармакология-токсикология (Pharmacology-Toxicology).

2. Для каждого кластера с учетом его распределения по медицинским областям, то есть, например, вычисляется среднее векторное значение для всех попаданий Cluster 1 в такую медицинскую дисциплину, как Cardiology и так далее. К тому же данные каждого кластера для каждой дисциплины ранжируются.

Разработанная система работает следующим образом:

1. В запущенной системе выводится сообщение: «Пожалуйста, введите Ваш запрос», просящее пользователя ввести слово для составления рекомендации. Пользователь вводит запрос, а система обращается к словарику Word2Vec и производит в нем поиск векторного представления введенного слова. Возможно два варианта:

• Если векторного представления для данного слова не оказывается (запрашиваемый термин отсутствует словаре), система выводит следующее сообщение:

«Извините, запрашиваемые данные отсутствуют в словаре

Пожалуйста, попробуйте ввести другой запрос».

Далее система задает пользователю вопрос: «Продолжить работу в системе?», на что предполагает два возможных варианта ответа (y - «yes», либо n - «no»). В случае ввода варианта ответа «n» работа системы завершается, а при введении «y» происходит повтор действий с начала первого шага.

• Если же для запрашиваемого слова было определено векторное представление (оно было записано в словаре), система считывает это число и начинает сравнивать это значение сначала со средними векторами дисциплин (6 значений). В итоге определяется дисциплина, ближе всего расположенная с запрашиваемым словом, и дальше уже рассматриваются усредненные значения кластеров для ключевых слов этой области -также находится кластер с самым близким значением для запроса. Затем система производит отбор: ищет в отобранной области и кластере ключевые слова, которые также находятся ближе всего к введенному слову (в данной системе слово считается близко расположенным к запросу в том случае, если его векторное представление находится в пределах диапазона [-0.05; 0.05] по отношению к запрашиваемому слову). Если после этого на выходе будет отобрано менее 10 статей (по ключевым словам), на рассмотрение берется другой кластер из данной дисциплины, находящийся на втором месте, как наиболее близкий по смыслу к исходному слову. С новым кластером производятся аналогичные действия тем, что были описаны выше. Этот процесс будет повторяться до тех пока не наберется 10 статей для рекомендации по запросу.

2. В ответ на запрос пользователь получает 10 активных ссылок на статьи, которые больше всего по смыслу соответствуют введенному им слову (по ним

можно прейти сразу из системы для ознакомления с полноценными текстами статей) вместе с их заголовками (ссылки и заголовки статей были собраны в отдельный файл при сборе корпуса).

Важно также отметить, что в случае введения пользователем словосочетания/фразы, его/её векторное представление будет усреднено аналогично тому, как это производилось для ключевых слов (при наличии хотя бы одного слова из этого словосочетания в словаре Word2Vec).

Далее рассмотрим работу системы на конкретных примерах. Так, результат применения системы можно увидеть ниже:

• 1 ' РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМ ДЛЯ МЕДОЦЩШ СШЕЙ ЭД1ЩЕНА • • "

/' будьте енимательнессистема основана на англояаыччьк источникам

Пожалуйста, заедите Ваш запрос; chemotherapy

Слепящие источники гюгуг бить вам полез«:

1) Pathologic Assessment of Response to Chemotherapy in Colorectal Cancer Liver fttsstases after Hepatic Resection; *iiich Hetho d to Use*

https:/;iink springer.com/article/10.1007/S122S3-014-9803-9 I) Lymphopenia after induction chemotherapy correlates with incomplete surgical resection in patients kith advanced ovarian can

https://link. springer, com/art ide/10.1007/sl0147-01i-1374-4 3) Skeletal muscle loss during systemic chemotherapy for colorectal cancer indicates treatment response: a pooled analysis of a multicenter clinical trial (KSCC 1609-A)

https://link springer, com/article/10,1007/S10147-019-01460-0 A) Impact of RAS/BRAf natation status in locally advanced rectal cancer treated Kith preoperative chemotherapy

https://link.springer.com/article/10.lM7/sl0147-01S-125J-i 5) The Effect of the Interval frod the Third cycle of neoadjuvant Chemotherapy to Interval Debulking Surgery on the Surgical Re suits in Advanced Epithelial Ovarian Cancer

https://link. springer, com/art icle/10.1007/s40944-016-0037-5 6} Radiation therapy versus surgery for patients ■with cervical squamous cell carcinoma who have unoergone neoadjuvant Chemother ару revisited

https://link, springer, com/article/10.1007/510147-017-1191-1 7) Hypoxic Isolated Abdominal Perfusion (HAP) chemotherapy for non-operable advanced staged ovarian cancer with peritoneal cart inosis: an experience in 4S platinm-refractory ovarian cancer patients

https://link springer, com/article/IB. 1007/513193-019-60922-9 i) Volumetric and texture analysis ai FOG PET in evaluating and predicting treatient response and recurrence after chemotherapy in follicular lyrphoma

https://link.springer.com/article/10.lW7/sl0147-019-ei4i2-2 a) w.i гц|.'-ir hemetner 1 f -i ry ■ >r- concurrent rhemondiation for locally advanced breast < enter a feasibility

study and IP-year fallW-UP results

Httns://link.snrineer.rn«/artlcle/ia.ieft7/s4eW-&i6-0eae-7 10f Discordance of Estrogen ft Progesterone Receptors After Neoadjuvant Chenotherapy in Breast Career- an Indian Study https://link, springer. toe/article/lS. l0P7/sl31«-ei6-0515-3

' * - PABOtA CltCTBHV ЗАВЕРШЕНА » ' *

Приведенный выше пример можно назвать положительным, поскольку для слова-запроса «chemotherapy» было найдено векторное представление в словаре Word2Vec, а также даны рекомендации. Проанализируем полученный вывод. Можно заметить, что все результаты семантически связаны между собой Далее приведем анализ выданных системой результатов для слова «chemotherapy». Условно полученный вывод можно поделить на 4 сущности (кластера):

1. Последствия (1-3);

2. Влияние (4-5);

3. Лечение (6-7);

4. Исследование (8-10).

Можно сделать вывод, что для составления списка рекомендаций статей система затронула порядка 4 кластеров, в которых нашла ключевые слова, ближе всего расположенные к входному слову. Также полученные результаты были добавлены на вывод в зависимости от степени сходства к исходному запросу (то есть кластеры (именованные сущности) были ранжированы).

Приведем ещё один пример работы системы (на этот раз отрицательный):

- * г РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА ДЛЯ МЕДИЦИНСКИХ СТАТЕЙ ЗАПУЩЕНА * * *

/* будьте внимзтельиы:система осиоеакэ на аиглоягучиык источниках '/

пожалуйста, введите ваш запрос; economy

Продолжить работу а системе? (у/г)

РАБОТА СИСТЕМ! ЗАВЕРШЕНА '

Пользователь захотел найти семантические рекомендации статей для слова «economy», однако не учел один важный момент: разработанная система базируется на литературе из медицинской области - она не содержит в себе никаких экономических данных, соответственно в словаре не содержится векторного представления для этого слова. Аналогичный вывод (отсутствие векторного представления запрашиваемого слова в словаре) будет получен при запросе на слово, хоть и имеющее отношение к медицине, но встречающееся в том или ином тексте менее 5 раз, либо при вводе слова из той медицинской области, которая не была представлена в изначальном наборе данных.

Рассмотрим ещё один возможный вариант работы системы, где пользователь вводит слово, отсутствующее в словаре Word2Vec, на что получает сообщение о том, что система не располагает, необходимой ему информацией. Далее пользователю задается вопрос, в котором его спрашивают, не желает ли он завершить работу системы или продолжить для того, что выполнить процесс поиска по новому запросу. Пользователь положительно отвечает на вопрос системы о продолжении работы в ней. Однако на этот раз для поиска выбирается не отдельное слово, а целое словосочетание. Осуществление вышеописанного сценария действий можно увидеть на примере ниже, где для усредненного векторного представления словосочетания «breast cancer treatment» системе удается получить положительный результат: найти научные статьи из медицинской области, наиболее всего соответствующие смыслу вышеприведенного набора слов:

■ ■ • РЕК.ОПЕНМТЕЛЫНАЯ СИСТЕМА Ш НЕДШЯНСШ СТАТЕЙ ЗМ1УШЙ ' * * /* -лЯ:те внинательнисистач сснсеана -> англвяввчник источниках '/

Навииите, звпрвиивэеч« asHHwe отсутствуй в слпвврч Пожалуйста, попроВуйта ввасти другой запрос

Продолжить работу в

четко заданным формулировкам, как это делают, например, многие поисковые системы, а по векторным представлениям слов, позволяющим учитывать понятие кон-текстуальности для запроса.

Приведем последний пример, доказывающий, что работа системы базируется на улавливании сходства между ключевыми словами:

* * * РЕКОМЕНДАТЕЛЬНАЯ СИСТЕМА ДЛЯ МЕДИЦИНСКИХ СТАТЕЙ ЗАПУЩЕНА * * * /* будьте внимательны:сиа

Следу-сщие источники могут быть мн полезны

1) Trends and Present Treatment Patterns of Early ereast cancer in southwest china

https://link.s pringer, cam/article/13. mi ¡¡12153 -014-9829 -:

2) leptir and Adiponectin: Emerging Therapeutic Targets in Breast Cancer

https: //link .springer, cora/iirticli/W, lW7/sMlMl-il3-9

3) Patterns of Care of Breast Cancer Patients in a Rural Cancer Center in Western India

https://link.s pringer.com/article/10.1087/sl319i-618-8748-4

4) A potential role for peripheral natural killer cell activity induced by preoperative chemotherapy in breast cancer patients

https: //link. springer. cam/artide/10. 1007/S00262 -619 - 82335 - z

5) Neoadjuvant chemotherapy fallcwed by neoadjuvant concurrent chenoradiation for locally advanced breast cancer: a feasibility study and 16-year follow-up results

https://link.springer.com/article/10.1007/S40944-016-8088-7

6) Reconstruction in Breast Conservation Therapy-Single Tertiary Care Institution Experience with 472 Patients

https://link.S pringer.com/article/10.1097/S13193-017-0663-0

7) Oncoplastic Breast Reconstruction In Breast Conservation Surgery: Improving the Oncological and Aesthetic Outcomes

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

https://link.s pringer.com/article/10.1007/S13193-019-00900-1 3) Oncologic and Cosmetic Outcomes of Oncoplastic Breast Surgery in Locally Advanced Breast Cancer After Neoadjuvant Chemothera py, Experience from a Developing Country

https://llnk.5pringer.com/articli/10.1007/slil93-M7-0GS9-3

9) A New Concept of Interval TRAM for Immediate Breast Reconstruction in Obese Hcoeti

https://link.springer.com/article/L0.1007/sl3193-0ia-e866-z

10) Rate of Breast-Conserving Surgery vs Mastectony In Breast Cancer: a Tertiary Care Centre Experience from South India

https://link.springer.com/articl«/10.1007$2Fsl3193-018-0818-7

* 1 4 РАБОТА СИСТЕМЫ ЗАВЕРШЕНА - ' *

Проанализируем полученные результаты-рекомендации, выданные системой по запросу «breast cancer treatment»: в целом, их можно разделить на 2 вида именованных сущностей:

1) Лечение (1-6);

2) Восстановление (7-10).

Эти сущности напрямую коррелируют с словосочетанием, введенным в качестве запроса. Отсюда делаем вывод, что приведенные статьи в качестве результата работы системы, действительно, близки по своему смысловому наполнению к изначальному запросу.

Приведенный выше пример наглядно доказывает, что разработанная система производит поиск не по

Следующие источники могут быть вам полезны:

1) Comparative analysis of full-time, half-time, and quarter-time myocardial ECG-gated SPECT quantification in normal-weight an d overweight patients

https: //link. springer. com/article/10.1007/sl23S0-01S-0382-2

2) Relationship between cardiac diffusion tensor imaging parameters and anthrapometrics in healthy valunteers

https: //link. springer. cam/artide/10.1186/sl2968-015-0215-0

3) The pragnastic value ef mechanical left ventricular dyssynchrany defined by phase analysis frem gated single-phatan emissien computed tamagraphy myacardial perfusion imaging ameng patients with cerenary heart disease

https: //link. springer. cam/artide/10.1007/sl23S0-01S-0388-9

4) Safety ef vasedilater stress myacardial perfusian imaging in patients with elevated cardiac biamarkers

https: //link. springer. cam/artide/10.1007/S12350-016-6448-9

5) The role of stress cardiac magnetic resenance in wemen

https: //link. springer. cam/artide/10.1007/sl2350-616-0597-x

6) Diagnostic and pragnastic rales ef echocardiography and cardiac magnetic resonance

https: //link. springer. com/artide/10.1007/sl2350-016-0595-z

7) Multi-modality imaging: BirdeVs eye view from the 2017 American Heart Asseciatien Scientific Sessians

https: //link. springer. cam/artide/10.1007/sl2350-018-1195-x

8) Camparative effectiveness ef caronary CT angiegraphy vs stress cardiac imaging in patients fallawing haspital admission for chest pain work-up: The Prospective First Evaluatien in Chest Pain (PERFECT) Trial

https://link.springer.cam/article/10.1007/sl23S0-01S-03S4-6

9) A new aethod of CT for the cardiac eeasurement: correlation of computed tomography reasured cardiac parameters and pulmonary obstruction index to assess cardiac morphological changes in acute pulmonary enbolism patients

https://link.springer.co«/article/10.1007/sii239-018-1628-z

10) Computed tomography and pathological findings of five nasal neurilemomas

https://link.springer.co"/article/l&.1186/1758-3284-4-26

* * * РАБОТА СИСТЕМЫ ЗАВЕРШЕНА " ♦ *

В вышеприведенном примере в качестве запроса задается слово: «imaging». Можно заметить, что все результаты для этого запроса, в целом, относятся к сущности «исследование». Вывод в очередной раз подтверждает высокую работоспособность разработанной системы.

Заключение

В ходе написания данной работы была разработана рекомендательная система научных публикаций для статей из медицинской области. Полученные результаты доказывают корректную работу системы как для отдельно взятых слов, так и для целых словосочетаний: система рекомендует те или иные научные материалы на основе их сходства с запросом (формируются ранжированные списки). Более того, рекомендации основываются не на конкретных формулировках запроса, а на сходстве введенного слова/фразы и ключевых слов из источников, что делает поиск интеллектуальным.

В настоящей работе был продемонстрирован лишь малый функционал применения данной системы, однако ее потенциал огромен. К тому же, чтобы увеличить число точных рекомендаций, можно выбрать корпуса с большим числом документов в коллекции. Так, создатели Word2Vec рекомендуют брать корпуса с размерностью от ста миллионов вплоть до нескольких миллиардов, что позволит в значительной мере расширить практическое применение и повысить корректность для больших наборов рекомендаций.

В ходе работы было доказано, что совместное применение Word2Vec и NER позволяет добиться новых высот в области обработки естественного языка. Результаты подтверждают, что внедрение Word2Vec в архитектуру NER сделает возможным создание новых именованных сущностей не только в области медицины, но и в любой другой области. Тогда расширится возможность работы с NER: появится поддержка новых сущностей в любой области на основе векторного анализа сходства полученных наборов слов в ходе проведения векторизации посредством поиска новых кластеров и усреднения их векторных распределений.

X X

о

го А

с.

X

го m

о

О

м м

сч сч о сч

Проведенная работа доказывает, что сегодня распознавание именованных сущностей находится лишь на начальном этапе, но огромные возможности такого метода, как Word2Vec могут в полной мере расширишь функционал данного подхода и сделать его крайне полезным инструментом для работы в любой научной области.

Все возможные пути решения задачи NER и дальнейшие направления развития не исчерпаны, поэтому ученым и исследователям лишь стоит продолжать исследования в данной области и предложить свои методы и способы для нахождения новых сущностей в специализированных областях.

Литература

1. Buitelaar, P. Ontology Learning and Population: Bridging the Gap Between Text and Knowledge / P. Buitelaar, Ph. Cimiano // MA: IOS Press. - 2008. - 273 p.

2. Kao, A. Natural Language Processing and Text Mining / A. Kao, S. R. Poteet // MA : Springer Science & Business Media. - 2007. - 265 p.

3. Berry, M. W. Text Mining: Applications and Theory / M. W. Berry, J. Kogan // MA: John Wiley & Sons. - 2010. -222 p.

4. Siencnik, S. K. Adapting word2vec to Named Entity Recognition / S. K. Siencnik // 20th Nordic Conference on Computational Linguistics (NODALIDA 2015). - 2015. - P. 239-243.

5. S. Song, N. Zhang and H. Huang, "Named entity recognition based on conditional random fields", Cluster Computing, 2017.

6. Lu, Q. Search system and methods with integration of user annotations from a trust network / Q. Lu [et al.] // United States Patent US20180067994A1. 2018.

7. Mikolov, T. Efficient Estimation of Word Representations in Vector Space / T. Mikolov [et al.] // In Proceedings of Workshop at ICLR. - 2013. - 9 p.

8. D. Sarkar, Text Analytics with Python: A Practitioner's Guide to Natural Language Processing, Apress, 2019.

9. R. Arumugam, R. Shanmugamani, Hands-On Natural Language Processing with Python, Packt Publishing, 2018.

10. Е. А. Черепков, С. А. Глебов, Использование модели Word2Vec для кластеризации больших текстовых данных // Научное обозрение, 2017, №3, C.21-24. Режим доступа: https://science-engineering.ru/pdf/2017/3/1170.pdf

Development of a recommender system for scientific publications in the

field of medicine based on machine learning methods Proshina M.V.

Peoples' Friendship University of Russia

JEL classification: C10, C50, C60, C61, C80, C87, C90_

Today, the recognition of named entities is only at the initial stage, but the huge possibilities of such a method as Word2Vec can fully expand the functionality of this approach and make it an extremely useful tool for working in any scientific field. All possible ways to solve the NER problem and further directions of development have not been exhausted, therefore, scientists and researchers should only continue research in this area and offer their own methods and methods for finding new entities in specialized areas. The basis of this article is the implementation of a system capable of issuing the most relevant recommendations in response to a user request in the medical field. This work is based on the application of two approaches to natural language processing: Named Entity Recognition and Word2Vec, and research is focused on improving one method at the expense of the other: on obtaining new named entities through the use of Word2Vec. In the course of development, a recommender system was created that works with various text passages and produces results that are relevant to the user, based on the degree of similarity between words (a measure of the cosine proximity of their vector representations). Keywords: text mining, NER, named entity, Word2Vec, vectorization. References

1. Buitelaar, P. Ontology Learning and Population: Bridging the Gap Between

Text and Knowledge / P. Buitelaar, Ph. Cimiano // MA: IOS Press. - 2008. - 273 p.

2. Kao, A. Natural Language Processing and Text Mining / A. Kao, S. R.

Poteet // MA : Springer Science & Business Media. - 2007. - 265 p.

3. Berry, M. W. Text Mining: Applications and Theory / M. W. Berry, J. Kogan

// MA: John Wiley & Sons. - 2010. - 222 p.

4. Siencnik, S. K. Adapting word2vec to Named Entity Recognition / S. K.

Siencnik // 20th Nordic Conference on Computational Linguistics (NODALIDA 2015). - 2015. - P. 239-243.

5. S. Song, N. Zhang and H. Huang, "Named entity recognition based on

conditional random fields", Cluster Computing, 2017.

6. Lu, Q. Search system and methods with integration of user annotations

from a trust network / Q. Lu [et al.] // United States Patent US20180067994A1. 2018.

7. Mikolov, T. Efficient Estimation of Word Representations in Vector Space /

T. Mikolov [et al.] // In Proceedings of Workshop at ICLR. - 2013. - 9 p.

8. D. Sarkar, Text Analytics with Python: A Practitioner's Guide to Natural

Language Processing, Apress, 2019.

9. R. Arumugam, R. Shanmugamani, Hands-On Natural Language Processing with Python, Packt Publishing, 2018.

10. E. A. Cherepkov, S. A. Glebov, Using the Word2Vec model for clustering large text data // Scientific Review, 2017, No. 3, C.21-24. Access mode: https://science-engineering.ru/pdf/2017/3/1170.pdf

О Ш

m x

<

m о x

X

i Надоели баннеры? Вы всегда можете отключить рекламу.