Устранение семантической неоднозначности слов. Формирование семантических отношений между текстами на основе использования Wiki and wordnet

Нэй Лин; Каунг Мьят Хту

Устранение семантической неоднозначности слов. Формирование семантических отношений между текстами на основе использования Wiki and WordNet

Нэй Лин

аспирант, Курский государственный университет, naylynn16@gmail.com

Каунг Мьят Хту

аспирант, Курский государственный университет, kaungmhtoo16267@gmail.com

В этой статье представлен метод устранении семантический неоднозначности, в котором используются Wiki и wordnet для вычисления семантической связанности между неоднозначными словами и текстами. Представленный метод включает 3 этапа. Первый - разработка Семантических аннотаций слова и обработка на основе метода SENSEVAL (http://www.senseval.org/) - один из известных методов устранения неоднозначностей использует Wordnet как семантические аннотации,второй - представление предложения-документа вектором с целью вычисления семантических связей между словами и третий - использование связанности между семантическими предложениями для вычисления семантической связанности между текстами. В этой статье мы подтверждаем, что Wikipedia и Wordnet возможно использовать как надёжные семантические источники данные. В этой статье представлен метод устранении семантический неоднозначности, в котором используются Wiki и wordnet для вычисления семантической связанности между неоднозначными словами и текстами.

Ключевые слова: Онтология, семантический вес, Wikipedia, Wordnet, SENSEVAL,WSD, семантическая аннотация

Wikipedia

Wikipeida представляет собой бесплатную онлайн энциклопедию, которую записывали много волонтёров на разных языков. В Wiki статьи записываются более чем на 280 языках и связывается между собой через гиперссылки. Статья - это основной элемент Wikpedia, при этом Wikipedia на странице размещается одна статья. В этих статьях записываются разные направления знаний, их термы имеет гиперссылки, с помощью которых они связываются с другими статьями. Благодаря этому пользователь может перейти к ассоциативной теме по гиперссылке. Wikipedia построена как иерархическая система. Посредством категорий выделяются предметы (темы), каждая категория обладает подкатегориями, и в каждую эту подкатегорию входит из много статей. Например - Wiki статья -Cristiano Ronaldo включает себя в категорию Portuguese Footballer, которая включает в себя подкатегории Portuguese sports people by sport (рис-1).

Рис. 1. Фрагмент Wiki страницы -Ronaldo

название Cristiano

В левой части панели (Рисунок 1) существует ссылки для этой статьи на разных языках. Внизу показывается список категорий для этой статьи. В Wikipedia каждая статья имеет единственный заголовок. В круглых скобках включаются объяснения для слова заголовка. Например -в уникальном идентификаторе Cristiano Ronaldo слово Ronaldo имеет отношение к португальскому футболисту, а в уникальном идентификаторе

О В

I»

£

55 П ti Н

ы

а

.Ronaldo (Brazilian Footballer), слово Ronaldo имеет отношение к бразильскому футболисту. Когда для создания гиперссылки используются эти идентификаторы, якорные тексты этих идентификаторов представляют поверхностную форму. Например - Первое предложение в Cristiano Ronaldo Wiki страницы - Cristiano Ronaldo dos Santos Aveiro [[order of prine Hen-ery|GOIH]],[[order of merit(Portugal)]|ComM] is a Portuguese professional [[footballer]] . В этом предложением слова - order of prine Henery и Order of merit (pourtugal) связывают слова поверхностной формы c соответствующими статьями. Если поверхностная форма и уникальный идентификатор одинаковые слова, то между ними имеется прямая связь, которая представляет их с двойными скобками, например -[[footballer], а если это не одинаковые слова, то надо использовать разный идентификаторы для связей между ними. Например - GOIH связывается с статью Order of prine Henery, поэтому его представляют, как [[order of prine Henery|GOIH]]

В Wikipedia существуют непрямые ссылки для некоторых термов. Например, Бирма - это прежнее название государства Мьянма, поэтому его статью показывают, как перенаправленную страницу (рисунок 2)

WikipewA Burma

htarlAdqrh чгда irtrt rfTiMcffliAttbt ц

'"JTWt

Ш

т

5

«

а

6

I ■ J '1 V .> J ЛГ 14

i >,Vi: T'V> Т i'K I:" ''. ' ■ > .1 V W< : T i-\f'i

nrwtT| №1С ffl ■ J f 1 m

Рис. 2. Перенаправленная страница Мьянмы.

В Wikipedia имеется возможность устранения неоднозначности страницы (disambiguation page) для неоднозначных слов. На этой странице представляются списки других определений неоднозначных слов. Для того чтобы посмотреть другие определения неоднозначных слов возможен переход через ссылку. Например, machine(disambiguation) - это неоднозначная страница, на которой существует список разных определениях машины. Уникальные идентификаторы для disambiguation page представляет disambiguation слово в скобках. Например -Machine (disambiguation) page - это уникальный идентификатор для страницы disambiguation of Machine (рис. 3).

В Wikipedia существует межъязыковые ссылки, поэтому можно перейти одного языка к другому языку. Например - можно перейти от латинской страницы Machine к русской странице Машина.

Рис. 3. Страница Machine (disambiguation)

Предлагаемый Метод для измерения семантической связности между WSD и текстами

Включаются следующие шаги.

i. Предварительная обработка текста, извлечение предложений и понятий как n grams.

ii. Определение семантических аннотаций слов с использованием Wikipedia

iii. Устранение семантической неоднозначности слов WSD (senseval)

iv. Расчёт семантической связанности между однозначными словами N - grams на основе использования wordnet и wiki

v. Создание семантической матрицы для предложений, расчет семантической связанности между ними, на основе использования модели векторного пространства.

vi. Расчет семантической связанности между текстами (абзацами) на основе использования отношений между предложениями.

I. Предварительная обработка текста, извлечение предложений и понятий как n grams

На этом шаге производится извлечение предложений, на основе использования знаков пунктуации (.? , : ). Затем удаляются незначимые слова (the, a, is, although, and, etc) и специальные знаки (#,%,@,....). После этого осуществляется синтаксический разбор и извлечение n grams.S™ n grams имеют только фиксированную длину. Здесь n=1, 2, 3.

II. Определение семантических аннотаций слов с использованием Wikipedia

А. Wikipedia ссылка как семантические аннотации

В Wikipedia термы связывается со статьями на основе использования гиперссылок. Чтобы решить проблему неоднозначности возможно использовать эту гиперссылку, как семантическую аннотации. В результате эти гиперссылки будут адресовать к релевантным статьям. Значение неоднозначных слов зависит от их контекста. Например - неоднозначные слова -мышь, машина и мяч. Посмотрим следующие предложения из Wikipedia

1. Мыши (лат. Muridae) — семейство млекопитающих отряда грызунов.

2. Компьютерная мышь — одно из устройств ввода информации в компьютер.

3. «Мышь» — сверхтяжёлый немецкий танк.

Эти примеры предложений включают все

значения слова мышь. Но в первом предложении - мыши - это животные, во втором - это устройство ввода компьютера, а в третьем - это немецкий танк.

Возможен переход к соответствующей странице для этого неоднозначного слова (мыши) через гиперссылку (каждое из значений этого слова имеет гиперссылку).

Для того чтобы получить семантические аннотации неоднозначных слов, понадобиться извлечь их гиперссылки из Wikipedia и проанализировать совпадают ли значения этих слов и аннотации Wiki.

Однако определение списка других значений неоднозначных слов в устранениях неоднозначности страниц Wikipedia (Disambiguation page) не используются по двум причинам.

1) У неоднозначных слов при устранении неоднозначности страниц невозможно определение отношений синонимов и гиперссылок. Поэтому их не возможет связать с другими статями, когда при определении аннотациями не найдены уникальные идентификаторы. Например - Электронно-вычислительная машина (ЭВМ) - комплекс технических средств, в котором определены основные функциональные элементы. В этом предложении хотя ЭВМ имеет прямое отношение к машине, невозможно реализоваться аннотацию. Потому что между ними не существует никакого отношения синонимов в Wiki.

2) Трудности использования методов устранения неоднозначности страницы в автоматической системе, потому что в этих страницах разные значении слов отличается определениями идентификаторов страницы при устранениях неоднозначности страниц. Например - в иден-тификаторной странице слово «paper» определение представляет "Paper is a thin material produced by pressing together moist fibres of cellulose pulp derived from wood, rags or grasses, and drying them into flexible sheets" и в устранении неоднозначностей странице «Paper is a thin, flat material produced by the compression of fibres.» .

Поэтому мы не используем списки значений для устранения неоднозначности страниц как аннотации. Вместо этого мы анализируем ссылки, в которые включаются неоднозначные слова и используем эти ссылки как аннотации.

Для неоднозначных слов создание семантических отмеченные корпусов выполняется на следующих шагах

• Извлекаются образы от Wiki как ссылка или гиперссылка, или ссылка, в которую включаются неоднозначные слова. На основе этих сегментов выбирается абзацы. Создается список строк по абзацам.

• Извлекаются самые левые компоненты ссылок от слов, выбиравших абзацы и собираются метки для неоднозначных слов. Например, гиперссылка [[mathematicaljball]] -слово «mathematical» - это метка для слова «ball». У некоторых слов нет гиперссылки [ball]. В таким образом для слова [ball] - оно само служит как метка.

• Собираются метки как семантические слова и соединяется к одинаковым семантическим термам. Затем производится согласование метки и его соответствующих значений в Wordnet, чтобы создать семантический отмеченный корпус. В таблице 1 показано согласование Wiki аннотации и значении wordnet для слова «ball». Но здесь еще существуют проблемами. Некоторым метки нельзя прямо использовать как значении. Потому что некоторые слова неоднократно используются в метках. Например - метки «atmosphere of earth» и «atmosphere of Mars». У них есть общие значении «atmosphere». Но в разных метках. Поэтому надо занимается кластеризацией метки, чтобы уменьшить семантическое искажение данных. На приведенном выше примере - метки «atmosphere of earth» и «atmosphere of Mars» нельзя поставить под метками «atmosphere», потому что у них имеется общее знание.

Таблица 1

Значение для слова «<ball», на основе Wiki аннотации и wordnet

►А»тка Wihiœdl» {JvpiAtVw^tWik. Определение Wordnet

Bill (nvathematicil Clowd bai,open tail n-ballr Ьдег thtfl The ipace bounded by a sphere iptiere - (a »lid fijme bounded by a spherical surf«« [induiSne the ipate It encloses))

6*1 (Ллмоту) B*ll JAnjtomy) The (Mil ot lb* foot 1» padded portion ol Ux- Mfc between ihr toet and arch, underneath the heads of the metatarsal boo« a more о» 1ем rounded anfUKnfcal body Or пчи. "ihr ban at the base of the thumb'; "he stood on the balls of № feet"

Bai{dan« party) SUM JOiftcr party} The bail h a formal dance party. Social dance torn» a large part a1 darae - (a репу oí people auembled for dandng)

ВаЧ Fool ball) Football, firtval ball, American football, Boab.Md of plâv- AiwxUiiûo Football jhtoi fcwbill A Ball Inflated with air thai« uwd to pier one o< the various »ports knows ai football. football game - (my of various games played with a ball (round or oval] in which tw team try to Itlek о» carry or propel the bail into eath Other* 0Ml)

III. Устранение семантической неоднозначности слов WSD (senseval)

SENSEVAL- это система устранения семантической неоднозначности слов [13]. Для неоднозначных слов получаем набор семантических аннотаций базы данных, на основе использования Wikipedia. Задача системы - правильно сознавать значение слов, зависящих от контекста, в котором появляются слова. В этой статье выбран поход к обучению машины [9], управляю-

0 В

£

В

m ti H

щей устранением семантическии неоднозначности слов. Метод похож на (Ng and lee 1996) и метод Senseval 2 and 3 [10,11]. В SENSEVAL для ссемантических отмеченных корпусов используют знания из WordNet [6]. В нашей статье предлагается метод использующий Wikipedia (рсиунок 4), как ссемантические отмеченные корпусы вместо WordNet.

совпадает одну категории, то тоже у этого Ngrams терма имеет отношении ко всем статьям этой категории, так как Wiki имеет иерархическую систему [1] и семантические связанности между n grams термами используют WLM мето-ды[5]. Эти n grams термы включается в Wiki статьи, которые связываются с другими статьями по гиперссылке (рис. 5).

ы

а

s

«

а б

Рис. 4. Устранение ссемантической неоднозначности слов на основе WSD (senseval)

IV. Расчёт семантической связанности между однозначными словами N - grams на основе использования wordnet и wiki

Чтобы определить семантическую связанность необходимо рассчитывать меру сходства между однозначными n grams термами. Если у одной пары n grams термов существуют семантические связанности, то ее надо добавить в семантическую матрицу. Чтобы рассчитать отношение между термами используют WordNet и Wikipedia[12].

A. Расчет семантической связанности использующий WordNet

Использование метода согласования для определения связанности поняти1 между извлеченными n grams термами и понятиями Wordnet [1]. В Wordnet имеется набор синонимов, которые называются синсетом. Поэтому, когда надо определить синтактические отношение между понятиями возможно использовать WordNet. Поиск синтактические отношении понятий в Wordnet быстрее, чем Wikipedia. Если у n grams термов нет отношений к понятиям WordNet, то n grams термы надо переходить к Wiki базе данных.

B. Расчет семантической связанности использующий Wikipedia

Семантические связанности между термами в Wikipeida статях [2,3] использует не только ссылки на статьи, но и Wiki структуру категории^]. Потому n grams термы связываются и со статьями, и с категориями. Если один n grams терм совпадает с одной статей, то он тоже совпадает категориям этой статьи. И n grams терм

Рис. 5. Гиперссылка между статями в Wiki

Кода занимаются согласованием, используют всё эти ссылки. Поэтому качество согласование Wiki больше и лучшее чем WordNet.

V. Создание семантической матрицы для предложений, расчет семантической связанности между ними, на основе использования модели векторного пространства.

На этом шаге используем список однозначности N grams термов и отношения между ними и создаем семантическую матрицу. Чтобы узнать семантические связанности между предложениями, надо создать семантическую матрицу между N grams термами и предложениями. В семантической матрице каждый элемент в первой строке является одним из n-граммов одного предложения, и каждый элемент в любом столбце является одним из n-граммов другого предложения. Каждое число в матрице - это семантическая связанность соответствующих понятий. Эти отношения получены из WordNet и Wikipedia, поэтому такая матрица называется обогащенной семантической матрицей. Здесь надо обратить внимание на то, что если смысловая взаимосвязь между понятиями связанности, полученными WordNet, ниже порога оценки (в этой работе порог 0,2), то семантическая связанность принимается равной по вычислениям с Wikipedia. Этот метод делает наш подход быстрым, потому что вычисление семантической связи WordNet происходит быстрее, чем в Wikipedia. В таблице 2 показана обогащенная семантическая матрица предложений A и B. K - количество n grams - предложении А и w - собой количество n grams предложении В.

itt = (t = 1,.......К) п grams А и

bj=a = 1,.......w) n grams в.

Здесь надо внимание на неоднократность слов в n grams. Например- Владимир Владимирович и Владимир Владимирович Путин. Один n

grams (Владимир Владимирович) представляет собой части другого n grams (Владимир Владимирович Путин). Когда создается семантическая матрица необходимо использовать большие значение по семантическому измерению. Если использованы оба понятия (Владимир Владимирович и Владимир Владимирович Путин), то результат семантического измерения будет больше, чем действительное значение.

Таблица 2

Обогащенная семантическая матрица для предложений А и В

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

NB, NBt NH.i NHm Суммп средний kc N предявяодтю ц

1ЧА, ЯШМА,, ftН,} SimtAM,. Nttfi SimfJVA,. JVtfi) RimfWrti.WW«) WAMAiJt

NAt Stui(AM3. NB, ) Si atiNAf. NHj) SrnJI.V^ ,. NBt} Sim|7YA,JVft») УГА»ЛмЛ

НЛ3 SkmifMj, N&, > &1пЦМЛ,, NBa} SirafWAj, NB,} StaifMi/MW)

NAk SkmiNA«. NBti SimfNA%. NB2) SinifAM,, JVBt) SuniNAb.NIK,) WAm. J,

Сумма СрСДНПЙ »К-с К граи- Л К ЯЛны.л 1 —

В результате такой обработки получаем семантическую матрицу, которая представляет собой семантической вектор. В конце каждой строки и столбца представлен средний вес. Используя этот вес возможно рассчитывать семантическую связанностью между одной n grams одного предложения и другим предложением. Длина вектора должна быть равна сумме чисел n grams предложения. Длина любого вектора должна быть равна сумме количества предложений n grams (например, длина векторов для предложений A и B равна k + w). Тогда мы создайте векторы для каждого предложения следующим образом:

у = (№ii,(1ш ,1,4 to,11.(шыл), iml,(Юш,зд.....umi & ша,М)

)

и=(1шД]ш,1.1), ItaliiJMiiU), ш! ilMiAft.... шшмый

)

Для того чтобы рассчитать семантическую связанностью между векторами используем понятие косинус понятии вектора. В уравнение - 1 определяем косинус вектора А и В. Значение косинуса лежит в диапазоне между 0 и 1. Если значение косинуса близко к 0, то угол вектора близко к 90 и семантические связанности далеки друг от друга. Если значение косинуса близко к 1, то угол вектора близок к 0 и у них близкие семантические связанности.

a.b 2f=LflA

CoBawSimXA, В3 =

let lib i

VI. Расчет семантической связанности между текстами (абзацами) на основе использования отношений между предложениями.

На этом этапе необходимо рассчитать меру семантического отношения между текстами. Для этого надо рассчитать семантические связанности всех предложениях первого текста и всех предложениях второго текста, используя предыдущий шаг. Для измерения семантической связанности между текстами используется семантическая матрица, которая представляет отношения предложений (табл. 3). В этой матрице каждый элемент в первом строки является одним из предложений одного текста, а каждого элемента в первом столбце - одно из предложений другого текста. Каждое число в матрице - это измерение семантической связанности соответствующих предложений. Эти отношения, получены из предыдущего шага.

Таблица 3

Обогащеннуая семантическая матрица для текстов А и В, где - ПА- предложение текста А, ПВ- предложение текста В

ПЯ, ПВ, П B3 ПЙ, Сумма vpv<uiuii KV pCJUOQKClin Л К Текст В

n^t Stmt ПА,, ПА,» SimiiiM,. Ilfij> Suni; ПА | ,ПЯ|| SHtun^t.nflU) WA^j,

tMa Sur(ПЛ.. Sim(iu2. ire, > SiretnAj.nFi) WAliAtJl

HAj 8«т(Г1А3, ПЯ,) SimffM,. Jlflz> SimlllA..lief, I Sim4nA3.fi fl^r) WAIUtJI

ГМ, «ии(Г1А4. IIP, > SirofiM«. \\B/) Sirotl J10j)

Сумм |4',:iin(i ihiu1 рс.гюжски И к

После создания семантической матрицы каждый текст должен отображаться к векторной пространственной модели представленной вектором.

м=((ш,(Епвд №и,(шЗ ¿4 им,(ни ] до,.....тй,( ишм

, 1т 1( т\ |Ц, [шдо т! ш ,здшя ^ ми ^

Рис. 6. Семантические связанности

Следовательно, в конце любой строки и столбца, мы найдем максимум соответствующей строки или столбца, которые определяют семантическое отношения между одним предложением из одного

О 55 I» £

55 т П Н

о ы

а

из текстов и другим текстом. Длина любого вектора должна равна сумме числа текста. Тогда для вычисления сходства векторов, мы можем использовать косинус вектор.

Литература

1. Кластеризация документов на основе онтологии (https://my.pcloud.com/publink /show?code=XZCA477ZVGOTB74JsWQncywVqY MyI4 O6RVFX)

2. Milne and I.H. Witten, "An effective, low-cost measure of semantic relatedness obtained from Wikipedia links", in Proc. of AAAI08 Workshop on Wikipedia and Artificial Intelligence, Chicago, 2008.

3. S. Banerjee and T. Pedersen, "Extended gloss overlaps as a measure of semantic relatedness", in Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI-03), pp 805-810, 2003.

4. M. Strube and S.P. Ponzetto, "WikiRelate! Computing semantic relatedness using Wikipedia", in Proceedings of the 21st National Conference on Artificial.

5. D. Milne and I.H. Witten, "An effective, low-cost measure of semantic relatedness obtained from Wikipedia links", in Proc. of AAAI08 Workshop on Wikipedia and Artificial Intelligence, Chicago, 2008.

6. https://www.sketchengine.co.uk/wp-content/uploads/2015/04/1998-Senseval-Euralex.pdf)

7. Yarowsky. 1995. Unsupervised word sense disambiguation rivaling supervised methods. In Proceedings of ACL 1995, Cambridge.

8. H.T. Ng and H.B. Lee. 1996. Integrating multiple knowledge sources to disambiguate word sense: An examplar-based approach. In Proceedings of ACL 1996, New Mexico.

9. H.T. Ng, B. Wang, and Y.S. Chan. 2003. Exploiting parallel texts for word sense disambiguation: An empirical study. In Proceedings of ACL 2003, Sapporo, Japan.

10.Strube and S. P. Ponzetto. 2006. Wikirelate! computing semantic relatedeness using Wikipedia. In Proceedings of AAAI2006, Boston.

11.Adam Kilgarriff (ITRI,University of Brighton , Adam.Kilgarriff@itri.bton.ac.uk) SENSEVAL: An Exercise in Evaluating Word Sense Dismbigauation Programs

Elimination of semantic ambiguity of words. Forming of semantic relations between texts on the basis of using Wiki and WordNet Nay Lin, Kaung Myat Htoo

Kursk State University

This article presents a method for eliminating semantic ambiguity, in which Wiki and Wordnet are used to calculate the semantic connection between ambiguous words and texts. The presented method includes 3 stages. The first is the development of Semantic word annotations and processing based on the SENSEVAL method, the second is the representation of the sentence-document by the vector with the purpose of calculating the semantic links between words and the third is the use of the connection between the semantic sentences to calculate the semantic connection between the texts. In this article, we confirm that Wikipedia and Wordnet can be used as reliable semantic data sources. This article presents a method for eliminating semantic ambiguity, in which Wiki and wordnet are used to calculate the semantic connection between ambiguous words and texts.

Keywords: Ontology, semantic weight, Wikipedia, Wordnet,

SENSEVAL, WSD, semantic annotation References

1. Clustering documents based on the ontology (https://my.pcloud.com/publink/show? Code = XZCA477ZVGOTB74JsWQncywVqYMyI4 O6RVFX)

2. Milne and I.H. Witten, "An effective, low-cost measure of the

semantic re-latedness obtained from Wikipedia links", in Proc. of AAAI08 Workshop on Wikipedia and Artificial Intelligence, Chicago, 2008.

3. S. Banerjee and T. Pedersen, "Extended gloss overlaps as a

measure of semantic relatedness", in Proceedings of the International Joint Conference on Artificial Intelligence (IJCAI-03), pp. 805-810, 2003.

4. M. Strube and S.P. Ponzetto, "WikiRelate! Computing semantic related-ness using Wikipedia ", in Proceedings of the 21st National Conference on Artificial.

5. D. Milne and I.H. Witten, "An effective, low-cost measure of

semantic relatedness obtained from Wikipedia links", in Proc. of AAAI08 Workshop on Wikipedia and Artificial Intelligence, Chicago, 2008.

6. https://www.sketchengine.co.uk/wp-content/uploads/2015/04/1998-Senseval-Euralex.pdf)

7. Yarowsky. 1995. Unsupervised word sense disambiguation

rivaling su-pervised methods. In Proceedings of ACL 1995, Cambridge.

8. H.T. Ng and H.B. Lee. 1996. Integrating multiple knowledge

sources to disambiguate the word sense: An examplar-based approach. In Proceedings of ACL 1996, New Mexico.

9. H.T. Ng, B. Wang, and Y.S. Chan. 2003. Exploiting parallel

texts for word sense disambiguation: An empirical study. In Proceedings of ACL 2003, Sap-poro, Japan.

10. Strube and S. P. Ponzetto. 2006. Wikirelate! computing semantic relat-edeness using Wikipedia. In Proceedings of AAAI 2006, Boston.

11. Adam Kilgarriff (ITRI, University of Brighton, Adam.Kilgarriff@itri.bton.ac.uk) SENSEVAL: An Exercise in Evaluating Word Sense Dismbigauation Programs

5

«

a

6

Аннотация научной статьи по языкознанию и литературоведению, автор научной работы — Нэй Лин, Каунг Мьят Хту

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Нэй Лин, Каунг Мьят Хту