Научная статья на тему 'RANKING TEXT TONE'

RANKING TEXT TONE Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
41
10
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРИРОДНОМОВНі ТЕКСТИ / ТОНАЛЬНіСТЬ ТЕКСТУ / ЕМОЦіЙНИЙ ЗМіСТ / РАНЖУВАННЯ / СЕНТИМЕНТАНАЛіЗ ТЕКСТОВИХ ДАНИХ / СЕМАНТИКА ТЕКСТУ / NATURAL LANGUAGE TEXTS / THE TONE OF THE TEXT / EMOTIONAL CONTENT / RANKING / SENTIMENT АNАLYSIS / SEMANTICS OF THE TEXT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Homiak M.I., Karabin O.Y.

This article describes problem of analyzing text tone. Found out the meaning of "natural language texts" and "emotional content". Also, the article describes an algorithm that allows determining the emotional content of the lyrics. This article examines the various methods of analysis tone of natural language texts. As the main method of text data and syntactic links in the text used a combined analysis. This approach is used not only emotional meaning of each word, but also meaning of phrases of words. This allows you to rank text data for emotional content. Based on this was implemented algorithm, which determines the emotional content of natural language texts.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «RANKING TEXT TONE»

of the amplifier is further amplified in the voltage amplifier 11 with built-in filter that cuts the high-frequency interference and network (over 30 Hz).

Information is entered into the computer of the spectrograph through COM port (RS-232). On the monitor screen 12a shown the recorded spectra.

Also, spectra can be directly displayed on the XY recorder 12b, and recorded on graph paper. Turning the laser in a stand made with the toggle switch 17, the inclusion of AOPF performed using a toggle switch 18.

In this scientific and measuring complex set of spectral characteristics of the research was conducted, including spectrogram removed without the use of laser radiation and using AOPF.

The optical signal generated by the semiconductor laser, consisting of several transverse modes, through the microlens is entered into single-mode fiber.

As is known, in systems with wavelength division multiplexing applied several (the number of channels) single-frequency laser diodes emitting equidistant along the length of the radiation, with a difference of a few nanometers in the spectrum.

Thus, the apparent refractive index of the resonator has a group refractive index. Depending on the values X = 1,52 m, n and L = 200 - 500 microns, the interval between the modes is AX = 1,5 - 3 nm. This elementary calculation explains the regular line structure of the spectrum of the semiconductor laser (Figure 2). [2-3].

LITERATURE.

1. Radjabov TD, AM Nazarov, Davranbek DA, AA Simonov, Khakimov ZT, Pichko SV The device for the diagnosis and optimization of the spectral characteristics of optical fiber communication systems number IAP20090142 .// State Patent Office of the Republic of Uzbekistan "OFFICIAL BULLETIN" -Tashkent. 2010. №4 (108), pp 19-20.

2. T.D.Radzhabov, O.A.Kobildzhanov, V.V.Kurepin, S.V.Pichko. A method of forming an optical signal for fiber optic testing devices with ASU Uzbekistan Patent IDP 04 788 B, 2000.

3. A.Kozanne, J. Fleury, Mr. Maitre, M. Rousseau, optics and communication // Moscow, Because of the "Mir", 1984, 326327, 502 p.

РАНЖУВАННЯ ТЕКСТУ ЗА ТОНАЛЬШСТЮ

Хом'як Мар'яна Ieaniena

студентка, фiзико-математичний факультет, Тернотльський нацюнальний педагогiчний ушверситет

iMern Володимира Гнатюка Карабт Оксана Йосифiвна канд. пед. наук, доцент кафедри нформатики i методики и викладання Тернотльського педагогiчного утверситету iменi Володимира Гнатюка

RANKING TEXT TONE

Homiak M.I. student, department of physics and mathematic, Ternopil Volodymyr Hnatyuk National Pedagogical University

Karabin O.Y. PhD at Ternopil Volodymyr Hnatiuk National Pedagogical University,

Department of Computer Science and Methods of Its Teaching

АНОТАЦ1Я

Розглянуто питання аналiзу тональностi тексту. З'ясовано змкт понять «природномовш тексти» i «емоцшний змкт». Також у сmаmmi висвтленню питання щодо розробки алгоритму програми для визначення емоцшного змкту mексmiв. Уробоmi розглянуто рiзнi методи аналiзу mональносmi природно мовних mексmiв. При тому за основу до^д-ження було використано комбшований пiдхiд аналiзу текстових даних i синтаксичних зв'язшв у mексmi. При викори-стант даного тдходу враховуеться не лише емоцшний змкт окремих слiв, але i словосполучень. Це дозволяв ранжувати mексmовi дан за емоцшним забарвленням. На основi цього тдходу реалiзовано алгоритм, який дозволяв визначити емо-цшне забарвлення природномовних mексmiв.

ABSTRACT

This article describes problem of analyzing text tone. Found out the meaning of "natural language texts" and "emotional content". Also, the article describes an algorithm that allows determining the emotional content of the lyrics. This article examines the various methods of analysis tone of natural language texts. As the main method of text data and syntactic links in the text used a combined analysis. This approach is used not only emotional meaning of each word, but also meaning of phrases of words. This allows you to rank text data for emotional content. Based on this was implemented algorithm, which determines the emotional content of natural language texts.

Ключовi слова: природномовн тексти, тональшсть тексту, емоцшний змкт, ранжування, сенmименmаналiз текстових даних, семантика тексту.

Keywords: natural language texts, the tone of the text, emotional content, ranking, sentiment аnаlysis, semantics of the text.

Постановка проблеми. Одшею з важливих переваг ви-користання шформацшних технологш е можлив^ть ав-томатизованого аналiзу великих масивiв даних. Спектр

завдань, як ввдносяться до шформатизацп рiзних сфер життя, е надзвичайно широким i включае, зокрема, отри-мання шформацп з метою прийняття ршень, навчання,

розв'язання наукових та оргашзацшних задач тощо [1].

Ниш шформацшш технологiï застосовують практично у кожнш сферi i тому збiльшуeться необхiднiсть у ро-зробцi спецiалiзованого програмного забезпечення, що забезпечить автоматизовану обробку даних рiзного типу. Значна частина даних, що опрацьовуються, припадае саме на природно мовш тексти. Обробка природноï мови е важливою темою, про яку багато розмовляють не лише у наукових колах. Дана концепщя вважаеться основою для майбутнього розвитку штучного штелекту.

Серед найбшьш цiкавих i популярних методiв цього широкого наукового напрямку е один, який називаеться sentiment апа1уз1з, що в перекладi на означае «аналiз то-нальностi текстiв». Одним iз основних аспектiв дослщжен-ня текстових даних е оцшювання тональности або емо-цiйного змiсту тексту. Аналiз тональностi тексту - набiр методiв контент-аналiзу в комп,ютернiй лшгастищ, який призначений для автоматизованого виявлення в текстах певного емоцiйного змiсту тексту та його емоцшно забар-вленоï лексики.

Тональнiсть - це емоцшне ставлення автора висловлю-вання до деякого об'екту, шформащя про який виражена в текста. Емоцшна складова, виражена на рiвнi лексеми або певного комушкативного фрагмента, називаеться лексич-ною тональнiстю (або лексичним сентиментом). Тональ-нiсть цiлого тексту, що розглядаеться, можна визначити як функщю, яка е сумою лексичних тональностей складових (ств i речень) i правил за якими вони поеднаш у текста.

1снуе i шше визначення тональностi тексту - це пози-тивне, негативне або нейтральне забарвлення як цшого текстового документу, так i його окремих частин, яю ма-ють вiдношення до певних понять, таких як персони, ор-гашзацп, бренди тощо [1].

Аналопчш програмнi рiшення аналiзують текст лише за його позитивним вмятом i результати аналiзу е не точни-ми, тому такi програмш продукти використовують лише у деяких сферах. Проте, таку проблему можна виршити, якщо розширити спектр тональностей, яю може розрiзня-ти програма. Використання такого ршення може активно застосовуватись у багатьох сферах: маркетинг, психолопя, сощальш мережi тощо.

Огляд останшх дослiджень та публiкацiй.

Проблема аналiзу природномовних текстiв описуеться дослщниками та науковцями. Сарбасова А.Н., розглядала рiзнi методи аналiзу тональностi текстав, описала iснуючi програмнi додатки, яю сьогоднi використовують для сен-тимент-аналiзу, проаналiзувала результати дослiдження i методи покращення результатiв [5].

Науковцi Олександр Прохоров, Олександр Керимов розкрили питання використання автоматизованих систем сентимент-аналiзу та ï^ популярнiсть на ринку, здшснили детальний опис та сфери застосування, провели дослвд-ження щодо популярной! кожного додатку та його вар-тоста [6].

Олексш Соловйов описав алгоритм визначення емоцш-ного зм^ту речень та ранжування тексту за тональшстю. Таким чином, тональнiсть висловлювання визначаеться трьома компонентами: суб'ектом тональноста (хто висло-вив оцiнку), об'ектом тональноста (про кого або про що

висловлена оцшка) i власне тональною оцшкою (як оць нили). Автор показав важлив^ть використання модуля SentiFinder у программ який визначае три види тональ-ностi текстав (позитивну, негативну i нейтральну) щодо заданого об'екта тональностi [7].

Мета статта: розглянути методи аналiзу тональноста тексту, дослвдити особливостi iснуючих методiв сенти-мент-аналiзу природномовних текстiв, проаналiзувати методи для вдосконалення iснуючих програмних ршень, розглянути алгоритм розробки програми автоматизова-ного аналiзу емоцiйного зм^ту тексту, зробити аналiз от-риманих результатав.

Виклад основного матерiалу. Важливим завданням е розгляд та визначення сутноста базових понять у тональноста тексту.

Природномовними текстовими даними (текстом) е су-купшсть речень будь-якою природною мовою [1].

Емоцшний зм^т (тональшсть) - це певна емоцшна за-барвленiсть тексту, яка формуеться тональшстю його емоцшно забарвлених складових одиниць та правил !'х поед-нання [2], що визначае належшсть тексту до одше! з 4-х категорп, наприклад:

• радеть;

• страх;

• задоволешсть;

• агресiя.

Кожна з категорш мае перелiк ознак, за якими вона може бути щентифжована. Емоцшна забарвлешсть тексту визначаеться такими параметрами:

- терми (емоцшно забарвлеш слова), якi належать до конкретно! емоцшно!' категорп;

- ввдношення (зв'язки) мiж цими словами (термами) у текста та правила за якими вони поеднаш мiж собою [4].

Таю зв'язки носять синтаксично-семантичний характер i е неввд'емним елементом будь-якого речення природно!' мовою. Наявшсть таких ввдношень вщображаеться на емоцшнш забарвленостi всього тексту в цшому.

Аналiз тональностi тексту передбачае використання одного або деюлькох методiв, наприклад:

I. Методи, заснованi на правилах i словниках.

Д аний пщхвд характеризуеться тим, що текст аналiзуеть-ся на основi заздалегiдь складених тональних словниюв. Однак процес !х створення дуже трудомiсткий; основною проблемою е той факт, що одне i те ж слово в рiзних контекстах може мати рiзну тональнiстю. Це означае, що для адекватно!' роботи системи потрiбна скласти велику юль-кiсть правил - тому найчасташе системи аналiзу тональ-ностi тексту створюються з привязкою до певно!' предметно!' область

II. Методи, заснованi на теоретико-графових моделях.

У таких методах текст зображуеться у виглядi графа на

пiдставi того припущення, що деяю слова мають бiльшу вагу ^ отже, сильнiше впливають на тональшсть всього тексту. Шсля ранжування вершин графа слова класифжу-ються вщповвдно зi словником тональностi, де кожному слову присвоюеться певна оцшка («позитивне», «негативне» або «нейтральне»). Результат обчислюеться як сшввщ-ношення юлькоста слiв з позитивною оцшкою до юлькоста слiв з негативною оцшкою.

Ill. Методи, засноваш на машинному навчанш - з учителем i без.

Велик дат можуть надати ^тотну допомогу в навчанш нейронних мереж, яю також використовуються в аналiзi тональностi тексту. Причому, точнiсть ощнки тональностi таким способом зростае до 85% - принаймш, тако! цифри вдалося досягти вченим 3i Стенфорду. Принцип роботи програми простий: вона будуе дерево з ощнкою тональ-ностi кожного слова, кожно! фрази i всього тексту цiлком. Найщкавше: програма розумiе, що змiна порядку став змiнюе тональнiсть тексту. Можна припустити, що саме цей факт i забезпечуе таку високу точшсть ощнки тексту i дозволяе вважати нейронш мережi перспективним ш-струментом такого аналiзу.

Поставлена задача е задачею нечпко! класифжацп (ран-жування): потрiбно знайти ступiнь належностi вхвдних да-них до кожно! iз заздалегiдь заданих категорiй.

Алгоритм роботи створеного програмного продукту мае таю етапи:

Крок 1. Попереднш аналiз тексту

Перед будь-обробкою даних необхвдна попередня об-робка. У цш стадiй видаляються всi html теги, пунктуа-ци, символи. Дана операщя здiйснюеться за допомогою бiблiотеки python - «Веаий1и1 Soup». Також ва числа i по-силання в текста замшюються на теги [3].

У текст присутнi так зваш «стоп слова» - це част слова в мовi, якi в основному не несуть шяко! смислове наван-таження (напр., в англшськш мовi це такi слова як «the, а^ аbout ...»). Стоп слова видаляються за допомогою пакета Python ^tural Ьап§иа§е Toolkit (NLTK).

Шсля попередньо! обробки вихiдного тексту отримано наступне:

[Бiографiя, частина, майбутне, фшьм, пам'ять, вулиця, бачити, театр, орипнал] - тобто набiр слiв.

Крок 2. Подання у виглядi вектора

Уведений текст необхвдно представити у виглядi вектора з чисел, оскшьки комп'ютер краще опрацьовуе числовi данi. Для цього необхiдно скласти словник з уама словами або ж використати готовi словники, i замiнити слова з тексту шдексом в словнику.

Наприклад, нехай ^нують такi набори слiв:

1. [бiографiя, частина, майбутне]

2. [фшьм, пам'ять, вулиця]

3. [бачити, театр, орипнал]

Об'еднуючи все слова зi списку в один, створюеться ввд-сортований словник (базис вектор):

[бiографiя, частина, майбутне, фiльм, пам'ять, вулиця, бачити, театр, орипнал]

Замшюючи попередш вектора на iндекс слова в словнику буде наступне:

1. [1, 0, 1, 0, 0, 0, 1, 0, 0]

2. [0, 0, 0, 1, 1, 0, 0, 1, 0]

3. [0, 1, 0, 0, 1, 0, 0, 0, 1]

Таю вектори називаються «векторами властивостей» або ж «ТеаШгез vector».

У результата кожне текстове повщомлення мае свш вектор, який можна порiвнювати з шшими за допомогою стандартних вимiрювань, таких як Евклщова вщстань, ко-синусна вщстань тощо. Даний пiдхiд називаеться «мшок

слiв» або ж «Bag-Of-Word». Нижче фрагмент коду, який реaлiзовуe даний пщхщ.

from sklearn.feature_extraction.text import

CountVectorizer

# в пакета sklearn вже вбудований даний метод vectorizer = CountVectorizer(analyzer = "word", \ tokenizer = None, \ preprocessor = None, \ stop_words = None, \ max_features = 5000)

train_data_features = vectorizer.fit_transform(clean_train_ reviews) train_data_features = train_data_features.toarray()

Крок 3. Клaсифiкaцiя текстав

Алгоритм клaсифiкaцiй Random Forest використовуеть-ся для клaсифiкaцiй документiв в цьому експеримента. Алгоритм вже реaлiзовaний в пaкетi scikit-learn, тому по-трiбно лише перевiрити дaнi i вказати кiлькiсть дерев. Дaлi алгоритм виконуе завдання використовуючи навчальну вибiрку та зберiгaе всi необхiднi дат.

Висновки. На основi класичного тдходу до ранжуван-ня текстових даних розроблено модифжований алгоритм нечiткоi класифжацп природномовних текстових даних, який дозволяе бшьш точно визначати емоцiйне забар-влення остaннiх, нiж iснуючi алгоритми, а також робить мехашзм для управлшня кaтегорiями емоцiй (i^ додаван-ням та видаленням) бiльш гнучким. Подальше вивчення питання видаеться автору перспективним, осюльки ро-зроблений алгоритм може бути застосований як основа системи автоматизованого визначення емоцшного зм^ту природномовних текстових даних, яка може бути викори-стана при виршенш широкого спектру задач, зокрема, для комп'ютеризованого aнaлiзу впливу шформацп iз ЗМ1 на людей, aнaлiзу психоемоцiйного стану колективу у круп-них корпорaцiях тощо.

Використана лггература

1. Ландэ, Д.В. Интернетика. Навигация в сложных сетях: модели и алгоритмы [Текст] / Д.В. Ландэ, А.А. Снар-ский, И.В. Безсуднов. — M.: Либроком, 2009. — 264с.

2. Гаспаров, Б. М. Язык, память, образ. Лингвистика языкового существования [Текст] / Б. М. Гаспаров. — М.: Новое Литературное Обозрение,1996. — 352 с.

3. Archive.IS [Електронний ресурс]. — Режим доступу: http://archive.is/

4. ВААЛ [Електронний ресурс]. — Режим доступу : http://vaal.ru/

5. Сарбасова А. Н. Исследование методов сентимент-а-нализа русскоязычных текстов // Молодой ученый. — 2015. — №8. — С. 143-146.

6. Керимов А. Сентимент-анализ и продвижение в социальных медиа [Електронний ресурс] / А. Керимов, А. Прохоров. - 2012. - Режим доступу до ресурсу: http://www. moluch.ru/archive/88/17413/.

7. Соловьёв А. Сентимент анализ текста [Електронний ресурс] / Алексей Соловьёв. - 2015. - Режим доступу до ресурсу: http://eurekaengine.ru/blog/2015/07/10/sentiment-analysis/.

i Надоели баннеры? Вы всегда можете отключить рекламу.