Научная статья на тему 'Застосування методів побудови та аналізу мережі цитування для підготовки бібліографічного покажчика з методів персоналізації систем комп’ютерного навчання вимові'

Застосування методів побудови та аналізу мережі цитування для підготовки бібліографічного покажчика з методів персоналізації систем комп’ютерного навчання вимові Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
51
36
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
аналіз текстів / короткі тексти / тематичне моделювання / метод головних компонент / розріджена симетрична невід’ємна матрична факторизація / мережа цитування / аналіз головних шляхів / метод снігової кулі / порушення вимови / адаптація до особливостей вимови / оцінка вимови / text mining / short text document / topic modelling / principal component analysis / sparse symmetric nonnegative matrix factorization / citation network / main path analysis / snowball sampling / speech disorder / speaker adaptation / pronunciation assessment

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Г. А. Добровольський, Н. Г. Кеберле, П. П. Прохоренко

Розглядається застосування методу та інформаційної технології побудови і аналізу мережі цитування наукових публікацій з метою виявлення найбільш значущих статей в спеціальній області методи персоналізації систем комп'ютерного навчання вимові. Технологія комбінує контрольований метод снігової кулі і аналіз головних шляхів. Розмір снігової кулі регулюється за допомогою ймовірнісної тематичної моделі і симетричної дивергенції Кульбака-Лейблера для відбору схожих статей. Головні шляхи в мережі цитування відображають розвиток знань у дослідженій області.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

CITATION NETWORK CONSTRUCTION AND ANALYSIS METHOD APPLICATION TO BIBLIOGRAPHIC INDEX PREPARATION FOR PERSONALIZATION METHODS IN COMPUTER-AIDED PRONUNCIATION TRAINING

The paper presents an application of the method and correspondent information technology for construction and analysis of a citation network of scientific publications aimed at detecting the seminal papers in the particular domain of research personalization methods in computer-aided pronunciation training. The method relies on an initial set of seed papers arbitrarily selected by the domain(s) experts, adopts and combines probabilistic topic model, greedy restricted snowball sampling, and path analysis of the collected citation network. The topic model is built on the base of word-word co-occurrence probability with combination of sparse symmetric nonnegative matrix factorization and principal component approximation. Greedy restricted snowball sampling size is regulated with probabilistic topic model and symmetrized Kullback-Leibler divergence as measure of publication similarity. Path analysis allows further selection of the most important paths in the citation network and, hence, evaluation of the scientific value of each publication within the domain of interest. The method is robust with respect to the variations of initial set of seed papers, it preserves the scale-free property of a citation network, the restricted snowball sampling provides saturation of the publications set and reliable semantic distance between publications. The research domain selected to apply the method lies at intersection of two scientific domains speech disorders and computer-assisted pronunciation training, and as such it does not have a single seminal paper or review to read. The constructed citation network allows a scientist willing to get acquainted with the domain to have a reading plan consisting of the most relevant, important and recognized publications. The method applied can be used when a research domain is at intersection of several scientific domains, when a scientist joins a research field and does not have an experience in it, when a research domain is actively evolving and has been experiencing explosive growth in the number of publications

Текст научной работы на тему «Застосування методів побудови та аналізу мережі цитування для підготовки бібліографічного покажчика з методів персоналізації систем комп’ютерного навчання вимові»

УДК 004.8:004.912:001.811

Г.А. ДОБРОВОЛЬСЬКИЙ, Н.Г. КЕБЕРЛЕ, П.П. ПРОХОРЕНКО

Запорiзький нацюнальний ушверситет

ЗАСТОСУВАННЯ МЕТОД1В ПОБУДОВИ ТА АНАЛ1ЗУ МЕРЕЖ1 ЦИТУВАННЯ ДЛЯ П1ДГОТОВКИ Б1БЛ1ОГРАФ1ЧНОГО ПОКАЖЧИКА З МЕТОД1В ПЕРСОНАЛ1ЗАЦ11 СИСТЕМ КОМП'ЮТЕРНОГО НАВЧАННЯ

ВИМОВ1

Розглядаеться застосування методу та тформацшно! технологи побудови i анал1зу мережi цитування наукових публжацш з метою виявлення найбшьш значущих статей в спецiальнiй областi -методи персонал1зацИ систем комп'ютерного навчання вимовi. Технологiя комбтуе контрольований метод стгово! кyлi i анал1з головних шляхiв. Розмiр сшгово! кyлi регулюеться за допомогою ймовiрнiсноi тематично! моделi i симетрично! дивергенци Кульбака-Лейблера для вiдборy схожих статей. Головнi шляхи в мережi цитування вiдображають розвиток знань у до^дженш областi.

Ключовi слова: анал1з текстiв, коротк тексти, тематичне моделювання, метод головних компонент, розрiджена симетрична невiд'емна матрична факторизаця, мережа цитування, анализ головних шляхiв, метод сн^ово! кyлi, порушення вимови, адаптацiя до особливостей вимови, оцтка вимови.

Г.А. ДОБРОВОЛЬСКИЙ, Н.Г. КЕБЕРЛЕ, П.П. ПРОХОРЕНКО

Запорожский национальный университет

ПРИМЕНЕНИЕ МЕТОДОВ ПОСТРОЕНИЯ И АНАЛИЗА СЕТИ ЦИТИРОВАНИЯ ДЛЯ ПОДГОТОВКИ БИБЛИОГРАФИЧЕСКОГО УКАЗАТЕЛЯ ПО МЕТОДАМ ПЕРСОНАЛИЗАЦИИ СИСТЕМ КОМПЬЮТЕРНОГО ОБУЧЕНИЯ ПРОИЗНОШЕНИЮ

Рассматривается применение метода и информационной технологии построения и анализа сети цитирования научных публикаций с целью обнаружения наиболее значимых статей в специальной области -методы персонализации систем компьютерного обучения произношению. Технология комбинирует контролируемый метод снежного шара и анализ главных путей. Размер снежного шара регулируется с помощью вероятностной тематической модели и симметричной дивергенции Кульбака-Лейблера для отбора похожих статей. Главные пути в сети цитирования отражают развитие знаний в исследованной области.

Ключевые слова: анализ текстов, короткие тексты, тематическое моделирование, метод главных компонент, разреженная симметричная неотрицательная матричная факторизация, сеть цитирования, анализ главных путей, метод снежного шара, нарушения речи, адаптация к особенностям произношения, оценка произношения.

H. DOBROVOLSKYI, N. KEBERLE, P. PROKHORENKO

Zaporizhzhya National University

CITATION NETWORK CONSTRUCTION AND ANALYSIS METHOD APPLICATION TO BIBLIOGRAPHIC INDEX PREPARATION FOR PERSONALIZATION METHODS IN COMPUTER-

AIDED PRONUNCIATION TRAINING

The paper presents an application of the method and correspondent information technology for construction and analysis of a citation network of scientific publications aimed at detecting the seminal papers in the particular domain of research - personalization methods in computer-aided pronunciation training.

The method relies on an initial set of seed papers arbitrarily selected by the domain(s) experts, adopts and combines probabilistic topic model, greedy restricted snowball sampling, and path analysis of the collected citation network. The topic model is built on the base of word-word co-occurrence probability with combination of sparse symmetric nonnegative matrix factorization and principal component approximation. Greedy restricted snowball sampling size is regulated with probabilistic topic model and symmetrized Kullback-Leibler divergence as measure of publication similarity. Path analysis allows further selection of the most important paths in the citation network and, hence, evaluation of the scientific value of each publication within the domain of interest. The method is robust with respect to the variations of initial set of seed papers, it preserves the scale-free property of a citation network, the restricted snowball sampling provides saturation of the publications set and reliable semantic distance between publications.

The research domain selected to apply the method lies at intersection of two scientific domains - speech disorders and computer-assisted pronunciation training, and as such it does not have a single seminal paper or

review to read. The constructed citation network allows a scientist willing to get acquainted with the domain to have a reading plan consisting of the most relevant, important and recognized publications.

The method applied can be used when a research domain is at intersection of several scientific domains, when a scientist joins a research field and does not have an experience in it, when a research domain is actively evolving and has been experiencing explosive growth in the number of publications.

Keywords: text mining, short text document, topic modelling, principal component analysis, sparse symmetric nonnegative matrix factorization, citation network, main path analysis, snowball sampling, speech disorder, speaker adaptation, pronunciation assessment.

Постановка проблеми

Автоматична оцшка якост вимови е важливою частиною комп'ютерних систем навчання вимови Але у бвдьшосп випадшв так системи налаштованi на сприйняття мови типового учня, i чим бшьше вiдрiзняегься голос вiд вдеального, тим бвдьшою е систематична помилка в оцшках. На практицi так системи е занадто чутливими до шдиввдуальних особливостей голосу, що особливо помггао у випадках, якщо людиш притаманш карташсть, шепелявють, нерозб!рлива вимова [1]. Серйозш захворювання, так! як дизартр!я, зазвичай поеднують дешлька особливостей вимови. Один i3 шлях!в покращення точносл оцшки е врахування персональних особливостей вимови автоматичними системами оцшки вимови. Дослвдження [2,3] показало, що кожному окремому учню притаманно значно менше помилок вимови, н1ж якщо брати ус! можлив! помилки вимови уах учшв. Тому пвдвищення уваги автоматично! системи до персонального набору помилок набагато тдвищуе точшсть оцшки вимови. Дослвдження такого типу ввдноситься до перетину квдькох дисципл1н: комп'ютеризованi системи оцшки вимови (CAPT), логопедiя, обробка аудю сигналiв. Очевидно, не юнуе бiблiографiчних покажчикiв, що включали б ва значущi дослвдження з уах названих дисциплш, тому створення такого покажчика е актуальною задачею.

Яшсть аналiзу юнуючих публiкацiй у заданш областi дослiджень - проблема добре ввдома кожному науковцю. У процеа подготовки аналiзу потр!бно знайти публшацп, як1 мютять ва важливi науковi результати, видвдити серед них головш вде! та прослвдкувати !х еволюцш. Але як1сний пвдб!р л1тератури стикаеться !з перепонами: ввдсутнють досввду у заданш обласп досл1джень, мiждисциплiнарнi дослвдження, велика шлькють публiкацiй, якщо область знань активно розвиваеться.

1снують рiзноманiтнi способи автоматичного аналiзу юнуючих колекцш наукових публiкацiй: вивчення спiвавторства [4, 5], дослвдження ключових сл1в та тем [6], пошук та аналiз термшологи [7], обчислення р!зних статистичних показник1в[8], аналiз цитування [9, 8, 10]. Згадаш методи усшшно застосовуються до юнуючих, ретельно зiбраних та очищених даних, але зб!р нових репрезентативних колекцiй на задану тему залишаеться складним та актуальним завданням !з к1лькох причин. По-перше, юнуюч! колекци наукових статей не перекривають ва ввдом! напрямки дослвджень, по-друге, зб!р репрезентативного та водночас повного б!блюграф!чного покажчика у деяк1й обласп дослвджень потребуе тривало! роботи експерпв.

Мета дослiдження

Поточна робота присвячена застосуванню запропонованого авторами методу побудови та анал!зу мереж! цитувань [11, 12] до укладання б!блюграф!чного покажчика з теми "Методи персонал!заци систем комп'ютерного навчання вимовГ'.

Анал1з останшх дослiджень i публ1кац1й

Науков! статп, як1 стосуються деяко! обласп дослвджень, можуть бути знайдеш на основ! ключових сл!в за допомогою запилв до баз даних, в зб!рниках праць спещал!зованих конференцш або журнал!в [7], на основ! сшвавторства [4,5], на основ! автоматично! класифшацп текспв [6] та автоматично укладених онтологш [13], або методом сшгово! кул! [14, 15, 8, 9, 12].

Однак не для кожно! теми дослвдження юнуе ввдповвдна конференщя або журнал, онтологи та автоматична класифшащя текспв не показують науково! цшносп праць, науковщ можуть публшувати результати !з к1лькох тем. Пошук за ключовими словами [16] страждае ввд шдиввдуальних вар!ацш тезаурусу. Кожен науковець - як автор наукових публшацш, так i експерт, який укладае б!блюграф!чний покажчик, - використовуе лише частину термшв свое! предметно! обласп. I тому пошук на основ! ключових сл!в знаходить не ва науков! публшаци на задану тему.

Метод сшгово! кул! або "виб!рка за ланцюжком знайомств" широко використовуеться в соцюлогп [14, 17] для отримання репрезентативно! виб!рки !з важкодоступних популяцш. Останшм часом метод сшгово! кул! знайшов використання в б!блюграф!чних дослвдженнях [15, 8, 9, 11, 12], де застосовуеться для формування б!блюграф!чних покажчишв. Аналопчно до орипнального методу сшгово! кул!, статп, яш посилаються на початков! статп, формують перший р!вень, попм статп, яш посилаються на перший р!вень, формують другий р!вень i т.д. Ця техшка формуе мережу релевантних статей, побудовану навколо зародку, яка надае набагато бшьше можливостей для анал!зу, шж простий упорядкований перелш - результат пошуку за ключовими словами. Дослвдник контролюе к1льк1сть р!вшв, а також ввдб!р публшацш для

наступного pîbhh сшгово1 кулг Було показано [18], що мереж! цитування е безмасштабними, а тому у бiльшостi випадшв достатньо зiбрати снiгову кулю трьох рiвнiв [4].

Вiдбiр публiкацiй для наступного piBra снiговоï кулi виконувався за допомогою Google PageRank [15, 8], косинусноï мipи схожостi [9], iмовipнiсноï статистичноï моделi [11, 12]. Також можливим е застосування методiв машинного навчання i3 вчителем [19]. Кандидатами на мipу впливовостi публжацш е тpадицiйнi показники: iндекс цитування та iндекс Гipша [20], кшькють шляхiв цитування [21].

1ндекс Гipша для автоpа к1льк1сно доpiвнюе числу його статей, шлькють посилань на яш у базах даних доpiвнюе або пеpевищуе значення iндексу Гipша. 1ндекс Гipша е к1льк1сною хаpактеpистикою пpодуктивностi вченого за весь œp^ науковоï дiяльностi, i тому вш не може бути викоpистаний для оцшки впливу однiеï науково1' публжаци на pозвиток окpемоï областi знання.

1ндекс цитування - пpийнята в науковому свiтi мipа значущостi науково1' pоботи будь-якого науковця або наукового колективу [22]. Величина iндексу цитування визначаеться шльшстю посилань на публжацш, або на пpiзвище автоpа в шших джеpелах. PageRank [23] - амейство алгоpитмiв оцiнки важливостi веб-стоpiнок, як1 вpаховують як кiлькiсть посилань на документ, так i вагу документа, яш посилаються на задану веб-стоpiнку. Звичайно PageRank та шдекс цитування обчислюються для всiх пpоiндексованих документiв, тому 1'х викоpистання ^модить до завищено1' оцiнки класичних pобiт, довiдникiв, пiдpучникiв, як1 стосуються не обpаноï теми, а сум1жних областей знань.

Пеpспективними для селекцй' е методи, що сп^аються на змют публiкацiй. Основною вдеею таких пiдходiв е поpiвняння кандидатiв на включення до снiговоï кул1 iз статтями, що складають заpодок. Для поpiвняння викоpистовуються подходи застосування косинусно1' мipи схожостi [9], piзноманiтнi мipи схожосп pядкiв [24] та iмовipнiснi статистичш моделi [11, 12]. Пеpший шдхвд викоpистовуе вектоpну модель документа та поpiвнюе множини слiв у двох текстах, доугий спосiб вимipюе схожють написания, тpетiй викоpистовуе один iз piзновидiв тематичного моделювання [25]. Тематичш модел1 дозволяють поpiвнювати змiст текспв, вpаховувати синонiми та виявляти зв'язки мiж теpмiнами.

Ще одним способом вiдбоpу найважливiших документiв iз уже зiбpаноï колекцiï публiкацiй е анал1з от^иманох' меpежi цитування - напpямленого гpафа, у якому вузлами е публжаци, а pебpами - посилання з однiеï публiкацiï на шшу. Аналiз основного шляху, впеpше запpопонований Гуммоном i Доpiаиом [21], частково автоматизований засобами пpогpамного пакета Pajek [26] та повнiстю автоматизований одним iз автоpiв статтi [27], виявляе найбiльш значимi ланцюжки цитувань. Спочатку для кожного посилання обчислюеться кшькють шляхiв, як1 ^охол^^ чеpез нього, а попм вiдбиpаються посилання iз найбiльшою к1льк1стю шляхiв. Метод застосовний до будь-якоï дiяльностi людини, яка може бути пpедставлена у виглядi напpямленого гpафа: для ввдстеження шляхiв потоку знань або тpаектоpiй pозвитку галузi науки i технiки за допомогою бiблiогpафiчних цитат або патентних цитат; до судових piшень, щоб ввдстежити змiну юpидичних висновк1в; шд час укладання бiблiогpафiчних покажчик1в [28, 29, 30, 31, 10, 15, 8].

Застосований у поточнш pоботi метод збоpу бiблiогpафiчного покажчика [12] поеднуе в однiй iнфоpмацiйнiй технологи метод снiговоï кулi, тематичне моделювання та анал1з меpежi цитування методом тдоахунку шляхiв, що дозволяе автоматизувати пpоцес складання бiблiогpафiчних покажчик1в i от^имати незмiщений повний i стшкий пеpелiк лiтеpатуpи на задану тему.

Викладення основного матерiалу дослiджень Метод побудови та аналiзу мережi цитування

Загальна послiдовнiсть методу обмеженоï снiговоï кулi [32, 12] мiстить наступш кpоки:

1. Збip початковоï множини публiкацiй - заpодку вибipки - i ïï додаваиия до чеpги нульового piвия.

2. Iтеpацiï звичайного алгоpитму снiговоï кулi з метою збоpу текстiв для побудови тематичноï моделi. Для n е= 0, 1, 2, 3 виконуються наступнi кpоки:

2.1 вибipка поpцiï публiкацiй iз n-ï чеpги;

2.2 заваитажения публiкацiй, якi посилаються на вибpану поpцiю;

2.3 завантаження публiкацiй, на як1 посилаються статп iз вибpаиоï поpцiï;

2.4 додавання всiх завантажених публiкацiй у (n + 1)-у чеpгу.

3. Ствоpення тематичноï моделi на основi завантажених на попеpедньому кpоцi публiкацiй:

3. 1 от^имання заголовков та анотацш всiх документiв;

3.2 pоздiлення всiх заголовков та аиотацiй на pечення;

3.3 ствоpення словника теpмiнiв, який мiстить всi знайденi у pеченнях iменники та пpикметники;

3.4 утвоpення iз теpмiнiв, як1 зустpiчаються в одному pеченнi, всiх можливих паp та пiдpахунок 1х кшькосп з метою оцiнки сумiсноï ймовipностi;

3.5 знаходження стоп-слiв, хаpактеpних для пpедметноï областi, та виключення 1х з подальшого pозгляду;

3.6 виконання pозpiдженоï симетpичноï невiд'емноï фактоpизацiï матpицi сумiсноï ймовipностi [33] для визначення паpаметpiв тематичноï моделi;

3.7 вiдобpаження кожиоï iз статей заpодку вибipки у вектоp ймовipностей тем.

4. Виконання пакетного завантаження методом обмежено! сшгово! култ для n е= 0, 1, 2, 3

4.1. виб!рка порци публiкацiй i3 n-! черги;

4.2. завантаження публжацш, як1 посилаються на вибрану поpцiю;

4.3. завантаження публжацш, на як1 посилаються статп i3 вибрано! поpцiï;

4.4. перетворення кожного завантаженого документа на мшок слiв та стемiнг;

4.5. вщображення кожно! iз завантажених статей у вектор ймовipностей тем;

4.6. обчислення мipи вiдмiнностi мiж статтями iз зародку вибipки та завантаженими статтями;

4.7. додавання в (n + 1)-у чергу тих завантажених публжацш, як1 е достатньо близькими до зародку вибipки, у чеpзi зберпаються назва, анотацiя, посилання та ймовipностi тем для кожно! статтi.

5. Аналiз отримано! мереж1 цитування

5.1 визначення ваги кожного посилання та документа методом тдрахунку шляхiв пошуку;

5.2 вибip найвагомiших глобальних шляхiв у мереж1 цитування.

Результатом анал1зу е скорочена мережа цитування, яка мютить тiльки найважливiшi науковi публшацп з обрано! теми.

Укладання бiблiографiчного покажчика

Збip початково! множини публжацш - зародку вибipки - вщбувався за допомогою пошуку за ключовими словами "PERSONALIZATION IN COMPUTER-AIDED PRONUNCIATION TRAINING" в базi наукових публжацш SemanticScholar. 1з знайдених публiкацiй було обрано 20 статей, яш здалися пiдходящими за тематикою, наприклад [3, 35, 36, 38, 53, 54, 60, 65]. Простий метод сшгово! кулi завантажив 65035 анотацш та заголовков статей, на основi яких було складено словник об'емом 10453 термшв, iз яких 7348 були позначенi як piдкiснi слова i 62 - як специфiчнi для зiбpаних текстiв стоп-слова. У скорочений словник потрапили 3045 теpмiнiв, яш мiстять 95% всiх слiв у зiбpанiй колекцп. До piдкiсних сл1в потрапили всi помилковi теpмiни та рвдшсш словосполучення. Стоп-словами виявились характерш для предметно! областi теpмiни "operation", "major", "properties", "computation", "processing", "particular", "number", "addit", "details" i т.д. Пакетне завантаження методом обмежено! сшгово! кулi дозволило створити мережу цитування iз 466 публiкацiй, у яшй було знайдено 50 найголовнiших шляхiв цитування, як! проходять через 43 статп, що i складають бiблiогpафiчний покажчик.

AH&ttiî бiблiографiчного покажчика

Було проведене широке дослiдження дизартрп, яка зазвичай мютить бшьшють дефектiв вимови [1]. Системи автоматичного розшзнавання мови (САРМ), яш спpямованi на "розумшня" дизартрично! вимови можуть бути згруповаш за наступними напрямками: коpекцiя звукового сигналу, використання знань про артикуляцш, використання фонолопчних особливостей мови, моделювання вимови, а також адаптацiя лексичних, акустичних та математичних моделей. Нами також були виявлеш дешлька сум!жних областей дослiджень, як! пов'язанi з адаптащею до дизартрично! вимови.

Роботи, в яких застосовуються знання про артикуляцш були розглянуп в роботах [2, 34-38]. В [2] описуеться обчислювальна модель вимови людини, яка спроможна вловлювати ефекти вщ найменших акустичних ввдмшностей при розшзнаванш вимови. САРМ з акустичною моделлю, що базуеться на субфонетичних частинах i багатьох фонолопчних особливостях була запропонована в [34]. Баесова мережа, що застосовуеться для розшзнавання послщовностей фонем розглянута в [35]. Рекурентш нейронш мереж! та нейронш мереж! прямого поширення, а також рад!ально базоваш та послщовно базоваш ошрш вектори для розшзнавання дизартрично! вимови було запропоновано в [36]. Емшричш знання з голосового тракту при дефектах вимови, таких як дизартрична вимова, були дослвджеш в [37]. 1нверс!я ввд акустично! складово! до артикуляцшно! для оцшки положення голосового тракту, використовуючи нелшшну систему Хаммерштейна була запропонована в [38].

Про адаптацш математичних моделей було звгговано в [39-49], починаючи з обчислення мшмуму залишку передбачення [39]. Приховаш Марковськ модел! (Hidden Markov Models, НММ) були використаш для декомпозицп сигнал!в в [40]. Адаптащя сшкера, що базуеться на прихованих Марковських моделях неперервно! щлъносп (CDHMM), де параметр! модел! сформульоваш як Баесова навчальна процедура, дослщжена в [41]. НММ для розшзнавання !зольованих сл!в у автоматичнш модел! з великою шльшстю вар!ацш вимови було розглянуто в [42]. У [43] була презентована стратепя адаптаци, яка базуеться на кусково-лшшнш функцп, параметрами яко! е характеристики сшкера та характеристики зразкового сшкера. Метод максимально! правдопод!бносп лшшно! регреси адаптаци сшкера для CDHMM була запропонована в [44]. Проблема з шльшстю даних для адаптаци була виршена в [45], за допомогою техшки стриманого оцшювання для модел! Гаусово! сумгш. Акустичне моделювання для САРМ за допомогою лшшно! динам!чно! модел!, тобто шдвиду модел! простору сташв запропоновано в [46]. Адаптащя до сшкер!в з! спастичною дизартр!ею шляхом використання ПММ та методу опорних вектор!в розглянута в [47]. Математичне моделювання також використовуеться для виправлення помилок в розшзнаванш дизартрично! вимови, як показано у [48], де перетворювач вагових коефщенпв, що базуеться на контекст! вимови слугуе цш цш. У [49] був наданий огляд дешлькох математичних шдход!в до адаптацi! розшзнавання вимови.

Методи адаптаци звуку були розглянуп в [50-54]. Спочатку дослвдження фокусувалися на виявленш та зменшеннi фонового шуму [50]. В [51] було взято до уваги виявлення рiзнорiдних шумiв. Метод представлення звуково! форми мови в термшах абстрактних, лiнгвiстичних вiдмiнностей для отримання множини дискримiнацiйних ознак для подальшого використання в мовi було представлено в [52]. Перетворення звуково! хвилi спiкера з дефектами вимови в бшьш зрозумiлий для слухачiв вид був представлений у [53]. Використання вирiвнювання для заходження довгих пауз та застосування iнтервалiв цих пауз, як опорних точок було запропоновано в [54].

Рiзноманiтнi акустичш методи, методи моделювання вимови, методи лексично! адаптаци з використанням фонолопчних особливостей та комбiнованi методи були розглянуп нижче. Акустичне та лексичне моделювання дизартрично! вимови було використано в [55]. Акустична адаптащя разом зi знаннями про артикуляцш були використаш для пристосування артикуляцшно! динамiки в розпiзнаваннi мови[3]. Матриця неточностей та словник звуков були використаш в акустичнш адаптацп' та артикуляцшних знаннях у [56]. Принципи подолання проблеми пiдготовки бази зразк1в та архитектура системи розпiзнавання вимови в системi з великим словниковим запасом були описаш в [57]. Фонолопчш властивостi були розглянутi в [58], де була запропонована нейронна мережа для !х знаходження. У [59] було розглянуте розпiзнавання мови шляхом фонетично розмiчених складiв для встановлення ефективносп використання фонетичних особливостей у розшзнаванш фонем. Особлива увага була придшена базам зразк1в вимови, серед яких TORGUS [60], база дизартрично! вимови Nemours[61], AVICAR - аудiовiзуальна база зразк1в записаних в автомобш [62] та DARPA - база одше! тисячi слiв на тематику менеджменту [63]. На кшець в [64-65] був розглянутий метод шдбору спiкерiв для найбiльш правильного тренування акустично! моделi дизартрично! вимови.

Висновки

Робота показуе практичне застосування запропоновано! рашше iнформацiйно! технологи автоматичного створення бiблiографiчних покажчикiв до теми "Методи персоналiзацi! систем комп'ютерного навчання вимовГ'. Перевагою методу е автоматизацiя процесу складання перелiку публiкацiй: отримуючи пошуковий запит у виглядi вибраних вручну зразк1в публiкацiй, вiн створюе скорочену мережу цитування, яка мiстить найважливiшi науковi публiкацi! з обрано! теми. Основними компонентами технологи е ймовiрнiсне тематичне моделювання, вдосконалений метод сшгово! кулi та аналiз отримано! мереж! цитування.

В результат отримано та проаналiзовано перелiк публiкацiй з методiв персоналiзацi! систем комп'ютерного навчання вимовг Для адаптаци застосовуються знания про артикуляцш, можлив! варiацi! фонем та складiв сама адаптацiя виконуеться або шляхом змши математичних моделей - переважно прихованих Маркiвських моделей, Баеавських або нейронних мереж, або трансформащею вхадного сигналу. Особлива увага була придшена базам зразшв вимови. Майже вс методи адаптацi! перевiрялися на дизартричнш вимов! - як на крайньому випадку порушення усного мовлення.

Список використаноТ лiтератури

1. Gifford M. F. Speech defects and disorders // California and western medicine. — 1926. — Vol. 24, №. 1.

— P. 72.

2. Scharenborg O. Towards capturing fine phonetic variation in speech using articulatory features / O. Scharenborg, V. Wan, R.K. Moore // Speech Communication. — 2007. — Vol. 49, №. 10-11. — P. 811-826.

3. Improving speech recognition for children using acoustic adaptation and pronunciation modeling. / Prashanth Gurunath Shivakumar, Alexandras Potamianos, Sungbok Lee, Shrikanth Narayanan // WOCCI.

— 2014. — P. 15-19.

4. Newman M. E. The structure of scientific collaboration networks / M. E. Newman // Proceedings of the national academy of sciences. — 2001. — Vol. 98, №. 2. — P. 404-409.

5. Newman M. E. Coauthorship networks and patterns of scientific collaboration / M. E. Newman // Proceedings of the national academy of sciences. — 2004. — Vol. 101, №. suppl 1. — P. 5200-5205.

6. A new technique for building maps of large scientific domains based on the cocitation of classes and categories / Félix Moya-Anegón, Benjamín Vargas-Quesada, Victor Herrero-Solana et al. // Scientometrics.

— 2004. — Vol. 61, №. 1. — P. 129-145.

7. Ontologies of time: Review and trends. / Vadim Ermolayev, Sotiris Batsakis, Natalya Keberle et al. // International Journal of Computer Science & Applications. — 2014. — Vol. 11, №. 3. — Р. 57-115.

8. Mapping the historical development of physical activity and health research: A structured literature review and citation network analysis / Andrea Ramirez Varela, Michael Pratt, Jenine Harris et al. // Preventive medicine. — 2018. — Vol. 111. — P. 466-472.

9. Ahad A. Navigation through citation network based on content similarity using cosine similarity algorithm / A. Ahad, M. Fayaz, A. S. Shah // Int. J. Database Theory Appl. — 2016. — Vol. 9, №. 5. — P. 9-20.

10. Data envelopment analysis 1978-2010: A citation-based literature survey / John S Liu, Louis YY Lu, Wen-Min Lu, Bruce JY Lin // Omega. — 2013. — Vol. 41, №. 1. — P. 3-15.

11. Érdi P. Patent citation network analysis: Topology and evolution of patent citation networks /P. Érdi // Artificial Neural Networks and Machine Learning - ICANN 2016, Proceedings of the 25th International Conference on Artificial Neural Networks, Lecture Notes in Computer Science, Vol. 9886. —Springer. — 2016. — P.543.

12. Dobrovolskyi H. Collecting the seminal scientific abstracts with topic modelling, snowball sampling and citation analysis / H. Dobrovolskyi, N. Keberle // CEUR Workshop Proceedings. — 2018. — Vol. 2015. — P. 179-192.

13. Osborne F. Klink-2: integrating multiple web sources to generate semantic topic networks / F. Osborne, E. Motta // The Semantic Web - ISWC 2015 (Part 1) . — Springer. — 2015. — Vol. 9366. — P. 408-424.

14. Biernacki P. Snowball sampling: Problems and techniques of chain referral sampling / P. Biernacki, D. Waldorf // Sociological methods & research. — 1981. — Vol. 10, №. 2. — P. 141-163.

15. Lecy J. Representative literature reviews using constrained snowball sampling and citation network analysis [Електронний документ] /J. Lecy, K. Beatty // SSRN eLibrary. — 2012. — Режим доступу до ресурсу : https://ssrn.com/abstract=1992601.

16. Petticrew M. Planning and conducting systematic reviews /M. Petticrew, S. Gilbody // Health Psychology in Practice. — 2009. — P. 150-179.

17. Heckathorn D. D. Comment: Snowball versus respondent-driven sampling // Sociological methodology. — 2011. — Vol. 41, №. 1. — P. 355-366.

18. de Solla Price D. J. Networks of scientific papers // Science. — 1965. — P. 510-515.

19. Valenzuela M. Identifying meaningful citations / M. Valenzuela, V. Ha, O. Etzioni // Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. — 2015.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

20. Hirsch J. E. An index to quantify an individual's scientific research output / J. E. Hirsch // Proceedings of the National academy of Sciences. — 2005. — Vol. 102, №. 46. — P. 16569-16572.

21. Hummon N. P. Connectivity in a citation network: The development of dna theory / N. P. Hummon, P. Dereian // Social networks. — 1989. — Vol. 11, №. 1. — P. 39-63.

22. Сухий О. Л. Методичш рекомендацп "Алгоритми пошуку в шформацшних системах" [ Електронний ресурс] / О.Л. Сухий, В.М.Мшенш, В.М.Тарадайшк. // 1нститут обдаровано! дитини НАПН Укра!ни — Режим доступу до ресурсу : http://biblos.iod.gov.ua/docview.php?doc_id=2613.

23. The PageRank citation ranking: Bringing order to the web (Technical Report) / L. Page, S. Brin, R. Motwani, T. Winograd // Stanford InfoLab. — 1999.

24. Concordance Between the Findings of Epidemiological Studies and Randomized Trials in Nutrition: An Empirical Evaluation and Citation Analysis. Appendix B: Details on the construction of citation graphs / Denish Moorthy, Mei Chung, Jounghee Lee et al. // Technical Review, №.17. — Vol.6. — (Prepared by the Tufts Medical Center Evidence-based Practice Center under Contract №. 290-2007-10055-I.) AHRQ Publication №.13 -EHC067-EF. Rockville, MD: Agency for Healthcare Research and Quality, May 2013.

25. Vorontsov K. Tutorial on probabilistic topic modeling: Additive regularization for stochastic matrix factorization / K. Vorontsov, A. Potapenko // Communications in computer and information science. — 2014. — Vol. 436. — P. 29-46.

26. Batagelj V. Efficient algorithms for citation network analysis. [Електронний ресурс] / V. Batagelj // Cornell University Library — 2003. — Режим доступу до ресурсу : https://arxiv.org/abs/cs/0309023.

27. Кучерян К. М. Реалiзацiя алгоритму щдрахунку шляхiв пошуку для аналiзу мережi цитування / К.М. Кучерян, Г.А. Добровольський // Збiрка тез доповвдей Дев'ято! Всеукрашсько!, шютнадцято! репонально! науково! конференцп молодих дослвднишв «Актуальш проблеми математики та шформатики» Запорiжжя / ЗНУ. — 2018. — P. 46.

28. Knowledge flows - Analyzing the core literature of innovation, entrepreneurship and science and technology studies / Samyukta Bhupatiraju, Onder Nomaler, Giorgio Triulzi, Bart Verspagen // Research Policy. — 2012. — Vol. 41, №. 7. — P. 1205-1218.

29. Calero-Medina C. Combining mapping and citation network analysis for a better understanding of the scientific development: The case of the absorptive capacity field / C.Calero-Medina, E.C. Noyons // Journal of Informetrics. — 2008. — Vol. 2, №. 4. — P. 272-279.

30. Colicchia C. Supply chain risk management: a new methodology for a systematic literature review / C. Colicchia, F. Strozzi // Supply Chain Management. — 2012. — Vol. 17, №. 4. — P. 403-418.

31. Mapping the multidisciplinary field of public health services and systems research / Jenine K. Harris, Kate E. Beatty, Jesse D. Lecy et al. // American Journal of Preventive Medicine. — 2011. — Vol. 41, №. 1. — P. 105-111.

32. Dobrovolskyi H. Probabilistic Topic Modelling for Controlled Snowball Sampling in Citation Network Collection / H. Dobrovolskyi, N. Keberle, O. Todoriko //Communications in Computer and Information Science. — 2017. — Vol. 786. — pp. 85-100.

33. Dobrovolskyi H. Sparse symmetric nonnegative matrix factorization applied to face recognition / H. Dobrovolskyi, N. Keberle, Y. Ternovyy // 2017 9th IEEE International Conference on Intelligent Data Acquisition and Advanced Computing Systems: Technology and Applications (IDAACS). — 2017. — P. 1042-1045.

34. Metze F. Discriminative speaker adaptation using articulatory features / F. Metze // Speech Communication. — 2007. — Vol. 49, №. 5. — P. 348-360.

35. Rudzicz F. Applying discretized articulatory knowledge to dysarthric speech / F. Rudzicz // 2009 IEEE International Conference on Acoustics, Speech and Signal Processing. — 2009. — P. 4501-4504.

36. Rudzicz F. Phonological features in discriminative classification of dysarthric speech / F. Rudzicz // Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on / IEEE.

— 2009. — P. 4605-4608.

37. Rudzicz F. Articulatory knowledge in the recognition of dysarthric speech / F. Rudzicz // IEEE Transactions on Audio, Speech, and Language Processing. — 2011. — Vol. 19, №. 4. — P. 947-960.

38. Rudzicz F. Using articulatory likelihoods in the recognition of dysarthric speech / F. Rudzicz // Speech Communication. — 2012. — Vol. 54, №. 3. — P. 430-444.

39. Itakura F. Minimum prediction residual principle applied to speech recognition / F. Itakura // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1975. — Vol. 23, №. 1. — P. 67-72.

40. Varga A., Moore R. Hidden markov model decomposition of speech and noise / A. Varga, R. Moore // International Conference on Acoustics, Speech, and Signal Processing, ICASSP-90. — IEEE. — 1990. — P. 845-848.

41. Lee C.-H. A study on speaker adaptation of the parameters of continuous density hidden markov models /

C.-H. Lee, C.-H. Lin, B.-H. Juang // IEEE Transactions on Signal Processing. — 1991. — Vol. 39, №. 4.

— P. 806-814.

42. Deller Jr J. On the use of hidden markov modelling for recognition of dysarthric speech / J. Deller Jr., D. Hsu, L. J. Ferrier // Computer Methods and Programs in Biomedicine. — 1991. — Vol. 35, №. 2. — P. 125-139.

43. Robust speaker adaptation using a piecewise linear acoustic mapping / Jerome R Bellegarda, Peter V de Souza, Arthur J Nadas et al. // International Conference on Acoustics, Speech, and Signal Processing, ICASSP-92. — IEEE. — Vol. 1. — 1992. — P. 445-448.

44. Leggetter C. J. Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models / C. J. Leggetter, P. C. Woodland // Computer speech & language. — 1995. — Vol. 9, №. 2. — P. 171-185.

45. Digalakis V. V. Speaker adaptation using constrained estimation of gaussian mixtures / V. V. Digalakis,

D. Rtischev, L. G. Neumeyer // IEEE Transactions on speech and Audio Processing. — 1995. — Vol. 3, №. 5. — P. 357-366.

46. Frankel J. Linear dynamic models for automatic speech recognition : PhD thesis / Frankel J. — University of Edinburgh — 2004. — 355 p.

47. Hmm-based and svm-based recognition of the speech of talkers with spastic dysarthria / Mark Hasegawa-Johnson, Jon Gunderson, Adrienne Perlman, Thomas Huang // International Conference on Acoustics, Speech and Signal Processing, ICASSP 2006. — IEEE. — Vol. 3. — 2006. — P. III-III.

48. Seong W. K., Park J. H., Kim H. K. Dysarthric speech recognition error correction using weighted finite state transducers based on context-dependent pronunciation variation // Lecture Notes in Computer Science. — 2012. — Vol. 7383. — P. 475-482.

49. Shinoda K. Speaker adaptation techniques for automatic speech recognition / K. Shinoda // Proceedings APSIPA ASC. — 2011.

50. A. Speech recognition using noise-adaptive prototypes /A. Nadas, D. Nahamoo, M. A. Picheny // IEEE Transactions on Acoustics, Speech, and Signal Processing. — 1989. — Vol. 37, №. 10. — P. 1495-1503.

51. Hermansky H. Rasta processing of speech / H. Hermansky H., N. Morgan // IEEE transactions on speech and audio processing. — 1994. — Vol. 2, №. 4. — P. 578-589.

52. Eide E. Distinctive features for use in an automatic speech recognition system / E. Eide // Seventh European Conference on Speech Communication and Technology. — 2001.

53. Rudzicz F. Adjusting dysarthric speech signals to be more intelligible / F. Rudzicz // Computer Speech & Language. — 2013. — Vol. 27, №. 6. — P. 1163-1177.

54. Yeung Y.T. Improving automatic forced alignment for dysarthric speech transcription / Y.T. Yeung, K.H. Wong, H. Meng // Sixteenth Annual Conference of the International Speech Communication Association. — 2015.

55. Mengistu K.T. Adapting acoustic and lexical models to dysarthric speech / K.T. Mengistu, F. Rudzicz // 2011 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP-2011. — IEEE. — 2011. — P. 4924-4927.

56. Rudzicz F. Correcting errors in speech recognition with articulatory dynamics / F. Rudzicz // Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics / Association for Computational Linguistics. — 2010. — P. 60-68.

57. Young S. A review of large-vocabulary continuous-speech / S. Young // IEEE signal processing magazine.

— 1996. — Vol. 13, №. 5. — P. 45.

58. King S. Detection of phonological features in continuous speech using neural networks / S. King, P. Taylor // Computer Speech & Language. — 2000. — Vol. 14, №. 4. — P. 333-353.

59. Speech recognition via phonetically-featured syllables / Simon King, Paul Taylor, Joe Frankel, Korin Richmond. — 2000.

60. Rudzicz F. The TORGO database of acoustic and articulatory speech from speakers with dysarthria /F. Rudzicz, A. K. Namasivayam, T. Wolff // Language Resources and Evaluation. — 2012. — Vol. 46, №. 4.

— P. 523-541.

61. The Nemours database of dysarthric speech / X. Menendez-Pidal, J.B. Polikoff, S.M. Peters, J.E. Leonzio, H.T. Bunnell et al. // Proceedings of the Fourth International Conference on Spoken Language Processing. IEEE. — 1996.

62. Avicar: Audio-visual speech corpus in a car environment / Bowon Lee, Mark Hasegawa-Johnson, Camille Goudeseune et al. // Eighth International Conference on Spoken Language Processing. — 2004.

63. The DARPA 1000-word resource management database for continuous speech recognition / Patti Price, William M Fisher, Jared Bernstein, David S Pallett // Acoustics, Speech, and Signal Processing, 1988. ICASSP-88., 1988 International Conference on / IEEE. — 1988. — P. 651-654.

64. Lippmann R. P. Speech recognition by machines and humans // Speech communication. — 1997. — Vol. 22, №. 1. — P. 1-15.

65. Mengistu K. T. Comparing humans and automatic speech recognition systems in recognizing dysarthric speech /K.T. Mengistu, F. Rudzicz // Canadian Conference on Artificial Intelligence / Springer. — 2011.

— P. 291-300.

i Надоели баннеры? Вы всегда можете отключить рекламу.