Научная статья на тему 'Методы тематического анализа текстовой информации'

Методы тематического анализа текстовой информации Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
1891
225
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по языкознанию и литературоведению , автор научной работы — Котов Э. М., Целых А. Н.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Методы тематического анализа текстовой информации»

Раздел IV. Новые информационные технологии

Э.М. Котов, АЛ. Целых МЕТОДЫ ТЕМАТИЧЕСКОГО АНАЛИЗА ТЕКСТОВОЙ ИНФОРМАЦИИ

Всю совокупность представленных на сегодняшний день методов тематического анализа текста можно разделить на две группы: лингвистический анализ и .

1. Лингвистический анализ - 4 взаимодополняющих группы (Лексический анализ. Морфологический анализ. Синтаксический анализ. Семантический анализ)

Для повышения степени получения релевантных документов представляется возможным использование алгоритмов семантического анализа текста и применение в качестве модели представления текста семантической сети, в которой каждая из областей знаний представляется в виде дерева. В этом случае определенные понятия возможно представить в виде отельных узлов семантической сети.

Предлагается следующий подход, подразумевающий разбиение информационного пространства поиска на уровни. Верхний уровень представляет собой всю информационную среду поиска, первый - совокупность всех областей знаний, вто- , - . -тый уровень позволяет идентифицировать подразделы областей знаний, пятый и последующие уровни содержат в узлах дерева понятия и термины, множество которых разбивается на несколько подмножеств в зависимости от существующих отношений связности между элементами данного множества, т.е. можно выделить подмножество первичных и вторичных понятий и терминов и т.д. Конечное число уровней различно и зависит от конкретной области знаний.

Элементы уровней выше пятого являются обычными множествами, причем пересечение множеств одного уровня дает пустое множество. Компоненты пятого и последующих уровней являются нечеткими множествами.

Элемент-множество ьго уровня может в неравной степени относиться к множествам (ь1)-го уровня. Величина (и +1,7) отражает степень принадлежности элемента (и +1,7) уровня 1+1 к нечеткому множеству В у предыдущего

уровня. Заметим, что (и1 +1,7) - элемент области определения и может быть как

единичным значением или точкой, так и подмножеством И, причем не только обычным, но и нечетким.

К каждому понятию или термину соотносится список документов. После определения конечного понятия или термина, явно или неявно указанного в запро-

,

с данным понятием или термином.

2. Статистический анализ - это, как правило, частотный анализ в тех или иных его вариациях. Общая суть такого анализа заключается в подсчете количества повторений слов в тексте и использовании результатов подсчета для конкретных целей. Например, вычисление весовых коэффициентов ключевых слов.

Статистический анализ текста возможно используется для решения задачи выделения ключевых слов произвольного документа. Во всех созданных человеком текстах можно выделить статистические закономерности описанные законами Дж. Зипфа (George K. Zipf). Зипф вывел два универсальных закона.

Первый закон Зипфа "ранг - частота". Если измерить количество вхождений каждого слова в текст и взять только одно значение из каждой группы, имеющей одинаковую частоту, расположить частоты по мере их убывания и про-( ), часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Вероятность встретить произвольно выбранное слово будет равна отношению количества вхождений этого слова к общему числу слов в тексте:

Вероятность = Количество вхождений слова / Число слов.

Зипф обнаружил следующую закономерность: произведение вероятности обнаружения слова в тексте на ранг частоты - константа (С):

С = (Количество вхождений слова x Ранг частоты) / Число слов.

Это функция типа y=k/x и её график - равносторонняя гипербола. Следова-, , в тексте, например, 100 раз, то следующее по частоте слово с высокой долей вероятности, окажется на уровне 50.

Второй закон Зипфа "количество - частота". В первом законе не учтён тот факт что, разные слова могут входить в текст с одинаковой частотой. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси X) частоту вхождения слова, а по другой (оси Y) - количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов. Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной.

, , . поставить широко - то в ключевые слова будут попадать вспомогательные слова; если установить узкий диапазон - то можно потерять смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объёмом текста, специальными словарями и т.п.

Сделать выделение наиболее значимых слов качественнее помогает предварительное исключение исследуемого текста некоторых слов, которые априори не могут являться значимыми и, поэтому являются «шумом». Такие слова называются нейтральными или стоповыми (стоп-словами). Словарь стоп-слов называют стоп-листом. Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Есть и другие способы повысить точность оценки значимости терминов.

При проведении статистического анализа предлагается использовать подход известный под названием латентно-семантический анализ, основная идея которого заключается в том, что совокупность всех контекстов, в которых встречается и не встречается данное слово, задает множество обоюдных ограничений, которые позволяют определить похожесть смысловых значений слов и множеств слов между .

Исходной информацией для LSA является матрица термов на документы, которая описывает используемый для обучения системы набор данных. Элементы

этой матрицы содержат частоты использования каждого терма в каждом докумен-.

Один из самых распространенных вариантов Ь8Л основан на использовании разложения исходной матрицы по сингулярным значениям.

Согласно теореме о сингулярном разложении, любая вещественная прямоугольная матрица X может быть разложена в произведение трех матриц:

где матрицы И и V - ортогональные, а Ъ - диагональная матрица, значения на диагонали которой называются сингулярными значениями матрицы X.

Особенность такого разложения в том, что, если в ъ оставить только к наибольших сингулярных значений, а в матрицах И и V только соответствующие этим значениям столбцы, то произведение получившихся матриц Ъы, и ^а, будет

наилучшим приближением исходной матрицы X матрицей ранга к:

Идея такого разложения и суть латентно-семантического анализа заключается в том, что, если в качестве X использовалась матрица термов на документ, то

матрица , содержащая только k первых линейно независимых компонент X, отражает основную структуру ассоциативных зависимостей, присутствующих в , .

, -торов в общем, пространстве размерности k (так называемом пространстве гипо-).

легко вычислена при помощи скалярного произведения векторов.

Выбор наилучшей размерности k для LSA - открытая исследовательская проблема. В идеале, k должно быть достаточно велико для отображения всей реально существующей структуры данных, но в то же время достаточно мало, чтобы не захватить случайные и маловажные зависимости. Если выбранное k слишком ,

стандартным векторным методам. Слишком маленькое k не позволяет улавливать различия между похожими словами или документами. Исследования показывают, что с ростом k качество сначала возрастает, а потом начинает падать.

Методы тематического анализа текста и запроса, составленного на естест-, . позволит определить принципы определения области знаний, выявить ключевые термины как текста, так и естественного языка - запроса, а также сформулировать основные положения методики определения степени принадлежности термина некоторой области знания.

БИБЛИОГРАФИЧЕСКИЙ СПИСОК

1. Бондаренко М.Ф., Осыка А.Ф. Автоматическая обработка информации на естественном языке: Учебное пособие. - К.: УМК ВО, 1991. - 144 с.

2. Шемакин ЮМ. Начала компьютерной лингвистики: Учебное пособие. - М.: Изд-во Моск. Гос. Открытого ун-та: АО «Росвузнаука», 1992. - 114 с.: ил.

3. T. Landauer, P. Foltz, and D. Laham. An introduction to latent semantic analysys. In Discourse Processes, volume 25, - pp 259-284.

4. . , . . -

нове латентно-семантического анализа. Санкт-Петербургский Государственный Университет.

С.П. Малюков, В.А. Стефанович

ОРГАНИЗАЦИЯ ЛОКАЛЬНОЙ СЕТИ ДЛЯ ПЕЧЕЙ ВЫРАЩИВАНИЯ МОНОКРИСТАЛЛОВ ЛЕЙКОСАПФИРА

Получение монокристаллов лейкосапфира в вакууме основано на зонной плавке шихты (а - Al2O3) в специальном подвижном контейнере, который двигается горизонтально вблизи петли кольцевого вольфрамового нагревателя в течение

2-3 . -

ние с высокой точностью температуры в зоне расплава, высокий вакуум в камере , ,

, . , плавки шихты в вакуумной печи многофакторный технологический процесс большой сложности, который, требует организации локальной сети для печей (типа ) .

Для синхронной и асинхронной передачи данных при двухточечном и многоточечном подключении периферийных устройств в дуплексном режиме широко применяется интерфейс RS-232C [1]. Передача сигналов может производится со стандартными скоростями 50, 75, 100, 150, 300, 600, 1200, 2400, 4800, 9600 и 19200 бит/с. При передаче сигналов используются уровни ± 12В. При применении такого интерфейса целесообразно использовать достаточно простой адаптер RS-232C => Current Loop (токовая петля). При этом увеличивается дальность и скорость передачи, т.к. используются токовые сигналы 0...20 мА. Конверторы обеспечивают дальность связи до 1200 м по витой паре при скорости 10 кбит/с [2]. Такой конвертер относится к простейшим, но вполне может быть использован для разрабатываемого комплекса. В макете контроллера используется улучшенный вариант подобной схемы.

Для улучшения помехоустойчивости используется интерфейс RS-485 для многоточечного подключения и работы в полудуплексном режиме. Для такого интерфейса выпускаются специальные приемо-передатчики. Например, SP485ES или SN75176B [3], которые потенциально могут обеспечить скорость 115200 бит/с при использовании СОМ - порта. При использовании одной витой пары можно получить полудуплексный режим обмена процессоров контроллера с персональным компьютером (ПК), а при использовании двух витых пар - дуплексный. ПК работает в режиме «запрос-ответ» со скоростью 3 - 5 раз в секунду. Передатчики UART микропроцессоров могут включаться только при ответе на полученный от ПК запрос с заданным сетевым адресом. В настоящее время используется скорость 9600 бит/с с длиной пакета не более 32 байта, хотя при необходимости эти значения могут быть увеличены. Например, при обслуживании нескольких печей от одного ПК.

Программное обеспечение, применяемое в настоящей разработке, использует функции Win32.API для работы с Com -портами.

В процессе испытаний микропроцессорного блока управления (МПБУ) на печи СЗВН 155 подтверждена помехоустойчивость и надежность такого способа связи ПК с МПБУ.

i Надоели баннеры? Вы всегда можете отключить рекламу.