Научная статья на тему 'МОДИФИЦИРОВАННЫЙ АЛГОРИТМ ИСПРАВЛЕНИЯ ОШИБОК В ИНФОРМАЦИОННО-ПОИСКОВЫХ ЗАПРОСАХ'

МОДИФИЦИРОВАННЫЙ АЛГОРИТМ ИСПРАВЛЕНИЯ ОШИБОК В ИНФОРМАЦИОННО-ПОИСКОВЫХ ЗАПРОСАХ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
430
63
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
TEXT-MINING / АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТА / ИНФОРМАЦИОННО-ПОИСКОВЫЙ ЗАПРОС / ИСПРАВЛЕНИЕ ОШИБОК / TEXT MINING / AUTOMATIC TEXT PROCESSING / INFORMATION SEARCH QUERY / ERROR CORRECTION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Алдошин Михаил Васильевич, Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Зуева Юлия Григорьевна

В статье проведён анализ существующих методов исправления запросов, разработанных компаниями «Яндекс» (сервис спеллер) и «Google» (сервис google-api-spelling-java). Обоснован выбор наилучшегометода исправления ошибок, предложена обобщённая функциональная схема исправления ошибок, на основе которой разработан соответствующий алгоритм. Представленные решения апробированы с помощью макета программы информационного поиска со встроенным модулем исправления ошибок в поисковых запросах. Предложенный алгоритм исправления ошибок на основе метода Дамерау-Левенштейна позволяет в целом улучшить полноту и точность информационного поиска, а также сократить время отбора полезной информации за счет автоматизации рутинных функций.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Алдошин Михаил Васильевич, Андросов Алексей Юрьевич, Бородащенко Антон Юрьевич, Зуева Юлия Григорьевна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

MODIFIED ALGORITHM FOR CORRECTING ERRORS IN INFORMATION SEARCH QUERIES

In the article the analysis of existing methods of repair requests from the companies "Yandex" (service now ) and Google(google-api-spelling -java). The choice of the best error correction method is justified, and a generalized functional scheme of error correction is proposed, on the basis of which the corresponding algorithm is developed. The proposed solutions were tested using the layout of the information search program with a built- in error correction module in search queries. The proposed error correction algorithm based on the Damerau-Levenshtein method allows to improve the overall completeness and accuracy of the information search, as well as to reduce the time for selecting useful information by automating routine functions.

Текст научной работы на тему «МОДИФИЦИРОВАННЫЙ АЛГОРИТМ ИСПРАВЛЕНИЯ ОШИБОК В ИНФОРМАЦИОННО-ПОИСКОВЫХ ЗАПРОСАХ»

СИСТЕМНЫЙ АНАЛИЗ, УПРАВЛЕНИЕ И ОБРАБОТКА ИНФОРМАЦИИ

УДК 004.912

МОДИФИЦИРОВАННЫЙ АЛГОРИТМ ИСПРАВЛЕНИЯ ОШИБОК В ИНФОРМАЦИОННО-ПОИСКОВЫХ ЗАПРОСАХ

М.В. Алдошин, А.Ю. Андросов, А.Ю. Бородащенко, Ю.Г. Зуева

В статье проведён анализ существующих методов исправления запросов, разработанных компаниями ««Яндекс» ((сервис спеллер) и ««Google» (сервис google-api-spelling-java). Обоснован выбор наилучшегометода исправления ошибок, предложена обобщённая функциональная схема исправления ошибок, на основе которой разработан соответствующий алгоритм. Представленные решения апробированы с помощью макета программы информационного поиска со встроенным модулем исправления ошибок в поисковых запросах. Предложенный алгоритм исправления ошибок на основе метода Дамерау-Левенштейна позволяет в целом улучшить полноту и точность информационного поиска, а также сократить время отбора полезной информации за счет автоматизации рутинных функций.

Ключевые слова: textmining, автоматическая обработка текста, информационно-поисковый запрос, исправление ошибок.

В век современных информационных технологий невозможно представить какую-либо деятельность без использования информации. При решении типовых задач пользователи обращаются к ресурсам корпоративных сетей или сети Интернет с помощью информационно-поисковых систем (ИПС), таких как «Яндекс», «Google» и др. Поиск релевантной информации осуществляется на основе информационно-поисковых запросов. При этом возможно появлениеошибок, связанных с орфографией, синтаксисом и семантикой, при формировании запросов. К таким ошибкам могу-тотноситься как с точки зрения смысла, так и орфографические и синтаксические.

Возможности ИПС распознавать и находить ошибки ввода являются необходимой составляющей, иначе на поисковый запрос пользователя будет выведена некорректная информация или она вовсе будет отсутствовать. Таким образом, задача исправления ошибок в задании информационно-поискового запроса является актуальной для ИПС.

Для решения поставленной задачи на практике используется три основных метода:

1) спеллер сервис, используемый в ИПС «Яндекс» [1];

2) сервис google-api-spelling-java, используемый в ИПС «Google» [2];

3) метод Дамерау-Левенштейна [3, 4].

В поисковой системе «Яндекс» [1] используется спеллер. Спеллер -это сервис для поиска орфографических ошибок. Для их обнаружения применяется библиотека машинного обучения CatBoost, благодаря которой могут распознаваться самые исковерканные слова, а также предусматривается контекст запроса при поиске ошибок (рис. 1).

Яндекс

Видео Картинки Новости Карты Маркет Переводчик Музыка Эфир ещё адникасниеи|

«Одноклассники.ги» — социальная сеть

ok.ru О

одноклассники социальная сеть одноклассники моя страница одноклассники

одноклассники моя страница страница одноклассники моя страница открыть мою страницу одноклассники социальная сеть главная страница сайта одноклассники вход

одноклассники социальная сеть моя страница одноклассники соц сеть

Г| Найти

)ый браузер

верит

Рис. 1. Распознавание искаженного запроса

Как уже говорилось ранее, все поисковые запросы проходят через сервис исправления ошибок. При выборе заменяющего слова для запроса с ошибкой рассматриваются несколько факторов:

- частота использования слов в запросах;

- частота совместимой встречаемости слов;

- вероятность ошибки.

Образовавшееся в результате такого отбора заменяющего слова представляется оптимальным с точки зрения статистики, но не обязательно является словарным. В следствии этого не всегда корректно применять подсказки при ошибках в качестве справочника по грамматике. Цель подобной подсказки - порекомендовать самую оптимальную формулировку запроса для результативного поиска, но не обязательно правильную с точки зрения правил языка.

Если сервис найдет опечатку, для которой имеется вариация исправления, он автоматически ее заменит (рис.2).

НДеКС процессор Найти ü

Поиск Картинки Видео Карты Маркет Новости Эфир Коллекции Знатоки Услуги Ещё Исправлена опечатка «процесор» Отменить

Рис. 2. Исправление опечатки в ИПС «Яндекс»

В качестве другого примера ИПС можно рассмотреть систему «Google» [2], в которой используется сервис google-api-spelling-java. Данный сервис предполагает работу с миллионным числом пользователь-скихпоисковых запросов, а также работу с нейронными сетями. Внутренний интеллект алгоритма ИПС «Google» составляет рейтинг наиболее ча-

4

стых ошибок в запросах; они могут быть различного рода, например, типичная опечатка или смена раскладки клавиатуры. При вводе поискового запроса с ошибкой, алгоритм выделяет из этого рейтинга самую популярную ошибку и выдает информацию по запросу уже с учетом исправления этой ошибки. Остальные ошибки, которые находятся на позицию ниже в рейтинге, предлагаются пользователю как альтернативные исправленные запросы.

Google ч юь н ч

Q. коь Оч котики Q. коты Оч кобзон

Рис. 3. Исправление опечатки в ИПС «Google»

Анализ подходов показал, что два поисковых гиганта обладают огромной базой данных запросов, которые постоянно обновляются с учетом новых пользовательских запросов и ошибок. Несмотря на использование различных сервисов исправления ошибок, принцип их работы схож. Однако их общим минусом будет являться то, что составление рейтинга всех запросов не всегда является преимуществом, так как пользователь может искать информацию по запросу, который находится в рейтинге не на первых местах.

Указанного недостатка лишен метод Дамерау-Левенштейна, при котором обнаружение и исправление ошибокв поисковом запросе осуществляется в полной мере с точки зрения показателей качества,

Расстояние Дамерау-Левенштейна является мерой «сходства» двух строк. Эта мера показывает, какое минимальное количество элементарных операций произведенных при преобразовании поискового запроса с ошибкой нужно совершить, чтобы получить безошибочный запрос. За строку принимается любое количество введенных символов. Элементарными операциями будут являться: вставка символа, удаление символа, замена символа на другой, транспозиция двух соседних символов (перестановка). Данное расстояние подразумевает под собой возможными для выполнения все четыре операции, однако между двумя строками возможно произвести только одну операцию.

Обычно операции обозначаются следующим образом:

D (delete) - удаление;

I (insert) - вставка;

R (replace) - замена;

M (match) - совпадение;

T (transposition) - перестановка.

Так, для исправления ошибочного информационно-поискового запроса «Жрииноыскиий» (табл. 1) в соответствии с описанным алгоритмом необходимо произвести всего четыре элементарные операции для преобразования в безошибочный запрос «Жириновский», который храниться в БД запросов(табл.1):

M (match) - совпадение символов «Ж», «И», «Н», «О», «С», «К», «И», «Й»;

T (transposition) - перестановка местами символов «И» и «Р»; R (replace) - замена символа «Ы» на символ «В»; D (delete) - удаление лишнего символа «И».

Таблица 1

Таблица преобразований^____

M T - M M M R M M M D M

Ж Р И И Н О Ы С К И И и

Ж И Р И Н О В С К И - Й

Упомянутая выше мера используется в алгоритмах компьютерной лингвистики, а именно в системах проверки грамматики и орфографии текстов, а также в различных лингвистических моделях.

Классический метод предполагает, что и поисковый запрос и информация в базе данных задается в начальной форме, что не всегда позволяет корректно исправлять ошибки в запросах. Для устранения этого недостатка авторами предложено осуществлять нормализацию поискового запроса на основе существующих алгоритмов морфологического анализа. При этом повышаются требования к используемым словарям и тезаурусам русского языка.

Обобщенная схема исправления ошибок в информационно-поисковых запросах, включающая 4 этапа, представлена на рис. 4.

I— 1-й этап--! |----2-й этап----1 i----3-й этап----1 i------4-й этап-

Рис.4. Обобщенная схема исправления ошибок

На вход поступают поисковые запросы пользователей. На первом этапе производится загрузка словарей и тезаурусов, далее, на втором этапе происходит нормализация запроса и его разбиение запроса на атомарные

6

единицы (символы). Далее (третьи и четвертый этап) осуществляются операции по выявлению ошибок в поступившем запросе и при необходимости их исправлению на наиболее вероятный правильный вариант на основе расстояния Дамерау-Левенштейна. На заключительном этапе осуществляется визуализация результатов работы алгоритма.

На основе рассмотренной схемы разработан алгоритм исправления ошибок (рис. 5).

Рис. 5. Алгоритм исправления ошибокв информационно-

поисковых запросах

В первом блоке происходит загрузка базы данных запросов, которая является хранилищем словаря терминов, используемых пользователем в контексте данной системы. Во втором и третьем блоке происходит разбиение словосочетания и слов на символы для дальнейших расчетов. В чет-

вертом блоке проверяется условие, при котором либо имеется ошибка в запросе, после чего, алгоритм переходит к следующему блоку, либо ошибки нет, и алгоритм переходит к блоку визуализации результата. Пятый и восьмой блоки подразумевают под собой расчет количества конкретных операций. В девятом блоке производится расчет расстояния Дамерау-Левенштейна, при котором происходит преобразование поискового запроса с ошибкой в поисковый запрос без ошибки. Десятый блок предполагает выбор запроса из БД, для которого расстояние Дамерау-Левенштейна будет минимальным. В одиннадцатом блоке происходит замена неправильного запроса на правильный, безошибочный. В двенадцатом блоке происходит визуализация полученного результата.

Рассмотрим пример работы алгоритма на основе информационно-поискового запроса «патребение электроэнергии». На первом шагезагру-жается база данных существующих в системе запросов. На втором шаге происходит разбиение поискового запроса пользователя по словам: «патребение» и «электроэнергии» для дальнейшей обработки запроса. На третьем шаге осуществляется нормализация, в ходе которой происходит бессловарный морфологический анализ на основе окончаний. Особенностью бессловарного метода является возможность приводить слова к начальным формам при наличии в них орфографических ошибок. Данная процедура происходит следующим образом: берутся 3-4 буквы с конца слова и, используя словарь окончаний, определяется часть речи, а затем слово переводится начальную форму. На четвертом шаге производится разбиение каждого слова посимвольно для выявления ошибок. На пятом шагевыполняется условие: если запрос не имеет ошибку, то выводится результат по запросу пользователя. Если же запрос имеет ошибку, то алгоритм переходит к шестому - девятому шагам, в которых производятся следующие операции для преобразования первого слова«патребение» в «потребление» (табл. 2 ).

Таблица 2

Таблица преобразований ___

M R M M M M I M M M M

П А Т Р Е Б - Е Н И Е

П О Т Р Е Б Л Е Н И Е

В табл. 2 приняты следующие обозначения: M (match) - совпадение символов «П», «Т», «Р», «Е», «Б», «Е», «Н», «И»,«Е»; R (replace) - замена символа «А» на символ «О»; I (insert) - вставка пропущенного символа «Л».

Для второго слова операции преобразования не требуются, так как ошибок в этом слове обнаружено не было (табл. 3):

M (match) - совпадение символов «Э», «Л», «Е», «К», «Т», «Р», «О», «Э», «Н»,«Е», «Р», «Г», «И», «Я».

Предложенный алгоритм показывает высокие показатели качества при обработке запросов по тематике, соответствующей базе данных подгружаемых запросов.

Таблица преобразований

Таблица 3

M M M M M M M M M M M M M M

Э Л Е К Т Р О Э Н Е Р Г И Я

Э Л Е К Т Р О Э Н Е Р Г И Я

Щ Информационн

JaJjil

Информационный запрос_

(патрибление электроэнергии

Возможные варианты исправления

Документы выданные в результате

Сколько электроэнергии потребляют бытовые приборы. Мировое потребление энергии

Как провести расчет потребления электроэнергии бытовыми приборами: Потребление электроэнергии по субъектам Российской Федерации.

Показ метрик | Очистить поля

Расчёт метрики термина в документе Открытый документ

Термин Коэффициент

потребление 0.045

В каждой квартире имеется свой ассортимент приборов и оборудования Одни и те же наименования техники могут иметь различные технические характеристики, мощность и энергопотребление. В результате, все эти факторы оказывают существенное влияние на объемы потребляемой электроэнергии. Соответственно и плата за электричество у каждой семьи будет отличаться.

Для того чтобы спланировать возможные расходы. многие хозяева составляют специальную таблицу, с указанием основных потребителей, их мощности и продолжительности работы в течение суток. Таблица наглядно показывает, что устройствами. потребляющими большую часть электроэнергии, являются холодильник, стиральная машина, утюг, электрочайник, компьютер, телевизор и система освещения. С этими приборами величина ежемесячного суммарного потребления электричества составляет, в среднем, 120-180 кВт. Эти цифры могут изменяться в зависимости от

Рис. 6. Макет программы информационного поиска со встроенным модулем исправления ошибок

На основе алгоритма авторами был разработан макет программы информационного поиска со встроенным модулем исправления ошибок в поисковых запросах (рис. 6). Тестирование макета показало, что он с высокой полнотой и точностью позволяет исправлять ошибки ввода, что в целом повышает качество обработки запросов пользователей.

Список литературы

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

1. Официальный сайт Яндекс [Электронный ресурс] URL: www.yandex.ru (дата обращения: 27.02.2020).

2. Официальный сайт Google [Электронный ресурс] [Электронный ресурс] URL: www.google.com (дата обращения: 27.02.2020).

3. Карпенко М.П., Протасов С.В. Некоторые методы очистки словаря запросов поиска // Компьютерная лингвистика и интеллектуальные технологии. Москва Бекасово: РГГУ. 2011. С. 326-338.

4. Ерехинская Т.Н., Титова А.С., Окатьев В.В. Синтаксический анализ текста с орфографическими ошибками в системе DictascopeSyntax // Компьютерная лингвистика и интеллектуальные технологии. Москва Бекасово: РГГУ. 2011. С. 186-196.

Алдошин Михаил Васильевич, сотрудник, pioneerl [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Андросов Алексей Юрьевич, канд. техн. наук, сотрудник, pioneerl [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Бородащенко Антон Юрьевич, канд. техн. наук, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации,

Зуева Юлия Григорьевна, сотрудник, [email protected], Россия, Орел, Академия Федеральной службы охраны Российской Федерации

MODIFIED ALGORITHM FOR CORRECTING ERRORS IN INFORMATION SEARCH

QUERIES

M.V. Aldoshin, A.Yu. Androsov, A.Yu. Borodaschenko, Yu.G. Zueva

In the article the analysis of existing methods of repair requests from the companies "Yandex" (service now ) and Google( google-api-spelling -java). The choice of the best error correction method is justified, and a generalized functional scheme of error correction is proposed, on the basis of which the corresponding algorithm is developed. The proposed solutions were tested using the layout of the information search program with a built- in error correction module in search queries. The proposed error correction algorithm based on the Damerau-Levenshtein method allows to improve the overall completeness and accuracy of the information search, as well as to reduce the time for selecting useful information by automating routine functions.

Key words: text mining, automatic text processing, information search query, error correction.

Aldoshin Mikhail Vasilyevich, researcher, pioneer176@yandex. ru, Russia, Orel, Academy of Federal Security Guard Service of the Russian Federation,

Androsov Aleksei Yurevich, candidate of technical sciences, researcher, pio-neer176@yandex. ru, Russia, Orel, Academy of Federal Security Guard Service of the Russian Federation,

Borodaschenko Anton Yurevich, candidate of technical sciences, researcher, [email protected], Russia, Orel, Academy of Federal Security Guard Service of the Russian Federation,

Zueva Yuliya Grigirevna, researcher, zuika. [email protected], Russia, Orel, Academy of Federal Security Guard Service of the Russian Federation

i Надоели баннеры? Вы всегда можете отключить рекламу.