3. Umbitaliev А.А., Fahmi Sh. S., Shipilov N. N. et all. A Versatile Real Time Video Codec Based On Three-Dimensional Discrete Cosine Transform. // Ibc 2008, RAI International Congress and Exhibition Centre Amsterdam. The Netherlands. Conference 11-15 September 2008. - Р. 386-391.
4. Lee M., Chan R., Adjieroh D. Quantization of 3D-DCT coefficients and scan order for video compression // J. Vis. Commun. Image Represent. - Dec. 1997. - № 8. - Р. 405-422.
5. Цифровое кодирование телевизионных изображений / Под ред. Цуккермана И.И. - М.: Радио и связь, 1981. - 240 с.
6. Ахмед Н., Рао К.Р. Ортогональные преобразования при обработке цифровых сигналов: Пер. с англ. / / Под ред. И.Б.Фоменко. - М.: Связь, 1980.
7. Шипилов Н.Н., Фахми Ш.С. Свидетельство о государственной регистрации программы. Дискретное косинусное преобразование видеосигналов NIIT VCS 3D-DCT. Заявка 2008613380 от 22.07.2008, пат. 75817, рег. 20.08.08.
8. Немудров В. , Мартин Г. Системы на кристалле. Проблемы проектирования и развития. - М.: Техносфера, 2004. - 216 с.
9. Стешенко В., Руткевич А., Гладкова Е. и др. Проектирование СБИС типа «система на кристалле». Маршрут проектирования. Синтез схемы // Электронные компоненты. - 2009. - № 1. - С. 14-21.
10. Raymond Westwater, Borko Furht. Real-Time Video Compression: Techniques and Algorithms. - Kluwer Academic Publishers, 1996. - 164 р.
11. Твердотельная революция в телевидении / Березин В.В., Умбиталиев А.А., Фахми Ш.С., Цыцу-лин А.К., Шипилов Н.Н. - М.: Радио и связь, 2006. - 312 с.
12. Фахми Ш.С., Зубакин И.А. Адаптивный алгоритм кодирования видеоинформации на основе трехмерного дискретного косинусного преобразования // Изв. вузов России. Радиоэлектроника. - 2010. -Вып. 1. - С. 49-54.
13. Способ кодирования и декодирования видеоинформации на основе трехмерного дискретного косинусного преобразования. № 2375838, заявка № 2008145795 (приоритет от 19.11.2008) Фахми Ш.С., Ибатуллин С.М., Ибатулин В.Ф., Иванов К.В., Шипилов Н.Н., Умбиталиев А.А., Цыцулин А.К. Зарегистрировано в гос. реестре изобретений РФ 10.12. 2009 со сроком действия 19.11.2028.
Умбиталиев Александр Ахатович
Шипилов Николай Николаевич
Ибатуллин Салех Мансурович Фахми Шакиб Субхиевич
ФГУП «НИИ Телевидения», доктор технических наук, профессор, директор, niitv@niitv.ru
ФГУП «НИИ Телевидения», кандидат технических наук, профессор, зам. директора, niitv@niitv.ru
ФГУП «НИИ Телевидения», инженер, NPK41@LENTA.ru
ФГУП «НИИ Телевидения», кандидат технических наук, доцент,
Shakeebf@mail.ru
УДК 004.912
АВТОМАТИЧЕСКОЕ СВОДНОЕ РЕФЕРИРОВАНИЕ НОВОСТНЫХ СООБЩЕНИЙ С.Д. Тарасов
Приводится обзор современных методов и алгоритмов автоматического сводного реферирования, обосновываются основные недостатки этих методов. Формируются требования к методу, который смог бы преодолеть эти недостатки. Рассматривается разработанный автором метод тематического связанного ранжирования для задач автоматического сводного реферирования. В обоснование эффективности разработанного метода приводятся результаты экспериментальной оценки качества полученных сводных рефератов.
Ключевые слова: сводное реферирование, автоматическое сводное реферирование, сводный реферат, методы и алгоритмы автоматического сводного реферирования.
Введение
Одной из самых серьезных проблем современного общества является лавинообразное увеличение объема информации, которую должен воспринимать, хранить и использовать человек в процессе своей трудовой деятельности. Согласно последним исследованиям, до 2020 г. количество информации и потребности в ней будут расти экспоненциально. В таких условиях особую важность приобретают методы автоматической классификации и реферирования информации, позволяющие знакомить специалистов и других заинтересованных людей с необходимыми им документами, представленными в сжатом виде, но с сохранением смысла.
зз
Классическое реферирование - процесс сжатия текстового документа и получение реферата, в котором сохраняется смысл оригинала. Наибольший интерес представляют обзорные или сводные рефераты, составляемые на некоторое множество документов, содержащие основные положения из этих документов [1]. Использование сводных рефератов вместо первоисточников позволяет эффективнее работать с большими объемами информации. Автоматическое сводное реферирование может быть использовано как эффективный инструмент подготовки аналитических справок и информационных бюллетеней для информационной поддержки лиц, принимающих управленческие решения, а также как средство сжатия текстов, технических описаний, стандартов и регламентов, состоящих из множества документов, информация в которых частично дублируется.
Обзор существующих методов сводного реферирования
Все существующие методы реферирования, как классического (по одному документу), так и сводного (обзорного по набору документов), можно разделить на три направления:
- квазиреферирование (Sentence extraction);
- генерация реферата с порождением нового текста (Abstraction);
- методы, объединяющие предыдущие два подхода.
Квазиреферирование основано на экстрагировании фрагментов документов - выделении наиболее информативных предложений (иногда - фраз и словосочетаний) и формировании из них квазирефератов. Методы генерации реферата с порождением нового текста основываются на выделении из текстов с помощью методов искусственного интеллекта и специальных информационных языков наиболее важной информации и порождении новых текстов, содержательно обобщающих первичные документы. В силу ограниченности на практике методов понимания и синтеза текста на естественном языке и отсутствия необходимой базы семантических словарей достаточного объема и содержания данные методы на сегодняшний день не получили значительного распространения. Большинство современных методов реферирования, имеющих практическую реализацию, относятся к направлению квазиреферирования.
Задача получения сводных рефератов, в которых были бы представлены все основные вопросы, затрагиваемые в каждом документе, но в обобщенном виде без повторений информации, - намного более сложная задача, чем традиционное автоматическое реферирование одного документа, даже очень большого объема. Во-первых, это связано с неизбежной разнородностью формулировок тем документов, на которые, как правило, ориентированы методы автоматического сводного реферирования. Во-вторых, для сводного реферирования отдельной задачей является метод упорядочивания предложений, отобранных для включения в сводный реферат. Предложения могут выбраться из разных документов и в общем случае, как правило, не составляют связный текст.
За рубежом в рамках конференций по проблемам автоматического аннотирования DUC (Document Understanding Conference) и текстового реферирования TSC (Text Summarization Challenge) данному направлению исследований придается очень большое значение. Автоматическое сводное реферирование реализовано в таких системах, как:
- «NewsBlaster» (http://www.newsblaster.com/),
- «Ultimate Research Assistant» (http://ultimate-research-assistant.com),
- «iResearch Reporter» (http://iresearch-reporter.com/),
- новостных порталах «Google News» (http://news.google.com/), «Яндекс. Новости» (http://news.yandex.ru/), «Рамблер. Новости» (http://news.rambler.ru) и др.
На сегодняшний день предложено большое количество различных методов получения сводных рефератов. В традиционных методах реферирования чаще всего используются различные модификации подхода Г. Луна [2], известного с конца 50-х годов XX века, который заключается в отборе предложений с наибольшим весом для включения их в реферат. Вес предложения определяется как сумма частот входящих в него значимых слов (с учетом закона Ципфа). Предложены методы, в которых вместо слов используются словосочетания, концепты тезауруса [3, 4]. К наиболее перспективным можно отнести методы, описывающие связную модель текста документов с помощью формального математического аппарата. Данные методы, как правило, не привязаны к особенностям конкретного языка, не требуют большого количества лингвистических ресурсов.
В результате анализа были сформулированы критические недостатки существующих подходов, которые необходимо исправить для достижения требуемого качества реферирования, а также для расширения сферы применения метода.
- Большинство существующих методов требуют большого количества различных лингвистических ресурсов (толковые, лексические и частотные словари, грамматики, тезаурус). Большая сложность естественных языков не позволяет создать достаточно полные формализованные лингвистические ресурсы для всех языков, необходимые для работы алгоритмов автоматического реферирования.
- Большинство существующих методов ориентировано на особенности конкретного естественного языка.
- В существующих методах либо вообще не рассматривается вопрос о формировании связного текста итогового реферата, либо ему уделяется недостаточное внимание.
- Большинство подходов требуют ручной корректировки со стороны экспертов-лингвистов.
- Существующие средства синтеза текста на естественном языке, используемые рядом методов сводного реферирования, находятся на ранней стадии своего развития и не позволяют использовать данные методы в целях, отличных от научно-исследовательских.
- Ряд алгоритмов требует значительных вычислительных ресурсов, что нежелательно при их использовании в реальных условиях обработки больших объемов данных.
Необходимость учета вышеперечисленных недостатков, а также исследование качества автоматического и ручного сводного реферирования определяют требования к новым эффективным методам и алгоритмам:
- минимальная потребность в лингвистических ресурсах (словарях, грамматиках и т.д.);
- отсутствие привязки к особенностям конкретного естественного языка;
- не только сжатие информации и выделение из текста наиболее значимых предложений, но и формирование из этих предложений связного текста;
- полностью автоматическое порождение текста реферата без необходимости последующей корректировки со стороны эксперта;
- алгоритм должен быть прост с вычислительной точки зрения, чтобы его можно было использовать в реальных задачах автоматического реферирования больших объемов данных в условиях ограниченного времени.
Метод тематического связанного ранжирования
Суть разработанного автором метода тематического связанного ранжирования заключается в отборе предложений из исходных документов, наиболее полно отражающие темы этих документов. Метод имеет следующие особенности.
1. Для предварительного ранжирования предложений документов относительно тем может быть использован любой алгоритм, например, алгоритм Луна. Автором был использован алгоритм Manifold Ranking [5].
2. Темы, которые плохо отражают суть документа, исключаются. По результатам анализа такие темы имеют очень слабую связь с текстом документа.
3. Для обеспечения связности полученного реферата каждое последующее предложение реферата связано с предыдущим некоторой общей темой.
4. Для обеспечения уникальности каждого предложения каждое последующее предложение отражает основную тему предыдущего предложения, а также некоторую новую тему, отличную от предыдущей.
5. Для разрешения анафорических связей предложения, содержащие анафорическую связь, игнорируются, если предыдущее предложение уже не содержится в реферате.
Рассмотрим метод более подробно. Для набора документов D={Dt}, где T - тема документа D,
вычисляется матрица Е = {4iV J , где столбцы этой матрицы соответствуют векторам ранга соответствующих предложений относительно заданных тем. Например, для кластера из двух документов по два предложения, первое и третье из которых используются как темы,
4l, 2 4i,3 4i,4 0.9 0 0.12 0
4 2,2 4 2,3 42,4 Е 0.7 0 0.33 0,
4 3,2 4i,3 4 3,4' Е = 0.3 0 0.7 0,
4 4,2 4 4,3 4 4,4 0.21 0 0.5 0
где 4j = {{, 42,j' 43,j, 44,jJ - вектор ранжирования предложений кластера относительно предложения j (темы Tj ). Если для ранжирования используется метод Manifold Ranking, то 4j вычисляется итеративно: (t +1) = а- S • (t) + (1 -а) • yj,
где вектор yj = [y° y* ,..y" ] , yj = 1, и yj = 0,i e (1,n),i ^ j для всех остальных предложений; а - коэффициент передачи ранга от источника, S - нормализованная матрица связей между предложениями. Традиционно в качестве матрицы связей использовалась матрица
W,,, = Sim(x,. ,x,),
— - x, ' x, p -.T
где Sim(x,,x,) = |_jj_|—J ' X' = [tfo,tf1,..tf„J , tfk - стандартная TF-IDF мера относительной важности
терма tk . В [5] предложена модификация W = Х • W • W
УТ Л1 inner 2 "intra
для учета различных весов связей предложений одного документа и разных документов и
S = D-112 • W • D-1'2
для симметричной нормализации полученной матрицы. Автором была предложена и реализована следующая модификация матрицы W:
W = • Winner + 2 • Wintra + Z • Wp,«, ,
где Wpath - матрица весов удаленности предложений друг от друга в тексте. Далее матрица S подвергается симметричной нормализации:
Ё = Z-1/2 • S • Z-1/2,
где Z - диагональная матрица, каждый элемент которой равен сумме элементов соответствующей строки исходной матрицы S. В результате этого строки матрицы S содержат коэффициенты соответствия предложений кластера заданным темам документов:
T(x,) = Х В,,, • T
i '
j=i
Например, для вышеприведенного кластера T(x^ = 0,9 • T + 0,1 • T3. Формально это означает, что предложение x1 отражает 0,9 темы T (собственной темы) и 0,1 темы предложения x3 (T3).
Алгоритм формирования связного текста итогового реферата
Для формирования связного текста итогового реферата используется следующий алгоритм.
1. На главной диагонали матрицы В выделяется элемент, имеющий наименьшее значение. Это соответствует теме документа, наиболее сильно связанной с другими предложениями кластера. Эта тема используется как текущая основная тема Tcurrmt и выносится в заголовок итогового реферата.
2. Главная диагональ матрицы обнуляется.
3. В current-столбце матрицы В определяется элемент 4,curren, с наибольшим значением. Это соответствует нахождению предложения x,, наиболее близкого теме Tuirrent.
4. Предложение x, помещается в итоговый реферат.
5. Для уменьшения ранга предложений, которые похожи на x t, а также тем, которые уже нашли отражение в итоговом реферате, выполняется следующая процедура:
4¡,j = 4¡,j ~ Ю • S,,current • 4current ,
где ю - коэффициент усечения похожих предложений (новизны), а 4ттм* - первоначальное значение вектора-столбца 4 urrrmt .
6. В , -ой строке матрицы выполняется поиск элемента 4пех, с наибольшим значением. Исходя из
T(x, ) = ¿ В, •T, ,
j=1
выполняется поиск темы Tnet, отраженной в предложении x, и следующей по значимости после Tcurrent.
7. Процесс переходит на шаг 3 (Tcurrent = Tnext), пока объем итогового реферата не достигнет требуемой величины.
Предложения, содержащие анафорические связи, игнорируются в том случае, если предыдущее предложение документа не было включено в реферат на предыдущем шаге.
Реализация
Для научно-исследовательских целей автором был разработан программный комплекс для ручного и автоматического сводного реферирования на базе предложенного алгоритма тематического связанного ранжирования и оценки качества полученных сводных рефератов. Кроме данного алгоритма, в системе были реализованы такие алгоритмы, как BasicLine [6], Manifold Ranking [7], модифицированный алгоритм Manifold Ranking [7]. Созданный автором программный комплекс «MDS Evaluation» позволяет решать следующие задачи:
- автоматическое сводное реферирование в широком диапазоне различных параметров для различных нужд;
- ручное сводное реферирование в многопользовательском режиме;
- ручная и автоматическая оценка качества сводного реферирования;
- сравнение эффективности различных алгоритмов и методов.
Оценка
Традиционные методы оценки качества сводного реферирования включают в себя оценку сводного реферата специалистами-лингвистами по ряду критериев. К таким критериям относятся связность полученного текста, краткость (лаконичность), грамматическая правильность, сложность восприятия, содержание.
Однако даже простая ручная оценка качества сводного реферирования по нескольким критериям требует больших объемов человеческих ресурсов (согласно DUC, более 3000 часов работы лингвистов), что является очень дорогим. Одной из наиболее удачных реализаций систем для автоматической оценки качества сводного реферирования можно считать пакет ROUGE [8], используемый в DUC. Набор программ позволяет автоматически рассчитывать различные метрики ROUGE (Recall-Oriented Understudy for Gisting Evaluation): ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S, ROUGE-SU. Автором были реализованы алгоритмы оценки ручных и автоматических рефератов с помощью данных автоматических метрик для русского языка.
Для экспериментальной оценки качества работы предложенного автором метода реферирования была проведена ручная и автоматическая оценки получаемых различными методами рефератов, а также было выполнено построение ручных рефератов. В эксперименте приняло участие 13 человек (преподаватели и студенты 5 курса БГТУ «Военмех»). Эксперимент состоял из двух частей - построение ручных рефератов и их оценка. Исходными данными послужили 12 отобранных вручную новостных кластеров различной тематики («Россия», «Происшествия», «Наука и техника», «Спорт», «Культура» и др.) из системы «Google. News» за 2009 год. В рамках построения ручных рефератов участниками эксперимента было построено 156 ручных рефератов: каждый участник составил свой ручной сводный реферат для каждого кластера. В рамках оценки рефератов каждый участник оценил каждый сводный реферат (всего было получено 156 ручных и 2600 автоматических, порожденных различными методами с различными параметрами) по набору формальных критериев. Кроме того, была проведена автоматическая оценка всех сводных рефератов по метрикам ROUGE, для чего были использованы рефераты, построенные вручную. Результаты оценки приведены в таблице. Для вычислений использованы следующие обозначения и параметры:
- BL - усредненное значение для BasicLine (BL-1 - BL-7 - заведомо плохие рефераты [6]);
- МТСР - метод тематического связанного ранжирования, предложенный автором. Параметры: а=0,9, ИА2=0,3, ю=50, Z=0,1;
- Manifold - Метод Manifold Ranking [7]. Параметры: а=0,8, Х1/Х2=3, ю=50;
- Модифицированный Manifold - модифицированный метод Manifold Ranking [7]. Параметры: а=0,8, ИА2=0,3, ю=50.
BL Manifold Модифицированный Manifold МТСР Ручные
Связность 0,42 0,69 0,73 0,81 0,88
Содержание 0,45 0,78 0,78 0,83 0,84
Полнота 0,45 0,78 0,80 0,82 0,84
Общее впечатление 0,41 0,71 0,78 0,85 0,86
ROUGE-1 0,26 0,39 0,40 0,41 0,38
ROUGE-2 0,11 0,18 0,18 0,19 0,17
ROUGE-3 0,07 0,12 0,12 0,12 0,12
ROUGE-L 0,22 0,33 0,34 0,36 0,33
Таблица. Результаты оценки
Заключение
Ручное реферирование, несомненно, имеет ряд преимуществ перед автоматическим, однако, помимо крайне высокой стоимости построения рефератов, имеет и ряд недостатков. К ним относятся невозможность оперативного составления рефератов для очень большого количества исходных документов или документов большого объема; невозможность оперативного составления различных рефератов с заданными свойствами (например, объем реферата); элементы субъективности, так или иначе присутст-
вующие в конечном реферате (каждый эксперт выделяет те или иные значимые элементы и т.д.), и ряд других. Предложенный автором метод открывает возможность для построения сводных рефератов, представляющих связный текст в автоматическом режиме без использования сложных и труднодоступных лингвистических ресурсов и больших вычислительных мощностей. При этом эффективность метода и качество полученных сводных рефератов подтверждаются экспериментально.
Литература
1. ГОСТ 7.9-95. Система стандартов по информации, библиотечному и издательскому делу. Реферат и аннотация. Общие требования. - 2001 [Электронный ресурс]. - Режим доступа: http://www.standards.ru/document/4155011.aspx (дата обращения: 01.02.2010).
2. Luhn H.P. The Automatic Creation of Literature Abstracts // IBM Journal. - 1958, April. - P. 159-165.
3. Лукашевич Н.В., Добров Б.В. Автоматическое аннотирование новостных кластеров на основе тематического представления // Компьютерная лингвистика и интеллектуальные технологии. По материалам ежегодной международной конференции «Диалог». Периодическое издание. - 2009. - Выпуск 8 (15).
4. Абрамова Н.Н., Абрамов В.Е. Автоматическое составление обзорных рефератов новостных сюжетов. // Труды 9-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL'2007. - Переславль-Залесский, Россия, 2007.
5. Xiaojun Wan, Jianwu Yang, Jianguo Xiao. Manifold-Ranking Based Topic-Focused Multi-Document Summarization // DUC 2003 [Электронный ресурс]. - Режим доступа: http://www.ijcai.org/papers07/Papers/IJCAI07-467.pdf, своб.
6. Тарасов С. Д. Исследование и оптимизация параметров алгоритма Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS // Труды XI Всероссийской научной конференции «Электронные библиотеки. Перспективные методы и технологии, электронные коллекции». - Петрозаводск, 2009. - С. 86-93.
7. Тарасов С. Д. Автоматическое составление обзорных рефератов новостных сюжетов // Вестник Балтийского государственного технического университета. - 2008. - № 3. - С. 61-67.
8. Chin-Yew Lin. ROUGE: A Package for Automatic Evaluation of Summaries. Information Sciences Institute // University of Southern California. 2004.
Тарасов Сергей Дмитриевич - Балтийский государственный технический университет «Военмех» им.
Д.Ф. Устинова, ассистент, tarasov_sd@mail.ru