Научная статья на тему 'Метод автоматической проверки качества технической документации'

Метод автоматической проверки качества технической документации Текст научной статьи по специальности «Языкознание и литературоведение»

CC BY
324
82
i Надоели баннеры? Вы всегда можете отключить рекламу.
i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Метод автоматической проверки качества технической документации»

Метод автоматической проверки качества технической документации

Антонова А.Ю., Клышинский Э.С.

Московский государственный институт электроники и математики, каф. ИТАС

Введение

В данной статье рассматривается вопрос об автоматической проверке соответствия итогового отчета о продукте техническому заданию (ТЗ) на его разработку, а также об извлечении данных из технической документации. Формулируемая ниже проблема была изложена в статье [Клышинский 2010].

грг\ С» С» /" С»

ТЗ вместе с отчетом и итоговой документацией представляют собой связующие звенья между исполнителем и заказчиком. На основании полученного отчета заказчик должен сделать вывод о том, соответствует ли проделанная исполнителем работа требованиям, оговоренным в ТЗ. В зависимости от вида документации проверяются различные вопросы: полнота документации, то есть освещение всех задач, поставленных в ТЗ; полнота описания, то есть описание всех вопросов функционирования или использования продукта; удобство использования документации и так далее. Нам представляется возможным автоматизировать процесс проверки полноты итоговой документации за счет анализа технического задания на разработку продукта. Далее мы обсудим возможный подход к решению этой задачи.

Формулировка задачи

Для решения задачи определения полноты итоговой документации на основе

анализа ТЗ требуется разработать соответствующий метод, который позволил бы

автоматически выделять из текста ТЗ исходные данные и требуемые результаты для

разрабатываемого продукта. Затем, имея отчёт о готовом продукте и техническую

документацию к нему (по эксплуатации, ремонту и т.п.), по полученным из ТЗ

данным должна быть выполнена автоматическая проверка документации и сделан

вывод о соответствии техническому заданию: все ли пункты требований, указанные в

ТЗ, фигурируют в итоговом отчете и в каких местах документации приведено их

описание. Подобным образом мы можем оценить степень полноты документации в

процентах от поставленных задач. При снижении полученного значения ниже

- 68 -

порогового, документация признается неполной, и мы имеем возможность указать, какие именно вопросы из ТЗ отсутствует в итоговой документации. В последнем случае исполнитель должен будет переделать документацию и, возможно, пересмотреть свою работу. Очевидно, что для этого необходимо создать систему, умеющую находить данные в текстовых документах.

Подход к решению

Итак, перед нами стоит задача выделения из одного текста (ТЗ) смысловых фрагментов и поиска соответствующих им блоков в других текстах (документации). Т.о. должна определяться, во-первых, тематическая близость документов и, во-вторых, полнота покрытия одного документа элементами, выделяемыми из другого. На данный момент существует целый ряд решений, рассмотренных в литературе по машинной лингвистике, где описаны имеющиеся базовые методы для решения близких задач.

Собираясь решать поставленную задачу, мы будем опираться в первую очередь на то, что как тексты ТЗ, так и тексты отчетов, зачастую имеют заданную заранее структуру (определяемую ГОСТом или внутренними инструкциями компании), что в значительной мере облегчает извлечение данных. Кроме того, тексты технической документации также отличаются формальным характером изложения: во-первых, они в значительной степени насыщены терминологией, определяемой заданной предметной областью (см. ТЗ), во-вторых, используемые фразы зачастую имеют предсказуемую конструкцию.

Выделение терминов

В предлагаемом методе, первым этапом проводится выделение терминов из исходных текстов. Под терминами здесь и далее мы будем понимать все специфические внутри заданной предметной области понятия длины не более 5 элементов (в т.ч., возможно, аббревиатуры), а также т.н. ключевые слова и выражения, которые могут быть присущи данному типу текста.

Выделение терминов из текста представляет собой задачу, решаемую разными способами в рамках, в частности, информационного поиска. Различают два основных подхода к выделению терминов:

1) при помощи шаблонов (об использовании лексико-синтаксических шаблонов для извлечения терминов из текстов говорится в [Васильева 2004]; специальный язык лексико-синтаксических шаблонов описывается, например, в [Ефремова, Большакова 2010]);

2) на основе статистики встречаемости (с помощью существующих статистических мер на заданной коллекции научных текстов выделяются терминологические коллокации1, характеризующие предметную область текстовой коллекции [Пивоварова, Ягунова 2010]).

Также возможен вариант объединения методик (1) и (2).

В нашем подходе термины будут выделяться в процессе анализа текста ТЗ методом, использующим статистику встречаемости, а также меры взаимной информации. Предварительно анализируемый текст подвергается морфологической обработке и хранится в виде нормальных форм. Для этого используется морфологический анализатор «Кросслятор», описанный в [Елкин, Клышинский, Стеклянников 2003]. Отобранные термины будут собраны в словарь терминов. Также возможно использование заранее заданного словаря терминов предметной области.

Как это было показано в работе [Пивоварова, Ягунова 2010], терминологические словосочетания обладают высокой степенью устойчивости внутри коллекции текстов по заданной тематике. Таким образом, выделение неоднословных терминов фактически является задачей поиска устойчивых сочетаний. Для этого используются специальные статистические меры, на основании значений которых устанавливается порог устойчивости, согласно которому словосочетания (в нашем случае коллокации) могут быть отнесены к высокоустойчивым или низкоустойчивым.

Лучше всего изученными являются двусловные сочетания (биграммы). Традиционно для них используются меры MI (mutual information, коэффициент взаимной информации) и t-score, которая учитывает частоту совместной встречаемости ключевого слова и его коллоката.

1 Под коллокацией понимается неслучайное сочетание двух и более лексических единиц, характерное как для языка в целом (текстов любого типа), так и определенного типа текстов (или даже (под)выборки текстов) [Пивоварова, Ягунова 2010]).

/(п, с) х N

МІ = 1ое9 ■' 4 ’-----,

52 / (п) х / (с)’

І - 8СОТв =

V/(^ с)

где

п - ключевое слово;

с - коллокат;

f(n,c) - абсолютная частота встречаемости ключевого слова п в паре с коллокатом с;

Дп), Дс) - абсолютные частоты ключевого слова п и слова с в корпусе;

N - общее число словоформ в корпусе.

Более подробно свойства этих двух мер рассмотрены в [Ягунова, Пивоварова 2010] и [Пивоварова, Ягунова 2010]. В нашем подходе будут использоваться не только биграммы, но также устойчивые сочетания большей длины.

Следует упомянуть о других статистических методах выделения терминов. Так метод выявления устойчивых словосочетаний, основанный на статистике встречаемости, описан в [Гусев, Саломатина 2004]. В работах [Браславский, Соколов 2006] и в [Браславский, Соколов 2008] дается сравнительный обзор некоторых методов извлечения многословных терминов. Лучшими во второй статье признаны методы С-уа1ие и к-Дайог.

Проблемной стороной при выделении терминов остаются задачи:

1) синонимии, а также терминологической вариантности в целом.

Одно и то же понятие может быть или изложено различными словами, или использовать лексико-синтаксический вариант (подробнее о видах терминологической вариативности см. [Большакова 2008]). Интуитивно очевидно, что в ТЗ и документации должны использовать одинаковые слова. Однако полнота выдаваемого результата оказывается уязвима, поскольку мы не можем быть застрахованы от возможности использования синонимичных слов и конструкций. Тем не менее, по сравнению с художественной литературой, в текстах технической документации, где, как правило, пользуются принятой и устоявшейся системой терминов, явление синонимии встречается значительно реже. Более того, задача разрешения синонимии является весьма затратной. На основании указанных причин,

на данный момент в рамках обсуждаемого проекта распознавание синонимии не планируется.

Помимо проблемы синонимии могут возникнуть стилистические и терминологические проблемы. ТЗ и итоговая документация должны писаться различными людьми, принадлежащими различным организациям. Как следствие будут отличаться принятые стили описания проблем. Однако этот факт лишь играет нам на руку, так как совпадение стиля должно быть исключено из итоговой меры сходства документов. Однако в различных организациях может быть принята несколько отличающая терминология, взаимно понятная представителям обеих организаций. Кроме того, в процессе исследования может выясниться, что термины ТЗ были использованы некорректно. В этом случае авторы итоговой документации будут стремиться заменить неудачно использованную терминологию на более присущую исследуемому вопросу. И, наконец, ТЗ может излагать постановку задачи в общих понятиях, тогда как в итоговой документации решение будет излагаться в более конкретных, но принадлежащих заданному классу, терминах.

Однако следует заметить, что в целом подобная задача является решаемой. Так в работе [Браславский 2004] для повышения полноты поиска по тексту разбирается применение тематического тезауруса, а в [Большакова 2008] рассматривается комплексная стратегия, включающая использование лексико-синтаксических шаблонов и терминологических словарей.

2) выделения разрывных терминов.

Термином не всегда являются слова, идущие подряд. Так, например, термином могут оказаться два слова, между которыми свободно может вклиниваться третье (например, прилагательное+существительное, между которыми может стоять еще одно прилагательное). Эта задача решается методикой лексико-синтаксических шаблонов и описывается, в частности, в работах [Жигалов 2002] и [Васильева 2004]. Кроме того, могут также выделяться устойчивые словосочетания с учетом вариативности отдельных слов ([Гусев, Саломатина 2004]).

Поиск по шаблонам

На основе эмпирического анализа некоторого количества текстов технической документации, было замечено, что довольно распространенными в тексте являются

глагольные конструкции определенного вида. Предполагается, что внутри предложений с такими конструкциями содержится информация, касающаяся требований, указанных в ТЗ, и/или описание их реализации. Примеры таких глагольных конструкций: «предусматривает следующие действия»,

«осуществляется в соответствии с», «должен контролировать» и др. В ряде случаев можно искать лишь глаголы, определяющие требования к системе: «требуется», «следует», «должен».

На основе этого планируется применить следующий подход. Заранее определяется список глагольных конструкций как характерных для технических текстов и текстов узкой предметной области. Из имеющихся конструкций формируется список шаблонов, в т.ч. разрывных. Поиск конструкций в текстах технической документации должен проводиться с использованием одного из существующих методов поиска по шаблонам [Смит 2006]. Если внутри предложения слева или справа от подобной конструкции обнаружен термин из сформированного словаря терминов (в определенной форме, например, именительного падежа), то можно сделать вывод о том, что в другой части предложения должна содержаться информация, касающаяся этого термина.

Проблему представляет собой разбор случая вложенных требований и описаний. Также пока не решен вопрос об определении размера «окна поиска» термина и, соответственно, нужного фрагмента внутри документации: однозначно можно сказать, что «окно» должно превышать размер одного предложения. Как было показано в [Протасов 2008], зависимые слова в предложении зачастую отстоят друг от друга на 5-7 слов, основным критерием является присутствие данных слов в предложении. Однако в нашем случае описание задачи может выражаться несколькими предложениями, в связи с чем подобный размер окна представляется излишне малым. В ходе проведения машинных экспериментов планируется выяснить, достаточно ли рассматривать только один абзац, или для полноты выдачи необходимо брать несколько абзацев.

Наша задача - получить максимальную полноту при умеренном проценте шума, т.е. чтобы по каждому пункту требований из ТЗ найти по возможности все соответствия в тексте итоговой документации, избегая при этом ложных совпадений.

Для оценки соотношения полноты и точности будет использоваться т.н. F-мера, представляющая собой гармоническое среднее полноты и точности:

F = 2 х Recall х Precision / (Recall + Precision).

Настройку планируется проводить с учетом того, что вопрос соотношения между полнотой и точностью выдаваемого результата в нашем случае решается в пользу полноты.

Заключение

С использованием реализации описываемого метода планируется провести серию вычислительных экспериментов на текстовых коллекциях большого объема (ТЗ, отчеты, итоговая документация). Заметим, что именно на больших корпусах наилучшим образом показывают себя используемые статистические меры.

После того, как будут проведены извлечение терминов, настройка параметров поиска по шаблонам для максимизации полноты и точности, система, может быть использована для извлечения данных из документации. Это представляется практически полезным, например, при освоении нового программного продукта, поиска технических характеристик, ремонта и т.п.

Заметим, что подход нуждается в дальнейшей проработке. По мере последовательной практической реализации каждого из перечисленных этапов, рассматриваемый метод будет уточняться.

Литература

Большакова Е., Васильева Н. Терминологическая вариантность

и ее учет при автоматической обработке текстов // Одиннадцатая Национальная конференция по искусственному интеллекту с международным участием КИИ-2008. Труды конференции в 3-х томах. - М.: Физматлит, 2008.

Браславский П. Автоматические операции с запросами к машинам поиска интернета на основе тезауруса: подходы и оценки [Электронный ресурс]. - Электрон. текст. дан.

- Режим доступа: http://www.dialog-21.ru/Archive/2004/Braslavskij.htm, свободный. Браславский П., Соколов Е. Сравнение четырех методов автоматического извлечения двухсловных терминов из текста // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая - 4 июня 2006 г.) / Под ред. Н.И. Лауфер, А. С. Нариньяни, В. П. Селегея. - М.: Изд-во РГГУ, 2006.

Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии:

Труды международной конференции «Диалог 2008» (Бекасово, 4 - 8 июня 2006 г.) / гл. ред. А.Е. Кибрик. - М.: Изд-во РГГУ, 2008.

Васильева Н. Шаблоны употреблений терминов и их использование при автоматической обработке научно-технических текстов// Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2004». («Верхневолжский», 2-7 июня 2004 г.). М.: Наука, 2004. С. 96-101. Гусев В., Саломатина Н. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) // Труды Труды

международной конференции «Диалог 2004». («Верхневолжский», 2-7 июня 2004 г.).

- М.: Наука, 2004. - С. 530-535.

Жигалов В., Жигалов Д., Жуков А., Кононенко И., Соколова Е., Толдова С. Система Alex как средство для многоцелевой автоматизированной обработки текстов // Труды международного семинара «Диалог 2002» «Компьютерная лингвистика и

интеллектуальные технологии». М.: Наука, 2002. Т.2. С.192-208.

Елкин С., Клышинский Э., Стеклянников С., Проблемы создания универсального морфосемантического словаря // Сб. трудов Международных конференций IEEE AIS’03 и CAD-2003, том 1, Дивноморское. 2003. Сс. 159-163.

Ефремова Н., Большакова Е., Носков А., Антонов В. Терминологический анализ текста на основе лексико-синтаксических шаблонов // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной

конференции «Диалог 2010» (Бекасово, 26-30 мая 2010 г.). Вып. 9 (16). - М.: Изд-во РГГУ, 2010. С.124-130.

Клышинский Э. Перспективные методы обработки проектной документации// Труды 12-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2010,

Казань, Россия, 2010.

Пивоварова Л., Ягунова Е. Извлечение и классификация терминологических коллокаций на материале лингвистических научных текстов // Терминология и знание: Материалы II Международного Симпозиума (Москва, 21-22 мая 2010г.) - М., 2010.

Протасов С. В. Вывод и оценка параметров дальнодействующей триграммной модели языка // Компьютерная лингвистика и интеллектуальные технологии. Труды международного семинара Диалог’2008., 2008.

Смит Б. Методы и алгоритмы вычислений на строках. М.: Изд-во Вильямс, 2006. Ягунова Е., Пивоварова Л. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов - Сб. НТИ, Сер.2, №5. М., 2010.

i Надоели баннеры? Вы всегда можете отключить рекламу.