УДК 025.5:004.896
А. В. Шульгина, И. Г. Пригодич
Опыт обучения библиографом-аналитиком информационного агента-робота
О тестировании и подготовке виртуального консультанта (программный продукт компании «Наносемантика», Москва) для решения задач корпоративного обучения в петербургском филиале Корпоративного Института ОАО «Газпром».
Ключевые слова: виртуальный консультант, технологии искусственного интеллекта, базы знаний, Компания «Наносемантика», Корпоративный институт компании «Газпром», корпоративное обучение
Alina V. Shulgina, Irina G. Prigodich
Experience of training by the bibliographer-analyst of the information agent robot
About testing of the computer program of the virtual consultant (product of the company «Nanosemantika», Moscow) for application in corporate training (Corporate institute of the company Gazprom, Petersburg branch).
Keywords: virtual consultant, testing of computer programs, technologies of artificial intelligence, knowledge bases, Nanosemantika company (Moscow), Corporate institute of the company Gazprom, corporate training
Смена технологий влечет за собой время перемен в профессиональной структуре нашего мира. В наступающей эпохе робототехники появляются черты новых профессий - аналитика и модератора контента. Проблема пополнения баз знаний уже сейчас частично решается в процессе диалога с интеллектуальным роботом на естественном языке. В качестве примера можно назвать проект интеллектуального робота Джорджа, обучающего английскому языку в Сети, который разработан с участием выпускника СПбГИК И. Зайцева.
Цель данной работы - описать необходимые аналитические навыки для обучения робота с проекцией личного опыта на профессиональные навыки библиографа.
В 2013 г. в рамках программы дополнительного образования «Бизнес-аналитика», где обучались студенты 3-5 курсов библиотечно-информационного факультета СПбГИК, лектор предложил участвовать в отборе претендентов для необычного проекта. Тот, кто пройдет отборочный конкурс (два человека), смогут поработать в качестве помощников в Корпоративном Институте «Газпром» над проектом по системам экологического менеджмента. Особых подробностей нам не озвучили, но уже первое задание было непростым. Необходимо было написать о себе резюме в двух-трех предложениях, чтобы именно тебя взяли на стажировку в такую крупную
организацию как ОАО «Газпром». По итогам отбора выбрали соавторов данного текста. Мы обе закончили химико-биологические классы, но это была единственная точка соприкосновения с экологическим менеджментом, по проблематике которого нам пришлось работать почти целый год.
Руководитель нашего проекта Л. Э. Смирнова, объяснила, что наша задача состоит в обучении интеллектуального робота, которого мы далее будем именовать «интеллектуальным агентом». Дело в том, что петербургские программисты из компании «Наносемантика» разместили в Интернете платформу, где любой человек может создать своего собственного «интеллектуального слугу» - Инфа. Этот проект посвящен искусственному интеллекту. Его разработчики считают, что в ближайшем будущем люди смогут общаться с компьютером на естественном языке. Инфы являются очень интересным проектом, так как на любом сайте, да и в принципе при общении с любым техническим устройством, необходима справка, которую и обеспечит Инф.
Проект нацелен на то, чтобы люди самостоятельно смогли создать образ, внешний вид Инфа, обучить его общению. В дальнейшем предполагается, что человек за небольшую плату сможет поместить его на свой сайт, в блог или социальную сеть. Инф может отвечать на вопросы почти так же, как отвечали бы на них вы, то есть Инф становится почти вторым «я». Инфы легко обучаемы, а главное, их можно создать столько, сколько пожелает пользователь. Конечно, в этом таятся многие возможности, но и существенные риски для нас.
Сейчас Инфы представляют собой довольно простых агентов, которых приходится обучать «вручную», преимущественно через клавиатурный диалог. Однако уже в ближайшие годы можно будет использовать запоминание и распознавание устных реплик человека, автоматическое подключение словарей и библиотек, организацию длинных сложных диалогов и другое. Все, что закладывается в электронный разум Инфа, запомнится им и будет вариативно применяться в ответах.
В Корпоративном институте ОАО «Газпром», куда мы попали на стажировку, нам сказали, что подобный Инф будет частью электронного пособия, которое готовится для специалистов по системе менеджмента качества. Было необычно, что студенты третьего курса трудятся над созданием учебника для сотрудников такой крупной и серьезной компании как ОАО «Газпром». Более того, этот проект являлся инновационным и был представлен в Москве на конкурсе.
Для начала работы предстояло самим понять, по какому принципу работает Инф. Он состоит из трех компонентов: виджета (то есть графического модуля), веб-сервиса (сайта iii.ru) и совокупности баз знаний, которую наполняет пользователь. Принцип работы представляет собой простейшую коммуникационную цепочку, а именно:
1) пользователь вводит в строку реплику на естественном языке;
2) виджет передает реплику в веб-сервис, который защищен протоколом и не теряет вводной информации при передаче;
3) веб-сервис обрабатывает реплику пользователя, то есть переводит ее на искусственный язык.
Главной задачей здесь является выявление ведущей информации из реплики. Для этого необходимо для начала понять тему беседы, выделить содержательные части текста, провести их анализ, определить текущее состояние диалога (начало, кульминация, завершение), а также диагностировать эмоциональную окраску диалога. То есть, в этом самом главном пункте задействуются одновременно приемы нескольких методов анализа: аспектного, смыслового, контент- и интент-анализа.
По результатам анализа Инф синтезирует наиболее подходящий ответ на основе данных, введенных в его базу знаний, а так же имеющихся шаблонов. Веб-сервис отправляет ответ виджету. Виджет выдает в диалоговом окне ответ пользователю, подчас подключая эмоциональные реплики. Затем он находится в режиме ожидания следующих вопросов или высказываний.
Наш Инф получил имя Сэм Газпромович и внешность Джеймса Бонда. Его задача заключалась в оказании информационной поддержки специалистам, обучающимся по электронному пособию системе экологического менеджмента. Он должен был занимать место на каждом слайде учебника и фактически заменять преподавателя.
Так как любой Инф изначально имеет в своем устройстве шаблоны стандартных реплик, таких как «привет», «спасибо», «как дела», то предстояло ввести в его механизм необходимую для обучения информацию. На этом этапе возникло много проблем. Выяснилось, что:
- для Инфа играет большую роль заглавная или прописная буква;
- количество пробелов между двумя словами;
- опечатки в реплике;
- знаки препинания;
- окончание слова;
- объем или длина фразы и др.
При наличии хотя бы одного подобного пункта Инф сразу же прекращал обработку реплики и выдавал фразу: «Простите, я ничего не понял», или любую другую из имеющихся в коллекции шаблонов. Существенной проблемой являлось также ограничение на допустимое количество вводимых знаков, что требовало умений содержательного свертывания информации.
Следовательно, перед нами стояла непростая задача: предсказать примерные вопросы, которые могли бы задать во время обучения специалисты. Для этого нужно найти информацию по теме, структурировать ее, выделить ключевые слова
и составить список вопросов по терминологии, связям между объектами и особенностям того или иного процесса экологического менеджмента.
Другими словами, это был процесс перевода слабо структурированных сведений по теме на информационно-поисковый язык, так как Инф представляет собой более «очеловеченный» вариант поискового сервера, но с меньшей и проблемно-ориентированной информационной базой. Инф так же, как и стандартная поисковая система, обладает рядом особенностей в поиске, только более усложненных. Например, можно использовать знаки сокращения (звездочка) или пропуска слов, при условии, что неизвестно, как именно пользователь задаст вопрос. Но по фрагментам ключевых слов Инф подберет наиболее подходящий ответ.
Во время обучения Инфа, а ввод данных в его базу знаний называется именно так, необходимо продумать и проработать весь механизм ответов и отсылки к нужному материалу. Дело в том, что Инф общается на определенные темы, но при малейшей ошибке пользователя высока вероятность отсылки к совершенно другой информации, абсолютно не относящейся к интересам обучающегося человека. Мы не могли допустить, чтобы при непонятном вопросе пользователя Инф отвечал: «Я не знаю. А ты смотрел новый фильм?», - то есть по первоначальному шаблону, который невозможно удалить из базы знаний. Именно поэтому тщательно прорабатывается схема ответа Инфа в случае ответа «да» или «нет». При этом во втором случае требуется направить пользователя на верную информацию.
Работа эта очень кропотливая, тем более, что отрасль ранее нами не осваивалась, а в системе экологического менеджмента используются много смежных понятий, которые нам до стажировки были неизвестны. В результате почти годовой работы Инф смог отвечать на большинство нужных реплик, что позволило Корпоративному Институту ОАО «Газпром» внедрить его в программу обучения менеджеров по качеству, а также завоевать приз на конкурсе.
Безусловно, и до этого проекта ученые активно решали проблему искусственного интеллекта, начиная с работ академика В. М. Глушкова, массива публикаций по созданию системы автоматизированного перевода в 1960-е гг., современных работ «о поведении» интеллектуального робота. Например, Д. А. Добрынин и В. Э. Карпов в своей статье «Моделирование некоторых форм адаптивного поведения интеллектуальных роботов»1, рассматривают понятие «интеллектуальный робот», вопросы моделирования адаптивного поведения на базе универсального мобильного мини-робота, созданного в рамках проекта «Адаптант». Обсуждаются некоторые аспекты организации взаимодействия между роботами, а также вопросы индуктивной адаптации на базе эволюционного моделирования и динамического ДСМ-метода - метода порождения гипотез. Приводится сравнение результатов обучения разными методами. В печати активно обсуждаются вопросы развития интеллектуальных технологий для систем управления роботами (С. В. Манько) и др.2 Однако, большая часть исследований ведется для создания и обучения про-
изводственных роботов, а не виртуального Инфа, которого не нужно материально создавать, а лишь пополнять базу знаний. Поэтому проект, над которым нам удалось поработать, можно назвать инновационным, который требует еще долгого совершенствования, многих участников и новых информационных технологий.
Важно отметить, что процесс развития интеллектуальных агентов идет ускоренными темпами. Так, компания разработчиков «Наносемантика» в данный момент трудится над тем, чтобы устроить соревнования Инфов по умению вести дискуссию, а так же выполнять автоматическое обучение по текстам, веб-страницам с использованием функции переводчиков, путеводителей-энциклопедий.
Библиограф, владеющий навыками поиска, систематизации и анализа информации разной предметной области3, сможет освоить правила обучения интеллектуальных агентов, используя их в качестве информаторов о своих и внешних информационных ресурсах по теме запросов. Обученный робот сможет вести экскурсию по библиотеке, отвечать на простые запросы пользователей в службе виртуальной справки библиотек. Кроме того, на определенном этапе он станет надежным помощником при выполнении сложных запросов, напоминая библиографу о наличии дополнительных баз данных и справочников. «Вежливый» и ничего не забывающий робот - это озвученный справочно-поисковый фонд, вековая мечта библиографа.
Примечания
1 Добрынин Д. А., Карпов В. Э. Моделирование некоторых форм адаптивного поведения интеллектуальных роботов // Информационные технологии и вычислительные системы. -2006. - № 2. - С. 45-56.
2 Корсаков С. Н. Начертание нового способа исследования при помощи машин, сравнивающих идеи / под ред. А. С. Михайлова. - М. : МИФИ, 2009. - 44 с. ; Люгер Дж. Ф. Искусственный интеллект : стратегии и методы решения сложных проблем / под ред. Н. Н. Куссуль. - 4-е изд. - М. : Вильямс, 2005. - 864 с.
3 Гордукалова Г. Ф. Технологии анализа и синтеза профессиональной информации. -Санкт-Петербург : Профессия, 2015. - 544 с.