Научная статья на тему 'Itбизнес в Сибирском формате'

Itбизнес в Сибирском формате Текст научной статьи по специальности «СМИ (медиа) и массовые коммуникации»

CC BY
42
6
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ОПТИЧЕСКОЕ РАСПОЗНАВАНИЕ / ОЦИФРОВКА АРХИВОВ / ARCHIVE DIGITIZATION / РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ / CUSTOM SOFTWARE DEVELOPMENT / АВТОМАТИЗАЦИЯ ДОКУМЕНТООБОРОТА / ОБРАБОТКА ДОКУМЕНТОВ / DOCUMENT MANAGEMENT SYSTEMS / OPTICAL CHARACTER RECOGNITION (OCR) / DATA CAPTURE

Аннотация научной статьи по СМИ (медиа) и массовым коммуникациям, автор научной работы — Боровой С. В.

Интервью с директором компании «АТАПИ»

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Itбизнес в Сибирском формате»

IT-бизнес в сибирском формате

Интервью с директором компании «АТАПИ» С.В. БОРОВЫМ, Новосибирск

Ключевые слова: оптическое распознавание, оцифровка архивов, разработка программного обеспечения, автоматизация документооборота, обработка документов

— Сергей Владимирович, чем занимается ваша компания?

- «АТАПИ», в первую очередь, - это компания-разработчик программного обеспечения. Мы разрабатываем на заказ приложения в области оптического распознавания и автоматизации документооборота. И дополнительно к этому внедряем системы ввода данных из бумажных документов, которые производит наш партнёр, московская компания ABBYY - автор таких известных продуктов, как Lingvo и FineReader. Ещё одно направление деятельности - оцифровка печатных источников для библиотек и архивов с использованием продуктов компании ABBYY и труда операторов.

В целом можно сказать так: мы делаем все, что связано с программными технологиями оптического распознавания текстов - эту область технологий традиционно обозначают аббревиатурой OCR (Optical Character Recognition). Оптическое распознавание используется для того, чтобы перевести текст, который является «картинкой» - отсканированной или сфотографированной страницей - в формат компьютерного текста, который можно копировать, редактировать, производить в нем поиск ключевых слов и т. д.

Попутно мы захватываем несколько смежных областей, в частности, разрабатываем приложения в области визуального контроля промышленных процессов. Типичный пример - системы контроля качества на производстве, когда снятые на камеру изображения деталей, сходящих с конвейера, сравнивают с неким графическим эталоном и таким образом находят дефекты.

В этой области у нас было несколько интересных проектов. Например, исследование по анализу изображений печатных плат для определения качества их изготовления. Сейчас для одного

ЭКО. - 2014. - №7 БОРОВОЙ С.В.

из заказчиков идёт разработка алгоритмов анализа и подсчёта клеток крови под микроскопом. Наше решение будет встроено в гематологический анализатор - продукт, который позволяет автоматически делать анализ крови при помощи алгоритмов машинного зрения.

— Как появилась компания «АТАПИ»? С какой идеи началась?

- Наша компания «родилась» в 2001 г. по инициативе группы инвесторов, в своё время стоявших у истоков компании ABBYY. ABBYY - яркий пример того, как наша российская наукоёмкая технология, что называется, завоевала мир. Продукты ABBYY из линейки распознавания и ввода данных стабильно занимают первые строки в международных рейтингах, ими пользуются миллионы людей из разных стран, приложения на их базе комплектуются со сканерами и встроены в многофункциональные устройства крупнейших мировых производителей - таких как Canon, Epson, Fujitsu, Toshiba, Xerox и др. В России программное обеспечение ABBYY используется, в частности, для обработки результатов ЕГЭ.

В начале 2000-х годов в Москве уже вовсю ощущался дефицит талантливых инженеров, и столичный IT-бизнес стал всё чаще посматривать в сторону других регионов. В Новосибирске в первую очередь привлекала мощная кадровая и научная база - наши вузы выпускали и продолжают выпускать качественные IT-кадры, хотя со временем их нехватка возникла и здесь. К тому же в этот момент начала активно развиваться индустрия, как тогда говорили, «офшорного программирования». Сейчас чаще употребляется более общий термин - «аутсорсинг». Применительно к сфере разработки программного обеспечения это означает передачу всего процесса разработки либо каких-то отдельных его частей исполнителю, который часто находится за много тысяч километров от заказчика. Наши сибирские команды уже в 1990-х годах отлично умели программировать, прекрасно ориентировались в современных технологиях, нарабатывали опыт в области управления проектами, выходили на контакты в удобное для клиентов время и свободно общались с ними на английском языке. Все эти преимущества мы продолжаем предлагать нашим заказчикам и сейчас.

У инвесторов появилась мысль подключить этот потенциал к задачам ABBYY - в первую очередь, к заказным проектам, где требовались глубокая доработка серийных продуктов, их перенос на другие платформы и т.п., для чего нужны были квалифицированные кадры. В России на тот момент рынок подобных проектов был узок, заказы подобного рода приходили от крупных заказчиков только из-за рубежа. Когда наша компания начала работу в 2001 г., она получила от ABBYY заказ на несколько важных разработок с довольно широким разбросом в предметной области. Пришлось соответствовать! В дальнейшем мы нашли и собственных клиентов, поначалу также по большей части за рубежом.

Постепенно в России начал формироваться рынок легального программного обеспечения. Затем в корпоративных структурах поняли, что программное обеспечение может быть не только лицензионным, но и удобным, настроенным под их бизнес-процессы - появилась потребность в серьёзном внедрении с полной интеграцией в инфраструктуру, в заказных разработках. Мы с удовольствием взялись за поставку и сопровождение продуктов ABBYY в нашем регионе. Сегодня в нашем арсенале - успешные проекты для «Востокгазпрома», значимый региональный проект «Транспортная карта» для крупных розничных сетей (таких, как «НОВЭКС» и «Посуда Центр»), банков, почтовых компаний, а также для мэрии Новосибирска и т.д. Мы являемся «серебряным партнером» компании ABBYY и, без сомнения, технически наиболее квалифицированным партнером ABBYY за Уралом. Сейчас мы завершаем проект для крупного медиахолдинга в центральной части страны, для которого пишем заказное решение на основе инструментария ABBYY FineReader Engine, предназначенное для обработки выпусков печатной прессы.

— Какие трудности пришлось преодолевать на начальном этапе, что помогало развиваться?

Трудностей, как и у любой компании, хватало - особенно в первые годы. Были сложности с офисными площадями. Первый офис мы арендовали с запасом по площади, но арендную плату нам поднимали настолько регулярно и «от души», что пришлось съехать. Был период, когда мы снимали помещение на территории

одного из институтов СО РАН, в части здания, где до этого был машинный зал.

Все видели, хотя бы на картинках, какими были ЭВМ в 1970-е годы - большие залы с рядами гудящих железных коробок. Соответственно, вся эта часть здания была пронизана вертикальными кабельными шахтами. Потом машинные залы переделали в кабинеты, трубы демонтировали, а отверстия в перекрытиях просто закрыли фанерой и линолеумом. Я не то чтобы специально изучал устройство вычислительных центров... Мы узнали обо всем этом случайно, когда в одну из наших комнат вдруг с потолка свалился человек, покрытый строительной пылью. Рабочий делал ремонт этажом выше и наступил, ничего не подозревая, на линолеум в неправильном месте. У нас как раз под этой дырой стоял холодильник, поэтому, к счастью, обошлось без травм.

Мы пережили несколько «кризисов роста». Менялся удельный вес разных направлений деятельности - всё это выстраивалось под проекты, которые нам заказывали, а значит, мы вынуждены были меняться в такт с изменениями рынка. Бывало, что хромала организация работы, но мы продолжали развиваться, делали выводы, работали над улучшением своих процессов - и постепенно вырастили в компании поколение очень грамотных руководителей. Все они начинали со стартовых позиций (разработчиков, тестировщиков), знают изнутри специфику проектов и технологий, с которыми работают. Несколько человек, которым это позволяет административная нагрузка, до сих пор остаются в положении «играющих тренеров» - то есть и руководят проектами, и программируют; а значит, глубоко в курсе происходящего в проектах.

Поэтому всё чаще клиенты, сделав один проект, приходят за следующим, рекомендуют своим партнёрам, клиентам и т.д. Безусловно, мы это относим к нашим успехам.

Помогала поддержка нашего партнёра ABBYY и, конечно, товарищей по цеху - тогда мы уже начали сотрудничать с ассоциацией «Сибакадемсофт» и другими организациями, на базе которых сейчас развивается структура, которую стали называть IT-кластером Новосибирской области. Это дало нам многие ценные горизонтальные связи, как сейчас говорят; мы вовремя получали информацию о профильных конференциях, обсуждали

с коллегами совместные проекты, у нас была возможность участвовать в создании Академпарка с самого старта. И теперь если приходит клиент с каким-то проектом, который в одиночку нам не «переварить» - не хватает опыта в какой-то области, мы уже знаем, к кому из соседей обратимся. Точно так же поступают наши партнеры: когда обсуждают проект, где требуется распознавание, зовут нас.

— У вашей компании есть собственные разработки: продукты или ноу-хау?

- Мы в целом не продуктовая компания, но несколько таких разработок у нас есть. Расскажу об одной из них: это модуль, который позволяет отыскивать и распознавать на фотографиях коды, состоящие из букв и цифр в определенном формате.

Эта разработка состоит из двух частей. Одна обрабатывает изображение и ищет на нем заданный элемент. В ней используются довольно сложные алгоритмы и присутствует много, как говорят программисты, «чистой математики». Вторая часть - собственно распознавание на базе OCR-библиотеки от компании ABBYY.

Сфера применения этой разработки достаточно широка - от распознавания, скажем, номеров вагонов до регистрации и учета деталей, сходящих с конвейера, если они маркируются подобным кодом. На базе этого модуля у нас разработано решение для распознавания автомобильных номеров, уже прошло несколько внедрений - пока, к сожалению, не в России. У партнера в Сербии работает система так называемых мобильных билетов: наш модуль распознает коды доступа, присылаемые как SMS, на фотоснимках телефонного экрана.

— Расскажите подробнее о каком-нибудь знаковом проекте, выполненном за последние несколько лет.

- Мы особенно гордимся нашим недавним проектом для мэрии города Новосибирска. В 2011 г. мы внедрили в новосибирском городском архиве программный комплекс для автоматизации ввода документов - такую задачу поставила мэрия. Цели проекта были довольно амбициозными: ввести 3 млн страниц уже на первом этапе - объемы, без автоматизации попросту невозможные. Для проекта лучше всего подходила высокопроизводительная система компании ABBYY для ввода данных из бумажных

документов - FlexiCapture. Преимущественно речь шла о таких документах, как постановления, распоряжения, приказы и т.д. за период с 1920-х годов до наших дней. Все они имеют «шапки», по которым система определяет тип и атрибуты документа.

Расскажу немного, как выглядел процесс ввода этих документов до внедрения системы.

В архиве документы хранятся подшитыми в так называемые архивные дела. Одно архивное дело - это от 80 до 130 отдельных документов (около 250 страниц). Оператор ввода сканировал пачку документов - иногда сразу все дело - в папку на компьютере. Затем открывал эту папку, просматривал по очереди все страницы каждого документа (а их могло быть до 10 в каждом), формировал из них вручную PDF-файл. Далее он открывал информационную систему «Архивный фонд», в которой работают российские архивные учреждения, и вручную заполнял на каждый документ специальную карточку: название, номер, дату принятия и прочие атрибуты. Заполнив карточку, сотрудник прикреплял к ней PDF-файл с изображениями страниц и сохранял все это в системе. Затем переходил к следующему документу и т. д. Представьте, сколько времени это должно было занимать: по каждому делу вручную создать около сотни PDF-файлов и заполнить столько же карточек, да еще не перепутать, что куда прикрепить! Кроме того, отсутствовала такая важная вещь, как страховка от «человеческого фактора» - не было никакой автоматической проверки данных, а следовательно, высок риск ошибок. В общем, ничего удивительного, что было решено модернизировать этот процесс.

Система, которую мы установили, сама наблюдает за «горячей папкой», куда сканер помещает изображения страниц, и автоматически разбивает их на отдельные документы. Далее распознает информацию из шапки документа и заполняет карточку документа в «Архивном фонде», автоматически формирует PDF из страниц и прикрепляет его к карточке как приложение. Кроме того, полный текст документа также распознается, что позволяет находить документы и по ключевым словам, отсутствующим в шапке. Оператор только контролирует процесс и вносит исправления при необходимости; при этом исходное изображение страницы удобно показывается ему в соседней половине окна для проверки.

После внедрения нашей системы и некоторого периода «обкатки» - как всегда бывает с новыми технологиями - сотрудники архива стали тратить на ввод одного архивного дела в 8-12 раз меньше времени. Мы до сих пор осуществляем техническую поддержку этого решения плюс реализуем некоторые доработки - например, не так давно добавили шаблоны для новых типов документов.

— Есть ли у вас конкуренты и как их наличие/отсутствие способствует развитию компании?

- В России автоматизированный ввод документов все еще остается до некоторой степени экзотикой, и основной наш конкурент - не другие компании, а ручной ввод в самих организациях. Обычно больше усилий уходит на то, чтобы объяснить саму суть и экономическую целесообразность автоматизации, нежели на то, чтобы доказать преимущества наших решений в сравнении с конкурентами. За рубежом конкуренция жестче, потому что степень проникновения таких технологий выше. И компаний, работающих в этой области, хватает - как интеграторов, так и интеграторов-разработчиков, подобных нам, которые могут не только внедрить продукт, но и сделать заказное решение, позволяющее, например, автоматизировать ввод каких-то нестандартных документов, настроить их экспорт в конкретные системы и т. д. Так что сильно расслабляться не получается, и это, я считаю, очень положительно на нас влияет - мы «не отпускаем» старых клиентов, с которыми сотрудничество уже сложилось, и продолжаем находить новых.

Что касается направления услуг по оцифровке архивов и библиотечных фондов (то есть не создания инструментария, а выполнения непосредственно самих работ), то на Западе конкуренция в этой области еще более сильная. Хотя и тут мы выполнили интересные проекты для ряда заказчиков, таких, например, как королевские библиотеки Дании и Швеции. Мы надеемся пригодиться в этом качестве и в России.

— Что дало фирме включение в структуру технопарка новосибирского Академгородка (Академпарк)? Что хотелось бы получить от дальнейшего сотрудничества?

- У нас исторически много связей с местными компаниями, коллегами по цеху. Это компании, которые в свое время

сформировали костяк ассоциации «Сибакадемсофт» и сейчас закономерно занимают важное место в работе Академпарка и IT-кластера. Наш офис находится на территории Академпарка, мы совместно участвуем в различных отраслевых мероприятиях -выставках, конференциях, бизнес-инициативах, и т.д. В целом мы довольны этим сотрудничеством. Вспоминаю бурное обсуждение, шедшее в Академгородке с 2005 г., где лейтмотивом скептиков было «все разворуют, весь лес вырубят, ничего не построят, а в том, что построят, будут торговые центры». Отрадно видеть, что они оказались неправы. Академпарк приносит реальную пользу и мог бы приносить больше, если бы компании, вроде нашей, активнее ему в этом помогали. Но, к сожалению или к счастью, работы много, и на деятельность более общего плана не у всех хватает времени.

— Принимаете ли вы участие в сколковских проектах?

- Мы рассматривали возможность получить статус участника проекта, но пришли к выводу, что не будем торопиться. На то есть ряд причин - например, требование, чтобы исполнительный орган компании-участника физически находился на территории Сколково (правда, это требование уже несколько раз откладывалось, но установка такова, что рано или поздно это станет обязательным). Вообще, Сколково довольно пластично, у них раз в полгода вводятся новые правила и регламенты, которые зачастую кардинально меняют прошлые подходы. Например, той же ABBYY в декабре 2013 г. пришлось долго оправдываться, почему для участия в Сколково были открыты новые юридические лица, хотя в 2010 г. это было обязательным условием. Одним словом, мы решили подождать, пока ситуация не станет более понятной.

— Каковы ваши дальнейшие планы и идеальный вариант развития? С кем хотелось бы сотрудничать, сделать совместный проект?

- Мы планируем развивать работу в Новосибирске и соседних регионах, несмотря на то, что на фоне текущей ситуации с курсом рубля, казалось бы, стоит поступать ровно наоборот. Наверное, это патриотизм в чистом виде. С удовольствием будем реализовывать проекты по оцифровке архивов, аналогичных тому, что мы сделали для мэрии. Такие проекты радуют тем, что

позволяют увидеть и даже потрогать рабочий материал - ряды папок на стеллажах, исторические документы - и порадоваться тому, как с нашей помощью они становятся доступными широкому кругу людей. Интересны проекты наподобие ввода заявлений на получение транспортных карт (то, что мы сделали для «Пас-сажиртрансснаба» и администрации Новосибирска совместно с платежной системой «Золотая корона» компании «ЦФТ»), где результаты наших усилий затрагивают большое число наших сограждан. Мы с огромным удовольствием поработали бы над сохранением культурного наследия, в том числе материалов, связанных с сибирской наукой, - с этой целью контактируем с Государственной публичной научно-технической библиотекой. Также планируем сотрудничество с Новосибирским государственным университетом в плане автоматизации документооборота, и не только.

Еще мы хотели бы поработать с госструктурами по направлению электронного правительства: технологии ввода данных, которые мы внедряем, отлично подходят для приема документов у населения в разнообразных приемных - «реальных» и виртуальных, куда граждане присылают заполненные формуляры и копии документов. У ABBYY есть готовое решение для распознавания паспортов; во многих случаях хорошо поддаются автоматическому вводу и другие типы документов, такие как СНИЛС или заявления на получение той или иной государственной услуги - их вид с характерными «клеточками» знаком нам, например, по бланкам больничных листов. При машинной обработке таких анкет ускорение ввода будет особенно впечатляющим по сравнению с ручным процессом - не менее чем в 10 раз. Кроме того, мы помогаем с разработкой самой такой анкеты - предлагаем оптимальную структуру бланка, которая будет обрабатываться системами ввода максимально быстро и с минимумом ошибок.

— Есть ли у вас социальные общественно полезные идеи, которые хотелось бы реализовать? Что для этого нужно?

- Это логично вытекает из предыдущего вопроса. Например, на мой взгляд, просто необходимо создать цифровую копию научного архива СО РАН. Речь идет, в том числе, об уникальных документах эпохи - это ценнейшие научные документы из лич-

ных архивов ученых и материалы, связанные со строительством и становлением Академгородка. Все это необходимо сохранить и сделать доступным широкому кругу пользователей. Думаю, это будет интересно научному сообществу и всем, кто интересуется историей науки в России, краеведением и т.д.

Мы готовы предоставить наши ресурсы, и опыт соответствующий у нас есть - мы выполнили много проектов по этому профилю для европейских заказчиков. Например, оцифровали несколько сотен томов из энциклопедии Ландольта-Бернштейна для издательства Springer. Это на 100% научный материал, даже не научно-популярный - с формулами, таблицами и графиками. У нас появились наработки, которые позволяют максимально эффективно обрабатывать такие тексты. Если говорить о нестандартных печатных источниках, то здесь наши возможности научными документами не ограничиваются. Материалы с нестандартным размером и форматированием - такие, например, как технические чертежи - в умелых руках тоже вполне поддаются автоматической обработке.

Мы были бы рады заняться оцифровкой архивов старых газет. Такие проекты в нашем регионе уже реализуются - например, есть онлайн-ресурс «Электронная Сибирь» (elib.ngonb.ru). Ничуть не умаляя значимости подобных усилий, хочу сказать, что мы могли бы добиться более высокого качества распознавания за счет тонкой настройки продуктов распознавания и использования дополнительных программных инструментов. Хорошее качество распознавания гарантирует широкие возможности поиска по ключевым словам, что повышает доступность информации.

Сложность реализации таких проектов вытекает из большого объема материала, как следствие - их высокой трудоемкости, а потому и немалой стоимости. Финансирование проектов по сохранению культурного наследия в нашей стране, мягко говоря, все еще весьма ограничено. Надеюсь, эта ситуация со временем изменится в лучшую сторону.

— Спасибо за беседу.

Материал подготовила Ю.С. ВОРОНОВА, кор. «ЭКО»

i Надоели баннеры? Вы всегда можете отключить рекламу.