Научная статья на тему 'Современные решения и подходы к обработке массивов неструктурированной текстовой информации в области больших данных'

Современные решения и подходы к обработке массивов неструктурированной текстовой информации в области больших данных Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
1737
198
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
BIG DATA / DATA MINING / ТЕКСТОВАЯ АНАЛИТИКА / TEXT ANALYTICS / НЕСТРУКТУРИРОВАННАЯ ИНФОРМАЦИЯ / UNSTRUCTURED INFORMATION

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Борисов Александр Васильевич

В статье рассматриваются методы и инструменты текстовой аналитики, используемые для решения проблемы больших данных огромных массивов информации, накапливаемых в процессе деятельности организаций. Инструменты текстовой аналитики позволяют осуществлять сбор, систематизацию и анализ текстовых данных в автоматическом режиме благодаря применению лингвистических правил, статистических методов и методов машинного обучения. Проанализированы возможности анализа неструктурированных массивов данных для получения значимой информации.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Борисов Александр Васильевич

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Современные решения и подходы к обработке массивов неструктурированной текстовой информации в области больших данных»

Проанализировав различные способы управления движением робототехнической системой, было выявлено, что независимо от способа задания движений, центральное место в системе управления занимает генератор траекторий. На основе программных траекторий, получаемых из него, и строятся системы управления роботами.

На данный момент существует больше количество разнообразных методов управления движением робота, которые позволяют реализовать огромный спектр задач. Выбор метода управления целиком зависит от поставленных целей перед роботом, способа реализации, выбранного программного обеспечения для управления и, конечно, от количества располагаемых средств.

Литература

1. Павловский В. Е. // О разработках шагающих машин. [Электронный ресурс]. Режим доступа: http://www.keldysh.ru/papers/2013/prep2013_101.pdf/ (дата обращения: 02.12.2016).

2. Гориневский А. Ш., Формальский А. М. // Управление манипуляционными системами на основе информации об усилиях. Физматлит, 1994.

3. Тертычный-Даури В. Ю. Динамика робототехнических систем. Спб., 2012.

4. Горобцов А. Программный комплекс расчета динамики и кинематики машин как систем твердых и упругих тел // Инженерный журнал, 2004. № 9. С. 40-43.

5. Разработка математического и программного обеспечения систем управления мобильными роботами произвольной структуры с избыточными связями. [Электронный ресурс]. Режим доступа: http://www.vstu.ru/files/thesis_defence/7022/mohov_aleksandr_dmitrievich.pdf/ (дата обращения: 28.11.2016).

MODERN SOLUTIONS AND APPROACHES TO ARRAY PROCESSING UNSTRUCTURED TEXT INFORMATION IN THE FIELD OF BIG DATA

Borisov A.

СОВРЕМЕННЫЕ РЕШЕНИЯ И ПОДХОДЫ К ОБРАБОТКЕ МАССИВОВ НЕСТРУКТУРИРОВАННОЙ ТЕКСТОВОЙ ИНФОРМАЦИИ В ОБЛАСТИ БОЛЬШИХ ДАННЫХ Борисов А. В.

Борисов Александр Васильевич / Borisov Aleksandr — магистрант, кафедра компьютерных систем и сетей, факультет информатики и систем управления, Московский государственный технический университет им. Н. Э. Баумана, г. Москва

Аннотация: в статье рассматриваются методы и инструменты текстовой аналитики, используемые для решения проблемы больших данных - огромных массивов информации, накапливаемых в процессе деятельности организаций. Инструменты текстовой аналитики позволяют осуществлять сбор, систематизацию и анализ текстовых данных в автоматическом режиме благодаря применению лингвистических правил, статистических методов и методов машинного обучения. Проанализированы возможности анализа неструктурированных массивов данных для получения значимой информации. Abstract: the article deals with the methods and tools of text analytics, used to solve the problem of Big Data - massive amounts of information accumulated in the course of business organizations. Big Data - is a group of technologies and productive methods of processing of dynamically growing volumes of data (structured and unstructured) in distributed information systems. Tools text analytics allow us to collect, organize and analyze text data automatically through the use of linguistic rules, statistical methods and machine learning techniques. The possibilities of analyzing unstructured data sets to obtain relevant information.

Ключевые слова: Big Data, Data Mining, текстовая аналитика, неструктурированная информация.

Keywords: Big Data, Data Mining, text analytics, unstructured information.

Ключевым трендом в IT-индустрии стала работа с большими данными (Big Data), связанная с обработкой огромных массивов информации, которые накапливаются в процессе деятельности

компаний и государственных организаций. Обработанные данные могут использоваться как для анализа, так и для прогнозирования, при этом области применения решений Big Data являются настолько широкими, что они все глубже проникают в обыденную жизнь. Усиление интереса к понятию Big Data обусловлено непрерывным ростом данных, который затронул в настоящее время практически все сферы деятельности. По утверждению экспертов, к 2020 г. объем информации, накопленной в мире, будет удваиваться каждые два года [1].

Big Data - представляет собой группу технологий и методов производительной обработки динамически растущих объемов данных (структурированных и неструктурированных) в распределенных информационных системах, что позволяет обеспечить организацию качественно новой и значимой информацией. Обрабатываемые данные имеют такой объем, что организовать процесс, связанный с их захватом, управлением и обработкой за установленное время, традиционными инструментами не представляется возможным.

Впервые термин Big Data упомянут в 2008 году Клиффордом Линчем, редактором журнала Nature. Специальный номер журнала рассматривал тему влияния на будущее науки технологий, позволяющих работать с большими объемами данных. В номере был рассмотрен феномен невероятного роста объемов и многообразия обрабатываемых данных, рассмотрены технологические перспективы при вероятном скачке «от количества к качеству».

Проясняя смысловое значение термина Big Data, используют характеристики, получившие название 3 V, что свидетельствует не столько о большом размере, сколько о совокупности таких факторов как:

- Volume (объем) - данные являются действительно большими, однако на размер обрабатываемых данных влияют доступные для их обработки ресурсы;

- Variety (разнообразие) - данные являются разнородными и слабо структурированными;

- Velocity (скорость) - необходимость в обработке данных с большой скоростью, для получения быстрого результата.

Следовательно, можно утверждать, что Big Data представляет собой совокупность технологий, реализующих:

- обработку больших по сравнению со «стандартными» сценариями объемов данных;

- работу с данными, поступающими очень быстро и в очень большом объеме, который постоянно увеличивается;

- параллельную работу со структурированными и плохо структурированными данными.

Big Data и текстовая аналитика

Для того чтобы управлять данными, объемы которых значительно превышают возможности современных информационных систем, используют комплекс решений Big Data. Однако, несмотря на существующую на сегодняшний день возможность беспрепятственного доступа к огромным массивам данных, возникает проблема, связанная с вычленением нужной информации.

Из-за того, что текстовым данным не требуется много места на дисках, их количество постоянно увеличивается. В организациях вынуждены решать многочисленные проблемы, которые возникают при работе с неструктурированной информацией, которая поступает из разных источников: социальных сетей, блогов, форумов, новостных сайтов и др. Следует отметить, что именно в формате неструктурированного контента представлено около 80% всей накопленной информации в мире

Возможность управления данным потоком и извлечения из него всех возможных выгод, предоставляют методы и инструменты текстовой аналитики.

Семантический разбор предоставляет возможность выделять из текста информативные структурированные элементы (к примеру, выделять из сообщений в интернете только те, которые будут относиться к определенным категориям), или выделять тех клиентов, у которых на основе данных о них в интернете или в контактном центре наступили определенные события.

С помощью text mining появляется возможность автоматического определения темы, ключевых слов и групп документов, для исследования форумов и совокупности потоков документов. Так, например, среди большого количества жалоб, определяются ключевые темы, чтобы понимать, как связана каждая тема с ключевыми словосочетаниями.

Инструменты текстовой аналитики позволяют осуществлять сбор, систематизацию и анализ текстовых данных в автоматическом режиме благодаря применению лингвистических правил, статистических методов и методов машинного обучения.

При анализе текста используются различные подходы. Так, в Исследовательском центре искусственного интеллекта Института программных систем им. А. К. Айламазяна РАН выделяют такие виды текстовой аналитики Big Data как: морфологический, синтаксический и семантический [5].

Широко распространен такой вид аналитики, как Sentiment Analysis, который представляет упрощенный семантический анализ.

Существуют варианты морфологического анализа, при котором подсчитываются определенные ключевые слова, в зависимости от заданных условий. В качестве примера можно привести проект Google N-Grams Corpus, предоставляющий такой сервис по годам встречаемости слов (в управлении Google массивы слов объемом более 1 трлн. из отсканированных литературных источников).

Также морфологический подход для оценки неструктурированных текстовых массивов, которые накапливаются в сети Интернет, был использован в проекте «Google Flu». Google осуществляет отслеживание динамики появления в сети определенных ключевых слов (запросы пользователей, введенные в строку поиска). Специалистами Google было определено 45 условий поисковых запросов, с высоким коэффициентом корреляции с официальной эпидемиологической статистической информацией о заболеваемости гриппом [1, с. 10]. Благодаря этому данные о начале эпидемии гриппа в регионах поступает в режиме реального времени.

Данный пример аналитики Больших данных демонстрирует, каких результатов можно достичь, установив связь между хаотично появляющимися в сети Интернет конкретными ключевыми словами и реальными событиями, которые происходят в социуме.

Проект «Google Flu» способствовал тому, что неструктурированные массивы текстовых данных сети Интернет стали восприниматься как данные, из которых можно извлечь важную информацию. Такой подход к аналитике огромных массивов ключевых слов делает акцент на одну из базовых характеристик Big Data - объем (Volume).

Неструктурированные текстовые массивы Big Data в сети Интернет представляют собой категорию данных, которая позволяет осуществить быстрый мониторинг ситуации. Так, массивы ключевых слов, которые относятся к категории Big Data и создаются хаотично глобальной Интернет-аудиторией, являются отражением в информационной среде реальных процессов, происходящих в обществе.

Таким образом, можно утверждать, что слова представляют собой данные, благодаря анализу которых возможно получение информации о текущем состоянии ситуации и прогнозирование дальнейшего вектора ее развития. Главной задачей исследователей в области Big Data является поиск общих закономерностей в массивах неструктурированных данных.

Выбор инструмента текстовой аналитики для решения конкретной задачи предполагает определение необходимых характеристик.

Решения текстовой аналитики для анализа неструктурированной информации подразделяются на следующие виды:

- готовое решение, построенное на технологиях текстовой аналитики, для конкретного сегмента В2В-клиентов. В данную категорию можно отнести решения действительно из сферы искусственного интеллекта, выполняющие не только задачи текстовой аналитики, но и предоставляющие когнитивные сервисы и их микс. Таким инструментом является IBM Watson (2007 г.), оперирующий big data независимо от того какой вид и формат данных. IBM Watson имеет способность к самообучению, идеально подходит для быстрого поиска ответов на вопросы;

- точечное решение - инструмент, объединяющий в себе элементы текстовой аналитики и big data для массового потребления. К данной категории можно отнести Findo (2016 г.) компании ABBYY. Findo является поисковым ассистентом по почтовым сообщениям, файлам и документам в облаках.

Компанией SAS предлагаются основные решения, реализующие интеллектуальный анализ текста и анализ тональности: SAS Text Miner и SAS Sentiment Analysis;

- модульное решение технологии текстовой аналитики - инструмент, подходящий под широкий спектр задач, представляющий собой элемент конструктора текстовой аналитики для бизнеса. К модульным технологиям относится решение Yandex Data Factory, основанное на технологиях Яндекса в области машинного обучения и анализа больших данных. Технологии распознавания образов и речи, глубокие нейронные сети, технологии обработки естественного языка дают возможность анализировать большие массивы данных и получать решение поставленной задачи.

В настоящее время текстовая аналитика находит широкое применение в таких областях как: маркетинг и исследования рынка, мониторинг СМИ и социальных сетей, анализ тональности и оценка мнений, отзывов и жалоб, для поиска ответов на вопросы в колл-центрах, для прогнозирования возможных событий и т. д.

Анализ текстов занимает особое место в обеспечении безопасности. Многие системы безопасности используют инструменты текстовой аналитики, позволяющие осуществлять

блокировку передачу нежелательной или засекреченной информации в сеть Интернет. Текстовая аналитика востребована также и на всех уровнях государственного управления -федеральном, региональном и муниципальном.

Следует отметить, что на современном этапе инструменты текстовой аналитики являются адаптивными средствами, настраиваемыми под конкретные задачи, путем использования специальных схем обучения алгоритмов, а также комбинирования методик анализа. Это дает возможность анализировать огромные массивы информации, накопленные за многие годы.

Литература

1. Майер-Шенбергер В., Кукьер К. Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим / пер. с англ. Гайдюк И. М.: Манн, Иванов и Фербер, 2014. 240 с.

2. Иванов П. Д., Вампилов В. Ж. Технологии Big Data и их применение на современном промышленном предприятии. Инженерный журнал: наука и инновации. [Электронный ресурс]: 2014. Вып. 8. Режим доступа: http://engjournal.ru/catalog/it/asu/1228.html/ (дата обращения: 14.12.2016).

3. Большие данные (Big Data). TAdviser. [Электронный ресурс]. 2016. Режим доступа: http://tadviser.ru/a/125096/ (дата обращения: 14.12.2016).

4. Data Science & Big Data Analytics: Discovering, Analyzing, Visualizing and Presenting Data/ EMC Education Services. David Dietrich, Barry Heller, Beibei Yang. Published by John Wiley & Sons. Inc. USA, 2015. 435 p.

5. Доклад-презентация: Интеллектуальная метапоисковая система Sirius // Исследовательский центр искусственного интеллекта, Институт программных систем РАН. Переславль-Залесский, Россия. [Электронный ресурс]. 2006. Режим доступа: http://skif.pereslavl.ru/ (дата обращения: 15.12.2016).

6. Gantz John, Reinsel David. The digital universe in 2020: Big Data, Bigger Digital Shadow s, and Biggest Grow in the Far East. [Электронный ресурс]. Режим доступа: http:// www.emc.com/collateral/analyst-reports/idc-the-digital-universe-in-2020.pdf/ (дата обращения: 12.12.2016).

PRINCIPLE OF BROWSER TOR Duc B.1, Huy N.2, Linh L.3, Huy N.4, Truong N.5 ПРИНЦИП РАБОТЫ TOR-БРАУЗЕРА Дык Б. М.1, Хуи Н. Н.2, Линь Л. Т.3, Хю Н. Б.4, Чыонг Н. Д.5

'Дык Буй Минь /Duc Bui — магистрант, кафедра программных систем, факультет инфокоммуникационных технологий; 2Хуи Нгуен Нгок / Huy Nguyen — студент; 3Линь Лай Тхи /Linh Lai — студент, кафедра проектирования и безопасности компьютерных систем, факультет информационной безопасности и компьютерных технологий; 4Хю Нгуен Ба /Huy Nguyen — студент; 5Чыонг Нгуен Динь / Truong Nguyen — студент, кафедра систем управления и информатики, факультет систем управления и робототехники; Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики, г. Санкт-Петербург

Аннотация: Tor - это бесплатное и открытое программное обеспечение для реализации второго поколения, так называемая луковичная маршрутизация. Это система прокси-серверов, позволяющая устанавливать анонимное сетевое соединение, защищенное от прослушивания. Tor является самой популярной анонимной сетью виртуальных туннелей, предоставляющей передачу данных в зашифрованном виде. С помощью Tor пользователи могут сохранять анонимность в Интернете при посещении сайтов. В этой статье мы узнаем о луковичной маршрутизации и как Tor работает.

Abstract: Tor is a free and open source software for the realization of the second generation onion routing. It is a system of proxy servers, that allows you to set up an anonymous network connection, the connection will be protected from any traffic analysis and network spying. Tor is the most popular and secure option available for anonymous internet connectivity with transfer

i Надоели баннеры? Вы всегда можете отключить рекламу.