Научная статья на тему 'ОСНОВЫ БОЛЬШИХ ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ КАК ОБЩЕКУЛЬТУРНАЯ КОМПЕТЕНЦИЯ ОБРАЗОВАТЕЛЬНЫХ СТАНДАРТОВ'

ОСНОВЫ БОЛЬШИХ ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ КАК ОБЩЕКУЛЬТУРНАЯ КОМПЕТЕНЦИЯ ОБРАЗОВАТЕЛЬНЫХ СТАНДАРТОВ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
76
12
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ЦИФРОВАЯ ТРАНСФОРМАЦИЯ / МАШИННОЕ ОБУЧЕНИЕ / ЛОЖНЫЕ КОРРЕЛЯЦИИ / ПОДГОТОВКА КАДРОВ / ПРАКТИКУМ ДЛЯ НЕИНФОРМАТИКОВ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Ребус Наталья Анатольевна, Спивакова Нина Яковлевна

Четвертая промышленная революция предполагает новый подход к производству, основанный на массовом внедрении информационных технологий в промышленность, масштабной автоматизации бизнес-процессов и распространении искусственного интеллекта. Цифровая трансформация не ограничена только экономикой, она затрагивает все сферы жизни общества: здравоохранение, науку, образование, культуру. Несмотря на цифровое неравенство разных отраслей и регионов, все они будут вынуждены дойти до последнего этапа цифровизации - масштабного и системного внедрения роботизированных систем, которые смогут решать широкий круг задач, связанных с принятием решений и творчеством. Авторы подчеркивают, что в отличие от здравого смысла профессионала, решения которого основаны на знаниях и жизненном опыте, машинное обучение фактически ищет корреляции между заданными параметрами. Они могут оказаться ложными как из-за необоснованного выбора параметров, так и из-за нерелевантности обучающегося множества или грязных данных. Только специалист может оценить качество исходных данных или отсутствие причинно-следственных связей в предиктивных моделях. Поэтому на рынке ИТ специалист будет выступать не только в качестве покупателя, но и как востребованный член команды разработчиков. Тем не менее ФГОСы для неинформационных специальностей не содержат подобных компетенций. В статье представлен разработанный и опробованный на занятиях лабораторный практикум «Классификация методом опорных векторов»

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

BASICS OF BIG DATA AND MACHIN LEARNING AS A GENERAL CULTURAL COMPETENCE OF EDUCATIONAL STANDARTS

The fourth industrial revolution assumes a new approach to production based on the massive introduction of information technology in industry, large-scale automation of business processes and the spread of artificial intelligence. Digital transformation affects the entire society: healthcare, science, education, culture. Despite the digital inequality of different industries and different regions, all of them will be forced to reach the last stage of digitalization: the wide and systematic implementation of robotic systems that can solve a wide range of tasks related to decision-making and creativity. The authors emphasize that, unlike the common sense of a professional, whose decisions are based on broad knowledge and life experience, machine learning, in fact, looks for correlations between given features. Spurious correlations can occur due to both bad dataset and unreasonable features selection. Only a specialist can assess the quality of the initial data or the absence of causal relationships in predictive models. Therefore, from a consumer of software, non-informatics specialists must become members of the development team. Nevertheless, the federal state educational standards for non-informational specialties do not contain such competencies. The article presents the training workshop "Data mining classification" developed by the authors for students who are not engaged in IT.

Текст научной работы на тему «ОСНОВЫ БОЛЬШИХ ДАННЫХ И МАШИННОГО ОБУЧЕНИЯ КАК ОБЩЕКУЛЬТУРНАЯ КОМПЕТЕНЦИЯ ОБРАЗОВАТЕЛЬНЫХ СТАНДАРТОВ»

ЦИФРОВАЯ ЭКОНОМИКА

Н. А. Ребус

Н. Я. Спивакова

УДК: 37.01 Б01: 10.24412/2071-6435-2021-6-100-118

Основы Больших данных и машинного обучения как общекультурная компетенция образовательных стандартов

Четвертая промышленная революция предполагает новый подход к производству, основанный на массовом внедрении информационных технологий в промышленность, масштабной автоматизации бизнес-процессов и распространении искусственного интеллекта. Цифровая трансформация не ограничена только экономикой, она затрагивает все сферы жизни общества: здравоохранение, науку, образование, культуру. Несмотря на цифровое неравенство разных отраслей и регионов, все они будут вынуждены дойти до последнего этапа цифровизации — масштабного и системного внедрения роботизированных систем, которые смогут решать широкий круг задач, связанных с принятием решений и творчеством.

Авторы подчеркивают, что в отличие от здравого смысла профессионала, решения которого основаны на знаниях и жизненном опыте, машинное обучение фактически ищет корреляции между заданными параметрами. Они могут оказаться ложными как из-за необоснованного выбора параметров, так и из-за нерелевантности обучающегося множества или грязных данных. Только специалист может оценить качество исходных данных или отсутствие причинно-следственных связей в предиктивных моделях. Поэтому на рынке ИТ специалист будет выступать не только в качестве покупателя, но и как востребованный член команды разработчиков. Тем не менее ФГОСы для неинформационных специальностей не содержат подобных компетенций.

В статье представлен разработанный и опробованный на занятиях лабораторный практикум «Классификация методом опорных векторов»

Ключевые слова: цифровая трансформация, машинное обучение, ложные корреляции, подготовка кадров, практикум для неинформатиков.

Введение

Термин Индустрия 4.0 используется для обозначения прогнозируемых результатов четвертой промышленной революции. Последняя предполагает новый подход к производству, основанный на массовом внедрении информационных технологий в промышленность, масштабной автоматизации бизнес-процессов и распространении искусственного интеллекта [9; 11]. В Индустрии 4.0 интеграция крупномасштабной межмашинной связи

© Н. А. Ребус, 2021 © Н. Я. Спивакова, 2021

(M2M) и Интернета вещей повышает автоматизацию, улучшает связи и самоконтроль, расширяет производство интеллектуальных машин, которые могут анализировать и диагностировать проблемы без необходимости вмешательства человека [9]. Преимущества Индустрии 4.0 очевидны: повышение производительности труда, сокращение рабочих мест, рост конкурентоспособности, принципиально новые продукты и многое другое.

Хотя мы называем перестройку экономики революцией, она тем не менее происходит длительно и неравномерно, каждая компания решает эту задачу по-своему, совершая цифровую трансформацию бизнес-процессов, которая представляет собой внедрение современных информационных технологий в бизнес-процессы предприятия, подразумевающее фундаментальные изменения в подходах к управлению, корпоративной культуре, внешним коммуникациям. Цифровая трансформация не ограничена только экономикой, она затрагивает здравоохранение [6], науку и образование [4; 14], культуру [8].

При описании процессов цифровой трансформации также используется термин цифровизация. Некоторые авторы [18] вообще считают эти понятия синонимами. Но чаще цифровизацией называют использование оцифрованных данных для улучшения бизнес-процессов [3; 7]. Мы будем использовать это понятие именно так.

Цифровая трансформация компании — длительный процесс, который состоит из ряда этапов. Разные авторы выделяют различное число этапов, но их подходы достаточно близки.

Самый простой из них — разделение цифрового преобразования на 3 стадии: оцифровку, цифровизацию и насыщение разных сфер деятельности новыми информационными технологиями [18].

Также возможно выделение пяти этапов цифровой трансформации.

1. Автоматизация внутренних процессов, которая создает цифровую основу будущей бизнес-модели.

2. Отдельные подразделения начинают применять технологии для разработки бизнес-моделей в своем темпе. Но несмотря на использование самых передовых методов, разрозненность и отсутствие единой стратегии не дают ощутимых результатов.

3. Частичная синхронизация: хотя план будущей трансформации утвержден, реализовать новую модель полностью не удается, так как старые бизнес-модели еще не изжиты и не позволяют в полной мере реализовать трансформацию.

4. Полная синхронизация: всеобъемлющее внедрение новой корпоративной цифровой платформы или бизнес-модели. Однако процесс трансформации не может быть статическим, он должен стать неотъемлемой частью инновационной культуры предприятия, на основе которой создаются новые решения.

5. Цифровая трансформация становится полностью синхронизированной и продолжается. Компания работает по новой цифровой бизнес-модели

с обученным персоналом и персонализированными решениями для клиентов [17].

Для достижения реального результата предприятие должно пройти все этапы цифровой трансформации бизнеса, дойдя до последнего — комплексного использования интеллектуальных технологий.

Необходимость этой финальной фазы хорошо прослеживается на примере цифровизации здравоохранения [15]. Применение информационно-коммуникационных технологий и автоматизация записи пациентов на прием повышают привлекательность медицинской услуги, но никак не делают вложения в здравоохранение более эффективным. Более того, любая оптимизация приводит либо к сокращению количества предоставляемых услуг, либо к повышению их стоимость для пациентов, из-за чего эта услуга становится недоступной для определенной части населения. Только внедрениение искусственного интеллекта (ИИ) позволит перестроить бизнес-процессы медицинского обслуживания, переложив целый ряд функций медработника на ИИ.

К сожалению, ни одна страна не вышла на этот этап цифровой трансформации здравоохранения, хотя разработано достаточно много интеллектуальных систем, позволяющих принимать решения в конкретных ситуациях: оценки рентгенограмм, постановки диагноза и прочее [5].

Роль специалиста предметной области в процессах цифровизации

Несмотря на то, что национальный проект «Цифровая экономика Российской Федерации» был утвержден еще в декабре 2018 года, существует значительный цифровой разрыв между регионами, отраслями и отдельными предприятиями (цифровое неравенство) [13; 22]. Цифровое неравенство имеет объективный характер и отражает значительную неравномерность экономического развития регионов. Поэтому далеко не все предприятия готовы прямо сейчас к внедрению интеллектуальных технологий. Но это не означает, что они смогут обойтись без них в дальнейшем. Сейчас во всем мире наблюдается широкое распространение современных информационных технологий. Так, в 2020 году инвестиции отраслей в передовые технологии в мире выросли за год на 16%, в то время как расходы на традиционные ИКТ сократились на 3%. Российская повестка развития цифровых технологий в целом соответствует глобальным трендам [16].

«Можно приводить разные доводы в пользу цифровой трансформации компании, однако, по сути, у компании нет выбора. Мир меняется, и если организация не может соответствовать этим изменениям, она умирает» [11]. Несмотря на некоторую категоричность формулировки, к этому выводу приходит все больше руководителей. Таким образом, рано или поздно каждая организация столкнется с необходимостью применять или разрабатывать интеллектуальную систему.

Наиболее востребованными в настоящее время являются технологии интеллектуального анализа (Data mining) и нейронных сетей [5,16].

Data mining (интеллектуальный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в наборе

данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретаций знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Основу методов Data mining составляют всевозможные методы классификации, моделирования и прогнозирования.

Искусственные нейронные сети состоят из набора связанных между собой нейронов. Входной сигнал преобразуется в результате передачи его по синапсам от нейрона к нейрону.

Обучение с учителем предполагает, что для каждого входного вектора существует целевой вектор, представляющий собой требуемый выход. Вместе они называются обучающей парой. Обычно сеть обучается на некотором числе таких обучающих пар. Предъявляется выходной вектор, вычисляется выход сети и сравнивается с соответствующим целевым вектором. Далее веса изменяются в соответствии с алгоритмом, стремящимся минимизировать ошибку. Векторы обучающего множества предъявляются последовательно, вычисляются ошибки и веса подстраиваются для каждого вектора до тех пор, пока ошибка по всему обучающему массиву не достигнет приемлемого уровня. Предполагается, что обученная таким способом нейронная сеть будет правильно находить целевой вектор и для других входных векторов, принадлежащих некой совокупности.

Экспертная система, в отличие от нейронной сети, содержит в своей базе знаний закономерности некоторой предметной области, представленные специалистами-экспертами, на их основе находит решения и по запросу объясняет ход решения в понятной для пользователя форме.

Нейронные сети и интеллектуальный анализ данных являются мощным средством обработки данных и могут находить решения сложных задач быстрее, чем традиционные алгоритмы, написанные программистами. Обратной стороной интеллектуальной системы является то, что алгоритмы работают как «черные ящики», которые не дают возможности увидеть причины машинного выбора того или иного решения. Если, например, при автоматизации бухгалтерского учета по написанному коду можно увидеть выполняемые программой вычисления и сделать вывод о соответствии (или несоответствии) использованного метода требованиям ПБУ, то при получении вердикта ИИ о высоком риске кредитования данного клиента, мы не можем спросить систему, почему данный заемщик хуже заемщика N.

Отсутствие у ИИ контроля «разумности» полученного решения может привести к тому, что модель, хорошо работающая на обучающем множестве, не дает правильного решения в реальной задаче. Такой эффект называют «переобучением», аналогично тому, как натасканный на конкретные тесты школьник не может решить простую задачку, не совпадающую с вопросами теста.

С проблемой ложных зависимостей (ложных корреляций) сталкиваются не только создатели нейронных сетей, но и статистики. На подобные результаты неоднократно указывали различные авторы:

— изменение количества запущенных космических объектов повторяет динамику изменений числа защищенных PhD-диссертаций [19];

— американская аналитическая компания «Prattle», изучая записи переговоров руководителей различных компаний, получила высокую вероятность повышения цены акций для тех компаний, у которых руководители чаще использовали вежливые обороты [23];

— возраст Мисс мира в точности повторяет динамику количества убитых с помощью пара и горячих предметов;

T. Вигнер посвятил целую книгу курьезным корреляциям, чтобы еще раз напомнить о «золотом правиле»: корреляция не тождественна причинно-следственной связи [21].

Это, безусловно, курьезные результаты. Но и в реальной практике дело обстоит не лучше. «В истории финансовых рынков нет недостатка в моделях, однако 90% из них не обладают способностью предсказывать», — говорит Эндрю Дайсон, глава подразделения количественных инвестиций PGIM [23].

Ложная корреляция чаще всего возникает в случаях наличия третьего фактора, с котором коррелируют 2 независимых исследуемых параметра. Например, количество съеденного мороженого может коррелировать с количеством утонувших в водоемах не потому, что поедание мороженного влияет на способность держаться на воде (как это было бы в случае употребления алкоголя), но из-за того, что и купание, и покупка мороженого вызваны жаркой погодой. Если рост потребления мороженого будет вызван не жарой, а хорошим маркетингом, это никак не повлияет на число купающихся и на число утонувших.

Таким образом, корреляция (в противовес причинно-следственным связям) может быть использована только для случайных величин, полученных в тех же условиях. Однако задачи в экономике, медицине, психологии, юриспруденции очень часто требуют предсказания значения одного параметра на основании значения другого. В этом случае уже нет гарантии, что новые неучтенные факторы не повлияют по-разному на исследуемые параметры.

В естественно-научном эксперименте есть возможность создать идентичные условия в лабораторных исследованиях, тогда как в социально-экономической сфере исследователь не может изменять условия по своему желанию. С другой стороны, в столь сложных системах очень трудно доказать причинно-следственную связь параметров, тем более, если этим занимается информатик, а не специалист.

При интеллектуальном анализе данных также в конечном счете подбираются корреляции между параметрами системы. И если пространство признаков, с точки зрения специалиста, не достаточно для описания системы, такой ИИ как минимум требует дополнительного изучения.

Вторая проблема — репрезентативность обучающего множества. Если обучающая выборка не отражает все разнообразие объектов предметной области, модель будет построена неверно. Если анализ тональности естественного языка разработан на основе художественной литературы прошлого века, он может некорректно оценивать тональность блогов.

Тем не менее нередко ИТ-компании самостоятельно разрабатывают системы

ИИ, самостоятельно приобретая данные для обучения. Например, DeepMind (дочерняя компания Google, расположенная в Великобритании), специализирующаяся на создании систем искусственного интеллекта, сообщила о продаже ее «прорывной» системы глубокого обучения, которая за 48 часов может предсказывать развитие у пациента угрожающей жизни острой почечной недостаточности (ОПН).

Однако оказалось, что система предсказывает развитие ОПН у женщин с неприемлемо низкой вероятностью (44,8%), в 56% случаев — у мужчин и только для чернокожих мужчин система предсказывала результат в 60% случаев (что для медицинских систем считается приемлемой вероятностью). Как выяснилось впоследствии, их специалисты использовали данные госпиталя ветеранов США. Естественно, они состояли из непропорционально высокого процента чернокожих пациентов и 96% обучающей выборки были мужчины [21]. Автор публикации подчеркивает, что в медицине, когда от решения ИИ зависит жизнь пациента, основную роль играет не разработка алгоритма, а оценка репрезентативности исходных данных.

Несмотря на то, что создание интеллектуальных систем — информационная задача, ключевым моментом в их создании является именно специалист в предметной области. Только специалист может:

— понять проблему и сформулировать задачи, которые должна решать система;

— знать, какие данные нужно вводить в систему, чтобы они адекватно описывали предметную область;

— оценить качество данных, их репрезентативность и правдоподобность;

— оценить адекватность модели, отличить случайные корреляции, выявленные ИИ, от реальных причинно-следственных связей.

Ускорившиеся процессы цифровизации, насыщения повседневной жизни российского общества новыми информационными технологиями создали спрос на опережающую подготовку специалистов и соответствующие образовательные продукты [4].

При этом если технические и технологические препятствия цифровизации можно устранить путем финансовых вложений, то кадровое обеспечение для реализации программы, потребует не только материального обеспечения, но и новых методов и подходов в образовательной деятельности, особенно при подготовке специалистов, не связанных с ИТ-сферой. Таким образом, появляется необходимость в применении научного подхода к анализу существующей системы подготовки кадров с целью оценки ее соответствия целям и задачам национального проекта, определения необходимых изменений и выработки методов, направленных на повышение эффективности подготовки специалистов [2].

Важно понимать, что задачи кадрового обеспечения цифровой экономики не удастся реализовать, опираясь на традиционную модель образовательной системы. Новая экономика требует новых компетенций, которые в свою очередь могут быть получены только в новой образовательной среде. Необходима структурная перестройка образовательного пространства (институтов, методик, форматов,

программ) на основе подходов, диктуемых цифровой средой. В таких ситуациях нужно устанавливать общее понимание релевантных понятий, концепций, и необходимо делать это быстро. Известно, что представители каждой профессии имеют свою профессиональную культуру, которая характеризуется системой знаний, ценностей, отношения к срокам, руководству, профессиональным языкам/ жаргонам и другими специфическими отличиями.

Вопросы межкультурных коммуникаций, где культура понимается в традиционном смысле, широко обсуждаются и исследуются соответствующими профессиональными сообществами, разрабатываются специальные курсы для обучения умениям эффективно справляться с такими межкультурными проблемами. Однако разработано и используется намного меньше специальных курсов для эффективного понимания и коммуникаций в ситуациях межпрофессиональных культурных коллизий. Необходимы курсы, целенаправленно обучающие способам эффективной коммуникации и работы со знаниями в МПК, с пониманием феномена профессиональной культуры, поскольку необходимо принимать во внимание не только трудности совместного использования знаний, разработки профессиональных двусторонних и многосторонних глоссариев, но и прочих указанных компонентов культуры.

Цифровизация экономики подразумевает использование современных информационных технологий во всех сферах человеческой деятельности, в том числе в образовании и гуманитарных науках. Если в учебных планах студентов физико-математического и технического профилей информационные технологии представлены достаточно широко, в том числе подготовка и использование больших данных, интеллектуальные технологии и так далее, в учебные планы студентов других профилей включен только один курс — ИТ в профессиональной деятельности. Этот курс обычно используют, чтобы еще раз повторить с обучающимися основы работы на компьютере и дать им представление о возможностях прикладных программ, используемых специалистами.

Из сказанного выше следует, что, если на этапе автоматизации специалисты выступали только заказчиками и пользователями информационной системы, сегодня они должны стать не только заказчиками, но и соисполнителями.

Тем не менее ФГОСы для неинформационных специальностей не содержат подобных компетенций. Если посмотреть на учебники по этим дисциплинам (в том числе рекомендованные Минобрнауки России), все они направлены на подготовку пользователей ПК.

Поэтому должна быть принципиально изменена программа дисциплины «Информационные технологии» для студентов, не являющихся специалистами в ИТ-сфере.

Подходы к разработке практикума

Нами разработан ряд практикумов для знакомства студентов гуманитарных специальностей с методами интеллектуального анализа данных.

При создании практикумов мы ставили перед собой целый ряд задач.

Во-первых, так как в компетенции студентов-гуманитариев не входят даже основы программирования и алгоритмики, решение задачи не должно содержать программные коды или ссылки на них.

Во-вторых, студенты должны иметь возможность рассчитать с помощью электронных таблиц и визуализировать результат, поэтому задача должна использовать только 2 параметра.

В-третьих, такая простейшая модель должна дать возможность использовать не абстрактные точки с некими координатами, а реальные параметры, которые можно самостоятельно измерить.

В-четвертых, результат решения с помощью такого алгоритма должен быть осмысленным, чтобы студент мог согласиться (или не согласиться) с тем результатом, который предлагает интеллектуальный алгоритм.

И, наконец, с помощью этой модели студенты должны иметь возможность увидеть, как влияет на результат необоснованность модели.

Сущность метода классификации состоит в поиске скрытых закономерностей, которые позволяют разбить множество объектов на априорно заданные группы (так называемые классы). Объекты, принадлежащие одному классу, сходны между собой по своим свойствам. Задача исследователя состоит в том, чтобы научиться предсказывать, к какому классу принадлежит объект, используя определенный набор признаков этих объектов.

Например, разделение грибов на 2 класса — «съедобные» и «несъедобные» — описывает их свойства вызывать или не вызывать отравление. Химический анализ может указать на принадлежность гриба к одному или другому классу. Однако грибники используют для предсказания принадлежности гриба к классу «съедобный» набор более доступных признаков: цвет и форма. Близость этих признаков позволяет предсказать, к какому классу принадлежит данный гриб. Эта информация имеет высокую прагматическую ценность, так как позволяет использовать ее для классификации.

Классификация является одной из важнейших задач Data mining. Она применяется в маркетинге при оценке лояльности клиентов, в медицине — при выявлении групп риска относительно определенного заболевания. В филологии — при атрибуции текста, в психологии — при предсказании склонности к маргинальному поведению.

Data mining позволяет провести классификацию на основе анализа расположения вектора признаков объекта в пространстве признаков: если вектор признаков объекта попал в область пространства, ассоциируемую с определенным классом, то с большой вероятностью этот объект будет принадлежать к данному классу. Существует несколько способов выделения области, которая относится к объектам данного класса. Наиболее наглядным является метод опорных векторов. Суть метода состоит в нахождении такой прямой, расстояние от которой до ближайших (опорных) векторов обоих классов максимально.

Таким образом, задача классификации разбивается на три части. Первая — это поиск минимального набора параметров изучаемых объектов, обладающих

высокой прагматической ценностью [10]. Вторая — поиск способа выделения области пространства, ассоциированного с каждым классом. При этом следует убедиться в том, что выбранный набор признаков не является случайной корреляцией, присущей объектам только обучающей выборки. И третья — верификация модели, то есть оценка ее адекватности реальной системе.

При этом только вторая задача относится к компетенции математиков и ин-форматиков. Первую, и, главное, третью задачу может решить только специалист предметной области, к которой принадлежат исследуемые объекты. Примеры уже обсуждались выше.

Цель работы с точки зрения преподавателя — показать обучающимся, как добываются знания, почему эти знания будут иметь прагматическую ценность только при совместной работе ИТ-специалистов и специалистов предметной области.

Цель работы с точки зрения обучаемого: построить метод автоматического разделения тексов на научные и сказочные.

Этапы выполнения практикума

1. Создание обучающего множества. Поиск фрагментов текста, относящихся к классу 1 (сказкам) и к классу 2 (научной тематике). Для сокращения времени используются по 10 фрагментов по приблизительно 2000 знаков.

2. Выбор параметров. Предлагается использовать 2 параметра: средняя длина слова и средняя длина предложения.

3. Копирование фрагментов в Word. Используя инструментарий Word, можно определить количества символов и слов в каждом фрагменте. С помощью подстановочных знаков легко определить число предложений в каждом фрагменте — оно равно суммарному числу точек, вопросительных и восклицательных знаков.

4. Вычисление параметров Длина слова и Длина предложения с помощью формул Excel.

5. Построение точечных диаграмм для объектов каждого класса в пространстве Длина слова / Длина предложения.

6. Оценка возможности линейного разделения классов.

7. Проверка полученной модели на контрольном множестве (6 «чужих» примеров).

8. Обсуждение «разумности» полученного результата: могут ли использованные признаки описывать исследуемые тексты.

9. Сравнение применимости альтернативных параметров: Доля запятых и Доля точек в тексте.

Пример выполнения работы

В таблице 1 показаны исходные данные отрывков текстов класса 1 из сказок (отрывки 1—10) и класса 2 из научных журналов (отрывки 11—20), а в таблице 2 — рассчитанные значения параметров признаков.

Таблица 1

Исходные данные для создания обучающего множества

№ отрывка Число знаков без пробелов Количество слов Количество предложений Класс

1 935 164 21 1

2 3115 626 42 1

3 1541 328 27 1

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

4 4347 771 64 1

5 4670 936 68 1

6 3984 790 50 1

7 2419 490 104 1

8 2940 561 86 1

9 2646 492 50 1

10 6013 1182 93 1

11 1788 209 12 2

12 4523 665 27 2

13 8180 1102 86 2

14 3727 584 35 2

15 2941 422 27 2

16 1836 260 10 2

17 2856 386 16 2

18 2872 421 20 2

19 1904 284 19 2

20 2781 375 21 2

Таблица 2

Обучающая выборка

№ отрывка Средняя длина слова Средняя длина предложения Класс

1 5,70 7,81 1

2 4,98 14,90 1

3 4,70 12,15 1

4 5,64 12,05 1

5 4,99 13,76 1

6 5,04 15,80 1

7 4,94 4,71 1

8 5,24 6,52 1

9 5,38 9,84 1

10 5,0 9 12,71 1

11 8,5 6 17,42 2

12 6,8 0 24,63 2

13 7,4 2 12,81 2

14 6,3 8 16,69 2

15 6,9 7 15,63 2

16 7,0 6 26,00 2

17 7,4 0 24,13 2

18 6,8 2 21,05 2

19 6,7 0 14,95 2

20 7,42 17,86 2

Для визуализации расположения векторов в пространстве признаков исполь-зовлись точечная диаграммаЕхсе! (рисунок 1).

30

25

" 20

15

ш

Я 10

Ч ш

Q.

и

■ Класс 1 Class 1 • Класс 2 Class 2

4

6

10

Средняя длина слова Average word length

Рисунок 1. Визуализация в пространстве признаков Длина слова / Длина предложения для двух классовтекстов:класс1 — сказки,класс2 — научныетексты.

Чтобы не усложнять задачу, мы предлагаем выбрать опорные векторы и про-вестиграницы зазора «на глаз» (рисунок 2). На рисунке 2 показаны 2 варианта построения зазора между классами обучающего множества — сплошными прямыми и штриховыми. Как видно из рисунка, зазор, построенный сплошными линиями, шире, чем штриховыми. Все остальные способы построения создадут еще меньший зазор. Поэтому разделяющая прямая будет проведена посередине.

5

0

0

2

8

30

25

5 20

си

15

10

s г

Разделяющая прямая Seporating line

Средняя длина слова Average word length

Зазор Margin

5

0

0

1

2

3

9

Рисунок 2. Разделение классов методом опорных векторов.

Выбранныеопорныевекторыобозшченымаркерамис чернойграницей.

Каквидно,зазор междуопорнымивекторамибольшедлясплошных прямых, чем для штриховых. В качестве тестового множества были использованы фрагменты текстов других студентов (по 2 из каждого класса). Эти данные пред-ставленыв таблице3.

ТаблицаЗ

Тестовое множество для валидации результата

№ п/п Средняя длина слова Средняя длина предложения Класс

1 5,13 6,61 1

2 5,75 4,00 1

3 5,09 12,71 2

4 8,56 17,42 2

На рисунке 3 показаны координаты векторов проверочного множества. Как видно из диаграммы, векторы проверочного множества попадают по разные стороны разделяющей прямой (рисунок 3).

Для иллюстрации того, что невсякий набор признаков позволит провести линейное разделение, мы предлагаем построить классификацию на том же обучающем множестве, но используя другой набор признаков Доля запятых./ Доля точек: количество точек и запятых на 100 слов текста. Исходные данные и рассчитанные признаки представлены в таблице 4.

30

25

Ci CD CP

U

20

15

10

Разделяющая прямая Seporating line

■ Класс 1 Class 1 • Класс 2 Class 2 □ Тест Класс 1 Test Class 1 О Тест Класс 2 Test Class 2

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

• •

J 1_jj

J L. \ \o •

I 1 □

О

Средняя длина слова Average word length

Рисунок 3. Векторы признаков тестового множества (таблица 2).

5

0

0

1

2

3

4

5

6

7

8

9

Каквидно,векторы признаковтестового множестварасполагаются пораз-ные стороны разделительной прямой в соответствии с их классом, поэтому мы считаем систему готовой. Для предсказания принадлежности текста к одному из указанныхклассовнужно определитьпокакуюсторонуотразделяющейпрямой окажется его вектор признаков Длина слова / Длина предложения.

Таблица4

Исходныеданныеи рассчитанныепонимпризнакив пространстве Доля запятых/Доля точек

№ отрывка Количество слов Количество запятых Количест-воточек Доля запятых Доля точек Класс

1 242 21 21 8,7 8,7 1

2 292 47 14 16,1 4,8 1

3 336 31 22 9,2 6,5 1

4 663 62 52 9,4 7,8 1

5 387 36 34 9,3 8,8 1

6 899 105 46 11,7 5,1 1

7 276 62 10 22,5 3,6 1

8 871 94 67 10,8 7,7 1

9 742 86 36 11,6 4,9 1

10 602 87 65 14,5 10,8 1

11 339 32 23 9,4 6,8 2

12 481 64 34 13,3 7,1 2

13 471 44 33 9,3 7,0 2

и 486 72 31 14,8 6,4 2

15 594 84 37 14,1 6,2 2

16 528 62 30 11,7 5,7 2

11 594 57 55 9,6 9,3 2

18 289 28 16 9,7 5,5 2

19 984 116 86 11,8 8,7 2

20 375 33 24 8,8 6,4 2

На рисунке 4 показано расположение векторов, построенное по данным таблицы 4.

12

10

Класс 1 Class 1 Класс 2 Class 2

t о а.

о

£ 2

Доля точек Proportion of points

10

15

20

25

Рисунок 4. Расположение векторов обучающего множества в пространстве признаков Долязапятъх/Доляточек длякласса! (текстысказок)и класса2(научныетексты).

8

6

0

0

5

Хорошовидно, что в отличие от рисунка 3, в этом пространстве признаков не существует зазора между векторами разных классов. Как видно из рисунка 4, точки разных классов расположены хаотично, и между классами не существует зазора. Этого следовало ожидать, так как насыщенность текста точками может быть связана как с короткими предложениями, свойственными прямой речи, так и с инициалами, часто встречающимися в научных текстах.

Используемый метод опорных векторов очень наглядный, однако у него есть целый ряд недостатков. Во-первых, он не всегда способен разделить множество, особенно в случае большой размерности пространства признаков. Во-вторых, разделительная линия проводится на основе нескольких векторов, находящихся вблизи границы, а положение остальных векторов не влияет на положение разделительной линии. Поэтому нужно быть уверенным, что эти несколько крайних

векторов не являются выбросами.

При выполнении практикума студенты нередко так поглощены вычислениями, что теряют связь с сутью метода. После обсуждения полученной модели необходимо обсудить, как можно применить подобный метод в их предметной области (классификация клиентов, покупателей, блогеров) по соответствующим признакам.

Заключение

Цифровизация экономики находится на той стадии, когда в основном исчерпаны возможности повышения эффективности за счет автоматизации бизнес-процессов, связанных с рутинными операциями. Сегодня реальный скачок может дать только внедрение интеллектуальных технологий, которые могут принимать самостоятельно или поддерживать принятие нетривиальных решений в экономике, науке, юриспруденции.

Наиболее востребованными интеллектуальными технологиями в настоящее время являются нейронные сети и интеллектуальный анализ данных (Data mining). Несмотря на различие алгоритмов реализации этих методов, основой в обоих случаях является обучающая выборка. Использование в обучающих примерах грязных или нерелевантных данных может привести к тому, что решения интеллектуальной системы окажутся неверными.

Таким образом, в современном мире новым товаром становятся качественные данные. И только специалисты-предметники могут оценивать их качество, очищать их и накапливать.

В настоящее время информатики и математики достаточно хорошо разработали методы создания интеллектуальных систем, и нередко ИТ-компании создают и готовые продукты, самостоятельно «добывая» данные для их обучения. Но мы имеем многочисленные примеры ошибочности их результатов, так как только специалисты предметной области могут верифицировать результаты обучения, объяснив выявленные искусственным интеллектом закономерности.

Из сказанного выше следует, что, если на этапе автоматизации специалисты выступали только заказчиками информационной системы, сегодня они должны стать и соисполнителями, как мы уже подчеркивали выше.

Иллюстрацией того, что студенты-неинформатики способны более детально изучать подходы к созданию интеллектуальных систем, является приведенный в статье практикум, который мы успешно используем для обучения студентов юридических, лингвистических, психологических, управленческих специальностей. Предложенный практикум решает следующие задачи:

а) иллюстрирует на упрощенном примере метод классификации, широко применяемый как в научном поиске, так и в экономике и управлении;

б) показывает влияние качества обучающего множества на результат;

в) иллюстрирует процесс верификации полученной модели.

Литература

1. Александрова Т. В. Цифровое неравенство регионов России: причины, оценка, способы преодоления // Экономика и бизнес: теория и практика. 2019. № 8. С. 9-12. DOI: 10.24411/2411-0450-2019-11101

2. Баева Л. В., Храпов С. А., Ажмухамедов И. М., Григорьев А. В., Кузнецова В. Ю. Цифровой поворот в российском образовании: от проблем к возможностям // Ценности и смыслы. 2020. № 5(69). С. 28-44. DOI: 10.24411/2071-6427-2020-10043

3. Грибанов Ю. И., Шатров А. А. Сущность, содержание и роль цифровой трансформации в развитии экономических систем // Вестник Алтайской академии экономики и права. 2019. № 3-1. С. 44-48

4. Иванова С. В., Иванов О. Б. Национальные проекты — основной фактор формирования и развития единого образовательного пространства // ЭТАП: Экономическая Теория, Анализ, Практика. 2019. № 5. С. 71121, DOI: 10.24411/2071-6435-2019-10105

5. Индекс «Цифровая Россия». URL: https://finance.skolkovo.ru/ru/ sfice/research-reports/1779-2019-04-22/ (дата обращения: 18 декабря 2021 года).

6. Искусственный интеллект в медицине и здравоохранении. URL: https://center2m.ru/ai-mediciner(дата обращения: 18 декабря 2021 года).

7. Каленов О. Е. Трансформация бизнес-модели от классической организации к экосистеме // Вестник РЭУ им. Г. В. Плеханова. 2020. Т. 17 № 3 (111). С. 124-131. DOI: 10.21686/2413-2829-2020-3-124-131

8. Магомедов М. Н, Носкова Н. А. Цифровая трансформация сферы культуры // Петербургский экономический журнал. 2021. № 1. С. 27-36. DOI: 10.24411/2307-5368-2020-10054

9. Маслов В. И., Лукьянов И. В. Четвертая промышленная революция: истоки и последствия // Вестн. моск. ун-та. Сер. 27. Глобалистика и геополитика. 2017. № 2. С. 38-48.

10. Мешалкин В. П., Дли М. И., Лобанева Е. И., Пучков А. Ю. Предварительная оценка прагматической ценности информации в задаче классификации на основе глубоких нейронных сетей // Прикладная информатика. 2021. Т. 16. № 3. С. 9-20. DOI: 10.37791/2687-0649-2021-16-3-9-20

11. Пасько И. Что нужно знать об Индустрии 4.0 и Интернете вещей. URL: http://therunet.com/articles/4826 (дата обращения: 18 декабря 2021 года).

12. Преснухина И. А. Опережающая профессиональная подготовка инженеров // Ценности и смыслы. 2019. № 6(64). С. 67-79. DOI: 10.24411/20716427-2019-10097

13. Сафиуллин А. Р., Моисеева О. А. Цифровое неравенство: Россия и страны мира в условиях четвертой промышленной революции // Научно-технические ведомости СПбГПУ. Экономические науки. 2019. Том 12, № 6. С. 26-37. DOI: 10.18721/JE.12602

14. Стратегия цифровой трансформации отрасли науки и высшего образо-

вания. Мин. науки и высшего образования, 2021. URL: https://www.mi-nobrnauki.gov.ru/documents/? ELEMENT_ID =36749 (дата обращения: 18 декабря 2021 года).

15. Трушкин С. С чего начать цифровую трансформацию «традиционному бизнесу». URL: https://finacademy.net/materials/article/digitalizaciya (дата обращения: 18 декабря 2021 года).

16. Цифровая трансформация отраслей: стартовые условия и приоритеты. Доклад НИУ ВШЭ на XXII Апрельской международной научной конференции по проблемам развития экономики и общества. 13—30 апреля 2021 года. Издательский дом Высшей школы экономики Москва. 2021

17. Что такое цифровая трансформация бизнеса? URL: https://www. comindware.com/ru/blog-что-такое-цифровая-трансформация (дата обращения: 18 декабря 2021 года).

18. Что такое цифровизация и какие сферы жизни она заденет? URL: https://center2m.ru/digitalization-technologies (дата обращения: 18 декабря 2021 года).

19. JagatheesaperumalS. K. The Duo of Artificial Intelligence and Big Data for Industry 4.0: Review of Applications, Techniques, Challenges, and Future Research Directions //Cornel University, 6 Apr 2021

20. Lee J. et al. Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems // Manufacturing Letters. 2018. V.18. Pp. 20-23

21. Lomas N. DeepMind touts predictive healthcare AI 'breakthrough' trained on heavily skewed data // TechCranch, 07, 2019. URL: https://techcrunch. com/2019/07/31/deepmind-touts-predictive-healthcare-ai-breakthrough-trained-on-heavily-skewed-data/ (дата обращения: 18 декабря 2021 года).

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

22. Pollack J., Helm J., Adler D. What is the Iron Triangle, and how has it changed? // International Journal of Managing Projects in Business. 2018. V. 11(4). DOI: 10.1108/IJMPB-09-2017-0107

23. Vigner T. Spurious Correlations. Hachette Book. 2015. 208 p.

References

1. Alexandrova T. V. Digital inequality of Russian regions: causes, assessment, ways to overcome. Ekonomika i biznes: teoriya i praktika [Economics and Business: theory and practice], 2019, no. 8, pp. 9-12 (in Russian). DOI: 10.24411/2411-0450-2019-11101

2. Baeva L. V., Khrapov S. A., Azhmukhamedov I. M., Grigoriev A. V., Kuznetsova V. Yu. Digital turn in Russian education: from problems to opportunities. Tsennosti i Smysly [Values and Meanings], 2020, no.5(69), pp. 28-44 DOI: 10.24411/2071-6427-2020-10043

3. Gribanov Yu.I., Shatrov A. A. The essence, content and role of digital transformation in the development of economic systems. Vestnik Altayskoy aka-demii ekonomiki i prava [Bulletin of the Altai Academy of Economics and Law], 2019, no. 3-1, pp. 44-48 (in Russian).

4. Ivanova S. V., Ivanov O. B. National projects are the main factor in the formation and development of a unified educational space. ETAP: Ekonomicheskaya Teoriya, Analiz, Praktika [ETAP: Economic Theory, Analysis, Practice], 2019, no.5, pp. 71-121 (in Russian). DOI: 10.24411/2071-6435-2019-10105

5. The Digital Russia Index. Available at: https://finance.skolkovo.ru/ru/ sfice/research-reports/1779-2019-04-22 / (accessed: 18 December, 2021) (in Russian).

6. Artificial intelligence in medicine and healthcare. Available at: https://cen-ter2m.ru/ai-medicine (accessed: 18 December, 2021) (in Russian).

7. Kalenov O. E. Transformation of a business model from a classical organization to an ecosystem. Vestnik REU im. G. V. Plekhanova [Bulletin of Plekha-nov Russian University of Economics], 2020, vol. 17, no. 3 (111), pp. 124-131 (in Russian). DOI: 10.21686/2413-2829-2020-3-124-131

8. Magomedov M. N., Noskova N. A. Digital transformation of the sphere of culture. Peterburgskiy ekonomicheskiy zhurnal [St. Petersburg Economic Journal], 2021, no. 1, pp. 27-36 (in Russian). DOI: 10.24411/2307-5368-2020-10054

9. Maslov V. I., Lukyanov I. V. The Fourth Industrial Revolution: origins and consequences. Vestn. mosk. un-ta. Ser. 27. Globalistika i geopolitika [Vestn. Moscow. un-ta. Ser. 27. Globalistics and geopolitics], 2017, no. 2, pp. 38-48 (in Russian).

10. Meshalkin V. P., Dli M. I., Lobaneva E. I., Puchkov A. Yu. Preliminary assessment of the pragmatic value of information in the classification problem based on deep neural networks. Prikladnaya informatika [Applied Informatics], 2021, vol. 16, no. 3, pp. 9-20 (in Russian). DOI: 10.37791/2687-06492021-16-3-9-20

11. Pasko I. What you need to know about Industry 4.0 and the Internet of Things. URL: http://therunet.com/articles/4826 (accessed: 18 December, 2021) (in Russian).

12. Presnukhina I. A. Advanced professional training of engineers. Tsennosti i smysly [Values and Meanings], 2019, no. 6(64), pp. 67-79 (in Russian). DOI: 10.24411/2071-6427-2019-10097

13. Safiullin A. R., Moiseeva O. A. Digital inequality: Russia and the countries of the world in the conditions of the fourth industrial revolution. Nauchno-tekhnicheskie vedomosti SPbGPU. Ekonomicheskie nauki [Scientific and Technical Bulletin of SPbPU. Economic sciences], 2019, vol. 12, no. 6, pp. 26-37 (in Russian). DOI: 10.18721/JE.12602

14. Strategy of digital transformation of the branch of science and higher education. Ministry of Science and Higher Education, 2021. Available at: https://www. minobrnauki.gov.ru/documents/? ELEMENT_ID =36749 (accessed: 18 December, 2021) (in Russian).

15. Trushkin S. How to start digital transformation of "traditional business". Available at: https://finacademy.net/materials/article/digitalizaciya (accessed: 18 December, 2021) (in Russian).

16. Digital transformation of industries: starting conditions and priorities. Report of the Higher School of Economics at the XXII April International Scientific Conference on the Problems of Economic and Social Development. April 13—30, 2021. Publishing House of the Higher School of Economics Moscow, 2021 (in Russian).

17. What is digital business transformation? Available at: https://www.comind-ware.com/ru/blog-пто-такое-цн$роваa-транс$ормацнa (accessed December 18, 2021).

18. What is digitalization and what areas of life will it affect? Available at: https://center2m.ru/digitalization-technologies (accessed: 18 December, 2021) (in Russian).

19. Jagatheesaperumal S. K. The Duo of Artificial Intelligence and Big Data for Industry 4.0: Review of Applications, Techniques, Challenges, and Future Research Directions. Cornel University, 6 Apr 2021.

20. Lee J. et al. Industrial Artificial Intelligence for Industry 4.0-based Manufacturing Systems. Manufacturing Letters, 2018, vol.18, pp. 20-23.

21. Lomas N. DeepMind touts predictive healthcare AI 'breakthrough' trained on heavily skewed data. TechCranch, 07, 2019. Available at: https://techcrunch. com/2019/07/31/deepmind-touts-predictive-healthcare-ai-breakthrough-trained-on-heavily-skewed-data/ (accessed: 18 December, 2021).

22. Pollack J., Helm J., Adler D. What is the Iron Triangle, and how has it changed? International Journal of Managing Projects in Business, 2018, vol. 11(4). DOI: 10.1108/IJMPB-09-2017-0107

23. Vigner T. Spurious Correlations. Hachette Book. 2015. 208 p.

i Надоели баннеры? Вы всегда можете отключить рекламу.