МОДИФИКАЦИЯ ФУНКЦИОНАЛЬНЫХ ВОЗМОЖНОСТЕЙ ПОРТАЛА «ГИС ЖКХ» ДЛЯ РЕШЕНИЯ АКТУАЛЬНЫХ ПРОБЛЕМ BIG DATA В СФЕРЕ ЖКХ
Ю.А. Силова, сотрудник лаборатории
Е.И. Пояркова, студент
А.А. Попов, канд. техн. наук, доцент
Российский экономический университет им. Г.В. Плеханова (Россия, г. Москва)
DOI:10.24412/2411-0450-2021-12-3-66- 72
Аннотация. В данной статье рассматриваются проблемы цифровых данных в сфере ЖКХ. Для решения предлагаются: применение методов искусственного размножения данных, оцифровка бумажных носителей для преобразования в текстовый документ, что позволит расширить функционал «ГИС ЖКХ»: оптимизировать процесс обработки обращений, дополнить раздел отчетов и открыть доступ к статистическим данным на портале для проведения независимых исследований.
Ключевые слова: Big data, NLP-алгоритмы, портал ГИС ЖКХ, методы ИРД, API, нейросеть, оцифровка изображений.
Основные проблемы в сфере ЖКХ часто освещаются в СМИ и научных исследованиях. Есть как очевидные, зачастую связанные с жалобами пользователей: износ оборудования, непрозрачность тарификации, так и неочевидные, такие как несовременные условия труда сотрудников управляющих компаний. Множество проблем было обозначено и проанализировано в исследовании НП "ЖКХ Контроль" [1], в паспорте стратегии цифровой трансформации строительной отрасли "Строительство, городское хозяйство и ЖКХ" Минстроя [2], в материалах Всероссийского совета местного самоуправления, в частности: презентации по законопроектам №59728-6 и №37117-6 «Основные проблемы в сфере жилищно-коммунального хозяйства, в том числе в сфере развития государственно-муниципального частного партнерства и пути их решения» [3] и многих других работах и исследованиях. Однако встает вопрос о том, являются ли исчерпывающими эти списки проблем. Для выявления неочевидных проблем часто используется анализ больших данных (Big Data). На примере проектов, внедренных в различных городах мира, можно с уверенностью сказать, что использование Big Data приносит ощутимые преимущества. По словам представителей IBM Big Data Solutions
IBM в странах Центральной и Восточной Европы, технологии анализа больших данных позволяют администрациям городов использовать все многообразие информации для принятия более эффективных решений, прогнозирования проблем и их решения в проактивном режиме [4].
В связи с этим возникает необходимость в больших данных, но для начала нужно определить, какие именно данные можно назвать большими. По определению компании Oracle, большие данные -это разнообразные данные, которые поступают с постоянно растущей скоростью и объем которых постоянно растет. Таким образом, три основных свойства больших данных - разнообразие, высокая скорость поступления и большой объем [5]. Однако данные в сфере ЖКХ подобными свойствами не обладают. Рассмотрим основные причины невозможности назвать данные, которые доступны в сфере ЖКХ, большими. Во-первых, недостаточный объем. Проблему недостаточности данных уже поднимали в Минстрое РФ. Выяснилось, что мы далеко не всегда располагаем корректным данными о реальном состоянии сетей и объектов коммунальной инфраструктуры в стране, поскольку сама статистика в этой области требует обновления [6]. Во-вторых, данные зачастую находятся на бумажных носителях, что не
позволяет провести анализ цифровыми методами. В-третьих, для применения методов работы с большими данными, а также для эффективности анализа необходимо разнообразие данных, то есть данные должны быть разнородными, как по содержанию, так и по форме. В распоряжении исследователей зачастую есть достаточно однотипные данные. А вот скорость поступления данных стала расти лишь в последние годы, с началом цифровизации темпы роста объема имеющихся данных существенно возросли. В частности, это связано с появлением портала Государственной Информационной Системы Жилищно-Коммунального Хозяйства (ГИС ЖКХ). Предполагалось, что ГИС ЖКХ позволит сформировать Единое информационное пространство ЖКХ за счет объединения разнотипных информационных пространств предприятий в сфере ЖКХ
[7].
Отметим, что ГИС ЖКХ - это информационный ресурс, который позволяет получать гражданам целый спектр услуг в сфере ЖКХ: оплата счетов за услуги ЖКХ, ввод и проверка показаний приборов учета, контроль за работами по дому, проводимыми управляющими компаниями, направление обращений и жалоб в органы власти, принятие участия в совместных электронных голосованиях и обсуждение вопросов и проблем с соседями на форуме [8]. Исходя из описания на официальном сайте этот ресурс можно полноценно использовать для сбора разнообразных данных, связанных с жилищно-коммунальными услугами, при условии некоторых доработок.
В данной работе проводится анализ текущих способов справиться с проблемами данных в сфере ЖКХ, а также приводятся варианты интеграции предлагаемых решений в сервис ГИС ЖКХ. Такой подход позволяет сэкономить материальные и нематериальные ресурсы, так как не предполагает разработки отдельного сервиса, но в то же время доработки позволят не только получить данные для исследований, но и расширить функционал платформы, а, как следствие, повысить ее популярность.
В частности, предлагается доработка раздела «Аналитика и отчеты». На платформе ГИС ЖКХ имеется широкий спектр доступных отчетов: оснащенность индивидуальными приборами учета (ИПУ), где можно посмотреть у какой доли населения установлены ИПУ, техническое состояние многоквартирных домов, где можно посмотреть степень износа, год установки оборудования и т. д. Подробнее рассмотрим отчет «Работа с обращениями граждан». В данном отчете можно получить процентное соотношение обращений граждан по списку параметров:
- источник обращения (физическое или юридическое лица);
- наименование службы, в которую было направлено обращение;
- статус обращения (решено, на рассмотрении, переадресовано);
- срок рассмотрения;
- оценка заявителя.
Однако среди параметров отсутствует «Тема обращения», которая присутствует в форме подачи обращений заявителями. Наличие такого параметра в отчете поможет выделить «болезненные» вопросы в сфере ЖКХ для заявителей. Однако для того, чтобы получить максимально информативные выводы следует проводить не только анализ количества обращений по каждой теме, но и анализ сроков рассмотрения, количества переадресаций и степени удовлетворенности клиентов. Подобный анализ позволит получить дополнительную информацию для дальнейшей оптимизации как работы отдельных ведомств в частности, так и сферы ЖКХ в целом. За счет анализа сроков рассмотрения по каждой проблеме можно будет выявить эффективность работы служб по решению определенных вопросов граждан, а также сформулировать глобальные изменения, которые требуются в данной отрасли. Анализ переадресаций поможет определить, насколько понятны клиентам функции каждого ведомства и при необходимости переформулировать описание функционала ведомств. А для анализа степени удовлетворенности пользователей, необходимо агрегировать не только общие данные по признаку «удовлетво-
рен/неудовлетворен», как это реализовано сейчас, но и по причинам неудовлетворенности услугами структур ЖКХ.
Для реализации таких дополнений требуется в первую очередь распределить обращения граждан по темам. При составлении обращения на сайте пользователь не всегда может грамотно определить тему своего обращения, что может привести к ошибкам в анализе. Для того, чтобы избежать такого рода ошибок предлагается внедрение NLP-алгоритмов, которые на основе текста обращения будут корректно определять его тему. Natural Language Processing (NLP) - обработка естественного языка - набор методов области машинного обучения для анализа естественных (человеческих) языков [9].
Также предлагается ввести параметр «Срочность рассмотрения обращения». Данное нововведение позволит не только провести корректный анализ обращений, но и оптимизировать сам процесс работы с ними.
Трудностями при реализации нововведений становятся обозначенные в начале работы проблемы недостаточности данных и наличия большой доли данных на бумажных носителях.
Проблему малого количества данных можно решить, применяя алгоритмы искусственного размножения данных (ИРД), встречающиеся в разной научной литературе как «методы аугментации», «морфинг» или «искусственное расширение». Алгоритмы ИРД можно поделить на две большие группы: методы, модифицирующие исходные данные для получения новых, и методы, генерирующие новые значения, используя характеристики исходной выборки. К алгоритмам, позволяющим размножать исходные данные за счет их модификации можно отнести зашумление исходных данных (добавление искаженной информации или «шума»), а также морфинг-преобразования (трансформация данных). К примеру, одним из видов морфинг-преобразования является многомерная морфинг интерполяция, идея которой состоит в скрещивании элементов исходной выборки для ее трехкратного увеличения в размере [10].
Примером алгоритма, генерирующего новые значения на базе характеристик исходной выборки, является бутстреп. Бут-стреп (от англ. Bootstrap - «самовытягивание») основан на методе Монте-Карло [11]. Идея метода заключается в многократной генерации новых выборок за счет случайного выбора элементов выборки ограниченного объема с повторениями. Формально в бутстрепе на каждом шаге выбирается элемент исходной выборки с вероятностью 1/n, где n - размер выборки. За n шагов формируется каждая выборка, количество таких выборок может доходить до нескольких тысяч, что не составляет проблем для современных компьютеров [12]. Следующим методом генерации новых значений является алгоритм, использующий непараметрические ядерные оценки плотности распределения вероятности. Идея метода заключается в следующем: у каждого объекта выборки существует некоторый набор признаков, который представляется в виде вектора. Для применения метода необходимо определить многомерную плотность распределения вероятностей вектора признаков в имеющейся выборке. В последующем данные будут генерироваться таким образом, чтобы соответствовать полученной плотности распределения, для этого используется процедура фон Неймана [13].
Далее уже размноженные данные можно применять для анализа текущей ситуации, анализа динамики прошлых лет, выявления закономерностей в сфере ЖКХ. Предлагается доработать раздел «Аналитика и отчеты», добавив внутри него подраздел «Общая статистика», который в отличие от основного раздела, учитывающего только электронные заявления, будет отражать статистику по всем поданным заявлениям. Недостающие в общей статистике данные будут сгенерированы с помощью ИРД-алгоритмов.
Рассмотрим теперь проблему нецифрового вида данных и возможные варианты ее решения. В вопросе сбора обращений граждан проблема недостаточности цифровых данных является особенно острой. По данным аналитического центра НАФИ лишь 47% граждан на конец 2020 года
пользовались порталом государственных услуг [14]. Естественным решением являются известные методы оцифровки данных. Наиболее простым и быстрым является сканирование документов. Результатом работы является цифровое изображение документа - графический файл. Более предпочтительным, по сравнению с графическим, является текстовое представление информации. Этот вариант позволяет существенно сократить затраты на хранение и передачу информации, а также позволяет реализовать все возможные сценарии использования и анализа электронных документов. Поэтому наибольший интерес с практической точки зрения представляет именно перевод бумажных носителей в текстовый электронный документ.
На вход системы распознавания поступает растровое изображение страницы документа. Далее полученное изображение обрабатывается - проходит процессы выпрямления, пороговой бинаризации и удаление артефактов (шумов) [15]. Далее подготовленные данные обрабатываются выбранным заранее методом. К примеру, в качестве распознавания может применяться сравнение с заранее подготовленным шаблоном или с использованием критериев распознаваемого объекта. Набирает популярность в последнее время метод распознавания при помощи самообучающихся алгоритмов, в том числе и при помощи нейросетей [16]. Например, существуют искусственные нейросети, где на каждом слое, текст, который нужно распознать, подвергается мутациям и сравнивается с эталонным значением [17].
Процесс оцифровки также может быть интегрирован в портал. В личном кабинете
сотрудника сферы ЖКХ должна быть возможность загрузки отсканированного изображения, которое не хранилось бы в виде изображения, а сразу же проходило через алгоритм распознавания и уже в текстовом виде отправлялось в общее хранилище для дальнейшего прохождения через алгоритмы размножения и далее.
Нельзя не отметить, что предлагаемые решения могут быть дорогими и ресурсоемкими, поэтому в первую очередь, можно предоставить возможность независимым исследователям получать уже имеющиеся в ГИС ЖКХ данные в удобном формате для работы, т.е. позволить скачивать информацию с вкладки «Аналитика и отчеты» в качестве табличных данных в XLS, CSV и JSON-форматах. Повышение удобства выгрузки данных позволит повысить мотивацию на проведение аналитических исследований, что в дальнейшем может поспособствовать внедрению результатов этих исследований в функционал ГИС ЖКХ.
В качестве прототипа наделения пользователей возможности получать данные для исследований можно рассмотреть пример сайта Московской биржи [18]. Московская биржа - крупнейший российский биржевой холдинг, на официальном сайте которого реализованы широкие возможности для предоставления данных клиентским приложениям с рынков Московской биржи. Для этого на главной странице сайта есть отдельный раздел «Биржевая информация» с гиперссылкой на страницу «Получение данных». Данный механизм проиллюстрирован на рисунке.
Рис. Главная страница сайта Московской биржи с разделом «Биржевая информация»
На странице «Получения данных» описывается, какие данные можно скачать с сайта и какими способами. К примеру, на странице написано, что «В рамках интерфейса доступны следующие типы информации: статистические данные о рынках, данные для построения графиков, сделки, котировки, исторические данные и различные метаданные». Московская биржа предлагает пользователям скачивать данные в формате XML и CSV как с помощью веб-интерфейса, так и с помощью подключения к информационно-статистическому серверу Московской биржи по API. Кроме того, на той же странице можно скачать руководства для разработчиков в PDF-файлах, а также ZIP-архив с примерами запросов на языках Python и Visual Basic, что позволяет повысить удобство выгрузки данных для пользователей. В ГИС ЖКХ можно внедрить подобный механизм: во вкладке «Открытые данные» добавить возможность скачивания данных как с помощью веб-интерфейса, так и с помощью API, а также добавить руководства для разработчиков с примерами запросов к серверу ГИС ЖКХ.
Таким образом, исходя из вышеизложенных в статье инициатив, и с учетом направлений совершенствования функциональных возможностей информационных систем в сфере ЖКХ [19] предлагаются следующие этапы в модификации функциональных возможностей портала «ГИС ЖКХ» для решения актуальных проблем Big Data в сфере ЖКХ.
1. Доработка раздела портала «Открытые данные» - внедрить возможность скачивать табличные данные отчетов как через веб-интерфейс, так и через API портала по примеру «Московской биржи».
2. Оптимизация процесса обработки обращений с внедрением NLP-алгоритмов для извлечения темы и срочности обращения из текста обращений, чтобы начать повышение эффективности работы уже с текущими заявлениями.
3. Запуск двух параллельных процессов: доработка раздела «Аналитика и отчеты», добавив подраздел «Общая статистика» по каждому отчету на основе внедрения ИРД-алгоритмов, а также внедрение методов оцифровки обращений заявителей для их учета в статистике электронных обращений.
Таким образом, с увеличением количества электронных обращений за счет внедрения оцифровки можно будет отслеживать динамику уменьшения количества предсказанных данных в общей статистике.
Вышеизложенная последовательность внедрения инициатив проиллюстрирована на диаграмме Ганта в таблице.
Диаграмма Ганта представляет собой временную шкалу, отражающую последовательность и продолжительность описываемых событий, что может существенно помочь в планировании разработки и внедрения инициатив.
Таблица. Диаграмма последовательности внедрения доработок
Наименование задачи Продолжительность
1 Доработка раздела «Открытые данные»
2 Оптимизация процесса обработки обращений (МЬР)
3 Доработка раздела «Аналитика и отчеты»
4 Оптимизация процесса обработки обращений (оциф ка данных)
В заключении важно отметить, что проблемы, связанные с отсутствием цифровых данных и недостаточным объемом имею-
щихся данных в сфере ЖКХ в целом, продолжают нарастать с течением времени. От решения этих проблем зависит не толь-
ко качество исследований в области ана- Поэтому решение вышеизложенных про-лиза больших данных, но и качество ока- блем должно стать первым приоритетом зания услуг в сфере ЖКХ, а именно повы- для представителей управления сферой шение скорости обработки обращений, ЖКХ. приоритизация входящих обращений и т.п.
Библиографический список
1. Исследование «На что в сфере ЖКХ чаще всего жалуются в регионах», НП «ЖКХ Контроль». - [Электронный ресурс]. - Режим доступа: https://rg.ru/2019/04/16/reg-cfo/na-chto-v-sfere-zhkh-chashche-vsego-zhaluiutsia-v-regionah.html (дата обращения 30.10.21)
2. Паспорт стратегии цифровой трансформации строительной отрасли "Строительство, городское хозяйство и ЖКХ". - [Электронный ресурс]. - Режим доступа: https://clck.ru/ZHpFr (дата обращения 29.10.21)
3. Материал Всероссийского совета местного самоуправления законопроектам №597286 и №37117-6 «Основные проблемы в сфере жилищно-коммунального хозяйства, в том числе в сфере развития государственно-муниципального частного партнерства и пути их решения». - [Электронный ресурс]. - Режим доступа: https://clck.ru/ZHpMg (дата обращения 29.10.21).
4. Big Data решат проблемы ЖКХ. - [Электронный ресурс] - Режим доступа: https://www.cnews.ru/news/top/big_data_reshat_problemy_zhkh (дата обращения 30.10.21)
5. Что такое большие данные? - [Электронный ресурс] - Режим доступа: https://www.oracle.com/ru/big-data/what-is-big-data (дата обращения 31.10.21)
6. Максим Егоров: Статистика отрасли ЖКХ в России нуждается в актуализации. -[Электронный ресурс]. - Режим доступа: https://realty.ria.ru/20190219/1551038856.html (дата обращения 31.10.21)
7. Попов А.А. Разработка системы поддержки принятия решений для формирования рациональной структуры единого информационного пространства жилищно-коммунального хозяйства региона. - М.: РУСАЙНС, 2017. - 170 с.
8. Портал «ГИС ЖКХ». - [Электронный ресурс] - Режим доступа: https://giszhkh.ru/ (дата обращения 31.10.21)
9. Основы Natural Language Processing для текста [Электронный ресурс] -https://habr.com/ru/company/Voximplant/blog/446738/ (дата обращения 31.10.21)
10. Качалин С.В. Повышение устойчивости обучения больших нейронных сетей дополнением малых обучающих выборок примеров-родителей, синтезированными биометрическими примерами-потомками // Труды научно-технической конференции кластера пензенских предприятий, обеспечивающих безопасность информационных технологий. Том 9, Пенза-2014, С. 32-35. - [Электронный ресурс]. - Режим доступа: http://www.pniei.penza.ru/RV-conf/T9/С32 (дата обращения 31.10.21).
11. Методы Монте-Карло: учебное пособие для студентов вузов, обучающихся по направлению подготовки "Прикладная математика" / Г.А. Михайлов, А.В. Войтишек. -М.: Академия, 2006 (Саратов: Саратовский полиграфкомбинат). - 366 с.
12. Шитиков В.К., Розенберг Г.С., Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R. Монография. - 2013. - 314 с. - [Электронный ресурс] - https://www.elibrary.ru/item.asp?id=26615659 (дата обращения 26.10.21).
13. Донских А.О., Сирота А.А. Метод искусственного размножения данных в задачах машинного обучения с использованием непараметрических ядерных оценок плотности распределения вероятностей // Вестник ВГУ, серия: Системный анализ и информационные технологии. - 2017. - №3. - С. 4-7.
14. Треть россиян не умеют пользоваться порталами госуслуг. - [Электронный ресурс]. - Режим доступа: https://nafi.ru/analytics/tret-rossiyan-ne-umeyut-polzovatsya-portalami-gosuslug/ (дата обращения 26.10.21).
15. Методы распознавания текстов. - [Электронный ресурс]. - Режим доступа: https://habr.com/ru/post/112442/ (дата обращения 27.10.21).
16. Лускин В. Распознавание текста с помощью нейронных сетей. - С. 154-155. -[Электронный ресурс]. - Режим доступа: https://clck.ru/ZHrBE (дата обращения 26.10.21).
17. Зимин М.А., Озерова М.И., Особенности алгоритма распознавания текста // Информационный технологии в науке и производстве. - 2019. - С. 59-65.
18. Официальный веб-сайт Московской биржи. - [Электронный ресурс]. - Режим доступа: www.moex.com (дата обращения 31.10.21).
19. Телемтаев М.М., Попов А.А. Совершенствование отечественных информационных систем управления недвижимостью на основе зарубежного опыта // Прикладная информатика. - 2012. - №2 (38). - С. 18-25.
MODIFICATION OF THE FUNCTIONALITY OF THE «GIS ZHKH» PORTAL TO SOLVE CURRENT BIG DATA PROBLEMS IN THE HOUSING AND COMMUNAL
SERVICES SECTOR
Yu.A. Silova, Laboratory Worker E.I. Poyarkova, Student
A.A. Popov, Candidate of Technical Sciences, Associate Professor Plekhanov Russian University of Economics (Russia, Moscow)
Abstract. This article discusses the problems of digital data in the housing and utilities sector. The following solutions are proposed: the use of artificial data reproduction methods, digitization of paper media for conversion into a text document, which will expand the functionality of GIS housing and communal services: optimize the processing of requests, supplement the reports section and open access to statistical data on the portal for independent research.
Keywords: Big data, NLP algorithms, GIS housing portal, IRD methods, API, neural network, digitization of images.