Научная статья на тему 'ОСОБЕННОСТИ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ СОЦИОЛОГИЧЕСКИХ ДАННЫХ С ПРИМЕНЕНИЕМ ЦИФРОВЫХ ТЕХНОЛОГИЙ'

ОСОБЕННОСТИ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ СОЦИОЛОГИЧЕСКИХ ДАННЫХ С ПРИМЕНЕНИЕМ ЦИФРОВЫХ ТЕХНОЛОГИЙ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
9
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
цифровая социология / данные в социологии / цифровые технологии / социологические методы / digital sociology / data in sociology / digital technologies / sociological methods

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Толкачева Елена Вячеславовна

Данная статья посвящена вопросам применения цифровых технологий в процессах сбора и обработки социологических данных. Дается характеристика и описываются механизмы функционирования интеллектуальных систем распознавания и синтезирования информации, используемых в этих процессах. В результате продемонстрированы и описаны изменения основных свойств процессов сбора и обработки данных, происходящих вследствие применяемых в социологическом исследовании цифровых технологий.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Features of the processes of collecting and processing sociological data using digital technologies

This article is dedicated to the use of digital technologies in the collection and analysis of sociological data. The article describes the characteristics and working principles of intelligent information recognition and synthesis systems used in the process of collecting and analyzing sociological data, as well as demonstrates and describes changes in data collection and analysis processes due to the use of these digital technologies in sociological research.

Текст научной работы на тему «ОСОБЕННОСТИ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ СОЦИОЛОГИЧЕСКИХ ДАННЫХ С ПРИМЕНЕНИЕМ ЦИФРОВЫХ ТЕХНОЛОГИЙ»

ЦИФРОВАЯ СОЦИОЛОГИЯ

УДК 316.4 Б01: 10.31249/геос/2024.01.08

ТОЛКАЧЕВА Е.В.* ОСОБЕННОСТИ ПРОЦЕССОВ СБОРА И ОБРАБОТКИ СОЦИОЛОГИЧЕСКИХ ДАННЫХ С ПРИМЕНЕНИЕМ ЦИФРОВЫХ ТЕХНОЛОГИЙ

Аннотация. Данная статья посвящена вопросам применения цифровых технологий в процессах сбора и обработки социологических данных. Дается характеристика и описываются механизмы функционирования интеллектуальных систем распознавания и синтезирования информации, используемых в этих процессах. В результате продемонстрированы и описаны изменения основных свойств процессов сбора и обработки данных, происходящих вследствие применяемых в социологическом исследовании цифровых технологий.

Ключевые слова: цифровая социология; данные в социологии; цифровые технологии; социологические методы.

Для цитирования: Толкачева Е.В. Особенности процессов сбора и обработки социологических данных с применением цифровых технологий // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Сер. 11: Социология. - 2024. - № 1. - С. 146-154. - Б01: 10.31249/геос/2024.01.08

Статья поступила: 02.03.2024.

Принята к публикации: 24.03.2024.

*

© Толкачева Е.В., статья, 2024.

Толкачева Елена Вячеславовна - кандидат социологических наук, доцент, доцент кафедры социального анализа и математических методов в социологии Санкт-Петербургского государственного университета; e-v-tolkacheva@ya.ru

146

TOLKACHEVA E.V.** Features of the processes of collecting and processing sociological data using digital technologies

Abstract. This article is dedicated to the use of digital technologies in the collection and analysis of sociological data. The article describes the characteristics and working principles of intelligent information recognition and synthesis systems used in the process of collecting and analyzing sociological data, as well as demonstrates and describes changes in data collection and analysis processes due to the use of these digital technologies in sociological research.

Keywords: digital sociology; data in sociology; digital technologies; sociological methods.

For citation: Tolkacheva E.V. Features of the processes of collecting and processing sociological data using digital technologies. Social'nye i gumanitarnye nauki. Otechestvennaya i zarubezhnaya literatura. Seriya 11: Sociologiya [Social sciences and humanities. Domestic and foreign literature. Series 11: Sociology]. - 2024. - N 1. - P. 146-154. DOI: 10.31249/rsoc/2024.01.08

Received: 02.03.2024.

Accepted: 24.03.2024.

Применение цифровых технологий в процессах сбора и обработки социологических данных влияет на изменение основных свойств этих процессов. Понимание характера и границ происходящих изменений позволяет раскрыть основные проблемы и возможные риски применения этих цифровых технологий, которые должны быть учтены в программе социологического исследования [Ахтырский, 2022]. В данной статье рассмотрим особенности сбора и обработки социологических данных с помощью цифровых технологий. Опишем, как меняются свойства этих процессов под влиянием применяемых цифровых технологий и их комбинаций.

Наиболее перспективными для применения в процессах сбора и обработки социологических данных цифровыми технология-

Tolkacheva Elena Vyacheslavovna - Candidate of Sociological Sciences, Associate Professor, Associate Professor of the Department of Social Analysis and Mathematical Methods in Sociology at St. Petersburg State University; e-v-tolkacheva@ya.ru

147

ми считаются системы распознавания образов, распознавания и синтезирования речи. Рассмотрим основные особенности сбора и обработки социологических данных с помощью этих цифровых технологий. Под распознаванием, по мнению А.Н. Пономарева и Л.В. Казанцевой, понимается научное направление, которое включает в себя разработку принципов построения систем, нацеленных на определение принадлежности текущего объекта к одному из заранее подготовленных шаблонных объектов. Процесс распознавания может происходить не только на базе зрительной информации, но и слуховой. Он опирается на сопоставление признаков, характеристик исследуемого объекта с признаками, характеристиками известных объектов, в результате чего делается вывод о наиболее правдоподобном их соответствии [Пономарев, Казанцева, 2021, с. 100].

При этом под системой распознавания образов можно понимать функционально взаимосвязанную совокупность методов и технических средств, осуществляющую процесс синтеза и анализа образов. В социологических исследованиях в качестве распознаваемых образов могут выступать самые разные объекты, включая изображения бланков наблюдений, анкет, рукописный или печатный текст дневников, биографических записей и т.д. При этом, как отмечают Р.Л. Манукян и И.В. Петрашин, одним из важнейших факторов для исправной работы систем распознавания образов является получение качественного изображения с минимальной постобработкой. Для этого система должна быть построена с использованием соответствующих камер и инструментов освещения объекта [Манукян, Петрашин, 2019, с. 296].

Еще одна используемая для сбора и обработки данных цифровая технология - это система распознавания речи. Она представляет собой автоматический процесс преобразования речевого сигнала в цифровую информацию. Системы распознавания речи могут применяться для наблюдения, экспертного опроса и интервьюирования. Преимущества использования систем распознавания речи состоят в скорости распознавания. На обработку коротких аудио в синхронном режиме понадобятся секунды [Гришин, Гагарин, 2022].

С системой распознавания тесно связана система синтезирования речи. Система синтезирования речи - это компьютерная

148

система, способная производить понятные тексты на человеческих языках [Галкин, Кондрушина, Шиляев, 2013, с. 56]. В социологических исследованиях наиболее востребованными могут быть вопросно-ответные системы синтезирования речи. Они реализуют взаимодействие в интерактивной диалоговой форме и представляют собой наиболее сложную задачу. Системы синтезирования речи могут быть использованы для наблюдения, экспертного опроса, интервьюирования. При этом следует учитывать особенности восприятия синтезированной речи респондентами. Так, более высокий голос, умеренная интонация, более быстрый темп, сокращение пауз и меньшее количество неточностей вызывает у респондентов большее доверие [Charoenruk, Olson, 2018, p. 326].

Процесс, который задействован в системах синтеза текста -транскрибация. Транскрибация представляет собой перевод аудио в текст. С помощью перевода звуковых файлов в текст можно поставить на поток обработку материалов экспертных интервью, фокус-групп, наблюдений и экспериментов, которые могут быть интересны в текстовом виде [Мещанинов, Поляк, 2020 ; Миних, 2020 ; Каменская, 2019]. Снижение количества ошибок транскрибации аудио может быть достигнуто путем применения социологами программных средств распознавания речи, которые содержат модели, построенные на основе контекстно-зависимых глубоких нейронных сетей HMM (CDDNN-HMM) [Seide, Li, Yu, 2011, p. 439].

К основным свойствам процессов сбора и обработки данных относятся результативность, определенность, управляемость, эффективность, повторяемость, гибкость и стоимость. Разберем, каким образом цифровые технологии влияют на основные свойства процессов сбора и обработки социологических данных.

Результативность процесса обработки данных с помощью системы распознавания образов оценивается по двум параметрам: точность и достоверность. Точность связана с автоматическим обнаружением логической структуры документа и с системой координат распознаваемого изображения [Paass, Konya, 2011, p. 221]. Особенно это актуально при обработке анкет и автоматизированном вводе данных в базу. Достоверность ввода данных при использовании системы распознавания образов в первую очередь характеризует не допущенную при вводе неточность, как при ручной обработке, а правильную тематическую интерпретацию и кор-

149

ректность перевода рукописного текста в печатный. Если изображение будет неверно интерпретировано, то это приведет к необходимости проверки корректности автоматического ввода данных и исправления допущенных ошибок. Процент неправильной интерпретации рассматривается как итоговая ошибка распознавания.

Результативность процессов сбора и обработки данных с помощью системы распознавания речи обусловлена тем, что в случае успешного машинного обучения нейронные сети могут «слышать» лучше, чем человек. В записи с шумным фоном или несколькими источниками звуков они могут уловить речь без помех. В то же время, при автоматизированном проведении интервью результативность может быть ниже, чем при использовании классического метода интервью. Результативность процесса сбора данных в ходе интервью с помощью системы синтезирования речи связана с необходимостью реализации взаимодействия в интерактивной диалоговой форме в режиме реального времени. Таким образом, результативность как свойство процессов сбора и обработки данных характеризует соответствие полученного с помощью цифровых технологий результата ожиданиям.

Определенность отражает степень, с которой реальный процесс сбора данных соответствует описанию в программе социологического исследования. Определенность при применении цифровых технологий во многом зависит от корректности проведенного пилотажного исследования и интерпретации полученных в ходе него результатов. Корректность оценки эффективности цифровых технологий, используемых в рамках конкретного исследования, во многом влияет на определенность самого процесса сбора социологических данных. Следует также отметить важность сформированных у социолога знаний и навыков применения цифровых технологий, поскольку неверное представление о свойствах той или иной информационной системы, которая может быть применена, приводит к низкой степени определенности процесса сбора социологических данных.

Управляемость процессов сбора и обработки социологических данных с помощью цифровых технологий зависит от успешности мер по предотвращению и реагированию на технические сбои и аварийные ситуации. Возможно возникновение ошибочных ситуаций, когда при подключении цифровых устройств они не за-

150

гружаются, информация с камеры или сканера не отображается, звук отсутствует. Также возможны ситуации, когда при попытке ввода логина и пароля пользователя для входа в системы, применяемые для сбора и обработки данных, выдается ошибка. Еще одна ошибочная ситуация возникает, когда попытка входа в программное обеспечение цифровой технологии не удается, не загружаются данные, поступившие в ходе сбора данные не были сохранены, обработанные социологические данные были утрачены. Причины возникновения технических сбоев и аварийных ситуаций разнообразны: организационные, технические, логические и т.д. Для повышения управляемости процессов сбора и обработки социологических данных необходима разработка и включение в программу социологического исследования системы риск-менеджмента с указанием стратегий реагирования в случае возникновения перечисленных ошибочных ситуаций.

Эффективность процессов сбора и обработки данных характеризуется оптимальностью использования цифровых технологий для достижения запланированного результата исследования.

Повторяемость процессов сбора и обработки социологических данных при использовании цифровых технологий достаточно высокая. При этом на повторный цикл обработки социологических данных может потребоваться времени меньше - например, когда речь идет о транскрибировании.

Вопрос, касающийся гибкости процессов сбора и обработки данных, в случае применения цифровых технологий неоднозначен. Гибкость процессов предполагает способность приспосабливаться к изменениям внешних условий, перестраиваться так, чтобы не снижались результативность и эффективность. Цифровые технологии позволяют повысить гибкость процессов сбора и обработки данных при схожести внешних условий проведения социологических исследований.

Стоимость процессов сбора и обработки данных с помощью цифровых технологий может сильно дифференцироваться в зависимости от поставленных исследовательских задач, а также комбинации применяемых в исследовании цифровых устройств и систем.

Выводы. Можно сделать вывод, что наиболее перспективными для применения в процессах сбора и обработки социологических данных являются системы распознавания образов, а также

151

системы распознавания и синтезирования речи. Применение цифровых технологий влияет на изменения основных свойств процессов сбора и обработки данных: результативность, определенность, управляемость, эффективность, повторяемость, гибкость, стоимость. Наиболее дифференцированно влияние цифровых технологий на результативность этих процессов. Определенность и эффективность их связаны с успешностью достижения поставленных целей при применении цифровых технологий. Влияние цифровых технологий на управляемость процессов сбора и обработки социологических данных предполагает включение в программы социологического исследования стратегий реагирования в случае возникновения ошибочных ситуаций. Повторяемость и гибкость процессов с помощью цифровых технологий достаточно высоки при схожести внешних условий проведения социологического исследования. Изложенные в статье результаты могут быть использованы в ходе планирования социологических исследований, в которых предполагается применение цифровых технологий с целью увеличения скорости сбора и обработки социологических данных, а также снижения влияния «человеческого» фактора на качество полученной социальной информации.

Список литературы

Ахтырский А.А. Цифровые методы в социологических исследованиях // Телескоп. - 2022. - № 3. - С. 53-59.

Галкин Д.В., Кондрушина Е.В., Шиляев К.С. Возможности систем генерации речи для обработки естественного языка и развития взаимодействия «человек -машина» // Гуманитарная информатика. - 2013. - № 7. - С. 56-65.

Гришин О.Д., Гагарин Ю.Е. Преобразование голоса в текст: алгоритмы и платформы // Наукоемкие технологии в приборо- и машиностроении и развитие инновационной деятельности в вузе: материалы Всероссийской научно-технической конференции, Калуга, 15-17 ноября 2022 года. - Москва: Издательство МГТУ им. Н.Э. Баумана, 2022. - С. 110-114.

Каменская А. С. Адаптация GoogleCloudSpeech-to-text API для автоматической транскрибации веб-конференций в реальном времени // Автоматика и программная инженерия. - 2019. - № 2 (28). - С. 19-23.

Манукян Р.Л., Петрашин И.В. Машинное зрение: основные компоненты машинного зрения // Современная наука: актуальные вопросы, достижения и инновации: сборник статей VII Международной научно-практической конференции: в 4 ч., Пенза, 05 июня 2019 года. - Пенза: «Наука и Просвещение» (ИП Гуляев Г.Ю.), 2019. - Часть 2. - С. 295-297.

152

Мещанинов В.Е., Поляк М.В. Нейросетевая модель транскрибации русской речи // Обработка, передача и защита информации в компьютерных системах: первая всероссийская научная конференция, Санкт-Петербург, 14-22 апреля 2020 года. -Санкт-Петербург: Санкт-Петербургский государственный университет аэрокосмического приборостроения, 2020. - С. 75-79.

Миних Е.А. Анализ существующих технологий распознания и преобразования речи в текст // Инженерные технологии: традиции, инновации, векторы развития: сборник материалов VI Всероссийской научно-практической конференции с международным участием, Абакан, 11-13 ноября 2020 года. - Абакан: Хакасский государственный университет им. Н.Ф. Катанова, 2020. - С. 56-58.

Пономарев А.Н., Казанцева Л.В. Машинное зрение: актуальность и применение // Научно-технический вестник Поволжья. - 2021. - № 4. - С. 100102.

Charoenruk N., Olson K. Do listeners perceive interviewers' attributes from their voices and do perceptions differ by question type? // Field methods. - 2018. -Vol. 30, N 4. - P. 312-328.

Paass G., Konya I. Machine learning for document structure recognition // Modeling, learning, and processing of text technological data structures / ed. by A. Mehler, K. Kuhnberger, H. Lobin, H. Lungen, A. Storrer, A. Witt. - Heidelberg: Springer, 2011. - Vol. 370: Studies in computational intelligence. - P. 221-247. - DOI: 10.1007/978-3-642-22613-7_12

Seide F., Li G., YuD. Conversational speech transcription using context-dependent deep neural networks // Proceedings of interspeech. - 2011. - P. 437-440. - DOI: 10.21437/Interspeech. 2011-169

References

Akhtyrsky A.A. Cifrovye metody v sociologicheskih issledovaniyah [Digital methods in sociological research]. Teleskop [Telescope]. - 2022. - N 3. - P. 53-59. (In Russian)

Charoenruk N., Olson K. Do listeners perceive interviewers' attributes from their voices and do perceptions differ by question type? Field methods. - 2018. -Vol. 30, N 4. - P. 312-328.

Galkin D.V., Kondrushina E.V., Shilyaev K.S. Vozmozhnosti sistem generacii rechi dlya obrabotki estestvennogo yazyka i razvitiya vzaimodejstviya «chelovek -mashina» [Possibilities of speech generation systems for natural language processing and the development of human-machine interaction]. Gumanitarnaya informatika [Humanitarian informatics]. - 2013. - N 7. - P. 56-65. (In Russian)

Grishin O.D., Gagarin Y.E. Preobrazovanie golosa v tekst: algoritmy i platformy [Voice-to-text conversion: algorithms and platforms]. Naukoemkie tehnologii v priboro- i mashinostroenii i razvitie innovacionnoj deyatel'nosti v vuze: materialy Vserossijskoj nauchno-tehnicheskoj konferencii, Kaluga, 15-17 noyabrya 2022 goda [High-tech technologies in instrumentation and mechanical engineering and the development of innovation in higher education: materials of the All-Russian scientific

153

and technical conference, Kaluga, November 15-17, 2022]. - Moscow: Publishing house of the Bauman Moscow state technical university, 2022. - P. 110-114. (In Russian)

Kamenskaya A.S. Adaptaciya GoogleCloudSpeech-to-text API dlya avtoma-ticheskoj transkribacii veb-konferencij v real'nom vremeni [Adaptation of GoogleCloudSpeech-to-text API for automatic transcription of web conferences in real time]. Avtomatika i programmnaya inzheneriya [Automation and software engineering]. - 2019. - N 2 (28). - P. 19-23. (In Russian)

Manukyan R.L., Petrashin I.V. Mashinnoe zrenie: osnovnye komponenty ma-shinnogo zreniya [Machine vision: main components of machine vision]. Sovremen-naya nauka: aktual'nye voprosy, dostizheniya i innovacii: sbornik statej VII Mezhdu-narodnoj nauchno-prakticheskoj konferencii: v 4 ch., Penza, 05 iyunya 2019 goda [Modern science: topical issues, achievements and innovations: collection of articles of VII International scientific and practical conference: in 4 vol., Penza, Yune 05, 2019]. -Penza: «Nauka i Prosveshhenie», 2019. - Part 2. -P. 295-297.

Meshchaninov V.E., Polyak M.V. Neural network model of transcription of Russian speech [Nejrosetevaya model' transkribacii russkoj rechi]. Obrabotka, peredacha i zashhita informacii v komp'yuternyh sistemah: Pervaya vserossijskaya nauchnaya konferenciya, Sankt-Peterburg, 14-22 aprelya 2020 goda [Processing, transmission and protection of information in computer systems: The First All-Russian scientific conference, St. Petersburg, April 14-22, 2020]. - St. Petersburg: St. Petersburg state university of aerospace instrumentation, 2020. - P. 75-79. (In Russian)

Minikh E.A. Analiz sushhestvuyushhih tehnologij raspoznanija i preobrazo-vaniya rechi v tekst [Analysis of existing technologies for speech recognition and conversion into text]. Inzhenernye tehnologii: tradicii, innovacii, vektory razvitiya: sbornik materialov VI Vserossijskoj nauchno-prakticheskoj konferencii s mezhdunarodnym uchastiem, Abakan, 11-13 noyabrya 2020 goda [Engineering technologies: traditions, innovations, vectors of development: collection of materials of the VI All-Russian scientific and practical conference with international participation, Abakan, November 11-13, 2020]. - Abakan: Khakass state university named after N.F. Katanov, 2020. - P. 56-58. (In Russian)

Paass G., Konya I. Machine learning for document structure recognition. Modeling, learning, and processing of text technological data structures. Ed. by A. Mehler, K. Kühnberger, H. Lobin, H. Lüngen, A. Storrer, A. Witt. - Heidelberg: Springer, 2011. - Vol. 370. - Studies in computational intelligence. - P. 221-247. -DOI: 10.1007/978-3-642-22613-7_12

Ponomarev A.N., Kazantseva L.V. Mashinnoe zrenie: aktual'nost' i primenenie [Machine vision: relevance and application]. Nauchno-tehnicheskij vestnik Povolzh'ya [Scientific and technical bulletin of the Volga region]. - 2021. - N 4. - P. 100-102. (In Russian)

Seide F., Li G., Yu D. Conversational speech transcription using context-dependent deep neural networks. Proceedings of interspeech. - 2011. - P. 437-440. -DOI: 10.21437/Interspeech. 2011-169

154

i Надоели баннеры? Вы всегда можете отключить рекламу.