Научная статья на тему 'О разработке программно-аналитического комплекса для изучения статистических результатов анкетирования и тестирования'

О разработке программно-аналитического комплекса для изучения статистических результатов анкетирования и тестирования Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
64
13
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОГРАММНО-АНАЛИТИЧЕСКИЙ КОМПЛЕКС / АНКЕТИРОВАНИЕ / ТЕСТИРОВАНИЕ / СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ / МАТЕМАТИЧЕСКАЯ МОДЕЛЬ

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Костиков Ю.А., Романенков А.М.

Работа посвящена разработке программно-аналитического комплекса для обработки результатов социально-экономических и этнографических исследований. Авторами предложена математическая модель, позволяющая единым образом описывать результаты статистического анализа уровня знаний населения в тех или иных областях человеческой деятельности. В работе построена математическая модель экономической грамотности населения России. Данная модель является статистическим отображением множества наборов различаемых групп населения в совокупность всевозможных статистических распределений на пространстве оценок ответов на вопросы соответствующего опроса. Представленное отображение не зависит от конкретной тематики опроса, а зависит только от критериев, по которым группируются вопросы и разделяются ответы участников. В связи с этим данная модель является универсальной и может быть успешно использована в других мероприятиях подобного рода (социологические исследования, опросы, анкетирования, диктанты и т.д.). Отметим также, что на основании построенной математической модели разработан инструментарий, который является частью информационно аналитической системы, для проведения статистического анализа результатов диктанта и для презентации полученных статистических отчетов в различных видах, а именно, диаграммах, графиках и таблицах. На ее основе появляется возможность проектировать компьютерные системы анализа и результатов анкетирования и тестирования. Описывается разработанный программно-аналитический комплекс обработки результатов исследований по экономическим знаниям населения. Он обеспечивает удобный инструментарий обработки статистических данных и наглядного представления результатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Костиков Ю.А., Романенков А.М.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «О разработке программно-аналитического комплекса для изучения статистических результатов анкетирования и тестирования»

О разработке программно-аналитического комплекса для изучения статистических результатов анкетирования и тестирования

Костиков Юрий Александрович,

кандидат физико-математических наук, заведующий кафедрой 812, Московский авиационный институт (национальный исследовательский университет), jkostikov@mail.ru

Романенков Александр Михайлович,

кандидат технических наук, доцент кафедры 812, Московский авиационный институт (национальный исследовательский университет), romanaleks@gmail.com

Работа посвящена разработке программно-аналитического комплекса для обработки результатов социально-экономических и этнографических исследований. Авторами предложена математическая модель, позволяющая единым образом описывать результаты статистического анализа уровня знаний населения в тех или иных областях человеческой деятельности. В работе построена математическая модель экономической грамотности населения России. Данная модель является статистическим отображением множества наборов различаемых групп населения в совокупность всевозможных статистических распределений на пространстве оценок ответов на вопросы соответствующего опроса. Представленное отображение не зависит от конкретной тематики опроса, а зависит только от критериев, по которым группируются вопросы и разделяются ответы участников. В связи с этим данная модель является универсальной и может быть успешно использована в других мероприятиях подобного рода (социологические исследования, опросы, анкетирования, диктанты и т.д.).

Отметим также, что на основании построенной математической модели разработан инструментарий, который является частью информационно аналитической системы, для проведения статистического анализа результатов диктанта и для презентации полученных статистических отчетов в различных видах, а именно, диаграммах, графиках и таблицах. На ее основе появляется возможность проектировать компьютерные системы анализа и результатов анкетирования и тестирования. Описывается разработанный программно-аналитический комплекс обработки результатов исследований по экономическим знаниям населения. Он обеспечивает удобный инструментарий обработки статистических данных и наглядного представления результатов. Ключевые слова: программно-аналитический комплекс, анкетирование, тестирование, статистическая обработка данных, математическая модель

Для получения совокупной информации по какой-либо теме от большого числа респондентов очень часто используются разнообразные опросы, тестирования, анкетирования, диктанты и другие мероприятия подобного рода, в которых участникам предлагается ответить на ряд заранее подготовленных вопросов или высказать свое мнение о каком-либо событии или явлении. Результаты таких мероприятий содержаться на бумажных носителях или в цифровых банках данных. В дальнейшем эти результаты необходимо обработать для получения информации по тем критериям, которые являются важными для организаторов соответствующих мероприятий, и сформировать наглядную отчетную документацию. Очень часто аналитическая и статистическая обработка результатов является идентичной для такого рода исследований и возникает потребность в формализации математической модели тестирования для получения универсальных рекомендаций для обработки этих результатов. Авторами предлагается математическая модель экономической грамотности населения России. На должном уровне строгости вводятся формальные математические объекты и устанавливается их связь с реальными эмпирическими данными соответствующего исследования. Построенная математическая модель была реализована в качестве центрального алгоритмического модуля информационно аналитической системы обработки результатов социологических опросов. Данный модуль позволяет строить разнообразные распределения, основанные на результатах опросов, получать статистическую информацию по различным критериям и позволяет получать наглядные представления графической информации.

В качестве вероятностной математической модели, описывающей экономическую грамотность населения, предлагается отображение

Ф : X ^ Р

множества Х наборов различаемых групп населения в совокупность Р всевозможных статистических распределений на пространстве Y оценок ответов на вопросы экономико-социологического исследования. Рассмотрим этот вопрос подробнее.

Проводя предварительную классификацию потенциальных участников опроса, необходимо выделить признаки, по которым они будут классифицироваться, и по каждому из признаков определить значимые интервалы. В нашем случае классификационными являются такие характеристики группы населения, как возраст, пол, образование, сфера деятельности, род занятий, отношение к экономике.

Пусть X - множество характеристик конкретной группы населения:

X = {Х1, Х2, ... х}

Для каждого из них, определив допустимые интервалы значений, мы получаем дискретный вектор. Х - множество всевозможных наборов характеристик населения (множество всевозможных групп населения).

Персонифицированная анкета человека определяет соответствующий элемент X е X, к которому относится данный человек г е 1, где 1 - совокупность всех участников социологического опроса. Заполняя анкету, конкретный человек г определяет свою позицию X в множестве Х.

Таким образом, X является группой населения, к которой принадлежат все индивидуумы, все различаемые характеристики (признаки) {х1, х2, ... хп} которых идентичны.

Отметим тот факт, что X - совокупность индивидуумов с одинаковыми характеристиками, далее, X - атом, неделимый в множестве различаемых групп населения и X -точка в пространстве групп населения.

Рассмотрим описание задаваемых вопросов и ответов на них.

На каждый вопрос, содержащийся в бланке опроса, существует дискретное множество ответов, при этом, в общем случае, несколько ответов может относиться к одному и тому же предметному аспекту (экономическому, социологическому, этнографи-

© £

Ю

5

V

2 а

8

00

сэ

сч

£

Б

ей

2 ©

ческому и др.). Обозначим оценку, полученную испытуемым по 1-му предметному аспекту через у.

Тогда совокупная оценка участника опроса представляет собой дискретный вектор Y = {у(, у2, ... ук}. Каждая из компонентов у вектора Y = {у(, у2, ... ук} принимает дискретный, как правило, целочисленный набор значений ут.

Итак, Y={у(, у2, . ук} - оценка ответов конкретного участника. Пусть Y -множество всевозможных оценок ответов на вопросы, включенные в бланк опроса. Каждый участник опроса является источником одной оценки Y е Y.

Когда конкретный человек г е X сдал свои результаты, мы получаем оценку его ответов Y = Fг(X).

Рассмотрим множество Р(Х) = ^ е Y | Y = Fг(X); х е X} е Y оценок ответов, полученных всеми индивидуумами, принадлежащими одному атому г е X. Р$) характеризует эмпирическое статистическое распределение оценок ответов индивидуумов, принадлежащих атому X. Для тех групп населения X, для которых выборка г е X статистически представительна, мы можем применять вероятностные методы, используя их для оценивания и предсказания.

Это распределение, рассматриваемое как выборка из генеральной совокупности, позволяет оценить, как средние характеристики (средний уровень знаний по тем или иным темам, которые затронуты в вопросах), так и разброс этих знаний (дисперсию и другие начальные и центральные моменты).

Изучение корреляций между оценками различных аспектов {у(, у2, ... ук} экономических, этнографических, географических знаний позволяет выявлять характерные особенности, соответствующие данной группе населения X, находить присущие ей взаимозависимости между этими аспектами. Применяя другие современные статистические методы, такие как факторный анализ, мы получаем возможность выделить наиболее значимые темы и вопросы в рассматриваемом опросе.

Проводя такое исследование (диктант) для различных групп населения X (в идеале для всех X е X), мы получаем отображение Ф: X ^ Р, где Р - совокупность всевозможных статистических распределений оценок, то есть статистических распределений на Y.

Отображение Ф : X ^ Р и есть предлагаемая математическая модель, описывающая экономическую грамотность населения, построенная по результатам диктанта.

statisticl ■ not_have_relabons ВГТ(1)

^idiwr(n) \>more_attitude_economics BIT(i)

- genderid INT (11) n> questional INT(11)

age INT(ll) question_l_2 INT(ll)

aueragejotal BIT(i) question_l_3 INT(11) ^ question _1_4 INT(ll)

secondary_professi onal BrT(l) question, 1_5 INT(ll)

incomplete_higher BIT(l) question_l_6 INT(ll)

hi gher_education BIT(l) 0 question_2_l INT(U)

availability_scientific_degree BTT(1} Oquestion_2_2INT(ll)

' economic_sphere BIT(l) О quesbon_2_3 INT(U)

industrial_sphere BIT( 1) question_2_4 INT(ll)

financial _sph ere BIT(1} ■>question _2_5 INT(U}

education_and_sdmce BIT(l) Oquesbon_2_6 I NT ( 11)

sphere_trade BTT( 1) question_3_l INT(il)

servi ce_sector B IT( 1) ■>question_3_2 INT(ll)

agriculture BIT(1) Я quesHon_3_3 INT (11)

other_area BIT(l) question_3_4 INT(ll)

school child BIT(l) ^ question_3_5 INT(ll)

economicjjni versify BIT{1) question_3_6 INT(ll)

technical_university BIT(l) questional INT(ll) question_4_2 INT(U)

hum ani tarian_Lrtvers)ty BIT(l) Oquestion_4_3INT(ll)

working BIT (1) quesbon_4_4 INT(U)

pensioner BIT(1} ^queshon_4_5 INT(ll)

o the (-occupation BIT(1) question_4_6 INT(U)

interest BrT(l) ^question_5„l INT(ll)

'scientist err(l) question_5_2 INT(ll)

student_econom ic_profile BIT(l) question_5_3 INT(ll)

teacher Brr(l) 114 mors...

professional_specialist BIT(l)

Рисунок 1. Таблица вйаШа.

Данная математическая модель позволяет, помимо исследований при фиксированной группе населения, изучать зависимость статистических параметров распределений от конкретных групп населения и находить взаимные корреляции между ними.

На основании описанной математической модели была реализована информационно аналитическая система, реализующая функционал статистического анализа данных разнообразных социологических исследований. Для хранения накопленной статистической информации используется таблица 81айз1ю1, структура которой показана на рисунке 1.

Для заполнения реальными данными этой таблицы разработан специальный модуль формирования и обработки статистических данных. Данный модуль предоставляет инструментарий для фор-

мирования и обработки первичных данных, полученных после распознавания заполненных оцифрованных бланков опроса. Модуль распознавания устанавливает связь с Буфером Первичной базы данных. В базе данных с помощью встроенных процедур на языке MySQL заносятся данные заполненных бланков в буфер.

В Буфере Первичной базы данных содержатся анкетные данные участников опроса, а также ответы участников на каждый вопрос. Из этой таблицы формируется первичная статистическая таблица statisticl (см. рисунок 1). Таблица объединяет данные всех участников, имеющих одинаковые характеристики: номер региона, номер площадки, количество участников мужского пола, количество участников женского пола, количество участников по возрасту, количество

Рисунок 2. Вкладка «Выбор точки» в пространстве распределений.

Рисунок 3. Вкладка «Выбор распределения и диаграммы» для графического представления.

участников по социально-экономическим критериям (образование, сфера деятельности, род занятий, вуз, отношение к экономике), таблицу распределения номеров ответов, таблицу распределения баллов по каждому вопросу, количество набранных баллов и содержит количество участников, имеющих одинаковые характеристики.

Буфер Первичной базы данных позволяет выгружать данные из первичной статистической таблицей statistic1 для формирования статистических таблиц. Формирование осуществляется только по статистически значимым точкам.

Перечень основных статистических таблиц:

1. Активность регионов и площадок (количество участников)

2. Относительная активность регионов и площадок (доля участников)

3. Гендерное распределение аудитории Диктанта по

- общему количеству участников

- регионам

- по возрастам

- по другим фиксированным характеристикам

4. Распределение количества (и доли) участников по возрастам

5. Распределение ответов

6. Распределение количества (и доли) участников, правильно ответивших на фиксированный вопрос или группу вопросов, по первый атрибут:

- регионам

- по возрастам

- полу

- уровню образования

- сфере деятельности

- роду занятий

- отношению к экономике

- второй атрибут:

- распределение баллов (двойки-тройки-четверки-пятерки)

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

- распределение ошибок

- номерам вопросов, на которые наибольшее количество участников дало правильные ответы

Для получения конкретной статистической информации необходимо формировать запросы к заполненным статистическим таблицам. Для этих целей разработан Модуль формирования запросов, который является частью интерфейса статистического анализа данных программно аналитического комплекса и обеспечивает функционал составления и исполнения запроса к базе данных комплекса.

Для данного модуля разработано интерактивное окно в программно аналитическом комплексе. Для работы с статистическими распределениями ответов по интересующему критерию необходимо перейти на вкладку «Статистический анализ», которая содержит две вложенных вкладки:

■ «Выбор точки» содержит поля выбора критериев для выгрузки данных из БД, повторяющие анкетную часть бланка для написания Диктанта (рис. 2)

■ «Выбор распределения и диаграммы» содержит два блока («Выбор распределения» и «Выбор диаграммы»), содержащих варианты возможных стандартных запросов аналитика в БД и варианты возможных графических отображений результатов анализа, соответственно (рис. 3)

Во вкладке «Выбор точки» предоставляется возможность выбора критерия, по которому будут выгружаться данные из базы данных информационно-аналитической системы, если не выбран ни один критерий, будут выгружены все данные. После выбора критериев необходимо перейти к модулю представления результатов.

Модуль представления результатов формирует наглядные и удобные для пользователя графические представления статистической информации, полученной из базы данных программно аналитического комплекса. Во вложенной вкладке «Выбор распределения и диаграммы» пользователю необходимо выбрать распределение из приведенного списка (рис.3):

1) Количество правильных и неправильных ответов на вопросы

О £

ю

I

V

2 а

8

00

сэ

сч

£

Б

а

2 ©

2) Распределение вариантов ответов по вопросам

3) Процентное соотношение баллов

4) Отношение участников к экономике

5) Уровень образования участников

6) Сфера деятельности аудитории

7) Род занятий участников

8) Результаты выполнения опроса в соответствии с тендерным распределением участников

9) Результаты выполнения опроса в соответствии с уровнем образования участников

10) Результаты выполнения опроса в соответствии со сферой деятельности участников

11) Результаты выполнения опроса в соответствии c родом занятий участников

12) Результаты выполнения опроса в соответствии направлением ВУЗа участников

13) Результаты выполнения опроса в соответствии с отношением участников к экономике

14) Результаты выполнения опроса в соответствии с возрастными группами

В блоке «Выбор диаграммы» пользователь может выбрать вид графического представления результатов из приведенного списка:

■ Стековая гистограмма

■ Столбчатая гистограмма

■ Столбчатая диаграмма (3D)

■ Круговая гистограмма

Интерфейс получения результатов

предназначен для отображения результатов статистического анализа в Microsoft Excel. После выбора нужного вида диаграммы необходимо нажать кнопку «Вывести данные в Excel». Примечание: после нажатия кнопки «Вывести данные в Excel» программа формирует SQL-запрос и отправляет его в базу данных; данные выгружаются; создается и открывается Excel-файл; данные, полученные из базы данных записываются в файл; строится диаграмма по полученным данным и файл сохраняется. Форматирование диаграммы (масштабирование, изменение проекции и угла наклона и т.д.) возможно с помощью стандартных операций в Excel после создания соответствующего объекта в файле.

Разработанная математическая модель и реализованная информационно аналитическая система успешно апробирована при обработке результатов Всероссийского экономического Диктанта, проведенного в 2018 году.

В работе построена математическая модель экономической грамотности на-

Рисунок 4. Пример стековой гистограммы. Распределение результатов в зависимости от сферы деятельности участников

Рисунок 5. Гистограмма распределения правильных и неправильных ответов

Результаты анкетирования в соответствии с уровнем образования

ю-зо

■ 35-50

■ 55-100

Рисунок 6. Диаграмма Результаты анкетирования в соответствии с уровнем образования

селения России. Данная модель является ния в совокупность всевозможных стати-статистическим отображением множе- стических распределений на пространства наборов различаемых групп населе- стве оценок ответов на вопросы соответ-

Рисунок 7. Круговая диаграмма распределения участников по сферам деятельности

ствующего опроса. Стоит отметить, это отображение не зависит от конкретной тематики опроса, а зависит только от критериев, по которым группируются вопросы и разделяются ответы участников. В связи с этим данная модель является универсальной и может быть успешно использована в других мероприятиях подобного рода (социологические исследования, опросы, анкетирования, диктанты и т.д.).

Отметим также, что на основании построенной математической модели разработан инструментарий, который является частью информационно аналитической системы, для проведения статистического анализа результатов диктанта и для презентации полученных статистических отчетов в различных видах, а именно, диаграммах, графиках и таблицах.

Литература

1. Вентцель Е. С. Теория вероятностей и ее инженерные приложения. - М.: Высшая школа, 2007. - 491 с.

2. Аналитический отчет по итогам Общероссийской образовательной акции «Всероссийский экономический диктант», Электронный ресурс. URL: https:// clck.ru/DaKdu

3. К. Дж. Дэйт. Введение в системы баз данных. Изд. Вилльямс. 2017

4. Костиков Ю.А., Павлов В.Ю., Ро-маненков А.М., Терновсков В.Б. Адаптивная архитектура программно-аппаратного комплекса хранения и обработки данных // Экономика: вчера, сегодня, завтра. 2017. Том 7. No 9А. С. 192-207

5. Боровков А. А. Математическая статистика: учебник. М.: Физматлит, 2007.703 с.

6. Прохоренок Н., Дронов В. Python 3 и PyQt 5. Разработка приложений. Изд. БХВ-Петербург, 2016.

7. Тюрин Ю. Н. Теория вероятностей и статистика. М.: МЦНМО, 2009. - 256 с.

Software and analytical complex of studying the statistical results of questioning and testing development Kostikov Yu.A., Romanenkov A.M.

Moscow Aviation Institute (National Research University)

The work is devoted to the development of software and analytical complex for processing the results of socio-economic and ethnographic research. The authors proposed a mathematical model that allows a unified way to describe the results of statistical analysis of the level of knowledge of the population in various fields of human activity. A mathematical model of the economic literacy of the population of Russia is built. This model is a statistical mapping of a plurality of sets of distinguished groups of the population into a set of all possible statistical distributions in the space of evaluations of answers to the questions of the corresponding survey. The presented mapping does not depend on the specific topics of the survey but depends only on the criteria by which questions are grouped and the answers of the participants are divided. In this regard, this model is universal and can be successfully used in other events of this kind (case studies, polls, surveys, dictations, etc.).

We also note that based on the constructed mathematical model, a toolkit has been developed, which is part of an information analytical system, for conducting statistical analysis of the results of dictation and for presenting the obtained statistical reports in various forms, namely, charts, graphs and tables. On its basis, it is possible to design computer analysis systems and the results of questioning and testing. The developed software and analytical complex for processing the results of research on the economic knowledge of the population is described. It provides convenient tools for processing statistical data and visual presentation of results.

Keywords: software and analytical complex, questioning, testing, statistical data processing, mathematical model

References

1. Wentzel, E. S. [The theory of probability and its

engineering applications]. - M .: Higher School, 2007. - 491 p.

2. Analytical report on the results of the All-Russian

educational action «All-Russian economic dictation», Electronic resource. URL: https:// clck.ru/DaKdu

3. C. J. Date. Introduction to database systems.

Ed. Williams. 2017

4. Kostikov Yu.A., Pavlov V.Yu., Romanenkov AM,

Ternovskov V.B. Adaptive architecture of software and hardware for data storage and processing // Economy: yesterday, today, tomorrow. 2017. Volume 7. No 9A. Pp. 192207

5. Borovkov A. A. Mathematical statistics: a textbook.

M .: Fizmatlit, 2007.-703 p.

6. Prokhorenok N., Dronov V. Python 3 and PyQt

5. Application development. Ed. bHv-Petersburg, 2016.

7. Tyurin Yu. N. Theory of probability and statistics.

M .: MTSNMO, 2009. - 256 p.

О

3

Ю

5

v

ro e

8

i Надоели баннеры? Вы всегда можете отключить рекламу.