УДК 004.89
doi: 10.21685/2072-3059-2024-2-4
Методика оценки качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов
А. Н. Милованов1, А. А. Мистюков2, Д. А. Трусов3, А. А. Коршунов4
ид4ООО «Логстрим», Москва, Россия
[email protected], [email protected], [email protected], [email protected]
Аннотация. Представлены результаты исследований, проведенных российской IT-компанией «Логстрим», по оценке качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов. В ходе проведения исследований разработана методика, которая позволяет оценить качество программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов. По разработанной методике была проведена оценка качества программного комплекса «ЭКО-ДОК», в состав которого входит сервис с нейронной сетью YOLO v5, в задачах классификации и распознавания документов. Представлены результаты тестирования и оценки качества программного комплекса «ЭКО-ДОК».
Ключевые слова: методика, оценка качества программного комплекса, нейронная сеть, система искусственного интеллекта, программный комплекс «ЭКО-ДОК», характеристики качества, показатели качества, элементы показателя качества, метрики функциональной корректности
Финансирование: статья публикуется при софинансировании ФГБУ «Фонд содействия развития малых форм предприятий в научно-технической сфере».
Для цитирования: Милованов А. Н., Мистюков А. А., Трусов Д. А., Коршунов А. А. Методика оценки качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов // Известия высших учебных заведений. Поволжский регион. Технические науки. 2024. № 2. С. 58-72. doi: 10.21685/2072-3059-2024-2-4
A methodology for assessing the quality of software products that include artificial intelligence in the tasks of document classification and recognition
A.N. Milovanov1, A.A. Mistyukov2, D.A. Trusov3, A.A. Korshunov4
1A3'4"Logstrim" LLC, Moscow, Russia [email protected], [email protected], [email protected], [email protected]
Abstract. The article presents the results of research conducted by the Russian IT company "Logstrim" to assess the quality of software products that include artificial intelligence in document classification and recognition tasks. During the research, a methodology was developed that allows us to evaluate the quality of software products that include artificial
© Милованов А. Н., Мистюков А. А., Трусов Д. А., Коршунов А. А., 2024. Контент доступен по лицензии Creative Commons Attribution 4.0 License / This work is licensed under a Creative Commons Attribution 4.0 License.
intelligence in document classification and recognition tasks. The developed methodology was used to evaluate the quality of the "ECO-DOC" software package, which includes the YOLO v5 neural network service, in document classification and recognition tasks. The results of testing and quality assessment of the ECO-DOC software package are presented. Keywords: methodology, software package quality assessment, neural network, artificial intelligence system, "ECO-DOC" software package, quality characteristics, quality indicators, quality indicator elements, functional correctness metrics
Financing: the article is financed by the Federal State Budgetary Institution "Fund for Assistance to Small Innovative Enterprises in the Scientific and Technical Sphere". For citation: Milovanov A.N., Mistyukov A.A., Trusov D.A., Korshunov A.A. A methodology for assessing the quality of software products that include artificial intelligence in the tasks of document classification and recognition. Izvestiya vysshikh uchebnykh zavedeniy. Povolzhskiy region. Tekhnicheskie nauki = University proceedings. Volga region. Engineering sciences. 2024;(2):58-72. (In Russ.). doi: 10.21685/2072-3059-2024-2-4
Введение
В настоящее время в мире происходит массовое внедрение искусственного интеллекта в различные области и сферы нашей жизни - в Интернет, медицину, бизнес, транспорт и другие сферы.
Российская IT-компания «Логстрим» также уделяет большое внимание этому направлению и занимается внедрением искусственного интеллекта для решения задач по классификации и распознаванию текста и изображений со скан-образов печатных документов.
В рамках импортозамещения программного обеспечения компанией «Логстрим» был разработан отечественный программный комплекс «ЭКО-ДОК», который помогает структурировать разнопрофильные непрерывные потоки документов в единую организованную систему.
При софинансировании ФГБУ «Фонд содействия развития малых форм предприятий в научно-технической сфере» компанией «Логстрим» были проведены научные исследования в области классификации и распознавания текста и изображений со скан-образов печатных документов и разработан программный компонент «Модуль классификации скан-образов по типу документов», который вошел в состав программного комплекса «ЭКО-ДОК». Программный компонент «Модуль классификации скан-образов по типу документов» предназначен для классификации и распознавания текста и изображений со скан-образов печатных документов. В состав данного программного компонента входит сервис с нейронной сетью YOLO v5.
Важными этапами разработки программного обеспечения являются проведение тестирования и оценка качества программного продукта. После разработки программного компонента «Модуль классификации скан-образов по типу документов» возник актуальный вопрос по оценке качества функционирования нейронной сети YOLO v5 и программного комплекса «ЭКО-ДОК» в целом в задачах классификации и распознавания документов.
Анализ ведущих российских научных электронных библиотек «Кибер-Ленинка», eLIBRARY.RU и других открытых российских интернет-ресурсов показал отсутствие публикаций с описанием методик по оценке качества программных продуктов, имеющих в своем составе искусственный интеллект, и результатами тестирования таких программных продуктов. Данный
факт показывает, что в России на данный момент практически не ведутся исследования по решению задачи оценки качества программных продуктов, имеющих в своем составе искусственный интеллект.
В ходе исследований по данному направлению не проводился анализ зарубежных источников с публикациями по оценке качества программных продуктов, имеющих в своем составе искусственный интеллект. В зарубежном источнике [1] представлен подробный обзор литературы и публикаций по исследованиям с 1988 по 2020 г. в области оценки качества программного обеспечения на основе искусственного интеллекта.
Одной из основных задач при проведении научных исследований компанией «Логстрим» была разработка методики оценки качества программных продуктов, имеющих в своем составе искусственный интеллект в задачах классификации и распознавания документов с учетом выполнения требований российских регламентирующих стандартов.
На основании разработанной методики была проведена оценка качества программного комплекса «ЭКО-ДОК», имеющего в своем составе сервис и нейронную сеть YOLO v5, в задачах классификации и распознавания документов.
Научная новизна исследования состоит в решении задачи оценки качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов; разработке методики оценки качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов; получение количественных оценок качества программного комплекса «ЭКО-ДОК», имеющего в своем составе сервис с нейронную сеть YOLO v5, в задачах классификации и распознавания документов.
Описание методики
На данный момент в России действует большая группа стандартов, регламентирующих оценку качества программных продуктов: ИСО/МЭК 2501n -раздел моделей качества; ИСО/МЭК 2502n - раздел измерения качества; ИСО/МЭК 2503n - раздел требований к качеству; ИСО/МЭК 2504n - раздел оценки качества.
Анализ данных стандартов показал отсутствие в них:
- рекомендаций по выбору внешних показателей качества и элементов показателя качества программного продукта для оценки качества программного продукта в задачах классификации и распознавания документов;
- требований и рекомендаций по оценке качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов.
Согласно стандарту ГОСТ Р 57700.36-20211 нейронная сеть относится к искусственному интеллекту. Поэтому программные продукты, имеющее в своем составе искусственный интеллект, можно отнести к системам искусственного интеллекта.
1 ГОСТ Р 57700.36-2021. Высокопроизводительные вычислительные системы. Оценка производительности высокопроизводительных вычислительных систем на алгоритмах, использующих сверточные нейронные сети.
Оценка качества систем искусственного интеллекта регламентируется стандартом ГОСТ Р 59898-20211.
Сравнение стандартов 2502п, 2504п и ГОСТ Р 59898-2021 показывает наличие различий в терминологии, определениях и подходах по оценке качества программного продукта и оценке качества системы искусственного интеллекта. В стандарте ГОСТ Р 59898-2021 отсутствуют подробные требования и рекомендации по порядку проведения тестирования систем искусственного интеллекта и содержанию документации тестирования. Требования и рекомендации по контролю и выполнению тестирования программного обеспечения представлены в серии стандартов ГОСТ Р 5 6920-20 1 62, ГОСТ Р 5 6921-20 1 63, ГОСТ Р 56922-20164. ГОСТ 19.301-19795 устанавливает требования к содержанию и оформлению программного документа «Программа и методика испытаний».
Использование требований рассмотренных групп стандартов по отдельности не позволяет произвести оценку качества программных продуктов, имеющих в своем составе искусственный интеллект, и провести тестирование.
В связи с этим компанией «Логстрим» была разработана методика оценки качества программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов (далее методика).
Данная методика разработана на основании требований стандарта ГОСТ Р 59898-2021, также в методике учтены требования серии стандартов 2501п, 2502п, 2504п, серии ГОСТ Р 56920-2016, ГОСТ Р 56921-2016, ГОСТ Р 56922-2016 и требования стандарта ГОСТ 19.301-1979.
В разработанной методике предлагается сначала проводить оценку качества программного продукта, а затем проводить оценку качества программного продукта как системы искусственного интеллекта (СИИ) в задачах классификации и распознавания документов.
Методика состоит из следующих этапов:
Этап 1 - подготовительные работы.
Этап 2 - тестирование.
Этап 3 - оценка качества программного продукта в задачах классификации и распознавания документов.
Этап 4 - оценка качества программного продукта как СИИ в задачах классификации и распознавания документов.
Этап 5 - анализ результатов оценки.
На этапе 1 проводятся следующие мероприятия:
1 ГОСТ Р 59898-2021. Оценка качества систем искусственного интеллекта. Общие положения.
2 ГОСТ Р 56920-2016. Системная и программная инженерия. Тестирование программного обеспечения. Часть 1. Понятия и определения.
3 ГОСТ Р 56921-2016. Системная и программная инженерия. Тестирование программного обеспечения. Часть 2. Процессы тестирования.
4 ГОСТ Р 56922-2016. Системная и программная инженерия. Тестирование программного обеспечения. Часть 3. Документация тестирования.
5 ГОСТ 19.301-1979. Государственный стандарт СССР. ЕСПД. Программа и методика испытаний. Требования к содержанию и оформлению.
- разрабатывается программа и методики испытаний программного продукта;
- определяется набор данных для тестирования и подготавливаются данные для тестирования;
- создается испытательный стенд для проведения тестирования.
В программе и методиках испытаний программного продукта содержатся следующие разделы:
- объект испытаний и цель испытаний;
- требования к программе;
- требования к программной документации;
- выбор и обоснование характеристик качества программного продукта и критериев их оценки в задачах классификации и распознавания документов;
- выбор и обоснование характеристик качества программного продукта как СИИ и критериев их оценки в задачах классификации и распознавания документов;
- требования к тестовым данным (далее data test);
- состав и порядок проведения испытаний;
- методы испытаний;
- отчетность;
- методики испытаний.
Затем определяется набор данных и подготавливаются данные для тестирования, создается испытательный стенд для проведения тесирования.
На этапе 2 в соответствии с программой и методиками испытаний проводится тестирование программного продукта.
На этапе 3 после тестирования оцениваются характеристики качества программного продукта в задачах классификации и распознавания документов.
На этапе 4 после тестирования оцениваются характеристики качества программного продукта как СИИ в задачах классификации и распознавания документов.
На этапе 5 проводится анализ результатов оценки качества программного продукта, имеющего в свое составе искусственный интеллект, в задачах классификации и распознавания документов и оформляются протоколы тестирования.
Результаты исследования и их обсуждение
Как уже было указано, в программном компоненте «Модуль классификации скан-образов по типу документов» программного комплекса «ЭКО-ДОК» имеется сервис с нейронной сетью YOLO v5. Согласно стандарту ГОСТ Р 57700.36-2021 нейронная сеть является искусственным интеллектом, поэтому программный комплекс «ЭКО-ДОК» можно отнести к СИИ.
В соответствии с разработанной методикой была проведена оценка качества программного комплекса «ЭКО-ДОК», имеющего в своем составе сервис с нейронной сетью YOLO v5, в задачах классификации и распознавания документов.
Раскроем подробно каждый этап оценки качества программного комплекса «ЭКО-ДОК» (далее ПК «ЭКО-ДОК»).
Этап 1
Разработана программа и методики испытаний, на основании которых проводилось тестирование ПК «ЭКО-ДОК».
Определены: объект испытаний и цель испытаний; требования к программе; требования к программной документации; требования к data test; состав и порядок проведения испытаний; методы испытаний; отчетность.
Создан стенд для проведения испытаний.
На данный момент в ПК «ЭКО-ДОК» имеется четыре класса классификации одностраничных первичных документов бухгалтерского учета:
1) тип документа - «УПД».
2) тип документа - «СФ».
3) тип документа - «АКТ».
4) не определен тип документа - «Undefined».
Поэтому для тестирования был подготовлен следующий data test:
- файл формата jpeg с одностраничным документом «УПД» - 524 шт.;
- файл формата jpeg с одностраничным документом «CФ» - 524 шт.;
- файл формата jpeg с одностраничным документом «АКТ» - 524 шт.;
- файл формата jpeg с одностраничным документом бухгалтерского учета (не УПД, не СФ и не АКТ) - 524 шт.
Для оценки качества ПК «ЭКО-ДОК» на основании стандарта ГОСТ Р ИСО/МЭК 25010-20151 была выбрана модель качества продукта.
Цель оценки качества ПК «ЭКО-ДОК» - это оценка функциональных требований способности классифицировать и распознавать документы. Поэтому для оценки качества в соответствии со стандартом ГОСТ Р ИСО/МЭК 25010-2015 были выбраны характеристика качества программного продукта, функциональная пригодность и ее подхарактеристика - функциональная корректность.
В стандартах ИСО/МЭК 2502n отсутствуют рекомендации по выбору внешних показателей качества и элементов показателя качества программного продукта для характеристики качества функциональной пригодности в задачах классификации и распознавания документов. Поэтому требуется определить показатели качества и элементы показателя качества для программного продукта в задачах классификации и распознавания документов, чтобы оценить качество ПК «ЭКО-ДОК» в задачах классификации и распознавания документов.
В ходе работы ПК «ЭКО-ДОК» может распознавать или не распознавать тип документа, что является случайным событием. Согласно теории вероятности [2] случайным событием называется любой факт, который в результате испытания может произойти или не произойти. Для практической деятельности необходимо сравнивать события по степени возможности их наступления. Для сравнения событий используется численная мера степени объективности возможности наступления события, которая называется вероятностью события. На практике оценку неизвестной вероятности P события А
1 ГОСТ Р ИСО/МЭК 25010-2015. Системная и программная инженерия. Требования и оценка качества систем и программного обеспечения (SQuaRE). Модели качества систем и программных продуктов.
оценивают по его частоте (статистической вероятности события P (А)) в п
независимых опытах.
Согласно теории вероятности [2] статистическая вероятность события А называется относительной частотой (частостью) появления этого события в п произведенных испытаниях и определяется по формуле
Р (А)=Ш, (1)
п
где P (A) - статистическая вероятность события А; ш/п - относительная
частота, частость события А; ш - число испытаний, в которых появилось событие А; п - общее число испытаний.
Для оценки качества ПК «ЭКО-ДОК» в задачах классификации и распознавания были определены показатель качества, статистическая вероятность распознавания документов и элементы показателя качества - статистические вероятности распознавания для каждого типа документа:
1) Р (Аупд ос) - статистическая вероятность события Аупд ос распознавания ПК «ЭКО-ДОК» одностраничного документа типа «УПД»;
2) Р (Асф ос) - статистическая вероятность события Асф ос распознавания ПК «ЭКО-ДОК» одностраничного документа типа «СФ»;
3) Р (Аакт ос) - статистическая вероятность события Аакт ос распознавания ПК «ЭКО-ДОК» одностраничного документа типа «АКТ».
Критерии оценки успешного функционирования ПК «ЭКО-ДОК» по классификации и распознаванию одностраничных документов представлены в табл. 1.
Таблица 1
Критерии оценки качества ПК «ЭКО-ДОК»
Характеристика Обозначение вероятности Критерий оценки
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «УПД» Р (Аупд ос) не менее 0,9
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «СФ» Р (Асф ос) не менее 0,9
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «АКТ» Р (Аакт ос) не менее 0,9
ПК «ЭКО-ДОК» считается успешно выдержавшим испытания, когда фактические результаты тестирования соответствуют критериям оценки, указанным в табл. 1.
Для оценки точности и надежности полученных значений Р (А) согласно теории вероятности и математической статистики [2, 3] будет использован параметр - доверительный интервал /р для различных доверительных вероятностей р.
Согласно источникам [2, 3] доверительные границы Р\ и Р2 доверительного интервала /р рассчитываются по формулам:
p f(A)+2f
P —-
p (A)(1 -p (A)) i <|
+ 4 „2
12 1+*
(2)
p 2f+ßV P2 —-
P (A)(1 -P (A)) +1 ± „ 4 „2
12
1 + *
(3)
n
где P1 - левая доверительная граница доверительного интервала /р; P2 -правая доверительная граница доверительного интервала /р; P (A) - статистическая вероятность события А; n - количество проведенных опытов; t -параметр, определяемый в зависимости от доверительный вероятности р.
Согласно результам исследований, опубликованным в источнике [4], размер выборки является одной из важнейших характеристик, от которой зависит оптимальная доверительная вероятность и доверительный интервал. В случае, если выборка является большой (n > 200), можно говорить об отсутствии неопределенности, а также о слабой зависимости от вида закона распределения, что соответствует детерминированному типу неопределенности. Поэтому количество документов каждого типа в data test должно быть не менее 200.
На втором этапе оценки качества ПК «ЭКО-ДОК» как СИИ в задачах классификации и распознавания документов требуется выбрать характеристики качества программного продукта как СИИ и метрики их оценки.
На основании ГОСТ Р 59898-2021 для оценки качества ПК «ЭКО-ДОК» как СИИ были выбраны существенная характеристика - фукциональные возможности, и ее субхарактеристика - функциональная корректность.
Выбраны следующие метрики оценки функциональной корректности в задачах классификации и распознавания:
1. Метрика A - доля правильных исходов (accuracy) рассчитывается по формуле
TP + TN . r,
A =-, Ae [0,1], (4)
TP + TN + FP + FN L J
где TP - количество истинно положительных исходов; TN - количество истинно отрицательных исходов; FP - количество ложно положительных исходов; FN - количество ложно отрицательных исходов.
2. Метрика Pr - точность (precision, revelance), рассчитывается по формуле
TP
Pr =-, Pre [0,1] . (5)
TP + FP
3. Метрика Se - чувствительность, полнота (sensitivity, recall), рассчитывается по формуле
„
TP
Se =-, See [0,1] . (6)
TP + FN
4. Метрика Sp - избирательность (specificity), рассчитывается по формуле
TN
Sp =-, Spe [0,1] . (7)
TN + FP L J
5. Метрика F - мера, рассчитывается по формуле
F = 2PPrir, F e[0,l]; (8)
Pr + Re
p TP TP Pr =-, Pe = -
ТР + ЕР ТР + РЫ
Метрики функциональной корректности и критерии оценки качества ПК «ЭКО-ДОК» как СИИ для задач классификации и распознавания документов представлены в табл. 2.
Таблица 2
Критерии оценки качества ПК «ЭКО-ДОК» как СИИ
Метрика функциональной корректности Обозначение метрики Критерий оценки
1 Класс классификации документа - «УПД»
1.1 Доля правильных исходов Аупд не менее 0,9
1.2 Точность Pryna не менее 0,9
1.3 Полнота, чувствительность Seyna не менее 0,9
1.4 Избирательность Spynn не менее 0,9
1.5 F-мера Fyna не менее 0,9
2 Класс классификации документа - «СФ»
2.1 Доля правильных исходов Асф не менее 0,9
2.2 Точность Prcф не менее 0,9
2.3 Полнота, чувствительность Secф не менее 0,9
2.4 Избирательность Spсф не менее 0,9
2.5 F-мера Fcф не менее 0,9
3 Класс классификации документа - «АКТ»
3.1 Доля правильных исходов Аакт не менее 0,9
3.2 Точность Prакт не менее 0,9
3.3 Полнота, чувствительность Se акт не менее 0,9
3.4 Избирательность Spart не менее 0,9
3.5 F-мера Fakt не менее 0,9
4 Класс классификации документа - «Undefined»
4.1 Доля правильных исходов Au не менее 0,9
4.2 Точность Pru не менее 0,9
4.3 Полнота, чувствительность Seu не менее 0,9
4.4 Избирательность Spu не менее 0,9
4.5 F-мера Fu не менее 0,9
ПК «ЭКО-ДОК» как СИИ считается успешно выдержавшим испытания, когда фактические результаты тестирования соответствуют критериям оценки качества, указанным в табл. 2.
Этап 2
Тестирование ПК «ЭКО-ДОК» проводилось на основании разработанной программы и методик испытаний методом «черного ящика» по двум сценариям тестирования.
Сценарий тестирования 1 заключался в следующем: в ПК «ЭКО-ДОК» отправляется пачка файлов одностраничных документов для классифицирования и распознавания документа. В пачке находится 524 документа одного типа. Сначала в ПК «ЭКО-ДОК» отправляется пачка файлов документов «УПД», затем отправляется пачка файлов документов «СФ», затем в ПК «ЭКО-ДОК» отправляется пачка файлов документов «АКТ».
Ожидаемый результат: ПК «ЭКО-ДОК» классифицирует и распознает каждый документ и присваивает каждому документу класс «УПД» или «СЧФ», или «АКТ» и выводит результат. Если ПК «ЭКО-ДОК» определил документ как другой тип, то фактический результат засчитывался как «Undefined» - тип документа не определен.
Фактические результаты тестирования по каждому документу должны быть зафиксированы и обработаны.
Сценарий тестирования 2 заключался в следующем: в ПК «ЭКО-ДОК» отправляется пачка файлов одностраничных документов для классифицирования и распознавания документа. В пачке находится 2096 документов всех типов («УПД», «СФ», «АКТ» и различные документы не «УПД», не «СФ» и не «АКТ»). Количество документов каждого класса 524 шт.
Ожидаемый результат: ПК «ЭКО-ДОК» классифицирует и распознает каждый документ и присваивает документу класс «Тип документа» и выводит результат.
Фактические результаты тестирования по каждому документу должны быть зафиксированы и обработаны.
Этап 3
После проведения тестирования по сценарию тестирования 1 фактические результаты тестирования были зафиксированы и обработаны. Затем была проведена оценка качества ПК «ЭКО-ДОК» в задачах классификации распознавания документов.
Статистическая вероятность ПК «ЭКО-ДОК» одностраничного документа типа «УПД», «СФ» и «АКТ» рассчитывалась по формуле (1) на основании фактических результатов тестирования, результаты расчета представлены в табл. 3. В табл. 4 представлены результаты тестирования (результаты оценки характеристик) ПК «ЭКО-ДОК».
Затем была проведена оценка точности и надежности полученных
значений P (A). Для различных доверительных вероятностей в был
рассчитан доверительный интервал /р по формулам (2) и (3), результаты расчета представлены в табл. 5.
Таблица 3
Фактические результаты тестирования (сценарий тестирования 1)
Характеристика Обозначение «УПД» «СФ» «АКТ»
Общее число испытаний n 524 524 524
Число испытаний, в которых появилось событие А m 507 508 488
Статистическая вероятность события А P (A) 0,97 0,97 0,93
Примечание. При тестировании одного типа документа, если ПК «ЭКО-ДОК» определил его как другой тип, то фактический результат засчитывался как «Undefined» - тип документа не определен.
Таблица 4
Результаты тестирования ПК «ЭКО-ДОК»
Характеристика Обозначение Критерий оценки Фактический результат Результат тестирования
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «УПД» P (Аупд ос) не менее 0,9 0,97 Успешно
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «СФ» P (Асф ос) не менее 0,9 0,97 Успешно
Статистическая вероятность распознавания ПК «ЭКО-ДОК» одностраничного документа типа «АКТ» P (Аакт ос) не менее 0,9 0,93 Успешно
Таблица 5
Реузльтаты расчета доверительных интервалов /р
Наименование характеристики Доверительная вероятность
в = 0,9, t = 1,643 в = 0,95, t = 1,96 в = 0,99, t = 2,576
P (Аупд ос) = 0,97
Левая доверительная граница Р\ доверительного интервала /р 0,955 0,951 0,944
Правая доверительная граница Р2 доверительного интервала /р 0,980 0,981 0,984
P (Асф ос) = 0,97
Левая доверительная граница Р\ доверительного интервала /р 0,955 0,951 0,944
Правая доверительная граница Р2 доверительного интервала /р 0,980 0,981 0,984
P (Аакт ос) = 0,93
Левая доверительная граница Р\ доверительного интервала /р 0,909 0,904 0,895
Правая доверительная граница Р2 доверительного интервала /р 0,946 0,948 0,953
Этап 4
После проведения тестирования по сценарию тестирования 2 фактические результаты тестирования были зафиксированы и обработаны. Затем была проведена оценка качества ПК «ЭКО-ДОК» как СИИ в задачах классификации и распознавания документов.
В табл. 6 представлены фактические результаты тестирования по каждому типу документа.
Таблица 6
Фактические результаты тестирования (сценарий тестирования 2)
Распознаны как класс Всего
Тип документа «УПД», «СФ», «АКТ», «Undefined», документов,
шт. шт. шт. шт. шт.
«УПД» 507 6 1 10 524
«СФ» 0 508 12 4 524
«АКТ» 0 0 488 36 524
Различные документы 0 0 11 513 524
На основании фактических результатов тестирования (табл. 6) исходы для каждого класса рассчитываются следующим образом. Класс «УПД»:
- количество TP = 507;
- количество FP = 0 + 0 + 0 = 0;
- количество FN = 6 + 1 + 10 = 17;
- количество TN = 524 + 524 + 524 = 1572. Класс «СФ»:
- количество TP = 508;
- количество FP = 6 + 0 + 0 = 6;
- количество FN = 0 + 12 + 4 = 16;
- количество TN = (524 - 6) + 524 + 524 = 1566. Класс «АКТ»:
- количество TP = 488;
- количество FP = 1 + 12 + 11 = 24;
- количество FN = 0 + 0 + 36 = 36;
- количество TN = (524 - 1) + (524 - 12) + (524 - 11) = 1548. Класс «Undefined»:
- количество TP = 513;
- количество FP = 10 + 4 + 36 = 50;
- количество FN = 0 + 0 + 11 = 11;
- количество TN = (524 - 10) + (524 - 4) + (524 - 36) = 1522.
В табл. 7 представлены результаты рассчитанных исходов для каждого класса документов. После расчета исходов по формулам (4)-(8) были рассчитаны метрики функциональной корректности ПК «ЭКО-ДОК» как СИИ в задачах классификации и распознавания документов, результаты расчета представлены в табл. 8.
Также в табл. 8 представлены результаты тестирования (результаты оценки характеристик) ПК как «ЭКО-ДОК» как СИИ.
Таблица 7
Результаты исходов
Класс документа
Тип исхода Обозначение «УПД» «СФ», «АКТ», «Undefined»,
шт. шт. шт. шт.
Количество истинно положительных исходов ТР 507 508 488 5\3
Количество ложно положительных исходов ЕР 0 6 24 50
Количество ложно отрицательных исходов ЕЫ \7 \6 36 \\
Количество истинно отрицательных исходов ТЫ \572 \566 \548 \522
Таблица 8
Результаты тестирования ПК «ЭКО-ДОК» как СИИ
Тип метрики функциональной корректности Обозначение Класс документа Критерий оценки Результат тестирования
«УПД» «СФ» «АКТ» «ипйеАпйеп»
Доля правильных исходов А 0,992 0,990 0,97\ 0,97\ не менее 0,9 Успешно
Точность Рг \,0 0,988 0,953 0,9 \\ не менее 0,9 Успешно
Полнота 0,968 0,969 0,93\ 0,979 не менее 0,9 Успешно
Избирательность \,0 0,996 0,985 0,968 не менее 0,9 Успешно
Е-мера Е 0,984 0,979 0,942 0,944 не менее 0,9 Успешно
Этап 5
После проведения тестирования ПК «ЭКО-ДОК» были оформлены протоколы тестирования, в которых предоставлена сводка выполнения тестирования и результаты оценки качества ПК «ЭКО-ДОК».
Анализ результатов оценки качества ПК «ЭКО-ДОК» на этапе \ показал, что ПК «ЭКО-ДОК» выдержал испытания и успешно классифицирует и распознает одностраничные документы типа «УПД», «СФ» и «АКТ».
Анализ результатов оценки качества ПК «ЭКО-ДОК» как СИИ на этапе 2 показал, что ПК «ЭКО-ДОК» выдержал испытания и успешно классифицирует и распознает одностраничные документы типа «УПД», «СФ» и «АКТ».
Таким образом установлено, что ПК «ЭКО-ДОК» успешно классифицирует и распознает одностраничные документы типа «УПД», «СФ» и «АКТ».
Заключение
Теоретическая значимость проведенных исследований заключается в разработанной методике, с помощью которой возможно провести оценку качества различных программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания докумен-
тов и сравнить данные программные продукты. Также определены характеристики качества, показатели качества, элементы показателя качества, метрики, необходимые для оценки качества программного продукта.
Практическая значимость заключается в полученных результатах оценки качества ПК «ЭКО-ДОК», имеющего в своем составе сервис с нейронной сетью YOLO v5, в задачах классификации и распознавания документов.
Результаты исследования в данной области имеют большое значение для выработки рекомендаций по оценке качества программных продуктов и сравнению программных продуктов, имеющих в своем составе искусственный интеллект, в задачах классификации и распознавания документов.
Список литературы
1. Gezici B., Tarhan A. K. Systematic literature review on software quality for Al-based software // Empir Software Eng. 2022. Vol. 27, № 66. doi: 10.1007/s10664-021-10105-2
2. Вентцель Е. С. Теория вероятностей : учебник. 11-е изд., стер. М. : КНОРУС, 2010. 664 с.
3. Мхитарян В. С., Шишов В. Ф., Козлов А. Ю., Искоркин Д. В. Теория вероятностей и математическая статистика с использованием MS Excel : в 2 ч. Ч. 1. Теория вероятностей : учебник. М. : КУРС, 2019. 240 с.
4. Симанков В. С., Бучацкая В. В., Теплоухов С. В. Определение оптимального сочетания доверительного интервала и доверительной вероятности // Вестник Адыгейского государственного университета. Серия: естественно-математические науки. 2019. № 3 (246). С. 69-74.
References
1. Gezici B., Tarhan A.K. Systematic literature review on software quality for Al-based software. Empir Software Eng. 2022;27(66). doi: 10.1007/s10664-021-10105-2
2. Venttsel' E.S. Teoriya veroyatnostey: uchebnik. 11 -e izd., ster. = Probability theory: textbook. The 11th edition. Moscow: KNORUS, 2010:664. (In Russ.)
3. Mkhitaryan V.S., Shishov V.F., Kozlov A.Yu., Iskorkin D.V. Teoriya veroyatnostey i matematicheskaya statistika s ispol'zovaniem MS Excel: v 2 ch. Ch. 1. Teoriya veroyatnostey: uchebnik = Probability theory and mathematical statistics using MS Excel: in 2parts. Part 1. Probability theory: textbook. Moscow: KURS, 2019:240. (In Russ.)
4. Simankov V.S., Buchatskaya V.V., Teploukhov S.V. Determining the optimal combination of confidence interval and confidence probability. Vestnik Adygeyskogo gosudar-stvennogo universiteta. Seriya: estestvenno-matematicheskie nauki = Bulletin of Adygei State University. Series: natural and mathematical sciences. 2019;(3):69-74. (In Russ.)
Информация об авторах / Information about the authors
Александр Николаевич Милованов Aleksandr N. Milovanov
кандидат технических наук, системный Candidate of engineering sciences,
аналитик, ООО «Логстрим» (Россия, systems analyst, "Logstrim" LLC
Москва, ул. Кржижановского, 15, (building 1, 15 Krzhizhanovsky street,
корп. 1) Moscow, Russia)
E-mail: [email protected]
Алексей Анатольевич Мистюков
технический директор, ООО «Логстрим» (Россия, Москва, ул. Кржижановского, 15, корп. 1)
E-mail: [email protected]
Aleksey A. Mistyukov Engineering director, "Logstrim" LLC (building 1, 15 Krzhizhanovsky street, Moscow, Russia)
Дмитрий Александрович Трусов исполнительный директор, ООО «Логстрим» (Россия, Москва, ул. Кржижановского, 15, корп. 1)
E-mail: [email protected]
Dmitriy A. Trusov Chief executive, "Logstrim" LLC (building 1, 15 Krzhizhanovsky street, Moscow, Russia)
Алексей Александрович Коршунов специалист по тестированию, ООО «Логстрим» (Россия, Москва, ул. Кржижановского, \5, корп. \)
Aleksey A. Korshunov Testing specialist, "Logstrim" LLC (building 1, 15 Krzhizhanovsky street, Moscow, Russia)
E-mail: [email protected]
Авторы заявляют об отсутствии конфликта интересов / The authors declare no conflicts of interests.
Поступила в редакцию / Received 28.02.2024
Поступила после рецензирования и доработки / Revised 23.03.2024 Принята к публикации / Accepted 17.04.2024