Научная статья на тему 'ЭТАПЫ ЭФФЕКТИВНОГО ОБУЧЕНИЯ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ И ИХ ПРИМЕНЕНИЯ'

ЭТАПЫ ЭФФЕКТИВНОГО ОБУЧЕНИЯ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ И ИХ ПРИМЕНЕНИЯ Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
159
24
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
Image recognition / neural networks / machine learning.

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Нугманова Мавлюдахон Аваз Кизи

This paper discusses the stages and methods for creating image recognition models.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «ЭТАПЫ ЭФФЕКТИВНОГО ОБУЧЕНИЯ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ И ИХ ПРИМЕНЕНИЯ»

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

ЭТАПЫ ЭФФЕКТИВНОГО ОБУЧЕНИЯ МОДЕЛЕЙ РАСПОЗНАВАНИЯ ИЗОБРАЖЕНИЙ И ИХ ПРИМЕНЕНИЯ Нугманова Мавлюдахон Аваз кизи

Научно-исследовательский институт развития цифровых технологий и искусственного

интеллекта, исследователь https://doi.org/10.5281/zenodo.7854432

Annotation. This paper discusses the stages and methods for creating image recognition models.

Keywords. Image recognition, neural networks, machine learning.

ВВЕДЕНИЕ

Когда человек видит объект или изображение, он, может сразу и точно узнать, что это такое. Люди классифицируют все, что они видят, по разным категориям на основе атрибутов, которых идентифицируют в наборе объектов. Таким образом, даже если человек точно не знает, что такое объект, он обычно может сравнить его с другими категориями объектов, которых уже видел в прошлом, и классифицировать его на основе его атрибутов. Возьмем пример с неизвестным нам животным. Даже если мы не можем четко определить, что это за животное, мы все же можем идентифицировать его как животное. [4]. Подготовка набора обучающих данных. Для обучения модели распознавания с нуля требуется соответствующая база данных изображений. Многие бесплатные наборы данных доступны для загрузки

в интернете. После этого придется пройти аугментацию данных, чтобы избежать переобучения объектов на этапе обучения. Увеличение данных заключается в расширении библиотеки изображений путем создания новых эталонов. Изменение ориентации изображений, изменение их цвета на оттенки серого или даже их размытие. Все эти параметры создают новые данные и позволяют системе более легко анализировать изображения. После того, как ввели свои данные, необходимо будет использовать определенный формат. Форматирование изображений необходимо для нашей программы машинного обучения, потому что она должна понимать их все. Если качество или размеры изображений слишком сильно различаются, системе будет довольно сложно и долго обрабатывать все. Когда форматирование будет выполнено, нам нужно будет указать модели, какие классы объектов мы хотим, чтобы она обнаруживала и классифицировала. Минимальное количество изображений, необходимых для эффективного этапа обучения, составляет 200.

Подготовка и понимание того, как работают модели сверточной нейронной сети. Приложения распознавания изображений обычно работают с моделями сверточной нейронной сети. Это то, что нам придется использовать при обучении нашего приложения. Как мы знаем, машины не видят изображение целиком, они анализируют полученные из него данные: пиксели. Нейронные сети, которые имитируют действия человеческих нейронов, действуют как экстракторы признаков. Они будут извлекать признаки прямо из изображений и вводить их в систему для анализа. Когда данные и изображения правильно аннотированы, это помогает модели выбирать интересные функции, чтобы дать правильную классификацию. Это роль сверточных нейронных сетей или CNN. Прежде чем

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

устанавливать алгоритм CNN, мы должны получить дополнительные сведения о сложной архитектуре этой конкретной модели и о том, как она работает. Архитектура CNN состоит из различных слоев, предназначенных для выполнения различных действий. Модель сначала возьмет все пиксели изображения и применит первый фильтр или слой, называемый сверточным слоем . При взятии всех пикселей слой извлечет из них некоторые функции.

Это создаст карту объектов, что позволит сделать первый шаг к обнаружению и распознаванию объектов. Можно применить гораздо больше сверточных слоев в зависимости от количества функций, которые вы хотите, чтобы модель исследовала (формы, цвета, текстуры, которые видны на изображении и т. д.). Когда все данные проанализированы и собраны в карту объектов, применяется слой активации. Это предназначено для упрощения результатов, позволяя алгоритму обрабатывать их быстрее. Чтобы сделать метод еще более эффективным, во время процесса применяются объединяющие слои. Они предназначены для сбора и сжатия данных изображений и их очистки перед использованием других слоев. Это очень важно, так как позволяет избежать переобучения , которое может помешать модели распознать два элемента, которые могут перекрываться на изображении. Объединение слоев — отличный способ повысить точность модели CNN. Наконец, к изображениям применяются сглаживающие и полносвязные слои, чтобы объединить все входные функции и результаты. Этот шаг необходим для распознавания изображений. Эти сверточные нейронные сети обучаются не просто так. После обучения всех этих слоев на обучающих данных и при удовлетворительных результатах можно запускать приложение Image Recognition. Но есть один элемент, который мы должны учитывать: чем дольше мы обучаем свою модель, тем лучше будет производительность и точность нашего приложения[5].

Оценка и проверка результатов обучения системы. Прежде чем использовать нашу модель распознавания изображений, очень важно пройти процесс оценки и проверки. Это позволит нам убедиться, что наше решение соответствует требуемому уровню производительности для системы, в которую оно интегрировано. Наша модель была обучена, но теперь нам необходимо оценить результаты этого этапа обучения. Необходимо использовать другой набор данных, тогда оценка обученной модели покажет нам, был ли этап обучения успешным или нет. Этот новый набор данных неизвестен вашему алгоритму и называется проверочным набором данных. Используем результаты анализа этого нового набора и изображений с результатами этапа обучения, чтобы сравнить их точность и производительность при идентификации и классификации изображений. Если мы заметим разницу между различными выходными данными, мы можем снова проверить свой алгоритм и перейти к новому этапу обучения. Но на этот раз, нам следует изменить некоторые параметры, которые мы применили на первом этапе обучения. Возможно, проблема связана с форматом изображений, который не одинаков для каждого изображения. Или это может быть результатом отсутствия вариаций на картинках. В этом случае нам следует попробовать увеличить данные, чтобы предложить большую базу данных. Это может быть даже проблема с маркировкой наших классов, которая может быть недостаточно ясной. Как только новый этап обучения удовлетворит, мы должны пройти самый последний этап

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

тестирования. Для этого нам следует сопоставить свой алгоритм с набором данных: тестовым набором. Этот этап важен, как и другие и нам абсолютно необходимо проверить, были ли эти модификации успешными или нет. Таким образом, необходим самый последний тест с неизвестными наборами картинок. Это также возможность проверит точность программы и ее скорость обработки изображений [2].

Актуальность распознавания изображений. Здравоохранение. Модели распознавания изображений могут помочь в диагностике различных состояний. Модели можно обучить и использовать для сканирования изображений с аппаратов МРТ или рентгеновских лучей, а также других визуальных выходных данных, чтобы обнаруживать, локализовать

и помечать медицинские отклонения. Например, он может определить количество и точное расположение опухолей на изображении, помогая привлечь внимание практикующего врача к злокачественным или раковым элементам.

Такая информация может помочь врачам поставить своевременный и точный диагноз, что может помочь в лечении пациентов. Также это может повысить их способность идентифицировать мелкие злокачественные элементы (например, опухоли), которые могут быть не видны человеческому глазу.

Этот быстрый и точный диагноз, в свою очередь, повысит эффективность медицинских услуг и поставщиков, сократит время, затрачиваемое на повторный скрининг, и расширит возможности врачей по составлению раннего и точного плана лечения.

Такие льготы будут иметь решающее значение, особенно для врачей, занимающихся крупномасштабными и необычными событиями, которые часто создают большую нагрузку на отделения неотложной помощи (например, жертвы стихийных бедствий, войн и т. д.). Кроме того, модели распознавания изображений могут быть обучены одному централизованному стандарту и развернуты в большом количестве больниц и клиник, что поможет стандартизировать процесс диагностики в разных регионах. Это в равной степени применимо к областям стоматологии, которые используют рентгеновские снимки для определения того, нуждаются ли отдельные зубы в инвазивном лечении. В некоторых случаях различные состояния могут быть малозаметны, особенно на ранних стадиях их развития (например, при распаде). Модели обнаружения объектов можно научить сканировать изображения, сделанные рентгеновскими аппаратами, и направлять внимание стоматологов на потенциально проблемные области.

Более того, эти модели на основе ИИ могут уменьшить количество судебных исков, финансовых последствий и проблем с репутацией, с которыми больницы сталкиваются из-за человеческих ошибок. По данным Pinnacle Care, человеческие ошибки и другие недостатки в секторе здравоохранения США обходятся в 750 миллиардов долларов в год, и большинству американцев хотя бы раз в жизни ставят неправильный диагноз. Ежегодная смертность, связанная с такими ошибками, в США составляет от 40 000 до 80 000, что указывает на необходимость передовых технологических решений, которые могли бы помочь в решении этой проблемы. Такие технологии, как модели распознавания изображений в медицине, могут помочь стандартизировать процессы, а также создать контролируемый журнал процессов и диагнозов.

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

Например, модели распознавания изображений могут анализировать изображения, содержащие родимые пятна или любые другие изменения пигментации кожи, и предлагать вероятность рака кожи, инфекций или других состояний. На основе полученного анализа модели могут предложить, следует ли человеку обращаться за медицинской помощью или нет, исходя из пороговых значений вероятности, продиктованных обученными медицинскими работниками, которые помогали разрабатывать модели.

Внедрение таких технологий в качестве средства самодиагностики за пределами больниц может увеличить количество людей, которые будут регулярно следить за состоянием своего здоровья и выявлять любые потенциальные проблемы на самой ранней стадии[3].

Беспилотные автомобили — это настоящая революция. Многим это кажется довольно футуристичным: наблюдать за машинами, способными возить пассажиров, не видя, как они даже касаются руля или педалей. С помощью камер вокруг устройства, радаров и датчиков автомобиль может определять, какие элементы присутствуют в его окрестностях, и делать прогнозы относительно их траектории или действий. Нейронные сети в программе анализируют пиксельные паттерны изображений с камер и могут сказать, является ли объект справа велосипедом или нет, приближается ли он к машине или удаляется от нее. Они также обнаруживают и идентифицируют дорожные знаки и сигналы, деревья, дорожки и даже пешеходов.

Индустрия безопасности. Домашняя безопасность стала огромной заботой как для людей, так и для страховых компаний. Ограбления случаются каждый день с разными людьми. Многие решили решить эту проблему и начали устанавливать камеры и охранную сигнализацию в своих домах и прилегающих районах. Это оказалось очень эффективным для многих людей. В большинстве случаев он используется, чтобы показать полиции или страховой компании, что вор действительно ворвался в дом и что-то украл. Но это решение также используется для обнаружения большого количества мошенничества. С другой стороны, камеры видеонаблюдения все больше и больше устанавливаются в крупных городах, например, для выявления неучтивого поведения и вандализма. Камеры видеонаблюдения также используются магазинами, чтобы выявлять магазинных воров в действиях и предоставлять полиции доказательства уголовного преступления.

Розничная торговля, электронная коммерция и маркетинг. С началом пандемии COVID-19 и связанной с ней изоляции люди начали размещать в Интернете заказы на всевозможные товары (одежду, очки, продукты питания и т. д.). Некоторые компании разработали собственный алгоритм ИИ для своей конкретной деятельности. Интернет-покупатели теперь имеют возможность примерить одежду или очки онлайн. Им просто нужно снять видео или сфотографировать свое лицо или тело, чтобы получить пробные товары, которые они выбирают онлайн, прямо через свои смартфоны. Таким образом, клиент может визуализировать, как вещи смотрятся на нем или на ней.

Сельское хозяйство. Фермеры всегда ищут новые способы улучшить свои условия труда. Уход за их скотом и плантацией может отнимать много времени и не так уж прост. Сегодня все больше и больше из них используют ИИ и распознавание изображений для улучшения своей работы. Камеры внутри зданий позволяют следить за животными,

INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE "DIGITAL TECHNOLOGIES: PROBLEMS AND SOLUTIONS OF PRACTICAL IMPLEMENTATION IN THE SPHERES" APRIL 27-28, 2023

следить за тем, чтобы все было в порядке. Когда животные рожают своих детенышей, фермеры могут легко определить, есть ли у них трудности с родами, и могут быстро отреагировать и прийти на помощь животному[3] Заключение

Исходя из вышеперечисленных информаций, можно сделать вывод, что распознавание изображений считается актуальной частью искусственного интеллекта и на сегодняшний день облегчает жизнь пользователей. Но дело в том, в жизни каждого человека здоровье играет главную и важную роль, поэтому было бы актуально создавать проекты в направлении медицины или психологии. Быстрое развитие алгоритмов распознавания образов продолжает предлагать более интуитивно понятные решения реальных проблем. Сегодня система распознавания может превратиться в более гибкий процесс, который постоянно лежит в основе развития ИИ.

REFERENCES

1. Christopher M. Bishop Neural Networks for Pattern Recognition-C.5-

2. https://kili-technology.com/data-labeling/computer-vision/image-annotation/three-steps-to-train-image-recognition-efficiently

3. https://www.sentisight.ai/the-use-of-ai-image-recognition-in-medicine/#:~:text=The%20models%20can%20be%20trained,has%20been%20trained%20to %20identify

4. https://www.superannotate.com/blog/pattern-recognition-overview

5. https://medium.com/kwadigoai/deep-learning-for-image-recognition-1d612be00bbb

i Надоели баннеры? Вы всегда можете отключить рекламу.