Научная статья на тему 'АВТОМАТИЧЕСКАЯ ТРАНСКРИПЦИЯ МЕЛОДИКИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ МУЗЫКАЛЬНОЙ НОТАЦИИ НА ОСНОВЕ МОДЕЛИ ВОСПРИЯТИЯ ЧЕЛОВЕКОМ ВЫСОТЫ ЗВУКА'

АВТОМАТИЧЕСКАЯ ТРАНСКРИПЦИЯ МЕЛОДИКИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ МУЗЫКАЛЬНОЙ НОТАЦИИ НА ОСНОВЕ МОДЕЛИ ВОСПРИЯТИЯ ЧЕЛОВЕКОМ ВЫСОТЫ ЗВУКА Текст научной статьи по специальности «Математика»

CC BY
3
1
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
просодическая транскрипция / мелодика речи / частота основного тона речи / музыкальная нотация / особенности восприятия звука человеком / prosodic transcription / speech melody / frequency of the basic tone of speech / musical notation / features of human perception of sound

Аннотация научной статьи по математике, автор научной работы — Трифонов Иван Николаевич, Копылов Андрей Валериевич

В музыкальной практике существует задача представления речи в музыкальной нотации. В статье предложен алгоритм получения просодической транскрипции в музыкальной нотации. Предложенный нами алгоритм отличается от существующих тем, что в нём учитываются особенности восприятия звука человеком. Полученные результаты могут использоваться при написании музыки, для изучения взаимосвязи речи и музыки, а также для исследования речи.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

AUTOMATIC TRANSCRIPTION OF SPEECH MELODY USING MUSICAL NOTATION BASED ON HUMAN PITCH MODEL PERCEPTION

In musical practice, there is a task of presenting speech in musical notation. The article proposes an algorithm for obtaining prosodic transcription in musical notation. The algorithm proposed by us differs from the existing ones in that it takes into account the peculiarities of human perception of sound. The results obtained can be used when writing music, to study the relationship between speech and music, as well as for speech research.

Текст научной работы на тему «АВТОМАТИЧЕСКАЯ ТРАНСКРИПЦИЯ МЕЛОДИКИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ МУЗЫКАЛЬНОЙ НОТАЦИИ НА ОСНОВЕ МОДЕЛИ ВОСПРИЯТИЯ ЧЕЛОВЕКОМ ВЫСОТЫ ЗВУКА»

УДК 004.934.2

DOI: 10.24412/2071-6168-2023-11-267-268

АВТОМАТИЧЕСКАЯ ТРАНСКРИПЦИЯ МЕЛОДИКИ РЕЧИ С ИСПОЛЬЗОВАНИЕМ МУЗЫКАЛЬНОЙ НОТАЦИИ НА ОСНОВЕ МОДЕЛИ ВОСПРИЯТИЯ ЧЕЛОВЕКОМ ВЫСОТЫ ЗВУКА

И.Н. Трифонов, А.В. Копылов

В музыкальной практике существует задача представления речи в музыкальной нотации. В статье предложен алгоритм получения просодической транскрипции в музыкальной нотации. Предложенный нами алгоритм отличается от существующих тем, что в нём учитываются особенности восприятия звука человеком. Полученные результаты могут использоваться при написании музыки, для изучения взаимосвязи речи и музыки, а также для исследования речи.

Ключевые слова: просодическая транскрипция, мелодика речи, частота основного тона речи, музыкальная нотация, особенности восприятия звука человеком.

Введение. В системах автоматического анализа человеческой речи большое внимание уделяется невербальному содержанию, позволяющему судить об эмоциональном состоянии и индивидуальных особенностях говорящего. В то же время музыка является одним из направлений искусства, наиболее тонко и точно отражающего особенности эмоционального восприятия человеком окружающего мира от достаточно кратковременных и интенсивных эмоциональных процессов, таких как аффекты, до более длительных, таких как чувства и настроения. Проблема взаимосвязи речи и музыки вызывает интерес как с точки зрения психологии, лингвистики и анализа речи, так и с точки зрения сочинения и изучения музыки [1].

Речевой сигнал имеет ряд базисных характеристик, которые соответствуют свойствам музыкального звука — высота, сила и протяжённость. Это делает возможным запись речи в музыкальной нотации. Рассматривая возможность использования музыкальной системы в анализе речи, необходимо отметить, что стилизованное представление речи в музыкальной системе, называемое речитативом, известно давно. Речь в музыкальной нотации представляли как композиторы Бах, Бетховен, Яначек, Шёнберг, так и исследователи Джошуа Стил, Роман Якобсон и другие.

Таким образом, в музыкальной практике существует задача представления речи в музыкальной нотации. Она сводится к преобразованию исходного речевого сигнала в нотную запись. Такое преобразование может быть выполнено разными способами, как человеком на основе слухового анализа, так и с использованием автоматизированных технических средств. Отметим, что эту задачу можно рассматривать как частный случай просодической транскрипции. Для того, чтобы дать определение просодической транскрипции, рассмотрим понятие просодических характеристик.

Под просодическими характеристиками будем понимать особенности произношения, дополнительные по отношению к основной артикуляции звуков речи и не выделяющиеся при членении речи на фонемы. Совокупность соответствующих звуковых (фонетических) средств называют просодическими средствами языка. Элементарные (базисные) просодические средства языка соответствуют основным акустическим признакам звука: протяжённости, силе и высоте. Просодические средства языка образуют просодические системы, важнейшие из которых — слоговой тон, словесное ударение и фразовая интонация [2].

Важнейшим элементом просодии является система изменений относительной высоты тона речи, называемая речевой мелодией или мелодикой речи. Мелодика речи — один из основных фонетических параметров, образующих базу интонационных конструкций во всех языках мира [2]. В фонетическом отношении тон есть акустический коррелят физиологического действия — колебания голосовых связок, создающего эффект так называемого основного голосового тона [3].

Полезным инструментом изучения просодических характеристик, в том числе речевой мелодики, является просодическая транскрипция. Под транскрипцией будем понимать графическую фиксацию звуковых характеристик речи. Использование просодической транскрипции в различных исследованиях (например, [4]) и в образовании (например, [5]) подтверждает её необходимость.

Пит Мертенс (2004), в зависимости от подхода к интерпретации просодических характеристик, выделяет три основных типа просодической транскрипции:

1) Символьная транскрипция, в которой используется конечный набор дискретных символов. Эти символы выбираются для обозначения аспектов просодии, которые, как предполагается, имеют отношение к языковой коммуникации. Количество и характер символов зависят от модели, что приводит к транскрипции, специфичной для конкретной модели.

2) Транскрипция, основанная на акустических характеристиках речи, таких, например, как частота основного тона. В такой транскрипции кривую основного тона сопоставляют с последовательностью звуков речи.

3) Транскрипция, выполненная с помощью слухового анализа. Такая транскрипция отнимает много времени, для её осуществления необходима развитая способность отслеживать на слух изменения высоты звука, характерная для музыкантов. Однако именно такая транскрипция отражает особенности слухового восприятия человека [6].

Представление речи в музыкальной нотации можно рассматривать как частный случай просодической транскрипции. Музыкальная нотация позволяет записывать все характеристики звука, соответствующие базисным просодическим средствам языка, хотя и имеет специфику, соответствующую сложившейся музыкальной практике. Музыкальная нотация была выработана в течении многовековой истории музыки, и поэтому отражает особенности восприятия человека и является удобным способом фиксации характеристик звука. Запись мелодики речи в музыкальной нотации позволяет изучать взаимосвязь речи и музыки [7].

В данной статье рассматривается автоматическая транскрипция мелодики речи с использованием музыкальной нотации на основе модели восприятия человеком высоты звука.

Анализ существующих решений транскрипции мелодики речи с использованием музыкальной но-

267

тации. Методика осуществления просодической транскрипции в музыкальной нотации с использованием современных технологий представлена в [8] (2017) (предыдущая версия работы этих авторов представлена в [9] (2016)). В работе [8] музыкальная система расширена до четвертитоновой, то есть октава делится на 24 равных четвертитона, в отличие от традиционной музыкальной системы, где октава делиться на 12 полутонов. Чтобы разделить шкалу на 24 тона, используется формула / = /0 • где f — вычисляемая частота, /0 — первая нота шкалы, а ( — одна из нот шкалы. Аудиозапись речи разделяется на гласные единицы, для чего используется плагин BeatExtractor пакета Ргаа! Для каждой гласной единицы с помощью скрипта ГО.praat вычисляется среднее значение частоты. Сравнивая эту частоту с дискретными значениями частот в четвертитоновой системе, получают запись мелодики речи в музыкальной нотации. Также учитывается длительность и интенсивность звука.

Отметим, что использование деления октавы на 24 части вместо 12 не изменяет принципиально алгоритма просодической транскрипции. Меняется лишь набор значений частот, которыми аппроксимируются исходные значения частоты основного тона.

Для анализа работы данного алгоритма была записана короткая фраза: «Стали дни короче». Полученная транскрипция в музыкальной нотации представлена на рис. 1. Нами использовано деление октавы на 12 частей, так как это не является принципиальным с точки зрения нашей работы.

Ста - ли дни ко - ро - че.

Рис. 1. Транскрипция в музыкальной нотации, выполненная с использованием алгоритма, предложенного в [8]

Заметим, что эта транскрипция визуально воспринимается легко, и любой музыкант без труда сможет сыграть это на том или ином музыкальном инструменте.

Согласно приведённой нами ранее классификации, такая просодическая транскрипция является транскрипцией, основанной на акустических характеристиках речи, так как основана на значениях частоты основного тона. Но эта транскрипция отчасти учитывает и особенности восприятия человеком звука, так как учитывает перцептивное разделение на слоги, происходящее при восприятии человеком звучащей речи. Эти особенности учитываются не в полной мере, поэтому нами был разработан алгоритм транскрипции мелодики речи с использованием музыкальной нотации, основанный на модели восприятия высоты звука человеком. Этот алгоритм будет описан ниже, после обзора особенностей восприятия звука человеком.

Особенности восприятия звука человеком. Существует несколько особенностей восприятия человеком звука, из-за которых контур частоты основного тона (ЧОТ) речи, хотя и является точным физическим описанием речевого сигнала, не является наиболее точным представлением мелодики речи в том виде, в каком она воспринимается человеком.

Обработка слуховой системой отличается от спектрального анализа или определения высоты тона, используемых при цифровой обработке сигналов. В ходе эмпирических исследований установлено, что восприятие высоты тона в речи подвержено нескольким перцептивным преобразованиям (преобразованиям восприятия). Одним из них является перцептивное разделение контура ЧОТ на единицы размером со слог из-за быстрых спектральных и амплитудных колебаний речевого сигнала. Второе —временная интеграция ЧОТ внутри слога, которая состоит в том, что, если контур ЧОТ внутри слога короткий и имеет относительно небольшие изменения, слушатели воспринимают одну высоту тона, представляющую собой средневзвешенное по времени значение ЧОТ внутри слога. Если величина изменения ЧОТ внутри слога превышает некоторый «порог глиссандо», то воспринимается скольжение (или несколько скольжений) [6, 10].

В [6] (2004) описывается система транскрипции просодии, основанная на моделировании восприятия человеком высоты звука, в качестве базовой единицы используется слоговое ядро. Предлагается называть такую транскрипцию «просограммой» по аналогии с осциллограммой и спектрограммой. Просограмма состоит из двух частей: (1) контура воспринимаемой высоты тона и (2) одной или нескольких аннотаций, выровненных по времени (фонетическая транскрипция, текст и др.).

Связь между свойствами акустических стимулов и их влиянием на слуховое восприятие изучает психоакустика. Было замечено несколько явлений, связанных с восприятием высоты тона в речи [6, 11]:

1. Чтобы изменение частоты основного тона было слышно, оно должно превышать некоторое минимальное значение, которое было названо «порогом глиссандо». Порог глиссандо зависит от начальной частоты и продолжительности стимула — он меньше для более длительных стимулов. Пауза после стимула также снижает порог глиссандо. Для линейных изменений частоты (график — прямая) в результате психоакустических экспериментов было получено значение порога глиссандо в = 0,16/Т2 пт/с, где Т — время изменения, а в измеряется в полутонах в секунду (полутон — соотношение частот 1/г\[2 ). В [6] принято значение Об = 0,32/Т2 пт/с.

2. Изменения частоты основного тона в естественной речи редко бывают линейными, поэтому был введён «дифференциальный порог изменения высоты тона». Дифференциальный порог изменения высоты тона — это минимальная разница в наклоне, необходимая для различения двух последовательных линейных отрезков изменения частоты основного тона. Дифференциальный порог изменения высоты тона предлагается определить как Об = 1^2 —51.1, где д1 и д2 указывают наклон линейных отрезков (в пт/с) по обе стороны от точки сопряжения отрезков. Было установлено, что дифференциальный порог изменения высоты тона составляет примерно от 12 до 40. В [6] принято значение Об = 20 пт/с.

3. Контур частоты основного тона следует интерпретировать не изолированно, а в сочетании с другими фонетическими и просодическими характеристиками речевого сигнала. Одно и то же движение ЧОТ будет восприниматься либо как скольжение высоты тона, либо как два уровня тона в зависимости от его расположения относительно границ слога. Таким образом, уже на ранней стадии восприятия речи происходит перцептивная сегментация сигнала на слоговые фрагменты, обусловленная изменениями амплитуды и спектра при переходе от одного звука речи к другому. Гласные звуки характеризуются относительной спектральной стабильностью, поэтому гласный звук образует слоговое ядро.

В алгоритме автоматической стилизации контура ЧОТ [11] названные выше особенности учтены в обратном порядке. Во-первых, производится сегментация звукового потока на слоги. Затем контур ЧОТ разделяется на последовательность тональных сегментов. Под тональным сегментом понимается участок изменения ЧОТ, для которого воспринимаемая высота тона имеет равномерный наклон (сохранение одного уровня, или равномерное повышение, или равномерное понижение). Наконец, изменения ЧОТ каждого тонального сегмента сравниваются с порогом глиссандо, и, если изменения слышны, сегменту присваиваются два целевых значения ЧОТ (динамический сегмент), если не слышны — одно (статический сегмент). Для статических тональных сегментов целевые значения устанавливаются равными ЧОТ в конце сегмента. Для восходящего и нисходящего сегментов двумя целевыми значениями являются значения ЧОТ в начале и конце тонального сегмента.

Для разделения контура ЧОТ на последовательность тональных сегментов производится следующая процедура. Между значениями ЧОТ в начале и конце временного окна проводится прямая линия. Точка, наиболее удалённая от этой линии, является потенциальной границей тонального сегмента. Если разница в наклоне между двумя отрезками — от начала временного окна до точки потенциальной границы и от этой точки до конца окна — превышает дифференциальный порог изменения высоты тона, то окно разделяется на два потенциальных тональных сегмента. Эта процедура выполняется рекурсивно для каждого потенциального тонального сегмента до тех пор, пока изменения наклона не перестанет превышать дифференциальный порог.

Транскрипция мелодики речи с использованием музыкальной нотации на основе модели восприятия высоты звука человеком. Отметим, что в приведённом выше алгоритме [8] получения транскрипции в музыкальной нотации учтена только первая из названных в предыдущем разделе особенностей, в связи с чем нами предложен алгоритм транскрипции мелодики речи с использованием музыкальной нотации на основе модели восприятия человеком высоты звука. Он основан на приведённом выше алгоритме стилизации контура ЧОТ, при этом статические сегменты будут представлены в транскрипции одной нотой, а динамические — последовательностью нот.

Предложенный алгоритм транскрипции мелодики речи с использованием музыкальной нотации на основе модели восприятия высоты звука человеком состоит из следующих шагов:

1. Определить частоту основного тона для исходного аудиосигнала. Контур частоты основного тона обозначим как /0(t), t = t0,...,tn_i, где t; — значение времени в точке отсчёта, i = 0,..,п — 1, а п — число отсчётов сигнала.

2. Определить границы слогов в исходном аудиосигнале. В результате выполнения этого шага получаем множество: {[т0,т1], [т2,т3],..., [t2n-2,t2n-i]}, где Т — время начала или конца слога, i= 0, ...,2N — 1, а N — число слогов.

3. Каждый слог разбить на тональные сегменты. Для этого сначала рассматриваем временное окно, соответствующее слогу.

Временное окно определяется начальным и конечным значениями времени где к и I — номера от-

счётов, соответствующих границам временного окна. Далее выполняется поиск потенциальной границы тонального сегмента, которая находиться в точке tj , где:

lf0itl)~f0itk)-(tj-tk)+f0(tk)-f0(ti)

JmaX= argmax j \

Если

tl tk где j = k,k + 1,

,1.

logi:

'Ml

vn /o(tfc)

logi:

/o(tj)

x-tk

tl-tj,

>DG,

где Об — дифференциальный порог изменения высоты тона, то окно разделяется на два потенциальных тональных сегмента. Далее каждый тональный сегмент рассматривается как временное окно, и эта процедура выполняется рекурсивно до тех пор, пока изменения наклона не перестанет превышать дифференциальный порог.

В результате этого шага для каждого слога получаем множество: А^о^], [52,53],..., [52т-2,52т-1]}, где — время начала или конца тонального сегмента, £ = 0,..., 2т — 1, а т — число тональных сегментов в слоге.

4. Определить, какие сегменты являются статическими, какие — динамическими. Сегмент являет-

ся динамическим при условии:

iogi2

sl-sk

D

где й — порог глиссандо.

5. Статическим тональным сегментам поставить в соответствие одну, динамическим — несколько нот. Транскрипция, полученная с использованием нашего алгоритма, представлена на рисунке 2.

Рис. 2. Транскрипция, полученная с использованием алгоритма транскрипции мелодики речи с использованием музыкальной нотации на основе модели восприятия человеком высоты звука

Легко заметить, что полученная нотная запись отражает существенно больше нюансов изменения частоты основного тона исходного аудио. Но оценить соответствие восприятию человека сложнее, чем соответствие акустическим характеристикам исходного сигнала.

Результаты экспериментов. Для сравнения транскрипций, выполненных с использованием алгоритма, предложенного в [8], и транскрипций, выполненных с использованием предложенного нами алгоритма, нами был использован метод безэталонной экспертной оценки. Экспертам предлагалось прослушать исходное аудио с записью человеческой речи и два варианта транскрипции. В качестве исходных аудиозаписей было использовано 20 фрагментов из четырёх аудиокниг, находящихся в свободном доступе на сайте https://bibe.ru/. Две из них озвучены мужчинами, две — женщинами. Оценку производили четверо экспертов, двое из которых имеют музыкальное образование (музыканты), а двое — не имеют (не музыканты). Результаты экспериментов представлены в таблица. Буквой «а» обозначена транскрипция, полученная с помощью алгоритма, описанного в [8], буквой «б» — с помощью алгоритма, предложенного нами. В таблице указывается транскрипция, выбранная экспертом как лучше передающая мелодику речи (контур ЧОТ) голоса.

Результаты ^ экспериментов

номер эксперимента 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

эксперты не муз. 1 б б б а а б б б б а а а б а б а а б а а

2 б а а а а б б б а а б б б б б а б б б б

муз. 3 а б а а б б а б а а б б б б а б б б б а

4 а б а а а б б б б б б б а б б б б б а б

Анализ результатов экспериментов показывает, что транскрипция, полученная с помощью алгоритма, предложенного нами, лучше передаёт мелодику речи (контур ЧОТ) в 61,25% случаев. Причём, по оценке не музыкантов, в 57,5%, а по оценке музыкантов — в 65%.

Таким образом, полученные в ходе экспериментов транскрипции мелодики речи с использованием музыкальной нотации на основе модели восприятия человеком высоты звука по результатам безэталонной экспертной оценки показали лучшее соответствие полученной нотной записи восприятию человека.

Хотя эта транскрипция лучше соответствует восприятию звука человеком, визуально она читается с трудом. Музыкальный ритм здесь получен прямым переводом фактической длительности слогов в музыкальную запись с заданным темпом и размером, поэтому визуальное чтение такого ритма вызывает существенные трудности. В дальнейшем запись ритма тоже должна быть выполнена с учётом особенностей восприятия человеком ритма.

Заключение. Предложенная нами транскрипция основана на акустических характеристиках речи, но учитывает особенности восприятия человеком высоты звука. Алгоритм, позволяющий также учитывать и особенности восприятия человеком ритма, является предметом дальнейшей разработки и исследования.

Полученные результаты могут использоваться композиторами для анализа мелодики речи при написании мелодии к тексту или речитатива, а также исследователями для изучения взаимосвязи речи и музыки. Предложенный алгоритм просодической транскрипции может использоваться и для исследования речи. Использование музыкальной нотации даёт компактной описание характеристик речи, что может дать эффективную реализацию алгоритмов анализа эмоционального состояния или идентификации диктора, а также синтеза речи.

Работа выполнена при финансовой поддержке Министерства науки и высшего образования РФ в рамках государственного задания FEWG-2021-0012.

Список литературы

1. Музыка и речь [Электронный ресурс] URL: https://nsportal.ru/user/1106064/page/muzyka-i-rech (дата обращения: 05.12.2023).

2. Большая российская энциклопедия [Электронный ресурс] URL: https://bigenc.ru (дата обращения: 23.03.2023).

3. Лингвистический энциклопедический словарь / Науч.-ред. совет изд-ва «Сов. энцикл.», Ин-т языкознания АН СССР]; Гл. ред. В. Н. Ярцева. М.: Сов. энцикл., 1990. 682 с.

4. Петрова Н.Э. Современные принципы описания интонационной системы (на материале русского и английского языков) // Балтийский гуманитарный журнал. 2019. Т. 8. № 3(28) С. 331-335.

5. Русская интонация: учебное пособие по фонетике для иностранных студентов и стажёров филологических специальностей / Авт.-сост. И. А. Садыкова. Изд-во Казан. ун-та, 2015. 64 с.

6. Piet Mertens. The Prosogram: Semi-Automatic Transcription of Prosody Based on a Tonal Perception Model // Speech Prosody, 2004 Nara, Japan, March 23-26, 2004.

7. Трифонов И.Н. Просодическая транскрипция как инструмент анализа речи / И. Н. Трифонов, А. В. Копылов // XVII Региональная магистерская научная конференция (25 - 29 апреля 2022 года): сб. докладов. В 2 ч. Ч. I / под научной редакцией канд. техн. наук, доц. О.А. Ткач. Тула: Изд-во ТулГУ, 2021. 273 с.

8. Alexsandro R. Meireles, Antônio R. M. Simöes, Antonio Celso Ribeiro, Beatriz Raposo de Medeiros (2017) Musical Speech: a New Methodology for Transcribing Speech Prosody // INTERSPEECH 2017. С. 334-338.

9. A. Simöes and A. R. Meireles. "Speech Prosody in Musical Notation: Spanish, Portuguese and English," in Proceedings of the 8th International Conference on Speech Prosody, Boston, USA, 2016.

10. Aniruddh D. Patel An Empirical Method for Comparing Pitch Patterns in Spoken and Musical Melodies: A Comment on J.G.S. Pearl's "Eavesdropping with a Master: Leos Janáchek and the Music of Speech" // Empirical Musicology Review Vol. 1, No. 3, 2006. С. 166-169.

11. d'Alessandro C., Mertens, P. Automatic pitch contour stylization using a model of tonal perception. Computer Speech and Language, 1995. 9(3). P. 257-288.

Трифонов Иван Николаевич, магистрант, [email protected], Россия, Тула, Тульский государственный университет,

Копылов Андрей Валериевич, канд. техн. наук, доцент, [email protected], Россия, Тула, Тульский государственный университет

AUTOMATIC TRANSCRIPTION OF SPEECH MELODY USING MUSICAL NOTATION BASED ON HUMAN PITCH

MODEL PERCEPTION

I.N. Trifonov, A.V. Kopylov

In musical practice, there is a task of presenting speech in musical notation. The article proposes an algorithm for obtaining prosodic transcription in musical notation. The algorithm proposed by us differs from the existing ones in that it takes into account the peculiarities of human perception of sound. The results obtained can be used when writing music, to study the relationship between speech and music, as well as for speech research.

Key words: prosodic transcription, speech melody, frequency of the basic tone of speech, musical notation, features of human perception of sound.

Trifonov Ivan Nikolaevich, master's, [email protected], Russia, Tula, Tula State University,

Kopylov Andrey Valerievich, candidate of technical sciences, docent, [email protected], Russia, Tula, Tula State University

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

УДК 62.519

DOI: 10.24412/2071-6168-2023-11-271-272

СИНХРОНИЗАЦИЯ ДВИЖЕНИЯ АГЕНТОВ ДЛЯ ФОРМИРОВАНИЯ ГЕОМЕТРИЧЕСКИХ СТРУКТУР В СЛУЧАЕ КВАЗИТЕПЛОВОГО ДВИЖЕНИЯ*

Э.А Гейс, О.О. Морозов, А.В. Козырь

В работе предложено решение задачи формирования геометрических структур (задачи формации) для роя, функционирующего по методу квазитеплового движения агентов. Задача решена путем внедрения в систему управления каждым агентом (квадрокоптером) компоненты синхронизации их движений. Решение учитывает требования данного метода к параметрам движения агентов до, во время и после образования формации. Приведены результаты численного моделирования с использованием линейной модели агента-квадрокоптера, показывающие работоспособность предложенной системы синхронизации движения сопряженных агентов.

Ключевые слова: групповое управление, формация, квазитепловое движение, синхронизация движения.

Роевая робототехника благодаря свойствам децентрализованности, масштабируемости и надежности имеет широкие перспективы применения в различных областях. Известны применения группы беспилотных летательных аппаратов в задачах экологического мониторинга [1,2], в том числе исследования в районе добычи полезных ископаемых [3]; предупреждение пожаров [4]; поисково-спасательных операциях [5,6]. В сельском хозяйстве роевые роботы могут использоваться для автоматизации процессов посева, ухода за растениями и сбора урожая.

Одной из важных задач, возникающей при управлении группой беспилотных летательных аппаратов (БПЛА) является организация устойчивых формаций агентов системы. Известны различные подходы для управления роевой системой. Распространенным методом управления формированием является подход с лидером [7,8]. В этом случае члены группы следуют за БПЛА-лидером. При повреждении лидера может пострадать вся геометрическая структура (потеря устойчивости роевой формации). Поэтому в работе [9] был предложен метод виртуального лидера, однако такой подход требует больших вычислительных ресурсов. Подход, при котором создается искусственное потенциальное поле, решает проблемы предотвращения столкновений. Управляющие воздействия основаны на притягивающих и отталкивающих силах. Существует множество подходов, основанных на этом методе [11,12].

Общая проблема использования метода потенциального поля в реальных приложениях, обусловлено тем, что необходимо иметь полную информацию о пространстве, в котором функционирует рой.

Стратегия, основанная на консенсусе [13], не в полной мере учитывает динамику агентов. Целью консенсуса является приведение состояний всех членов группы к одному и тому же постоянному значению. В работах [13,14] продемонстрирована возможность управления формированием в условиях изменяющейся топологии связи.

Интеллектуальное управление обладает способностью к адаптации и обучению. Существуют методы, основанные на нечеткой логике [15] и нейронной сети [16].

Постановка задачи. Большинство методов группового управления, так или иначе, реализуют решение задачи формирования геометрических структур (формаций). Она сводится к поддержанию заранее заданного расстояния и направления до соседнего агента. Два агента, чье управление направлено на поддержание заданного расстояния между ними, будем называть сопряженными. В предыдущих работах [17-19] был предложен метод квазитеплового движения, текущая реализация которого в полной мере задачу формации не решает.

Особенностью сопряжения агентов, функционирующих по методу квазитеплового движения, является необходимость корректного перераспределения величин-эквивалентов кинетической и потенциальной энергии агента, принципиально важных для функционирования метода. Неправильное перераспределение этих величин приводит к наличию колебаний траектории движения агентов вокруг желаемого их относительного положения в формации. Наличие этих колебаний в данном случае, приводит к неэффективному расходованию энергии бортового источника питания агента.

i Надоели баннеры? Вы всегда можете отключить рекламу.