АНТРОПОЛОГИЧЕСКИЙ ФОРУМ, 2 0 24, № 60
ФОРУМ: ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ В СОЦИАЛЬНЫХ И ГУМАНИТАРНЫХ НАУКАХ Альберт Кашфуллович Байбурин
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия Европейский университет в Санкт-Петербурге 6/1А Гагаринская ул., Санкт-Петербург, Россия [email protected]
Юрий Евгеньевич Березкин
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия Европейский университет в Санкт-Петербурге 6/1А Гагаринская ул., Санкт-Петербург, Россия [email protected]
Ольга Юрьевна Бойцова
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия [email protected]
Андрей Викторович Громов
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия [email protected]
Наталья Ковалева
Университет Северного Техаса 7400 Юниверсити Хиллс Бульвар, Даллас, США
Кира Иосифовна Коваленко
Европейский университет в Санкт-Петербурге 6/1А Гагаринская ул., Санкт-Петербург, Россия Институт лингвистических исследований РАН 9 Тучков пер., Санкт-Петербург, Россия [email protected]
Анна Юрьевна Москвитина (Сиим)
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия [email protected]
Евгений Геннадьевич Соколов
Европейский университет в Санкт-Петербурге 6/1А Гагаринская ул., Санкт-Петербург, Россия Институт лингвистических исследований РАН 9 Тучков пер., Санкт-Петербург, Россия [email protected]
Надежда Алексеевна Станулевич
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия [email protected]
Илья Владимирович Утехин
Европейский университет в Санкт-Петербурге 6/1А Гагаринская ул., Санкт-Петербург, Россия Университет Индианы 355 N Иглсон Авеню, Блумингтон, США [email protected]
Иван Григорьевич Широбоков
Музей антропологии и этнографии (Кунсткамера) РАН 3 Университетская наб., Санкт-Петербург, Россия
Аннотация: Искусственный интеллект (ИИ) позволяет, работая с данными, выходить за рамки простого поиска по ключевым словам или вычислений по формулам. В социальных и гуманитарных науках он применяется для анализа больших массивов данных и построения моделей специалистами по истории искусства и анализу дискурса, лингвистами и физическими антропологами. Участники «Форума», представители социальных и гуманитарных наук, описывают свое знакомство с нейросетями в профессиональной жизни (в науке и образовании, для теоретических и практических целей), а также обсуждают плюсы и минусы ИИ в академической работе и обучении. Они затрагивают случаи, когда знали или подозревали, что студент сдал работу, сгенерированную с помощью СЬ^бРТ. Кроме того, в ответах на вопросы «Форума» рассматриваются этические проблемы, возникающие в связи с использованием нейросетей в науке и образовании.
Ключевые слова: социальные науки, гуманитарные науки, искусственный интеллект, ИИ, нейросеть. Для ссылок: Форум: Искусственный интеллект в социальных и гуманитарных науках // Антропологический форум. 2024. № 60. С. 11-68. с! оп: 10.31250/1815-8870-2024-20-60-11-68
http://anthropologie.kunstkamera.ru/files/pdf/060/forum.pdf
ANTROPOLOGICH ESKIJ FORUM, 2 0 24, NO. 60
FORUM 60: AI IN THE SOCIAL SCIENCES AND HUMANITIES
Albert Baiburin
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia European University at St Petersburg 6/1A Gagarinskaya Str., St Petersburg, Russia [email protected]
Yuri Berezkin
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia European University at St Petersburg 6/1A Gagarinskaya Str., St Petersburg, Russia [email protected]
Olga Boitsova
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia [email protected]
Andrey Gromov
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia [email protected]
Kira Kovalenko
European University at St Petersburg 6/1A Gagarinskaya Str., St Petersburg, Russia Institute for Linguistic Studies, Russian Academy of Sciences 9 Tuchkov Lane, St Petersburg, Russia [email protected]
Natalia Kovalyova
The University of North Texas 7400 University Hills Blvd, Dallas, TX, USA [email protected]
Anna Moskvitina (Siim)
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia [email protected]
Ivan Shirobokov
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia [email protected]
Evgenii Sokolov
European University at St Petersburg 6/1A Gagarinskaya Str., St Petersburg, Russia Institute for Linguistic Studies, Russian Academy of Sciences 9 Tuchkov Lane, St Petersburg, Russia [email protected]
Nadezhda Stanulevich
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera),
Russian Academy of Sciences 3 Universitetskaya Emb., St Petersburg, Russia [email protected]
Ilya Utekhin
European University at St Petersburg 6/1A Gagarinskaya Str., St Petersburg, Russia Indiana University Bloomington 355 N Eagleson Ave., Bloomington, IN, USA [email protected]
Abstract: AI allows work with data to extend well beyond simple keyword searches or formulaic calculations. It is applied to help specialists in the history of art and in discourse analysis as well as in linguistics and physical anthropology who analyse big corpora and construct models. Participants in the "Forum", a written round table, are representatives of the social sciences and humanities. They describe their contact with such applications in their professional life (whether as a field of study or to practical ends), and discuss what the pluses and minuses of AI in the world of academic work and education are. They also touch upon cases where they knew, or suspected, that a student had submitted work that was actually written by a resource such as ChatGPT. Finally, ethical problems arising in connection with AI are considered. Keywords: social sciences, humanities, artificial intelligence, AI, neural network.
To cite: 'Forum 60: Iskusstvennyy intellekt v sotsialnykh i gumanitarnykh naukakh' [Forum 60: AI in the Social Sciences and Humanities], Antropologicheskijforum, 2024, no. 60, pp. 11-68. d oi: 10.31250/1815-8870-2024-20-60-11-68
URL: http://anthropologie.kunstkamera.ru/files/pdf/060/forum.pdf
В форуме «Искусственный интеллект в социальных и гуманитарных науках» приняли участие:
Альберт Кашфуллович Байбурин (Музей антропологии и этнографии (Кунсткамера) РАН / Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия) Юрий Евгеньевич Березкин (Музей антропологии и этнографии
(Кунсткамера) РАН / Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия) Ольга Юрьевна Бойцова (Музей антропологии и этнографии (Кунстамера) РАН,
Санкт-Петербург, Россия) Андрей Викторович Громов (Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия)
Наталья Ковалева (Natalia Kovalyova) (Университет Северного Техаса, Даллас, США)
Кира Иосифовна Коваленко (Европейский университет в Санкт-Петербурге /
Институт лингвистических исследований РАН, Санкт-Петербург, Россия) Анна Юрьевна Москвитина (Сиим) (Музей антропологии и этнографии
(Кунстамера) РАН, Санкт-Петербург, Россия) Евгений Геннадьевич Соколов (Европейский университет в Санкт-Петербурге /
Институт лингвистических исследований РАН, Санкт-Петербург, Россия) Надежда Алексеевна Станулевич (Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия)
Илья Владимирович Утехин (Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия / Университет Индианы в Блумингтоне, Блумингтон, США) Иван Григорьевич Широбоков (Музей антропологии и этнографии
(Кунстамера) РАН, Санкт-Петербург, Россия) ChatGPT 3.5
Искусственный интеллект в социальных и гуманитарных науках
Искусственный интеллект (ИИ) позволяет, работая с данными, выходить за рамки простого поиска по ключевым словам или вычислений по формулам. В социальных и гуманитарных науках он применяется для анализа больших массивов данных и построения моделей специалистами по истории искусства и анализу дискурса, лингвистами и физическими антропологами. Участники «Форума», представители социальных и гуманитарных наук, описывают свое знакомство с нейросетями в профессиональной жизни (в науке и образовании, для теоретических и практических целей), а также обсуждают плюсы и минусы ИИ в академической работе и обучении. Они затрагивают случаи, когда знали или подозревали, что студент сдал работу, сгенерированную с помощью СЬ^бРТ. Кроме того, в ответах на вопросы «Форума» рассматриваются этические проблемы, возникающие в связи с использованием нейросетей в науке и образовании.
Ключевые слова: социальные науки, гуманитарные науки, искусственный интеллект, ИИ, нейросеть.
ВОПРОСЫ РЕДКОЛЛЕГИИ
Искусственный интеллект (ИИ) и нейросети входят в нашу жизнь . Мы используем их как покупатели, как клиенты и просто для развлечения: мы вызываем врача на дом, поговорив по телефону с роботом, авторизуемся через распознавание лица, на сайте «Госуслуги» общаемся с ботом в чате, а потом просим Google перевести для нас страницу с другого языка
Нейросети везде, в том числе в таких сферах, где их использование нежелательно или неоправданно. Если в творческих областях ИИ стремительно захватывает позиции и вызывает скандалы и забастовки, то в социальных и гуманитарных науках пока не слышно о большом резонансе применения искусственного интеллекта. Однако этот инструмент оценили исследователи, которые работают с большими корпусами текстов или изображений, например литературоведы, искусствоведы и специалисты по дискурс-анализу ИИ позволяет при работе с данными выйти за пределы простого поиска или подсчета по формулам . Авторы главы о социальных и гуманитарных науках в книге «Размышления об ИИ для человечества» перечисляют некоторые возможности ИИ: качественно-количественные (quali-quantitative) исследования, моделирование истории, поиск повторений в произведениях искусства [Gefen, Saint-Raymond, Venturini 2021].
1
2
3
4
В этом «Форуме» мы решили обсудить использование нейро-сетей в социальных и гуманитарных дисциплинах. Мы предложили участникам «Форума» ответить на следующие вопросы:
О каких вариантах использования нейросетей в профессиональной научной работе вам приходилось слышать или читать? Если вам самим доводилось взаимодействовать с нейросетями тем или иным образом — обучать их, пользоваться ими, то как именно? Как вы думаете, где в науке нейросети станут использоваться в ближайшем будущем?
Может ли ИИ оказаться полезным при проведении научного исследования и приходилось ли вам его использовать? Прибегали ли вы к помощи ИИ для составления библиографии? Как может отразиться на научной работе использование таких нейросетей, как ChatGPT, которые «предсказывают» нечто правдоподобное и не имеют ограничений, связанных со знанием о существовании фактов?
Каковы, по вашему мнению, плюсы и минусы использования искусственного интеллекта в образовании? Были ли у вас реальные случаи или подозрения, что студент сдал работу, сгенерированную нейросетью? Есть ли способы это опознать и как справиться с этим новым вызовом в преподавании не в каждом отдельном случае, а в целом?
Что вы думаете об этической стороне использования ИИ в научной работе и в преподавании? Создает ли обращение к нейросети дополнительные проблемы с авторством1 и кому, по вашему мнению, принадлежат права на результат работы нейросети? Должны ли быть введены ограничения на использование ИИ и если да, то какие?
Библиография
Gefen A., Saint-Raymond L., Venturini T. AI for Digital Humanities and Computational Social Sciences // Braunschweig B. , Ghallab M. (eds. ). Reflections on Artificial Intelligence for Humanity. Cham: Springer, 2021. Р. 191-202. (Lecture Notes in Computer Science. Vol. 12600). doi: 10.1007/978-3-030-69128-8_12 .
1 Антропологам уже пришлось столкнуться с проблемой авторства (и переосмыслить его) при использовании данных, полученных «в поле», в связи с изменением отношений в паре «исследователь — информант».
АЛЬБЕРТ БАйБУРИН
Альберт Кашфуллович Байбурин
Музей антропологии и этнографии (Кунсткамера) РАН / Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия [email protected]
Мой опыт использования ИИ совсем небольшой, но меня интересует не столько сам ИИ, сколько та ситуация, которую можно наблюдать в связи с его «нашествием». Общая картина происходящего видится примерно такой. Я, как и некоторые мои коллеги, привык относиться к разным системам ИИ прежде всего как к инструментам, позволяющим с их помощью решать в основном практические задачи — собрать материал, необходимый для выявления разного рода сюжетов, составить библиографию по той или иной теме, провести предварительный анализ текста и т. п . Такого рода запросы постоянно растут и становятся вполне привычными Между тем место ИИ в нашей жизни постоянно увеличивается Он не просто проникает всюду, но и вызывает существенные изменения. Нельзя не заметить, что сфера человеческого общения все больше перемещается в соцсети, где возникают новые виды сообществ . Значительная часть учебного процесса проходит в интернете или с его использованием. Меняется повседневность, которую уже трудно представить без различных проявлений ИИ Меняется и язык повседневного общения, словарь которого постоянно пополняется терминами из области ИИ . Антрополог не может не замечать этих изменений, но пока они не всегда учитываются в наших исследованиях. Мы пользуемся сетями как источниками нужных нам
сведений, но еще не очень интересуемся их влиянием на характер этих сведений, да и шире — на культурные стратегии и практики.
В то же время специалистами в области ИИ ведется упорная работа, направленная на то, чтобы искусственное приобрело естественный характер . Происходит так называемая антропо-морфизация ИИ, растет степень кажущейся близости к человеческому (довольно любопытный процесс). Эта антропо-морфизация проявляется, конечно, не только в робототехнике и других областях ИИ, но и, например, в нашем языке описания различных систем ИИ, к которым мы стали относиться почти как к своего рода партнерам или даже собеседникам В результате можно, наверное, сказать, что если ИИ долгое время считался технологическим проектом, то сейчас он становится в какой-то мере и социальным. Неслучайно некоторые философы и социологи обсуждают появление так называемой новой или искусственной социальности, которая возникает в социальных взаимодействиях при участии (как правило, в качестве посредников) различных «представителей» ИИ — чат-ботов, поисковых алгоритмов, голосовых помощников и т. д. 1 Во что в конечном счете выльется взаимодействие людей и ИИ, предсказать, наверное, невозможно Наряду с очевидной пользой новых технических средств и прочими положительными моментами, можно, как мне кажется, прогнозировать существенные осложнения, которые будут касаться дальнейшего изменения отношений между людьми и способствовать разобщению (во всяком случае на уровне непосредственных взаимодействий)
Особый вопрос — применение ИИ в сфере образования . Известные мне положительные эффекты применения ИИ в учебном процессе касаются использования различного рода вспомогательных инструментов, таких как подготовка презентаций, создание нужных текстов или изображений, занятия онлайн и т . п. Я не представляю себе возможности полной замены преподавателя ИИ-аналогом хотя бы потому, что человеческие отношения между студентами и преподавателями невозможно заменить никакими аналогами . Мне кажется, здесь могут быть введены ограничения на использование ИИ, но они не должны отменять его применения для отдельных учебных курсов и в технических целях.
Что касается возможных этических проблем, связанных с авторством текста, созданного с участием нейросети, то в этой ситуации, с моей точки зрения, каких-то «разночтений» быть
1 См., например: [Резаев, Трегубова 2021: 293-296].
не должно — автором является тот, кому принадлежит идея исследования, кто сформулировал задание для нейросети и обработал полученный материал . Разумеется, автор должен указать нейросеть, привлекавшуюся для работы над своим текстом.
Студенческая работа, сгенерированная нейросетью, представляется мне неким подобием авторского текста, если речь идет о простом копировании полученного материала (тем более если студент не сослался на его источник). В таком случае можно, наверное, сказать, что изменились лишь форма и характер заимствования по сравнению с традиционным плагиатом. Мне такие работы пока не попадались Вместе с тем следует учитывать, что для получения качественного текста студенту нужно серьезно поработать с нейросетью . Я имею в виду прежде всего необходимость продумать и четко сформулировать задание (и может быть, не одно), поскольку от этого будет зависеть характер и полнота ответа . Такое «сотрудничество» может быть усилено в том случае, если студент не просто скопировал сгенерированный нейросетью текст, но и доработал его до приемлемого (с его точки зрения) уровня . Не считаю, что в таких случаях можно говорить о заимствовании . Другое дело, что нам нужно подумать об изменении способов проверки знаний и не сводить их только к письменным текстам В любом случае запрещать использование инструментов ИИ в учебном процессе было бы странно Скорее наоборот, поскольку обращение к ИИ позволяет более рационально (с меньшими затратами времени и сил) организовать работу и получить нужные результаты .
Библиография
Резаев А., Трегубова Н. От социологии к новой социальной аналитике: кризис социологии и проблема искусственного интеллекта // Социологическое обозрение. 2021. Т. 20. № 3. С. 280-301. ао1: 10.17323/1728-192Х-2021-3-280-301.
ЮРИИ БЕРЕЗКИН
2
Юрий Евгеньевич Березкин
Музей антропологии и этнографии (Кунсткамера) РАН / Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия [email protected]
Понимая, что отвечаю не совсем по теме опроса, все же выскажу свое мнение . Любую программу, созданную для обработки больших данных, можно только приветствовать . Проблема не в ее полезности, а в том, как ее приспособить для конкретного исследования Наша база данных фольклора и мифологии на конец 2023 г состояла из 1019 строк (традиций) и 3167 столбцов (мотивов). Любой человек, которого этому научили,
способен обработать ее разными способами. Я посылал нашу корреляционную таблицу каждому, кто хотел бы ею заняться. Среди них были люди из США, Франции, Южной Кореи, а также российские «айтишники» . Думаю, что некоторые применяли именно ИИ, поскольку появлявшиеся в итоге схемы и карты поражали как замысловатостью, так и логичностью, а также роскошной графикой . В них не было одного — смысла. Под смыслом я имею в виду нетривиальные и вместе с тем убедительные новые результаты, которые можно было бы изложить человеческим языком и сопоставить с данными других исторических дисциплин Причина в том, что коллеги, хорошо разбираясь в математике, либо вообще не имели представления о фольклоре и доистории, либо придерживались, на мой взгляд, ошибочного мнения касательно сходства в репликации генов и тех аналитических единиц, которые удается выделить из нар-ративов Входить в подробности не стану, но главное, что от неокантианцев не уйдешь: гуманитарная наука, даже основанная на больших данных, предполагает не только знание, но и понимание. Здесь нет мистики: исходный материал слишком неоднороден и неточен, чтобы, переводя его в цифру, вовсе забыть о том, что за ней стоит.
Есть и другая сторона дела. Не все знают, что в эпоху продвинутого интернета основная сложность в работе связана с добыванием исходных публикаций Значительная часть, а возможно и большинство, книг и статей НЕдоступны в Сети, а порой там даже отсутствуют соответствующие названия . Много ли французских статей по этнографии Индокитая вы выудите? И если половина или хотя бы треть публикаций XIX в . по фольклору Европы доступна, то для XX в . , разумеется, нет . Живя в другой стране и зарабатывая хорошие деньги, я бы многое мог добыть, покупая переиздания, но это для другой жизни А сейчас в моей области до нейронных сетей еще далеко Сделайте информацию доступной, и наука станет развиваться намного быстрее
АНДРЕЙ ГРОМОВ
В последние год-два словосочетания «нейро-сеть» и «искусственный интеллект» прочно вошли в обиходную речь. Разумеется, интересующиеся проблемой специалисты и любопытствующие уже давно следят за темой Для каждого, вероятно, есть какая-то временная отсечка, когда эти термины перестали быть атрибутом фантастической литературы Для меня таким поворотным пунктом
Андрей Викторович Громов
Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия [email protected]
1
стал март 2016 г . , когда прошел матч между нейросетью AlphaGo и сильнейшим в мире на тот момент игроком в го Ли Седолем, в котором нейросеть одержала убедительную победу. В отличие от шахмат, где компьютер давно сильнее человека, создать программу, играющую в го лучше рядового любителя, до последнего времени не удавалось . Применение нейросети все изменило, и стало ясно, что произошел качественный скачок, последствия которого мы еще не осознаем до конца. Эмоциональные последствия этого события для меня даже сейчас таковы, что побудили предложить свои ответы на вопросы редколлегии
В первую очередь речь идет об использовании нейросетей (НС) для работы с изображениями, их идентификацией и классификацией НС хорошо справляются с определением животных, растений и предметов по фотографиям и трехмерным моделям При работе с изображениями НС имеет преимущество перед человеком за счет отсутствия искажений восприятия, присущих последнему. Человек при отборе объектов склонен отбирать более легкие для восприятия: крупные, красивые, контрастные. Также человек склонен фокусироваться на центральной части изображения НС лишена таких искажений и приложит равные усилия ко всему массиву графических данных Вообще обработка больших объемов данных — это то, для чего использование НС оптимально
Мой личный опыт общения с нейросетями пока невелик и касается только работы с текстами . Я использовал ChatGPT и Claude . Вторая имеет преимущество в числе загружаемых токенов, а также в формате источников (например, PDF), но менее удобна для доступа из России .
Если кратко, то в ближайшем будущем нейросети станут использоваться везде Но нужно разделять использование НС для рутинных операций и собственно научного поиска Если с первым все очевидно, то относительно второго не все так просто. Мне приходилось слышать от коллег, имевших опыт практического использования НС, что если построить график роста эффективности НС в результате обучения, то после подъема (разной продолжительности) он практически неизбежно переходит в плато. Более того, в дальнейшем возможна даже определенная деградация, если не принимать каких-то специальных мер Поэтому необходима возможность повышения квалификации пользователей НС, особенно для представителей гуманитарных наук В качестве примера такой попытки можно привести образовательную программу для творческих и управленческих кадров в сфере культуры «Нейронные сети и искусственный интеллект для решения творческих задач в креатив-
2
3
ных индустриях», планируемую к реализации в 2024 г. Санкт-Петербургским государственным институтом кино и телевидения в рамках Национального проекта «Культура» .
На сегодняшний день ИИ в первую очередь используется для выполнения рутинных операций, которых хватает в любом научном исследовании . Поскольку большие языковые модели (Large Language Models, далее LLM) очень хорошо работают с текстом, когда вся необходимая информация дана им непосредственно в запросе, им можно доверить поиск и редактирование стилистических ошибок, тавтологий, повторов и т п Также ИИ может выделить из текста ключевые слова, составить резюме заданной длины для отчета или план доклада . Эти задачи, несмотря на свою простоту, отнимают у человека много времени Сюда же можно отнести весь спектр задач, связанных с подготовкой текстов на английском языке . В случае сомнений в том, какой из нескольких иностранных терминов наиболее удачен, ИИ может моментально описать нюансы каждого из них и выделить их семантические сходства и различия
Библиография в научных работах достаточно формализована, чтобы составлять ее более простыми и строгими алгоритмами, реализованными в таких программах, как EndNote, Reference Manager или Zotero. Скорее ИИ пригодится в издательской деятельности
Вероятно, каждый новый инструмент научной работы при желании можно использовать по принципу «что-то загрузил на вход — что-то получил на выходе, как получил — не понял» . По мере освоения нового инструмента научным сообществом повышается понимание того, как лучше подготовить исходные данные, как не нарушить методику и как интерпретировать результат . Думаю, возможности НС типа ChatGPT скоро будут освоены настолько, что частота получения смехотворных результатов или скандальных историй написания бессмысленных статей станет пренебрежимо малой
Самостоятельная часть обучения существенно выиграет от внедрения ИИ, когда вместо жесткой структуры учебника или лекций мы будем использовать обученный на десяти учебниках ИИ . Студент сможет попросить подробнее объяснить сложный для него момент и, наоборот, не тратить время на уже знакомый ему материал . Также ИИ сможет анонимно собрать для преподавателя статистику, какие из разделов его курса вызывают наибольшие трудности и, вероятно, требуют улучшения . Особенно сильно улучшится положение студентов из городов и стран с относительно низким качеством образования, что может снизить неравенство в мире Впрочем, излишнее обезличивание процесса обучения тоже нежелательно
4
На сегодняшний день можно определить вероятность того, что текст сгенерирован НС, с помощью той же НС. Если студент хотел сэкономить свое время и силы, вероятно, и с НС он работал безыскусно, что облегчает задачу разоблачения . Однако если студент использовал НС только для второстепенных технических задач и сам проверил конечный результат, его можно только похвалить за старание отшлифовать свою работу. (Реальных случаев не было, так как не преподаю . )
Думаю, на сегодняшний день этика использования ИИ в науке не отличается от общей научной этики: не публиковать непроверенные данные, не предлагать неудобочитаемые тексты и т п Современные НС чаще рассматриваются как инструмент, но в перспективе появления Общего ИИ (AGI), я думаю, уже стоит приучать себя относиться к ИИ как к соавтору. Тем не менее сейчас юридические аспекты проблем авторства сгенерированных ИИ продуктов еще не отрегулированы на законодательном уровне . По-видимому, нынешнее место упоминания НС — раздел «Методы» .
Отдельно стоит рассмотреть вопрос плагиата при использовании НС. Большинство таковых относятся к генеративным моделям (в частности, ChatGPT), поэтому обучающие или анализируемые источники могут быть в значительной степени воспроизведены в результатах, выдаваемых НС. Конечно, это не прямое заимствование, но контроль со стороны человека пока все же необходим. Впрочем, с поиском заимствований лучше всего справится та же НС
Несмотря на призывы весьма авторитетных специалистов к ограничению использования ИИ, вряд ли возможно остановить процесс его распространения во все сферы жизни
НАТАЛЬЯ КОВАЛЕВА
1
Наталья Ковалева (Natalia Kovalyova)
Университет Северного Техаса, Даллас, США [email protected]
Мой опыт практического использования ИИ минимален и сводится к нескольким попыткам ради единственной цели — удовлетворить свое любопытство, возросшее после того, как авторы огромного количества научных работ, к которым я обращаюсь, стали ссылаться на инструменты ИИ, практически единодушно отмечая в качестве его главного преимущества скорость создания текстов Так как я редко отождествляю скорость с улучшением качества, я сделала несколько запросов в ChatGPT, например: «Перечисли главные недостатки прогностического
мышления в разных дисциплинах»; «Назови главных исследователей, занимающихся темой X»; «Опиши не экспериментальные исследовательские методы»; «Составь короткую (75 наименований) библиографию на тему Y»; «Создай несколько списков вопросов для обсуждения по книге, подходящих для разных уровней владения языком»; «Напиши содержание всех томов "Войны и мира" Льва Толстого» .
Ни один из ответов ChatGPT на эти запросы не вдохновил меня на мысли о регулярном использовании ИИ в моей собственной работе ни в роли инструмента предварительного исследования, ни в качестве основного способа экономии времени или усилий Нынешнее состояние рассматриваемых инструментов оставляет желать лучшего: это неплохая поддержка в тот момент, когда подводит воображение или нужно найти выход из писательского тупика, но их грамматическая правильность на фоне сфабрикованных фактов, которые они предоставляют, кажется мне назойливо педантичной
Более того, мои краткие эксперименты с ChatGPT, you com и несколькими другими ИИ напомнили мне ряд изобретений, которые, как ожидалось, могут изменить правила игры: логарифмические линейки, калькуляторы, электронные словари, программы проверки орфографии, поисковые системы и несколько других Некоторые из нас отлично помнят те времена, когда говорилось, что кинопроекторы, телевизоры, кассетные магнитофоны, компьютеры кардинально изменят то, как мы учим и учимся . Более того, поначалу многие из этих вещей были запрещены в учебных заведениях На уроках математики студентам не разрешалось пользоваться калькуляторами, и ожидалось, что эссе продемонстрируют владение правилами грамматики и правописания без помощи автоматических программ проверки орфографии Сегодня, когда почерк испорчен практически у всех, мы просим студентов перед сдачей работы использовать компьютерную правку, а преподавание математики не изжило себя из-за калькулятора в каждом кармане
На мой взгляд, для того чтобы ИИ стал широко применяться на разных стадиях исследовательского процесса, нам в первую очередь необходимо наладить обратную связь с разработчиками относительно основополагающих постулатов нашей работы, которые были совершенно неправильно поняты нынешними алгоритмами . IT-специалистам действительно нужно наше мнение, и они к нему прислушиваются Некоторые из ранних погрешностей ИИ уже исправлены Будем надеяться, что в скором времени мы увидим еще больший прогресс. А пока люди будут превосходить технику там, где требуется синтез данных или работа со скрытой или подразумеваемой информацией
Люди лучше выявляют пробелы в существующей литературе, выдвигают гипотезы, контекстуализируют результаты и предлагают альтернативные объяснения наблюдаемым фактам. Все эти виды деятельности необходимы для исследовательского процесса, и ни один из них не автоматизирован, что оправдывает нашу приверженность старым методам, поддерживаемым, но не заменяемым различными технологиями
Когда дело доходит до составления библиографий, я приветствую любую помощь в том, чтобы отфильтровать массу второстепенных работ, особенно когда пробираюсь на новую «территорию». Даже при доступности большого количества современных источников онлайн, требуется много кропотливого труда, чтобы составить хороший список работ, полноценно охватывающий основную полемику в определенной области, существующую на данный момент . И для выполнения этой задачи я преимущественно полагаюсь на электронные библиотечные базы данных — по трем причинам: (1) в библиотечных базах данных представлены публикации из источников, требующих подписки (они же — академические журналы от ведущих издательств); (2) библиотечные базы данных предоставляют доступ к полным текстам, которые, как правило, скрыты за платной подпиской указанными издателями и, следовательно, недоступны через коммерческие поисковые системы, такие как GoogleScholar; (3) они облегчают тщательный анализ источника, предоставляя аннотации, ключевые слова, информацию об авторе и дополнительные библиографические сведения о материалах в своих фондах Важно, что все, что вносится в библиотечные базы данных, проверяется . За тридцать лет написания научных статей мне ни разу не встретилась запись с неправильно указанными страницами, неполными названиями или несуществующими издательствами К сожалению, все эти казусы часто встречаются в библиографиях, генерируемых ИИ
Честно говоря, я иногда начинаю свои библиографические путешествия с беглого просмотра GoogleScholar и GoogleBooks, чтобы увидеть, что есть в свободном доступе, или чтобы сделать первый шаг на моем пути . Безусловно, по темам моей специализации я веду библиографический список, куда добавляю новые записи из оповещений о журнальных публикациях или из ссылок, заслуживающих внимания
Таким образом, упомянутое выше приключение с созданием библиографии с помощью ChatGPT было задумано исключительно как любительский проверочный тест: я хотела увидеть, выдаст ли машина знакомый мне список работ Итак, я запросила библиографию из 75 пунктов по теме и нажала "Enter". Полученный список преподнес немало сюрпризов: публикации,
названия которых я никогда не слышала, приписывались авторитетным ученым в указанной области и якобы были опубликованы в крупных журналах Поскольку область исследования, выбранная мною для теста, относительно невелика (подраздел политической риторики, ограниченный географически и исторически), все основные работы в ней хорошо известны и широко цитируются Следовательно, если бы внезапно всплыла какая-то забытая публикация, это стало бы большой сенсацией Поэтому на долю секунды от сгенерированного ИИ списка у меня пошла кругом голова В нем я увидела ссылки на публикации 1980-х и 1990-х гг некоторых именитых ученых наряду со ссылками на работы моих сверстников, которые в то время в лучшем случае учились в старших классах и не смогли бы опубликовать что-либо настолько потрясающее, чтобы его включили в какую угодно библиографию, не говоря уже о списке основных работ. При более близком рассмотрении оказалось, что из 75 пунктов лишь небольшая доля представляла собой ссылки на реальные публикации (в основном книги), подавляющее большинство журнальных статей были сфабрикованными, хотя в них фигурировали настоящие имена и названия реально существующих журналов
Моей первой реакцией на эти результаты было использовать этот эксперимент в качестве предупреждения о несовершенствах и явных недостатках ChatGPT в вопросах библиографии Однако через день-другой стало оформляться более обоснованное отношение: необходимо переосмыслить сам процесс академической науки — от постановки исследовательского вопроса до публикации результатов Низкая эффективность ChatGPT в выполнении некоторых академических задач вызывает много вопросов по поводу самих этих задач, а также по поводу фундаментальных постулатов исследовательской деятельности и академического труда в целом, которые ИИ либо подрывает, либо игнорирует Дело в том, что в предприятии по производству знания, называемом наукой, составление хороших библиографий — это самая ранняя стадия: они помогают нам разметить территорию для исследования и заложить фундамент, на котором будет строиться наша собственная работа Предполагается, что последняя в той или иной форме продвинет вперед предшествующее обсуждение выбранной темы В моем примере ChatGPT в значительной степени «изобрел» саму дискуссию, тем самым подрывая любые попытки далее развить ее
Впрочем, тут есть и положительный момент: грубые ошибки в сгенерированных ИИ ответах дают отличный учебный материал для фактчекинга и технического редактирования, для организации и связности текстов, для распознавания предвзятости, чрезмерного обобщения и стереотипных представлений,
| для тонкой настройки стиля и письма, ориентированного на
£ читателя, для обсуждения авторства и соавторства, для черно-
| вых набросков, редактирования и правки, а также для многого
| другого, хотя все эти вопросы в большей степени актуальны для
Ü студентов старших курсов, уже знакомых с процессом и стремящихся с помощью ИИ улучшить свою работу, а не заместить
з ее . Что касается начинающих, то критический подход к текстам,
| сгенерированным ИИ, в первую очередь должен подорвать их
| веру в силу Google и развеять представление о том, что сегодня
10 «в Сети есть все».
Ё
§ Кроме того, нынешнее положение текстов, создаваемых ИИ,
i предоставляет огромную возможность для анализа серьезных
'| заблуждений о месте письма в исследовательской работе, на-
| пример заблуждений в том, что написание текста — это бремя,
ö которое отнимает драгоценное время ученых собственно от
s исследований (отсюда маркетинговый ход, который представ-
ляет ИИ как способ снять это «бремя», автоматизируя «несущественные» элементы исследования); в том, что «безупречная» грамматика и связный текст приравнены к хорошему академическому письму и (возможно) обеспечивают убедительную аргументацию (отсюда и красноречивые ИИ, генерирующие грамматически совершенный вздор, который тем труднее обнаружить под идеально отполированной поверхностью); в том, что изощренная лексика свидетельствует о высоком уровне образования и незаурядных идеях, превосходящих какие бы то ни было расхожие примеры (отсюда парад абстракций, не подкрепленных ни единой иллюстрацией, в большинстве ответов ChatGPT).
Более основательное рассмотрение подобных вопросов выходит за рамки реплики в «Форуме», но настоятельная необходимость анализа самого производства знаний возрастает с каждым часом. Многочисленные опасения касательно этой области еще больше подчеркивают проблемы, связанные с распространением знаний, преградами в этом процессе и контролем доступа, а также со структурами власти, которые содействуют автоматизации производства знания и часто извлекают из этого выгоду. Для надежной основы движения за или против использования ИИ в исследованиях нам нужны более веские аргументы относительно того, почему академические знания передаются преимущественно в письменной форме, аргументы о роли письма в исследовании и допустимости его замены технологическим процессом
Относительная легкость, с которой можно научиться писать запрос для ИИ и генерировать сносный ответ, посеяла множество сомнений по поводу строгой приверженности принципам
академической честности и добросовестности на университетских кампусах и за их пределами. Университеты оперативно скорректировали внутренние правила, библиотеки составили руководства по инструментам ИИ, учебно-образовательные центры организовали воркшопы для преподавателей, стремясь выгодно задействовать преимущества ИИ и минимизировать связанные с ним риски Тем не менее беспокойство, похоже, выходит далеко за пределы академической недобросовестности обучающихся, которых этот мощный инструмент подталкивает пренебречь этическими принципами Оно ставит вопрос о том, возможна ли альтернативная система производства знания К счастью для нас, здесь технологии не могут оценить собственный успех или неудачу И тут на сцену выходят люди
Как преподавателю, в чьих курсах много письменных заданий, мне приходилось сталкиваться с гострайтерами (писателями по найму, чьи имена остаются скрытыми), сервисами по производству письменных работ на заказ (essay mills), отрывками, скопированными из Google-переводчика, и другими вспомогательными инструментами, к которым студенты отваживаются обратиться, чтобы выполнить письменные задания. И хотя некоторые из таких стратегий преодоления трудностей красноречиво говорят о слабых навыках организации времени и о нежелании прилагать усилия, они часто свидетельствуют и о реальных препятствиях, таких как недостаточно развитые умения или недопонимание, чем полезно конкретное задание для формирования определенных навыков . Чтобы подтолкнуть таких студентов к самостоятельной работе и уверенности в себе, я горячо рекомендую программы проверки орфографии или сервисы по оценке удобочитаемости текста, составление графика и электронные напоминания, групповую работу и взаимопомощь; но также замечаю, что обращение студентов к ChatGPT благотворно влияет и на мою работу, особенно как вызов тому, какие педагогические решения я принимаю и как организую обучение
Поскольку большинство моих студентов научились мастерски формулировать запросы для ИИ, мне пришлось пересмотреть свои методы оценивания и изменить довольно много экзаменационных вопросов . Ранее я всегда прибегала к кратким письменным ответам Теперь я задаю больше вопросов, ответ на которые требует обобщения материалов лекций, иллюстраций и важных моментов из обсуждений на занятиях. Например, теперь в контрольных сочинениях студенты должны продемонстрировать применение хотя бы одного понятия из материалов курса и указать те главы учебника, откуда они могли бы позаимствовать свой аналитический подход И да, я протестировала все сформулированные мною задания через ChatGPT, чтобы
иметь более четкое представление о том, как могут выглядеть машинные варианты ответов. Ответы, сгенерированные СЬаЮРТ, были логичными и развернутыми, но они были далеко не удовлетворительными, поскольку в них не применялись ни концепции, ни терминология, специфичные для дисциплины, не говоря уже о материалах курса . На самом деле из четырех заданий, в которых предлагалось применить в анализе конкретные идеи, в двух случаях такие концепции упоминались, но ни одна из них не была верно интерпретирована для данной дисциплины, и ни один ответ, предложенный ИИ, не сумел прочитать заданный сценарий через нужную концептуальную призму. Тем не менее следует отдать должное разработчикам СЬаЮРТ, потому что (а) все ключевые моменты в заданиях были учтены и (Ь) все ответы были обстоятельны, включая вступительный и заключительный абзацы
Инструменты ИИ ставят перед нами сложную задачу связать оценку за курс с тем, как студент привлекает материалы курса, конкретные кейсы и расширенные примеры или может сформулировать основополагающие принципы вместо зазубривания фактов. Помимо этого, ИИ выявляет важную, но часто игнорируемую дихотомию «Процесс — Результат» . Преподаватели письма уже давно ратуют за смещение фокуса с результата (текста) на процесс (письмо как текстовую деятельность) в своей области. В существующей сегодня атмосфере консюмеризма эта дихотомия особенно актуальна (даже очень) за пределами уроков словесности, поскольку все больше студентов приходят в учебное заведение, представляя себя в роли клиентов и требуя качественный продукт за свои деньги. С их точки зрения, они приходят в учебное заведение, чтобы получить степень / диплом / квалификацию, знания и навыки (часто), друзей и связи (многие), законную отсрочку от других обязанностей в жизни (в ряде случаев). Многие соглашаются выполнять задания и различные требования, чтобы получить желаемое Однако, как и в случае с занятиями по письму, смысл обучения на курсе заключается не в хороших оценках или хороших текстах / эссе / ответах, написанных в его рамках Настоящим продуктом образования является человек, более грамотный, квалифицированный, зрелый и в целом более образованный по сравнению с тем днем, когда он или она поступили в учебное заведение. До тех пор, пока все участники процесса не сместят свое внимание на студентов как на истинные продукты всего предприятия, наши усилия останутся напрасными и мы продолжим ошибочно принимать побочные продукты (эссе, отличные баллы на экзаменах) за подтверждение работы системы
Итак, ИИ облегчил замену / аутсорсинг / автоматизацию инфраструктуры, лежащей в основе производства письменного
текста, без существенного ущерба для результата, по крайней мере в его общепринятой форме . Более того, он поставил перед нами общую задачу переосмыслить процесс образования, а также роли его участников и отношения между ними . Следовательно, прежде чем спешить на защиту существующих практик от (потенциальных) угроз ИИ, нам всем будет полезно приостановиться и тщательно проверить, насколько эти практики содействуют достижению нашей цели
Пер. с англ. Александры Захаровой под ред. Натальи Ковалевой
КИРА КОВАЛЕНКО, ЕВГЕНИЙ СОКОЛОВ
1
Кира Иосифовна Коваленко
Европейский университет в Санкт-Петербурге / Институт лингвистических исследований РАН, Санкт-Петербург, Россия [email protected]
Евгений Геннадьевич Соколов
Европейский университет в Санкт-Петербурге / Институт лингвистических исследований РАН, Санкт-Петербург, Россия [email protected]
Предложенные редколлегией вопросы мы рассмотрим прежде всего в аспекте работы над проектом «Растения и люди в Российской империи XVIII века: сословная дистрибуция знаний и практик»1, который реализуется в Прикладном центре машинного обучения, анализа данных и статистики в ЕУСПб. Проект направлен на изучение растений и их роли в жизни человека на материале рукописных и печатных источников . Помимо текстов, в этноботаническую базу данных PhytoLex, являющуюся основным рабочим инструментом исследователей, включены сканированные гербарные образцы XVIII в. из собрания БИН РАН. База данных находится в открытом доступе на сайте <https://phytolex. eusp. org/>. Там же можно найти небольшие заметки о растениях, информацию о новых публикациях по этноботанике и видеозаписи докладов, посвященных растениям (раздел «Блог»).
Как и в любой исследовательской деятельности, связанной с анализом текстов, в проекте «Растения и люди в Российской империи...» большую роль играет распознавание текстов . В большинстве случаев мы используем программу FineReader, в которой имеется встроенная функция по распознаванию текстов в дореволюционной орфографии
1 <https://eusp.org/projects/rasteniya-i-Lyudi-v-rossiyskoy-imperii-xviii-veka-sosLovnaya-distribuciya-znaniy-i-praktik>.
После распознавания файл PDF, содержащий текстовый слой, загружается в базу данных PhytoLex, где специальный модуль, созданный в ПЦ МАСТ, позволяет сделать скриншот необходимого фрагмента и сохранить его в базе данных в формате изображения . Если файл PDF содержал текстовый слой, то в базе также сохраняется соответствующий ему текст.
Кроме этого, для книг с нестандартными шрифтами мы использовали специальный сервис для тренировки моделей по распознаванию текста Transkribus . С помощью инструментов пакета Transkribus мы обучили специальную модель для распознавания текста XVIII в . 1 Она позволяет очень качественно, с точностью до 99,4 %, распознавать текст, напечатанный в Университетской типографии у В . Окорокова, а также применима для публикаций других типографий, имевших схожие литеры
В настоящее время также тестируется применение синтаксической аннотации текста . Поскольку названия растений — фито-нимы — обычно занимают в предложении позиции семантических актантов матричного предиката, т е зависимых глагольной вершины, обозначающей их свойства, связь с теми или иными признаками, воздействие на живых существ и т д , синтаксическая разметка позволяет выявить значительный объем информации о растении В порядке эксперимента нами был применен нейросетевой модуль обработки естественного языка Stanza2, дополненный кодом для извлечения синтаксических отношений из древесного представления3 .
С применением этого кода для текста Ясень (fraxinus excelsior) сеется лучше в Октябре на легкой земле из «Бергманнова естественного землеописания» Г . Гроссе синтаксический парсер пакета syntagrus дает следующий анализ:
{'id': 1, 'form': 'Ясень', 'lemma': 'ясень', 'head': 6, 'deprel': 'nsubj'}
{'id': 6, 'form': 'сеется', 'lemma': 'сеяться', 'head': 0, 'deprel': 'root'} {'id': 7, 'form': 'лучше', 'lemma': 'хорошо', 'head': 6, 'deprel': 'advmod'} {'id': 8, 'form': 'в', 'lemma': 'в', 'head': 9, 'deprel': 'case'} {'id': 9, 'form': 'Октябре', 'lemma': 'Октябрь', 'head': 6, 'deprel': 'obl'} {'id': 10, 'form': 'на', 'lemma': 'на', 'head': 12, 'deprel': 'case'}
1 <https://readcoop.eu/model/russian-print-of-the-18-c-v-okorokovs-printing-house/>
2 <https://stanfordnlp.github.io/stanza/index.html>.
3 <https://github.com/EvgeniiGSokolov/for_phytolex/blob/main/stantaxis.py>.
АНТРОПОЛОГИЧЕСКИЙ ФОРУМ 2024 № 60 28 .-
{'id': 11, 'form': 'легкой', 'lemma': 'легкий', 'head': 12, 'deprel': 'amod'}
{'id': 12, 'form': 'земле', 'lemma': 'земля', 'head': 6, 'deprel': 'obl'}
При значительном несовершенстве [Osborne, Gerdes 2019] системы разметки Universal Dependencies, применяемой в этой и других подобных системах1, исследователю все же удается извлечь некоторые важные факты. Для слова ясень указано синтаксическое отношение nsubj — «именное подлежащее» и вершина — расположенный в корневом узле глагол сеется, который со своими неподлежащными зависимыми (предложными группами «в октябре» и «на легкой земле») дает ценную информацию о ясене как дереве и позволяет при автоматическом обходе синтаксического графа извлечь эти сведения для единообразного представления в виде, к примеру, онтологии знаний о растениях в интересующий нас период
Важной положительной чертой нейросетевых парсеров является возможность их дообучения: размеченные парсером данные в формате . conllu переаннотируются вручную в качестве обучающей выборки, парсер дообучается на этой выборке и таким образом приспосабливается к материалу, в нашем случае — к текстам на русском языке XVIII в.
о В рамках проекта «Растения и люди в Российской империи...» извлечение данных из текста с помощью машинного обучения представляется наиболее актуальным В настоящее время для заполнения базы данных PhytoLex, лежащей в основе проекта, требуется сплошной просмотр текста кураторами . Методы машинного обучения, к примеру модели, построенные на принципах дистрибутивной семантики [Jurafsky, Martin 2024: 5-7], позволяют с опорой на представление слов в виде многомерных векторов сравнивать с помощью меры косинусого расстояния их семантическую близость [Jurafsky, Martin 2024: 10-11] и выявлять кластеры наиболее близких лексем, а значит извлекать из текста группы фитонимов, глагольные формы, описывающие функции растений, места их произрастания, этническую группу и сословную принадлежность акторов . Кроме того, существует возможность извлечения наиболее частотных коллокаций (следовательно, устойчивых наименований) и оперирования ими как целостными семантическими единицами
Поскольку в проекте «Растения и люди в Российской империи...» мы работаем с текстами XVIII в . , то в ближайшем будущем планируется использовать векторные модели, обученные на материале текстотеки «Словаря русского языка XVIII века» [Соколов 2023: 23-24] на основе модуля Gensim [Rehûrek, Sojka
1 <https://universaldependencies.org/introduction.htmL>.
3
2010]1. Наилучшие результаты показывает учебная модель со следующими параметрами: тип алгоритма — cbow, размерность вектора — 8000 измерений, минимальная частота слова в выборке, необходимая для его включения в модель, — 3 вхождения, размер окна (количество учитываемых словоформ слева и справа от слова) — 3, число эпох обучения — 20 . При этом алгоритм cbow был выбран нами с опорой на данные работы [Kutuzov, Andreev 2015: 148], в которой показано, что это наиболее эффективный алгоритм векторизации русскоязычного материала; прочие параметры подобраны экспериментально и проверены на корпусе [Соколов 2024: 112-113]. Полученные машинным способом данные в дальнейшем нуждаются в проверке, но позволяют автоматизировать наиболее трудозатрат-ные этапы анализа материала — сбор лексических единиц и их семантическую группировку. Имеющиеся наработки: названия растений на латыни (по современной классификации и исторические), древнерусские, старорусские и современные русские фитонимы, списки этнонимов, сословий и базовых функций — способны оказать значительную помощь в обучении модели Дальнейшие направления исследований могут включать дистрибутивное изучение динамики семантических изменений отдельных фитонимов и их групп [Del Tredici et al . 2019: 2069] или гипергипонимических отношений в данной области лексики
При этом отметим, что в наших исследованиях используются модели машинного обучения, результатом работы которых является только обработка и интерпретация полученных на вход данных. Мы полагаем, что некомпетентное использование в научном процессе больших языковых моделей наподобие GPT-3/3. 5/4 может привести к нежелательным для ученого сообщества результатам, поскольку здесь на место преобразования и интерпретации фактов может заступить порождение ложной или непроверяемой информации
На наш взгляд, методы машинного обучения, поскольку они существуют, не могут не применяться в области образования, однако мы не можем не согласиться со словами апостола Павла: «Всё мне можно, но не всё полезно» . Овладение инструментами машинного обучения как в теоретическом, так и в практическом аспекте необходимо студенту для их применения в дальнейшей профессиональной деятельности, но использование машинного обучения для систематизации, обработки и интерпретации данных нельзя смешивать с недобросовестной генерацией работ . К счастью, на данный момент текст, порож-
1 <https://radimrehurek.com/gensim/auto_examples/index.html#documentation>.
4
денный большой языковой моделью, еще достаточно хорошо определяется при некоторой «насмотренности» проверяющего, но вполне вероятно, что в будущем использование ЬЬМ может превратиться в действительную проблему
Применение нейросетевых методов в науке и образовании, на наш взгляд, также вполне легитимно при условии использования нейросети как инструмента обработки и систематизации данных и указании параметров обучения модели . Так как в этом случае нейросеть лишь систематизирует данные, но не делает выводов, права на интеллектуальный продукт принадлежат, безусловно, авторам статьи, применяющим нейросетевые механизмы для обработки данных. Если же нейросеть используется для получения выводов о каком-либо явлении, это должно быть эксплицитно указано в тексте исследования и вопрос о принадлежности прав на результаты подобной деятельности должен устанавливаться отдельно научным сообществом и компетентными специалистами в области юриспруденции. Мы в настоящий момент воздерживаемся от какого-либо суждения по этому поводу
Библиография
Соколов Е.Г. Установление семантического сходства, синонимии и антонимии средствами дистрибутивной семантики на материале коллекции русскоязычных текстов XVIII века // Тезисы Международной научной конференции «XXXV чтения памяти Ю. С. Сорокина и Л.Л . Кутиной (к 110-летию со дня рождения Ю . С. Сорокина)» (23-24 марта 2023 г. ) / Институт лингвистических исследований Российской академии наук. СПб . : ИЛИ РАН, 2023. С 22-25.
Соколов Е.Г. Учитель-проводник, или К вопросу о семантике слова наставник в XVIII столетии // Русский язык в школе . 2024. Т . 85 . № 1. С 106-116. doi: 10. 30515/0131-6141-2024-85-1-106-116.
Del Tredici M., Fernández R., Boleda G. Short-Term Meaning Shift: A Distributional Exploration // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies . Minneapolis, MN: Association for Computational Linguistics, 2019 . Vol. 1 (Long and Short Papers). P . 2069-2075.
Jurafsky D., Martin J.H. Vector Semantics and Embeddings // Jurafsky D. , Martin J . H . Speech and Language Processing. Draft of February 3, 2024. <https://web . stanford. edu/~jurafsky/slp3/6 .pdf>.
Kutuzov A., Andreev I. Texts In, Meaning Out: Neural Language Models in Semantics Similarity Tasks for Russian // Proceedings of the Dialogue 2015 Conference. 2015. S.pag. <https://arxiv. org/ftp/arxiv/papers/ 1504/1504.08183. pdf> .
Osborne T., Gerdes K. The Status of Function Words in Dependency Grammar: A &itique of Universal Dependencies (UD) // Glossa: A Journal of General Linguistics. 2019 . Vol. 4. No . 1. P . 17. doi: 10.5334/gjgl.537.
Rehürek R., Sojka P. Software Framework for Topic Modelling with Large Corpora // Proceedings of LREC 2010 Workshop New Challenges for NLP Frameworks . Valletta, Malta: University of Malta, 2010 . P . 46-50.
АННА МОСКВИТИНА (СИИМ)
Анна Юрьевна Москвитина (Сиим)
Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия [email protected]
Если бы мне пришлось обратиться к нейро-сети, свой промт я бы сформулировала следующим образом: «Как на вопросы настоящей дискуссии ответил бы африканист, специалист по языку и культуре суахили?» Именно в таком качестве я поделюсь рассуждениями на предложенные темы .
Африка часто позиционируется как единый объект таргетирования искусственной интеллектуализации . Принято говорить о «перспективах в области развития и применения ИИ в Африке», «демократизации ИИ в Африке», «разработке технологий для умных городов в Африке», «смарт-образовании в Африке», «ИИ в современном африканском искусстве» и т д И всегда в подобных обобщающих дискурсах на одной чаше весов оказывается необходимость революционного прорыва нейросетей и умных технологий во всех сферах жизни в Африке, на другой же — опасность цифровой и нейросетевой колонизации Африки Именно такие сюжеты преобладают сегодня в повестках крупных официальных мероприятий, объединяющих все страны континента. Так, прошедший в Аддис-Абебе в феврале 2024 г. в рамках 37-го саммита Африканского Союза Африканский бизнес-форум (ABF) с заявленной генеральной темой "Boosting Africa's Transformation through Education, Science, Technology, and Innovation" («Способствуя трансформации Африки посредством образования, науки, технологии и инноваций») был сфокусирован, в соответствии со своим названием, на вопросах внедрения ИИ. На Африканском медийном фестивале (Africa Media Festival) и Редакторском форуме (Editors' Forum) в Найроби, тоже в феврале 2024 г. , центральной темой дискуссий аналогично оказались перспективы применения нейро-
сетей в СМИ и замены журналистов ИИ . Обсуждались кейсы применения нейросетей, например, в борьбе против распространения дезинформации на выборах в Кении в 2022 г. путем мониторинга в социальных сетях в реальном времени оскорбительного контента и текстов на английском, суахили и шенг (городское арго на базе английского и суахили), разжигающих межэтническую рознь и призывающих к эскалации насилия и межэтнических конфликтов (у электората Кении политические предпочтения действительно определяются этнической принадлежностью и региональным происхождением, по причине чего предвыборные дебаты в народе всегда чреваты как минимум вербальными распрями на почве межэтнических отношений)1. Насколько мне известно, этот эксперимент сводился к выявлению и удалению нежелательных высказываний прежде всего в «Фейсбуке» и, по признанию команды разработчиков программы, работа нейросетей на деле оказалась малоэффективной и неудачной . Тем не менее это был полезный опыт в области прикладной политической антропологии с учетом местных реалий и на материале местных языков
Для африканиста огромный интерес представляет все связанное с нейросетями на местных языках, с их контентом и взаимодействием с живыми носителями этих языков . В моем случае это язык суахили. Это не единственный африканский язык, на материале которого разрабатываются нейросетевые технологии для коммуникации и перевода, конвертации речи в печатный текст и обратно (ChatGPT работает также на языке хауса и ам-харском). Но по ряду причин проектов и продуктов с ним больше, чем с другими языками: он действительно самый крупный по количеству говорящих на нем, является государственным языком в ряде стран Восточной Африки и поэтому становится официальным языком национальных проектов, а также среднего и высшего образования, лидирует среди языков Африки в изучении как иностранный, наконец, именно суахили рассматривается как кандидат в число официальных языков ООН Важность перечисленных факторов прямо пропорциональна широте и объему внедрения нейросетей в реальность стран с суахилиговорящим населением. Сами процедуры их проникновения в социальную реальность и восприятие их обществом заслуживают внимания . Государственный орган при Министерстве культуры Танзании — общественная организация BAKITA (Национальный совет по суахили, Baraza la Kiswahili la Taifa), отвечающая за стандартизацию суахили, утверждающая образовательные проекты и курирующая прикладные нейросетевые
1 Подробнее об этом: <https://news.un.org/en/story/2023/10/1140862>, <https://www.g[oba[witness. org/en/campaigns/digitaUthreats/hate-speech-kenyan-e[ection/>.
технологии в данной области, предложила и утвердила единую норму называния самого явления искусственного интеллекта — akili mnemba (суах. букв . 'имитирующий ум') в противовес повсеместно распространенному и давно прижившемуся в разговорном языке и СМИ akili bandia (суах. букв, 'фальшивый ум'), а также другим широко используемым синонимическим понятиям akili-unde (суах. букв . 'созданный ум') и akili tarakilishi (суах. букв . 'компьютерный ум'). По мнению экспертов из BAKITA, определение akili bandia не соответствует природе явления, обладая негативными коннотациями «фальшивого» и «поддельного», как fedha bandia (суах. 'фальшивые деньги'), cheti bandia (суах. 'поддельные документы'), mguu bandia (суах. 'протез ноги') и т. д. А akili mnemba, напротив, отражает характер аналогового воссоздания по образу и подобию человеческого интеллекта Стоит отметить, что важное направление деятельности BAKITA с момента ее создания в 1967 г . — стандартизация и пуристическая адаптация к языку суахили иностранной терминологии, в том числе лексики компьютерных технологий и инноваций .
Предположу, что в настоящее время наличие нейросетевой ипостаси языка либо ее отсутствие может восприниматься как неотъемлемая «фича»: если мы подразделяем языки на письменные и бесписьменные, мы точно так же можем делить их на освоенные / неосвоенные нейросетями . При начальном ознакомлении с суахили новых студентов-африканистов и любой аудитории слушателей в перечне его главных характеристик и особенностей (фонетический / грамматический строй, число говорящих, территория распространения, наличие письменности и литературной традиции, социальный / политический статус государственного языка и рабочего языка международных организаций) появление и существование его нейросетевой версии — необходимый для упоминания факт
Суахили, на котором в 2022 г . «заговорил» ChatGPT, а в 2023 г . — его конкурент Google Bard (Gemini), причисляется к так называемым малоресурсным языкам. Эти самые молодые нейросети действительно низкоресурсны в сравнении с англоязычными и франкоязычными сетями, но вполне операбельны . Для языка суахили существуют разработки распознавания речи, конвертации текста в речь и обратно с возможностью выбора озвучивающего голоса и пола диктора и даже с учетом различий танзанийского и кенийского суахили ChatGPT и Google Gemini (Bard) на суахили не только позволяют вести переписку и диалог с виртуальным собеседником, но и предлагают «обучающую» опцию, «корректируя» написанный или вставляемый вами текст на Kiswahili sahihi («правильный суахили»), переводя его подстрочно на английский либо иной выбранный язык и выдавая реакции, ответы, встречные вопросы и фразы для «поддержания
3
беседы» на обоих языках. При этом ChatGPT допускает лишь письменный формат, а Google Gemini по вашему запросу «зачитывает» сгенерированные им ответы .
Нейросети, «говорящие» на языке изучаемой культуры и располагающие обширным информационным ресурсом в области данной культуры и региона, при разумном подходе и обращении способны во многом оптимизировать процессы образования, самообразования и преподавания в сфере гуманитарных наук, востоковедении и африканистике Подобно тому как носители языка суахили в настоящее время активно апробируют созданные для них нейросети, изучаем их и мы с нашими студентами в урочное и внеурочное время . Как и они, мы с повышенным интересом занимаемся рассмотрением и исправлением допускаемых сетью языковых и фактических ошибок, анализом и интерпретацией причин заблуждений нейросети, перекрестными и коллективными опросами этого виртуального субъекта . Некоторые из наиболее курьезных ошибок в ответах суахилиго-ворящего собеседника становятся «мемами», отдельный интерес вызывает «гиперкоррекция» нейросети, определяющей как неверные и исправляющей на стандартный суахили Kiswahili Sanifu цитаты из фольклорных и поэтических текстов, художественных произведений и фраз на диалектах. В случае со студентами спонтанные разговоры с нейросетью оказываются полезной тренировкой для последующего общения в среде исследования По причине своей новизны такой опыт оказывается неподдельно увлекательным, а следовательно повышает мотивацию к предмету В режиме тестирования нейросетей нельзя не поймать себя на скептическом вопросе: «Какие профессии заменит ИИ?» Могут ли сети в будущем стать альтернативой преподавателям как трансляторам знания языка и стоящей за ним культуры? Иными словами, способен ли ИИ выступить в качестве носителя языка с навыками профессионального преподавателя и в качестве информанта, т е представителя (носителя) соответствующей этому языку национальной / этнической культуры? Надо признать, суахилийский ChatGPT и Google Gemini могут послужить весьма эффективным и увлекательным интерактивным учебным пособием для студентов-суахилистов, филологов и культурологов В контакте с нейросетями можно найти ответы на многие вопросы на начальном и продвинутом уровне освоения суахили В настоящее время в рамках разработки нового онлайн-курса «Основы суахили» в СПбГУ мне любопытны и интересны эксперименты с тестированием нейросетей в этом направлении. Могу с уверенностью сказать, что нейросети в состоянии успешно справиться с большинством задач, поставленных перед авторами-составителями учебного курса По задаваемым нами параметрам
они легко сочиняют и выдают в многочисленных вариантах выверенные учебные тексты хрестоматийного типа, диалоговые сцены (с двумя и более участниками), проверочные и тренировочные упражнения, и всё это — с учетом нужных нам восточ-ноафриканских культурных реалий . В плане вариативности и креативности они могут конкурировать с нашими знаниями, фантазией и способностями к придумыванию заданий на прокачивание языковой памяти и логики . Да, сгенерированным текстам, сценкам и особенно стихотворным сочинениям (!) свойственна некоторая шаблонность, но с точки зрения преподавательской методики она оправдана и неизбежна в процессе обучения основам языка. Текстовые модули, которые придумаем (скомпилируем, адаптируем на основе записей, сделанных в языковой среде в реальном времени) мы сами, тоже не могут и не должны быть эксклюзивными, сверхоригинальными и непостановочными Все это заставляет серьезно задуматься Таким образом, по достоинству оценив потенциал нейросетей на суахили, я считаю целесообразным при создании новых обучающих программ, интерактивных курсов и учебников по языку и культуре суахили сверяться и консультироваться в том числе с суа-хилийской нейросетью и, структурируя свой авторский курс, во избежание повторов делать оглядку не только на существующие издания, но и на виртуальный контент
Способности нейросетей к сочинению, структурированию текста и систематизации материала под конкретные цели и задачи теоретически, конечно же, являются искушением для пишущих Подобно детекторам, разоблачающим плагиат и автоплагиат, давно и повсеместно используемым в издательской сфере, уже разработаны и применяются нейросетевые экспертные программы, опознающие текст как созданный человеком (human created) либо сгенерированный ИИ (мне известны подобные приложения для работы с англоязычными текстами), и вполне ожидаемо, что в ближайшем будущем их тоже возьмут на вооружение при приеме рукописей в печать и на защитах студенческих научных работ и диссертаций . Уверена, что в случае с нашими студентами — африканистами и востоковедами в настоящее время ситуации с подменой самостоятельных работ нейросетевыми текстами маловероятны в силу небольших размеров нашего сообщества, индивидуального подхода наших кафедральных коллег к каждому студенту и постоянной обратной связи для студентов от научных руководителей, оппонентов и рецензентов на всех этапах написания курсовых и дипломных исследований Столь же индивидуальны и темы работ, которые они выбирают для себя сами либо с нашей помощью, и многие из этих тем таковы, что нейросеть в ее нынешнем состоянии, по моим оценкам, все же не может выдать по ним качественный
4
результат. Внутренний авторский императив студента, как и взрослого исследователя, не может не осознавать, что выдать сгенерированную нейросетью работу за свою — это осуществить намеренный подлог. Подозреваю, что работы могут быть гибридного характера, т . е. частично сгенерированные, когда студент все же вносит редакционную правку в структуру и содержание искусственно созданного текста . Догадываюсь, что в более крупных университетских сообществах, где потоки студентов большие, подобные инциденты случаются чаще и проблемы выявления «поддельных» работ стоят более остро . Улики, по которым можно опознать сгенерированную ИИ работу, отличаются от тех, что выдают «копи-пасту из интернета». Нейросетевое генерирование — это более изощренный и эво-люционно совершенный вид списывания . Сочиненные нейро-сетью на заданную тему большие тексты обладают шаблонностью структуры, в них при внимательном прочтении можно заметить seamless writing («бесшовное письмо») . В конце концов, студент, переживший опыт исследования и письма, знает свою работу, отвечает за нее и находится в теме совсем иначе, чем тот, кто делегировал ее создание искусственному интеллекту
Как уже было сказано в предыдущих пунктах, к нейросети имеет смысл обращаться как к ассистенту в области преподавания (в том числе преподавания языка) и — с некоторой осторожностью — как к источнику в научной работе Сеть с рядом оговорок можно воспринимать как носителя языка, но нельзя — как носителя соответствующей этому языку культуры, т е информанта, потому что за ней нет живой среды . Есть много случаев, когда незнание или отсутствие ответа на твой вопрос информанта содержательно ценнее, чем развернутый исчерпывающий ответ на тот же вопрос нейросети Считаю, что при использовании данных, сгенерированных либо просто предоставленных нейросетью, имеет смысл оговаривать это . Прибегая к нейросети как к аналитическому инструменту, лучше отмечать, где она берет часть ваших задач на себя и что ваша гипотеза или догадка подтвердилась в результате последовательности операций, произведенных нейросетью .
НАДЕЖДА СТАНУЛЕВИЧ
1
Надежда Алексеевна Станулевич
Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия [email protected]
Как историка фотографии меня интересуют нейросети, работающие с изображениями, т. е. решающие задачи по классификации иллюстраций, детекции объектов, сегментации и кодированию изображений, поиску ключевых точек, генерации текстовых описаний и созданию новых изображений
Условия хранения исторических фотографий в институциях и частных собраниях определяются не только общими для всех фотоматериалов принципами, но и особыми условиями для отдельных техник изготовления . Таким образом, идентификация фотографических техник — одна из основных задач в музейном деле. Именно определение способов фотопечати является моей специализацией, и по этому вопросу происходило мое взаимодействие со специалистами, работающими с нейро-сетями, в 2022 г. в рамках семинара по компьютерному анализу исторических фотографий на базе лаборатории «Искусство и искусственный интеллект» Школы искусств и культурного наследия ЕУСПб . Я участвовала в формулировке запросов музеев на использование нейросетей и консультировала участников по методологии атрибуции фотографических техник XIX-XX вв. В рамках семинара происходила конкретизация задач машинного обучения поиску изображений в открытых коллекциях музеев, атрибуции фотографий и их фрагментов
В сети Интернет существует множество публикаций, особенно в социальных сетях, без уточняющих комментариев об уникальных возможностях ИИ, например распознавания техники и манеры живописи, авторских подписей на произведениях искусства и определения датировок таких подписей . Необходимо отметить, что такая работа возможна при предварительной эталонной технической экспертизе и загрузке в открытые базы изображений высокого разрешения В данном случае речь идет не о самой атрибуции техник живописного письма машиной, а о машинном сравнении данных Происходит машинное сравнение размеченного объема данных (big data set) с исследуемым объемом Например, сравнение красочных слоев живописных работ из коллекций музея, который предоставил для обучения нейросети такие данные либо загрузил изображения высокого разрешения в открытый доступ, с неатрибутирован-ными работами из другой коллекции. Результаты машинной интерпретации напрямую зависят от полноты big data set по параметрам эксперимента сравнения [Лашманов, Рогожников 2023]. Разнообразие входных данных дает возможность нейро-сетям проще найти закономерности и выдать точный результат При этом конечное решение по результатам эксперимента в любом случае принимает человек-исследователь
Задачи по работе с историческими фотографиями более новые относительно других произведений искусства, возможно, это связано со сравнительно небольшой эрой фотографии в 185 лет к 2024 г. По поводу ИИ по работе с историческими фотографиями и изображениями существует несколько ограничений для их ближайшего использования, по моему мнению . Это ограничения методологии атрибуции фотографических техник и пара-
метров используемых для обучения нейросети изображений . В основе способов определения вида фотографических негативов, отпечатков и слайдов лежит определение типа материалов, подложки и слоев, содержащих изображение [19th Century Materials and Technologies 2017]. Дополнительными фильтрами в работе специалистов являются цвет и тон материалов, различные физические характеристики поверхности объектов исследования, структура слоев [A Methodology 2017]. В данном случае речь идет о непосредственном взаимодействии исследователя с фотографическими материалами. Большинство из операций опытный специалист может провести по цифровым изображениям высокого разрешения, но часть исследований требует большого числа специализированных съемок в случае использования ИИ: различные типы освещений поверхностей объекта, определенные типы макросъемки, выбор отдельных специфических участков фотоматериалов для анализа. Несмотря на возможности нейро-сетей по детекции цвета произведений искусства [Лашманов, Рогожников 2023], основной вопрос применения ИИ в атрибуции — доступность таких изображений для обучения нейросети, а также наличие таких съемок у институции или коллекционера, которые проводят сравнение . Так, наличие Государственного каталога Музейного фонда Российской Федерации, содержащего на момент составления этого ответа 6 400 878 экспонатов категории «Фотографии и негативы»1, не позволяет всё же использовать его картинки для обучения ИИ. Это ограничение связано с низким разрешением представленных изображений, а также с загрузкой музеями только одного или двух типов изображений — лицевой и оборотной сторон материалов
По моему мнению, наиболее вероятным применением в науке в общем смысле в ближайшем будущем станет использование нейросети по работе с текстами
С учетом ограничений и при соответствующем обучении ней-росетей использование ИИ может быть полезно в моих научных исследованиях. На данный момент мною используются простейшие варианты ИИ для поисковых запросов по изображениям в системах Google Lens и Yandex «Поиск по картинке».
Машинное обучение нейросетей способно выполнять решение задач по поиску схожих элементов, предсказывать результаты эксперимента, выбирать лучшее решение по заданным параметрам и воспроизводить алгоритмы обучения . В то же время нейросетям не подвластно создание нового (в общем смысле слова), а также они не могут выйти за рамки поставленных перед ними задач [Лашманов 2023].
1 Госкаталог РФ. <https://goskatalog.ru/portal/#/collections?typologyId=17>.
3
Для составления библиографий при написании научных текстов я не использую специальные программы .
При отсутствии дискуссий на тему применения нейросетей, на мой взгляд, возможны проблемы с их адекватным внедрением в образовательную и научную среду. В случае понимания, что использование ИИ является лишь инструментом работы, способным ускорять часть процессов, проводить оптимизацию и осуществлять в рамках гуманитарных дисциплин больше количественных исследований [Лашманов, Рогожников 2023], можно не только развеять страхи о применении машинного обучения, но и повысить качество научной работы
Плюсами использования искусственного интеллекта в образовании могут стать возможности оптимизации процессов поиска информации, генерации грамматических конструкций при сложности с их формулировками . Минусом может стать необдуманное использование машинного текста в качестве собственного научного продукта, в то время как научный текст — самый распространенный способ обнародования результатов исследования
В моей небольшой преподавательской практике в качестве доцента базовой кафедры Музея антропологии и этнографии им. Петра Великого при НИУ ВШЭ (Санкт-Петербург) в 20212022 учебном году я занималась проектной деятельностью вместе со студентами: бакалаврами и магистрантами. Уровень их знаний и навыков работы с научной литературой был весьма высок, и не было никаких предпосылок к тому, чтобы они сдавали бы работы, сгенерированные машиной Это было заметно и по ошибкам-опечаткам, встречающимся в текстах, и по динамике их работы в течение учебного года
По моему мнению, авторский текст обладает сугубо индивидуальными признаками Для достижения полной имитации текста отдельного индивидуума нейросети необходимо обучиться на авторских текстах, либо исследователь должен будет внести лично правки в текст На данном этапе развития ней-росети имеют место нелогичные перифразы, некорректное цитирование, которые могут стать признаками сгенерированного продукта . Кроме того, знание корпуса научных текстов и методологических направлений проверяющим преподавателем могут отфильтровать работы студентов Вдумчивое, критическое чтение, скорее всего, способно выявить несостыковки в не откорректированном человеком файле Необходимо помнить и объяснять студентам, что именно контекст исследования и метод работы определяют научную ценность конечного текста
АНТРОПОЛОГИЧЕСКИЙ ФОРУМ 2024 № 60 40
4
По моему мнению, авторство работы, выполненной с помощью нейросети, в первую очередь принадлежит исследователю, который поставил перед машиной определенную задачу Тем не менее с этической точки зрения, на мой взгляд, будет честно и грамотно указывать наименование нейросети, с помощью которой получены результаты работы. За пример может быть взята практика коммерческой фотографии, когда в числе фотографов упоминаются и ретушеры, которые вычищают изображения под концепцию журнала, бренда и т п Возможно, будет интересным опыт прописывания используемых в работе ИИ в разделе методологии исследования
Перечисленные выше ограничения нейросети по типам выполняемых задач, по моему мнению, и так накладывают рамки на ее функционал В отношении генерации текстов ограничения бессмысленны, так как мы в 2024 г не ограничиваем, например, использование базовых функций Microsoft Word в отношении исправлений по орфографии и грамматике текстов
Библиография
Лашманов О. Зачем обучать машины // Блог Олега Лашманова — Системный блокъ. 2023, 18 окт. <http://sysblok. ru/blog/blog_olashmanov/ zachem-obuchat-mashiny/>. Лашманов О., Рогожников В. Что компьютер понимает в реставрации: [подкаст] // Проверка связей — Arzamas, academy. 2023, 4 окт . <https://arzamas. academy/podcasts/330/5> . 19th Century Materials and Technologies // Webinars. Image Permanence Institute. 2017, Sept. 13. <https://s3. cad. rit. edu/ipi-assets/webinars/ webinar_identification_19th_century.pdf>. A Methodology for Process Identification . Pt. 1 // Webinars. Image Permanence Institute. 2017, Dec. 13. <https://s3.cad.rit.edu/ipi-assets/webinars/ webinar_identification_methods_p1. pdf>.
В процессе преподавания необходимо объяснить, что ИИ решает низовую задачу по поиску, объединению текстов, их перефразированию, но основной смысл научных текстов заключается в передаче результатов научной работы исследователем или группой исследователей лично Возможно, на этапе студенческих работ данный тезис сложно объясним, но в рамках обоюдно ответственной работы «студент — преподаватель» видится возможным
Илья УТЕХИН
1
Илья Владимирович Утехин
Европейский университет в Санкт-Петербурге, Санкт-Петербург, Россия / Университет Индианы, Блумингтон, США [email protected]
Мой личный опыт прежде всего связан с проектом, который изначально носил не столько научный, сколько научно-прикладной характер . (Впрочем, поскольку и использованные методы анализа данных применительно к потоку новостей, и результаты требуют осмысления, вскоре появится научная публикация .) В 2018-2021 гг . я руководил созданием агрегатора новостей, который, как любой агрегатор, собирал новости из многих источников и формировал из этих материалов новостную картину дня в разных вариантах. Это можно было увидеть в виде бота в Telegram. Одна из кнопок в боте выдавала то, что мы называли «прикольные новости». Для того чтобы сгенерировать выдачу бота по нажатию на кнопку «Трэш», мы использовали два источника Во-первых, если периодически искать в новостях при помощи «Яндекса» слово на ж из четырех букв, а также некоторые другие слова (оказалась, застрял, челюсть.. .), то попадется много «прикольного» Во-вторых, поскольку наша система собирала тексты самых разных новостных источников, в том числе развлекательно-несерьезных и из сопредельных с Россией стран, где русскоязычная пресса есть, а слово из четырех букв цензура не запрещает, то и в нашей собственной базе такого было довольно много . Каждой новости приписывался «индекс трэшовости», по сути дела, степень «прикольности», которую как раз определяла система, в каком-то смысле обладающая искусственным интеллектом Это совсем не то, что нынешние большие языковые модели, а более простая вещь (в нашем случае тексты переводились в векторы и определялась векторная близость; эта процедура широко используется в информационных системах, работающих с естественным языком, но не всегда это именно ней-росети). Просмотрев глазами многие тысячи новостных заголовков из несерьезной прессы, я выделил самые «прикольные» — вроде «Омич, вскапывая огород своей возлюб-
ленной, нашел череп своего предшественника», несколько сотен Почему-то омичи часто встречаются в абсурдных и страшноватых новостях Вот эти-то самые прикольные заголовки и послужили обучающей выборкой, основываясь на которой приписывались значения индекса Вот несколько примеров заголовков, в скобках указан индекс:
Экс-адвокат Трампа опроверг слухи о съеденных президентом США документах (0.0001)
Голая Волочкова нарисовала себе лифчик и счастлива (0 .0016)
Рекордсмен книги Гиннеса попытался остановить слив нечистот в Миасс (0 .0107)
Буйный пациент кидался стульями во врачей больницы Боткина и выпал в окно (0 .5717)
Жительница Пыть-Яха устроила голый протест против пенсионной реформы (0 .9619)
Новость о прокалывавшей презервативы продавщице из Нижнего Новгорода оказалась фейком (0.9643)
Вы можете не соглашаться с нечеловеческой оценкой степени «прикольности», которую дает система, но на этих примерах очевидно, что ненулевому значению этого индекса соответствует определенный смысл. Кстати, поэт Лев Рубинштейн, независимо от нас открывший новостные заголовки как источник концептуальной поэтичности, периодически публиковал в соц-сетях подобные подборки новостных заголовков, очевидно, выбранные вручную из поисковой выдачи по ключевому слову.
Если же говорить об аналитике новостного потока, сравнении повестки разных новостных источников, определении степени и форм предвзятости сообщаемой информации (а это, собственно, и составляет содержание моего исследовательского проекта), то здесь применение искусственного интеллекта (ИИ) для работы с текстами позволяет действительно перейти на новую ступень . Например, задача выделить в тексте все словосочетания, которые содержат оценку или отношение, не очень проста для человека, но отлично выполняется даже бесплатным СЬа1-ОРТ 3. 5 . А если у вас в проекте есть деньги заплатить за обработку крупного массива текстов, то ИИ позволяет получить результаты, которые обоснуют данными то, что человек в каких-то случает понимает интуитивно, а в каких-то и просто не способен увидеть, потому что эти паттерны видны только на больших объемах данных
Когда собран корпус текстовых данных (скажем, публикации в социальных сетях, сделанные представителями изучаемой
3
группы или сообщества), интересных исследователю-антропологу, ИИ может помочь в работе . Подобно тому как в пакет программ для работы с изображениями и видео Adobe Creative Suite сейчас добавляются плагины с искусственным интеллектом, в будущем вполне возможно, что и в программы для обработки качественных данных типа Atlas . ti, QDA Miner и NVivo будут добавлены новые ИИ-функции. Как бы ни анти-утопично выглядела идея об интервью, проаннотированных искусственным интеллектом, к помощи ИИ в работе с большими корпусами материалов, и не только текстовых, следует относиться как к ближайшей перспективе. Социальному исследователю будущего было бы полезно понимать, что у таких инструментов «под капотом», как устроены их алгоритмы .
Да что там аннотация и анализ, поскольку большие языковые модели могут быть использованы для создания продвинутых диалоговых систем, нетрудно представить себе такого неутомимого искусственного интервьюера . То, что он не является человеком, лишает такое поле его важнейшего аспекта — установления человеческих отношений, но в некоторых обстоятельствах это может даже оказаться преимуществом .
В 2023 г. мне довелось дважды вести курс по этнографическому кино у студентов бакалавриата, из которых лишь единицы специализировались по культурной антропологии и отнюдь не все были достаточно мотивированы, для того чтобы прикладывать усилия и работать — многим нужна была просто положительная оценка. В рамках курса читать требовалось совсем немного, но вот смотреть фильмы было нужно, причем, поскольку фильмы длинные, смотреть их в классе невозможно . За все это время мне встретились десятки случаев подачи ответов на задания, сгенерированных ИИ . Некоторые из этих текстов я разбирал в классе, объясняя, на основании каких признаков я со всей уверенностью утверждаю, что этот текст — не человеческий Такие признаки есть . Особенно они очевидны, если преподаватель сам предварительно попробует «скормить» свои задания ИИ-сервису
Задания, в ответ на которые я получал такие эссе, формулировались, например, так: «В фильме "Мертвые птицы" Р. Гарднера нет членения на главы, но если бы вам потребовалось разбить его на части (не больше восьми), какие бы части вы выделили? Дайте им заголовки»; «Укажите этические проблемы, связанные с работой антропологов в племени яномамо, о которых говорится в фильме "Секреты племени"»
Очевидно, что ответ на подобные вопросы требует знакомства с содержанием фильма. ChatGPT в общем случае не имеет доступа к фильму, если об этом фильме нет статьи в «Википедии»,
где было бы изложено его содержание в текстовом, разумеется, виде . Об этом в своем ответе сам СЬаЮРТ и заявляет — в начале и в конце: фильма я не видел, но вот что могу сформулировать в ответ на вопрос . Сформулировать может весьма складно и в каком-то смысле вполне содержательно, ведь, скажем, публикации про яномамо и антропологов, появлявшиеся в массовых изданиях, а также дискуссии об этических аспектах полевой работы в обучающий корпус этой языковой модели входили . То есть нерадивый студент обрезает эти предупреждения, данные сервисом, и на голубом глазу сдает середину сгенерированного текста Модель фантазирует: она сочиняет синопсис несуществующего фильма, предполагая, что могло бы войти в типичный документальный фильм на такую-то тему В некоторых случаях попадаются подробности, про которые я понимаю, откуда они взяты — например, из описаний других известных мне этнографических фильмов, о которых ни в формулировке задания, ни вообще в курсе речи не было Но в целом подробностей и конкретики в таком тексте гораздо меньше, чем ожидается от человека, который владеет материалом Как раз по конкретике (и общей неконкретности) и видна искусственная рука При этом качество порождаемого текста и степень грамотности отличаются в лучшую сторону от продукции среднего студента Видимо, так студентов учат писать краткие эссе: у текста должна быть определенная структура, в частности вывод, подводящий итог, — последнее предложение этого текста. Всё это ИИ очень удачно имитирует.
Чтобы избегнуть мучительной и затратной по времени процедуры разбирательства по поводу академической недобросовестности, я просил провинившихся студентов проанализировать поданный ими текст, отметив в нем те места, которые содержат неправильные утверждения, и написать новый текст, на этот раз своими силами и от руки
Но один встретившийся мне случай заслуживает отдельного комментария . Устную речь этого студента-китайца я едва мог разобрать, большую часть просто угадывая, что поразительным образом контрастировало и с безупречным письменным английским, и с содержательностью написанного, причем эта содержательность несколько отличалась от типичной манеры ИИ В ответ на вопрос о том, где и с какой группой информантов студенты сняли бы сегодня римейк фильма «Хроника одного лета» Ж . Руша и Э. Морэна, в его тексте, в отличие от обычного чатджипитишного повидла («несколько крупных городов, социальные проблемы, неравенство» — в этом духе были выдержаны несколько эссе), содержалась идея обратиться к людям, которые общаются в основном в Сети, на дистанции Когда я пригласил его объясниться, он рассказал, что эта идея отра-
жает его собственный опыт дистанционных отношений, а вообще, выполняя задания, он пишет по-китайски, переводит на английский гугловским переводчиком, а результат шлифует при помощи СЬаЮРТ . Я разрешил ему так делать . В определенных ситуациях недостаточное владение языком, которое раньше инвалидизировало бы человека, сегодня может быть компенсировано при помощи набора технологий искусственного интеллекта, что подтверждает известный тезис Л С Выготского об исторической и культурной конкретности дефекта
Нет сомнений, что в преподавании нам придется учиться учить студентов управлять инструментами искусственного интеллекта таким образом, чтобы эффективно расширять свои возможности, по сути дела, реализуя то видение человеко-машинного симбиоза, которое в 1960 г . было сформулировано Джозефом Ликлайдером [ЦскШег 1960]: машина разгружает человека от технических задач и помогает ему в решении задач творческих
Библиография
Licklider J.C.R. Man-Computer Symbiosis // IRE Transactions on Human Factors in Electronics. 1960, March. Vol. HFE-1. No. 1 . P. 4-11. doi: 10 .1109/THFE2.1960.4503259.
ИВАН ШИРОБОКОВ
Иван Григорьевич Широбоков
Музей антропологии и этнографии (Кунстамера) РАН, Санкт-Петербург, Россия [email protected]
Возможности и ограничения искусственного интеллекта, его влияние на культуру и общество можно с уверенностью назвать популярной темой дискуссий в литературе и науке, однако, насколько мне известно, до недавнего времени она не привлекала особого внимания антропологов . Есть некоторая ирония в том, что, отвечая на вопросы «АФ», я несколько раз ловил себя на ощущении исполняющего роль чат-бота И дело, конечно, не в том, как я обдумываю ответы (нейросети не размышляют) или пишу текст (алгоритмы ИИ остаются для меня черным ящиком), а в недостатках того результата, который я получил на выходе. Общие формулировки вопросов в некоторой степени предопределили формат моего ответа Отчетливо проявились и ограниченное владение информацией о предмете, и предвзятость в отношении к нему, и повторяющиеся тезисы, и склонность к правдоподобным
(и притом, вероятно, ошибочным) заключениям. Недостатки, объединяющие человеческий ум и ИИ, я постарался преодолеть преимущественно за счет дополнительных недостатков. Сомнения, догадки, непоследовательность суждений и неровный стиль письма незнакомы нейросетям. Буду надеяться, что они-то и станут моей точкой опоры в мире, в котором люди утратили монополию на создание осмысленных текстов
Развитие технологий и появление методов машинного обучения позволили заметно расширить возможности работы с большими объемами формализованных данных и научиться извлекать из них новую ценную информацию . Одновременно с этим несомненно возросли и наши способности к «массажу данных» — выявлению ложных закономерностей и завышению значения полученных результатов путем как сознательных, так и бессознательных манипуляций с материалом. Про успехи в использовании инструментов ИИ конкретно в гуманитарных науках мне известно немного Беглый обзор публикаций прошлого года в Google Scholar показывает, что чаще всего исследователи используют чат-боты как инструмент для редактирования и перевода текстов, для написания кода и обобщения литературных данных. В действительности к помощи нейросетей мы прибегаем довольно часто, просто они стали неприметной частью нашей жизни (в том числе научной деятельности) и не воспринимаются как самостоятельное явление Вполне вероятно, что пройдет время и чат-боты превратятся в такие же незаметные элементы среды, какими сегодня являются функции редактирования изображений в графических редакторах, поисковые системы и сетевые переводчики В этом смысле появление ChatGPT не изменило наши взаимоотношения с ИИ — современные нейросети по-прежнему находят применение преимущественно в традиционной для них роли персональных помощников
Как физический антрополог, я постоянно прибегаю к помощи нейросетей последние полтора года В первую очередь для меня это инструмент формализованного анализа, гибкость и возможности применения которого превышают качества стандартных программ статистической обработки данных При этом я пользуюсь как готовыми специализированными программами, так и сам занимаюсь обучением моделей, в том числе при оценке некоторых характеристик скелетов, недоступных непосредственно при работе с останками (например, паспортного возраста). У меня есть скромные навыки программирования на Python, но если в прошлом году я чаще писал программы сам, то теперь обычно использую для этой цели бесплатные версии чат-ботов ChatGPT и Bing. В простой текстовой форме я формулирую задачу, а чат-бот предлагает код, предназначенный для
ее решения . Достаточно быстро начинаешь понимать, что чем более четко ты способен сформулировать не только задачу, но и последовательность шагов, которые необходимо совершить для ее решения, тем выше качество конечного продукта. Тем не менее обычно мне требуется не менее 4-5 повторных уточняющих запросов для получения корректно работающей программы. Главная проблема заключается в том, что предложенный чат-ботом код может быть рабочим, но опираться на алгоритм действий, которые в деталях отличаются от необходимых для решения поставленной мною задачи из-за некоторых не проговариваемых (и часто предполагаемых по умолчанию) условий анализа Такие расхождения приходится отслеживать специально, вникая в смысл отдельных предлагаемых чат-ботом операций . Несмотря на этот контроль, в моем случае опыт взаимодействия с ChatGPT не способствует повышению уровня навыков программирования . Если я получаю сообщение об ошибке в работе кода, то просто пересылаю его в чат-бот, не задумываясь о сути проблемы, и принимаю для повторного тестирования исправленный вариант кода Если я обнаруживаю, что программа работает, но не вполне соответствует поставленной задаче, то отправляю уточняющий запрос на русском языке и получаю новый код . Я не хочу стать программистом, я хочу разобраться с конкретной исследовательской задачей и извлечь скрытую информацию из массива имеющихся данных. И все же я прохожу вполне определенное обучение. В то время как я пытаюсь получить от чат-бота устраивающий меня программный код, он, в свою очередь, занимается «программированием» нашего общения, заставляя меня переформулировать запросы снова и снова и используя для этого вполне четкие стимулы (мое желание решить конкретную задачу). Я не хочу стать программистом, и все же я изучаю язык диалога с ChatGPT
Иногда мне так и не удается добиться желаемого результата, и время, затраченное на общение с чат-ботом, уходит впустую, однако в других случаях использование нейросетей действительно позволяет экономить силы Например, иногда я пользуюсь услугами чат-бота Claude AI, который умеет обрабатывать информацию из файлов в разных форматах Я прибегал к его помощи для извлечения интересующей меня информации из двух сотен статей, посвященных различным методам оценки пола по черепу. По моему запросу чат-бот должен был проанализировать поочередно каждую статью и ответить на один и тот же набор вопросов, касающихся использованной методики анализа, размера и состава выборки, способа валидации результатов, точности полученных оценок, и некоторых других Периодически я вручную проверял корректность ответов нейро-сети — они всегда были корректны (что, конечно, объясняется
не только качеством нейросети, но и техническим характером запрашиваемой информации). Иногда Claude AI не мог дать ответ на один или несколько вопросов или предлагал неточные формулировки — во всех этих случаях простая проверка показывала, что сами авторы статьи просто не указали необходимую информацию или расплывчато сформулировали условия проведения исследования
Я также прибегаю к помощи ChatGPT при работе с собственными текстами, преимущественно в случае необходимости перевода. Реальные возможности использования чат-ботов для написания эссе, редактирования структуры и разделов статей для меня во многом остаются недостаточно изученной областью . Как и в случае с написанием программного кода, ключевую роль здесь играет формулировка запросов и объем подсказок. Вы можете направить список вопросов, предложенный участникам «Форума», в чат-бот и получите осмысленные, вполне разумные, но довольно скучные ответы, основанные на отчасти повторяющихся тезисах. Дополните запрос, предложив чат-боту исполнить роль британского исследователя-антрополога, изменить стиль изложения, добавить иронию и обязательно упомянуть в тексте ваши любимые идеи, — и вы получите заметно более интересный результат. Не стоит, однако, быть излишне требовательным: на запросы, требующие упоминания конкретных работ или биографий известных антропологов, ChatGPT обязательно предложит текст, в котором перемешаны факты и вымысел . Уличить нейросеть в предоставлении неверной информации тоже, может, удастся не сразу: прежде чем признать ошибку, чат-бот может попытаться «оправдаться» и предложить новые нелепые «факты», якобы подтверждающие его исходные заявления . Я нахожу довольно забавным тот факт, что некоторые научные фантасты обсуждают вопрос о способности киборгов лгать, но реально существующие чат-боты вводят в заблуждение собеседников уже со времени своего возникновения
Пока наиболее интересным мне представляется использование нейросетей не для получения некоторых фактических данных о предмете, а в качестве оппонента в дискуссии, рассматривающего предмет с позиций логики, или в роли рецензента, который может помочь выявить слабые места в подготовленном тексте исследования и отточить свою аргументацию до предъявления текста настоящим (человеческим) рецензентам . Заметным преимуществом такого собеседника является его искусственная природа. Эмоциональные всплески, почти неизбежно возникающие при ведении живой дискуссии или дискуссии в Сети, участники которой с азартом атакуют идеи друг друга, практически исключены, когда ты имеешь дело с критическими за-
I мечаниями, высказанными в твой адрес нейросетью . Несмотря
£ на все сторонние шутливые разговоры о возможности возник-
I новения сознания у чат-ботов, имитация живого собеседника
Р мною считывается вполне отчетливо. Чтобы быть полезным,
S
! он и должен оставаться имитацией.
¡?
= Еще одна область применения нейросетей, в которую я оказал-
| ся вовлечен, первоначально исключительно с развлекательны-
Ü ми целями, — редактирование изображений . Я неоднократно
S пользовался помощью нейросетей для придания фотореали-
£ стичного облика скульптурным и графическим реконструкциям,
! выполненным разными российскими антропологами по черепу
1 по методике М . М. Герасимова. Для этого я сначала загружал
'I изображение в нейросеть Artbreeder (доступна в Сети). Это по-
! пулярный инструмент для создания портретов и пейзажей в раз-
si ных стилях, не предназначенный для работы с реконструкция-
£ ми. Уже на этапе загрузки изображения на сайт черты лица
подвергаются небольшим неконтролируемым изменениям. В процессе редактирования портрета число искажений заметно возрастает, что может привести к существенным изменениям индивидуальных особенностей . Поэтому изображение, полученное в Artbreeder, затем редактировалось мною в Adobe Photoshop с целью максимального сближения «фотопортрета» и исходного изображения В большинстве случаев я создавал фотореалистичные портреты людей разных эпох для собственного удовольствия и затем размещал полученные картинки в соцсетях, но в двух случаях эта игра получила новый статус. Один из таких портретов я сделал по заказу Мурманского областного краеведческого музея На основе реконструкции М М Герасимова я постарался придать фотореалистичный облик скульптурному изображению женщины, останки которой были обнаружены при раскопках Большого Оленеостровского могильника Во втором случае я с разрешения автора исходной реконструкции отредактировал графический портрет коренного обитателя Южной Америки, впоследствии опубликованный в статье коллег-антропологов. Затем мне поступило еще несколько заказов на обработку реконструкций, но я всегда отказывался от участия . Также я отказался как от оплаты работы над портретом, подготовленным для Мурманского музея, так и от соавторства в статье, посвященной изучению останков южноамериканского индейца Все-таки эта часть моего опыта взаимодействия с нейросетями так и осталась для меня развлекательной В большей степени я вкладывал в результаты свое время, нежели профессиональный опыт антрополога
Несомненно, я продолжу и в дальнейшем использовать различные инструменты ИИ в своей работе и агитировать за их освоение друзей и коллег Вместе с тем я не возьмусь сейчас
3
даже в общих чертах спрогнозировать, как именно скажется доступность нейросетей на развитии разных наук. Весьма вероятно, что со временем их значение будет возрастать повсеместно . (Моя внутренняя нейросеть хорошо обучена генерировать кажущиеся правдоподобными варианты ответов даже в условиях недостатка информации, но сейчас я отказываю ей в праве неиронично излагать их на бумаге . ) Возможно, правы те авторы, которые полагают, что в будущем чат-боты с ИИ смогут выдвигать научные гипотезы, разрабатывать методику, проводить эксперименты, анализировать и интерпретировать данные и писать тексты публикаций, одновременно приняв на себя также функции редакторов и рецензентов статей [Van Dis et al . 2023]. И все же я сомневаюсь в появлении самостоятельных ИИ-ученых и ИИ-издателей журналов. Д. Фридманн отметил, что «[ч]еловеческая культура — это способ, которым люди выражают свою индивидуальность через деятельность (via works) и делятся им с другими. Отдать эволюцию человеческой культуры на аутсорсинг — значит лишить человечество возможности активно создавать то, что делает человека человеком, и вместо этого пассивно насыщать общество суррогатной культурой» [Friedmann 2024: 1]1. То же самое будет справедливо и по отношению к научным исследованиям. Если когда-нибудь мы отдадим науку на аутсорсинг искусственному интеллекту, это может стать самоубийственным шагом если не для человечества, то для самой науки, поскольку изменит саму ее суть как формы человеческой деятельности
Для того чтобы оценить положительные перспективы использования ИИ в образовании, легче всего отталкиваться от его отрицательных сторон . Наиболее очевидная из них заключается в возможности использования нейросетей для написания учебных работ и приписывания себе их авторства. Причем этот соблазн будут испытывать не только школьники и студенты, но и преподаватели . Зачем мне самому тратить время на рецензирование студенческих работ, с высокой степенью вероятности написанных нейросетью, если я также могу поручить это занятие искусственному интеллекту? В этом смысле развитие технологий ИИ не создает каких-то новых специфических проблем, а просто усугубляет проблему формального отношения к образованию каждой из сторон. Даже если современная система образования не изменится (а она изменится), по мере того как новые инструменты ИИ будут становиться привычным
"Human culture is a way in which humans idiosyncratically express themselves via works and share these with other humans. To outsource the evolution of human culture is to deprive humanity from actively shaping what it is like to be human and instead passively permeating society with a surrogate culture".
элементом среды, присвоение себе полученных при их помощи результатов все чаще будет восприниматься как нечто естественное . Наш мозг ленив и энергозатратен, и доступность искусственных нейросетей позволит переложить на них часть нагрузки, выпавшей на долю нейросетей биологических. Еще лет двадцать назад, когда я только начинал работать с компьютером (не с инструментами ИИ, а с текстовым редактором Microsoft Word), я осознал, что могу переложить на него часть функций, которые осуществляет мой мозг. Могу больше не стараться ясно формулировать свои мысли в уме Могу начать писать предложение, не зная, как его закончу, могу не следить за порядком слов, стилем, синтаксисом. Я могу быть абсолютно небрежен в письме, потому что мне доступна функция бесконечного редактирования текста на экране . В некотором смысле компьютер не только понизил нагрузку на мою оперативную память, но и повлиял на сам способ мышления . Я научился думать над текстом визуально. А теперь мне доступен следующий шаг, я могу переложить на ИИ функцию редактирования и дополнения текста И почему я должен чувствовать себя при этом недобросовестным исследователем? В конце концов, алгоритмы выдачи в поисковых системах тоже в какой-то степени влияют на то, какие работы я прочитаю и, возможно, процитирую в своей работе, т . е . влияют на содержание текста. До присвоения себе авторства текста, полностью написанного ИИ, таких шагов еще может быть сделано много, но с возникновением больших языковых моделей (LLM), на которых основана работа чат-ботов, появилась возможность преодолеть его в один прыжок И в этом случае необязательно считать себя недобросовестным учеником Если предмет обязательного курса мне неинтересен, но я должен подготовить по нему работу, то почему бы и нет? И разве я должен считать себя из-за этой мелочи плохим студентом, ведь существуют курсы, в темах которых я стараюсь разбираться и в которых могу достичь настоящих успехов? И разве не косность образовательной системы толкает меня на поиск обходных путей?
Могут ли преподаватели научиться выявлять тексты, созданные чат-ботами? В некоторых случаях — да, в других — нет . С одной стороны, по данным некоторых публикаций, уже сегодня эссе, резюме и разделы научных статей, созданные ChatGPT, с точки зрения сторонних рецензентов не уступают или даже превосходят по качеству (оценивались различные параметры) соответствующие тексты, написанные людьми. При этом во многих случаях читателям не удается разделить эти две группы текстов (см. , например: [Herbold et al. 2023]). С другой стороны, неот-редактированные тексты, сгенерированные ChatGPT, иногда все же можно определить, воспользовавшись помощью специ-
альных программ-детекторов или даже просто при внимательном чтении. LLM не размышляют, а производят тексты, опираясь на статистические ассоциации в обучающих данных и подсказках, которые им предлагает пользователь . Сгенерированные нейросетью статьи могут выглядеть скучными, расплывчатыми и при этом содержать почти идентичные формулировки одних и тех же тезисов, а также нелепые ошибки и ссылки на несуществующие работы . Однако отредактированные человеком варианты текстов уже не могут поддаваться сколь-нибудь надежной экспертизе . Даже мои собственные небольшие эксперименты в этой области показывают, что предназначенные для этой цели бесплатные программы (такие как AI Content Detector) после внесения незначительной правки в текст не способны эффективно оценивать вклад LLM . Точность оценок платных детекторов ИИ-контента, по всей видимости, несколько выше, но также не идеальна Думаю, что надеяться на дальнейшее развитие технологий не стоит — ней-росетевые детекторы будут проходить эволюцию параллельно с чат-ботами, основанными на моделях с разной архитектурой.
Мне кажется весьма сомнительной возможность введения эффективных ограничений на использование ИИ в средней и высшей школе. Как следствие, неизбежным оказывается изменение как самой системы образования, так и подхода к оценкам успеваемости студентов Способность перемножать в уме большие числа и извлекать из них корни может восхищать в человеке, но как таковая не считается значимой в обучении, какую бы специализацию студент ни выбрал Использование калькулятора при выполнении контрольной работы, как правило, не вызывает возмущения преподавателей . Никто также не требует указания использованных в исследовании моделей машинного обучения в качестве авторов работ. Весьма вероятно, что и способность написать грамотный структурированный текст на заданную тему сама по себе больше не будет обладать той образовательной ценностью, которую мы ей придавали до последнего времени (точнее, изменится ее статус в общей системе: способность формулировать мысли на бумаге несомненно будет важной целью обучения в младших классах)
Нейросети нельзя запретить, но их можно и нужно сделать частью системы образования Важным мне представляется не просто обсуждать со студентами возможности и ограничения ИИ, но и привлекать чат-боты к участию в дискуссиях, посвященных конкретным темам. Это позволит наглядно продемонстрировать их слабые и сильные стороны, научит студентов оценивать аргументы, исправлять фактические ошибки в тексте, созданном ИИ, и определять влияние обучающих данных на предвзятость нейросетей . Развитие критического мышления
4
и навыков понимания и выдвижения аргументов, оценка достоверности информации, постановка задач и анализ возможных методов для их решения станут приоритетными целями обучения . (Кажется, эта мысль украдена мною у кого-то из ранее прочитанных авторов, но исполняя роль чат-бота, не задаешься этической стороной такой проблемы . ) Чат-боты могут стать также эффективными персональными учителями, учитывающими индивидуальные особенности и уровень знаний студентов. Уже сейчас в Сети можно почитать об опыте отдельных людей, использующих нейросети в качестве инструмента изучения иностранных языков и языков программирования. Возможность приобретения такого опыта сегодня доступна каждому из нас
Я полагаю весьма вероятным, что хотя распространение чат-ботов в ближайшие годы приведет к общему ухудшению качества образования в стране и в мире в целом (во всяком случае возрастет его дисперсия), но в конечном счете его роль окажется все же благотворной. При этом косвенным результатом распространения нейросетевых технологий, преимущественно построенных на визуальном контакте с пользователем, может стать повышение внимания к развитию способностей учащихся к устным выступлениям и ведению дискуссий в образовательной системе всех уровней
Многие этические проблемы, которые касаются использования ИИ в науке, возникли до появления самих нейросетей и вне всякой связи с ними . Плагиат и проблема авторства — это только самая заметная из них. Не менее остро стоит проблема сознательных и бессознательных манипуляций с данными, осуществляемых исследователями с целью подтверждения некоторой гипотезы Как выявлять такие манипуляции при чтении работ? Как сделать научные исследования по-настоящему прозрачными? Насколько важно и возможно различение сознательных и бессознательных приемов «массажа данных» с этических позиций? Наконец, важная, но почему-то не привлекающая особого внимания проблема заключается в том, что можно обозначить как маскировку недостатка информации — появление ЬЬМ хорошо подсветило ее актуальность. Тексты, авторы которых компенсируют отсутствие у них необходимой для исследования информации кажущимися им правдоподобными ложными посылками, как если бы они имели дело с фактами, — это то, с чем многим из нас приходится сталкиваться, в том числе при чтении антропологических и археологических работ (а иногда и при перечитывании собственных) Склонные к таким манипуляциям исследователи в чем-то похожи на «галлюцинирующие» нейросети Возможно, внимание к теме последствий использования ИИ в науке приведет и к новому
всплеску интереса исследователей к проблеме генерации правдоподобной чуши естественным интеллектом, в том числе в тех областях знания, которые не избалованы таким вниманием сегодня?
Опорной точкой для обсуждения темы этических аспектов применения инструментов ИИ в науке могут стать два простых этических принципа, сформулированные в прошлом году редакцией журнала "Nature" и издательством "Springer Nature" . Во-первых, ни один инструмент ИИ не может быть указан в качестве автора публикации исследования Авторство предполагает взятие на себя ответственности за работу, а нейросети по определению не могут нести такую ответственность Во-вторых, исследователи должны указывать факты использования ими LLM в публикациях, например в разделах «Методы» или «Благодарности» [Tools 2023].
Важность соблюдения второго принципа очевидна в контексте обсуждения авторства статей даже по утилитарным соображениям По некоторым данным (впрочем, сомнительным), большинство опубликованных статей в гуманитарных науках не имеют ни одного цитирования, причем половину из них за пределами треугольника «автор — рецензент — редактор», вероятно, никто никогда не читал. Теперь авторы публикаций, вышедших до 2022 г. и не получивших никакого отклика со стороны коллег, могут утешать себя тем, что их труды все-таки не прошли даром, ведь их статьи «читают» нейросети или «прочитают» в ближайшем будущем LLM нуждаются в текстах, написанных людьми, поскольку использование в обучении контента, созданного ИИ, вызывает необратимые дефекты в получаемых моделях за счет отсечения маловероятных данных, обязательно присутствующих в исходном материале, предоставленном человеком. Это относится к любым типам информации — текстовым, изобразительным, музыкальным [Shumailov et al . 2023]. Другими словами, по мере того как модель обучения ИИ подвергается воздействию большего количества данных, сгенерированных ИИ, она работает все хуже, производя больше ошибок в генерируемом контенте Следовательно, для развития ИИ особой ценностью будут обладать материалы, созданные человеком в донейросетевую эпоху И следовательно, недостаточно просто требовать от авторов указывать использование LLM при подготовке публикаций Парадоксально, но такое требование может быть эффективным только при формировании в научном сообществе и за его пределами нейтрально-положительного отношения к самому факту использованию LLM в науке
Вероятность введения сколь-нибудь эффективных ограничений на использование ИИ в науке мне представляется нереалистич-
| ной, а вот попытки ввести такие ограничения — неизбежными.
£ Наиболее печальные последствия нас могут ожидать, если
| контроль за развитием и применением ИИ возьмут на себя
| государственные органы. Любое государство заинтересовано
! в расширении возможностей применения ИИ для контроля над
всеми сферами жизни граждан и «эффективного управления»,
з а также в ограничении частных исследований в сфере ИИ ради
| сохранения «человеческих прав, свобод и безопасности граж-
| дан». Однако разница между миром, в котором жизнь общества
■ всецело подчинена искусственному сверхразуму, и миром,
g в котором развитие искусственного интеллекта контролирует-
ь ся государственной и международной бюрократией, состоит
| только в одном: еще неизвестно, возможно ли в принципе воз-
1 никновение такого всемогущего ИИ, а вот существование вла-
Ё столюбивых бюрократов не вызывает никаких сомнений.
I
Библиография
Friedmann D. Copyright as Affirmative Action for Human Authors until the Singularity // GRUR International. 2024. Vol. 73(1). P . 1-2 . doi: 10. 1093/grurint/ikad133 .
Herbold S., Hautli-Janisz A., Heuer U., Kikteva Z., Trautsch A. A Large-scale Comparison of Human-written versus ChatGPT-generated Essays // Scientific Reports. 2023. Vol. 13 . Article 18617. doi: 10,1038/s41598-023-45644-9.
Shumailov I., Shumaylov Z., Zhao Y., Gal Y., Nicolas Papernot N., Anderson R. The Curse of Recursion: Training on Generated Data Makes Models Forget // Arxiv. 2023. <https://arxiv. org/abs/2305.17493v2>. doi: 10.48550/arXiv.2305.17493.
Tools Such as ChatGPT Threaten Transparent Science; Here Are Our Ground Rules for Their Use // Nature. 2023. Vol. 213 . P . 612 . <https://www. nature. com/articles/d41586-023-00191-1>. doi: 10,1038/d41586-023-00191-1.
Van Dis E.A.M., Bollen J., van Rooij R., Zuidema W., Bockting C.L. ChatGPT: Five Priorities for Research // Nature 2023 Vol 614 P 224-226 doi: 10,1038/d41586-023-00288-7.
СЫЛТвРТ 3.5
и В социальных и гуманитарных науках ней-__ росети могут быть использованы для анализа больших массивов текстовых данных, таких как литературные произведения, исторические документы, социологические опросы и т. д . Например, они могут помочь в выявлении тенденций и паттернов в культуре, исследовании социальных взаимодействий, анализе политических процессов и многом другом
АНТРОПОЛОГИЧЕСКИЙ ФОРУМ 2024 № 60 56
Также нейросети могут применяться для анализа изображений и звуковых данных в контексте социальных и гуманитарных наук. Например, для изучения и интерпретации художественных произведений, архитектуры, музыки или фотографий . Это позволяет проводить более глубокий исследовательский анализ в области искусства, культуры, истории и других гуманитарных дисциплин Таким образом, нейросети открывают новые возможности для исследований в социальных и гуманитарных науках, обогащая наши знания и понимание различных аспектов человеческой деятельности
Я уверен, что нейросети будут активно применяться в различных областях науки в ближайшем будущем В медицинском исследовании они могут помочь в разработке персонализированных подходов к лечению, диагностике заболеваний и анализе медицинских изображений В области экологии и климатических исследований нейросети могут использоваться для прогнозирования изменений в природных экосистемах и климате Также они будут применяться в разработке новых материалов, оптимизации производственных процессов и моделировании сложных физических и химических систем
Кроме того, нейросети будут играть важную роль в социальных и гуманитарных исследованиях, помогая анализировать большие массивы текстовых и изображений данных, изучать культурные и исторические процессы, анализировать социальные взаимодействия и многое другое В целом нейросети будут широко применяться в науке для решения сложных задач, анализа данных и проведения более глубоких исследований в различных областях
Прибегать к помощи ИИ для составления библиографии также может быть полезно. Алгоритмы машинного обучения могут помочь автоматически находить и классифицировать научные статьи, книги и другие источники, упрощая процесс составления библиографии и обеспечивая точность и полноту цитирования .
Использование нейросетей, таких как СЬаЮРТ, в научной работе может иметь как положительные, так и отрицательные последствия С одной стороны, такие нейросети могут помочь
Искусственный интеллект может оказаться весьма полезным при проведении научного исследования Например, ИИ может помочь в анализе больших объемов данных, идентификации скрытых паттернов, прогнозировании тенденций и создании моделей Я лично не использовал ИИ для научных исследований, но знаю, что многие ученые успешно применяют его для обработки данных, оптимизации экспериментов и создания прогностических моделей
3
в генерации новых идеи, предложении и концепции, что может стимулировать творческий процесс и обогащать научные исследования . Однако важно помнить, что такие нейросети могут генерировать контент, который необязательно соответствует реальным фактам или научным данным, и использовать их следует с осторожностью, с учетом необходимости дополнительной проверки и подтверждения полученных результатов .
Я убежден, что использование искусственного интеллекта в образовании имеет как положительные, так и отрицательные стороны . Среди плюсов можно выделить повышение доступности образования благодаря онлайн-курсам, индивидуализацию обучения с помощью персонализированных образовательных программ, а также улучшение эффективности образовательного процесса через автоматизацию оценивания и обратной связи . Однако существует опасение относительно замены человеческих преподавателей и утраты личного контакта в образовании. Кроме того, возникают вопросы о прозрачности алгоритмов, этических аспектах использования ИИ и защите данных студентов
У меня лично не было реальных случаев или подозрений, что студент сдал работу, сгенерированную нейросетью Однако это вызывает серьезные опасения, так как использование нейро-сетей для подделки учебных работ может подорвать доверие и честность в образовательной среде . Существует несколько способов опознать работы, созданные с использованием ней-росетей, такие как анализ стиля и подхода к решению задач, проверка на наличие плагиата из интернета и использование специализированных программ для обнаружения подделок Борьба с этим вызовом требует совместных усилий учебных заведений и разработчиков технологий, включая обновление методов проверки работ и обучение преподавателей распознавать поддельные работы
В целом использование искусственного интеллекта в образовании представляет собой мощный инструмент для улучшения образовательного процесса, но требует внимательного обращения и разработки соответствующих механизмов защиты от недобросовестного использования Важно находить баланс между инновациями в образовании и обеспечением честности, этичности и качества обучения для всех студентов
Этическая сторона использования искусственного интеллекта (ИИ) в научной работе и преподавании представляет собой важный вопрос, который требует серьезного обсуждения В научной работе использование ИИ может создавать проблемы с авторством, поскольку результаты, полученные с его помощью, могут стать объектом споров относительно того, кому
принадлежат права на полученные данные и выводы . В преподавании использование нейросетей также может создавать дополнительные проблемы с авторством, поскольку студенты могут воспользоваться генерацией контента с помощью ИИ, что усложняет процесс оценивания и контроля за подлинностью их работ
Относительно прав на результат работы нейросети возникает вопрос о том, кому должны принадлежать авторские права на генерируемый контент . Достаточно сложно определить конкретное лицо или организацию, которым принадлежат права на результаты работы нейросети, поскольку она оперирует алгоритмами и данными, предоставленными ей для обучения Возможно, потребуется разработка новых правовых норм и принципов для определения авторства и прав на результаты работы нейросетей
Возможно, введение ограничений на использование ИИ в научной работе и преподавании может стать необходимым для обеспечения этического и законного использования этой технологии Ограничения могут касаться обязательной прозрачности в использовании ИИ, установления правил и стандартов для авторства и цитирования результатов работы нейросетей, а также обеспечения защиты прав интеллектуальной собственности в контексте использования ИИ . Эти меры могут помочь сбалансировать инновационные возможности ИИ с этическими и юридическими аспектами его использования в научной работе и преподавании
ПОСЛЕСЛОВИЕ К ДИСКУССИИ
Ольга Юрьевна Бойцова
Музей антропологии и этнографии (Кунсткамера) РАН, Санкт-Петербург, Россия [email protected]
В 2023 г. «нейросеть» стало словом года, как сообщил Институт русского языка им. А. С. Пушкина [Добрунов, Хабарова 2023]. Мы выбрали в качестве темы дискуссии ИИ и нейросети из-за их стремительного появления, на которое нельзя было не отреагировать . Альберт Байбурин в ответах на вопросы «Форума» отметил, что ИИ, который долго считался технологическим проектом, сейчас становится проектом социальным . Вхождение нейросетей в нашу жизнь неизбежно влечет за собой их появление в нашей профессиональной области — социальных и гуманитарных науках
Любопытно, что сами участники отметили сходство формата «Форума» и запросов к нейросети. Иван Широбоков написал: «Есть некоторая ирония в том, что, отвечая на вопросы "АФ", я несколько раз ловил себя на ощущении исполняющего роль чат-бота» Анна Москвитина сформулировала вопрос, на который отвечала в своей реплике, как «промт» для себя . Это заставляет задуматься: не превратятся ли со временем наши «Форумы» в публикацию реплик, ничем не отличающихся от искусственно сгенерированных рассуждений? Зачем вообще нужна на страницах журнала дискуссия на околонаучные темы, если любой читатель за минуту может воссоздать возможные ответы у себя на экране? Иван Широбоков в своей реплике сделал предсказание: «Вы можете направить список вопросов, предложенный участникам "Форума", в чат-бот и получите осмысленные, вполне разумные, но довольно скучные ответы, основанные на отчасти повторяющихся тезисах». Он также предложил: «Дополните запрос, предложив чат-боту исполнить роль британского исследователя-антрополога, изменить стиль изложения, добавить иронию и обязательно упомянуть в тексте ваши любимые идеи, — и вы получите заметно более интересный результат»
Задавая вопросы нашего «Форума» чат-боту ради эксперимента, мы не стали вводить эти дополнительные параметры, так что читатели имеют возможность увидеть неприукрашенные ответы ИИ во всей их занудности . Повторы в ответах нейросети отчасти объясняются тем, что вопросы предъявлялись ей по одному, а она «не помнила», что говорила в предыдущей выдаче . Впрочем, и в сгенерированных одновременно абзацах повторов достаточно . Редакторской правке ответы ИИ не подвергались, если не считать удаления запятых после слова «однако» в начале предложения: в этом русскоязычный ChatGPT 3. 5 ошибается .
Приведенные в ответах нейросети примеры использования ИИ в социальных и гуманитарных науках оказались предельно обобщенными . Наши участники Илья Утехин, Иван Широбоков, Надежда Станулевич, Кира Коваленко и Евгений Соколов описали гораздо более интересные конкретные случаи применения ИИ в дискурс-анализе, физической антропологии, истории фотографии и лингвистике
Итак, ответы на «Форум» от ChatGPT 3 5 любопытны прежде всего как образец сгенерированного текста для первого знакомства с возможностями нейросети Но одно свойство реплики ИИ привлекает внимание . Чат-бот представил в своем тексте образец полной нейтральности Во всем, о чем шла речь, он нашел как плюсы, так и минусы
Непредвзятость представляется участникам «Форума» сильной стороной нейросети как инструмента. (Андрей Громов с долей самоиронии упоминает о человеческой эмоциональности, которая побудила его ответить на вопросы редколлегии . ) Беспристрастность ИИ служит хорошую службу при анализе данных: «Например, задача выделить в тексте все словосочетания, которые содержат оценку или отношение, не очень проста для человека, но отлично выполняется даже бесплатным ChatGPT 3 5» (Илья Утехин) Человеческое внимание избирательно, а ИИ при обработке визуальных источников действует без искажений: «Человек при отборе объектов склонен отбирать более легкие для восприятия: крупные, красивые, контрастные. Также человек склонен фокусироваться на центральной части изображения НС лишена таких искажений и приложит равные усилия ко всему массиву графических данных» (Андрей Громов) Интересное и многообещающее применение беспристрастной нейросети для ученого предложил Иван Широбоков: в качестве рецензента своего проекта и оппонента в дискуссии с самим собой
Однако та же самая нейтральность начинает работать против ученого, когда нужно вынести суждение исходя из контекста
и принять решение о том, что важно, а что нет. Если вы защищаете в научной работе дорогой вашему сердцу тезис, то нужна ли вам нейтральность в духе «может быть так, а может быть наоборот»? Наталья Ковалева пишет, что «люди будут превосходить технику там, где требуется синтез данных или работа со скрытой или подразумеваемой информацией . Люди лучше выявляют пробелы в существующей литературе, выдвигают гипотезы, контекстуализируют результаты и предлагают альтернативные объяснения наблюдаемым фактам . Все эти виды деятельности необходимы для исследовательского процесса, и ни один из них не автоматизирован, что оправдывает нашу приверженность старым методам, поддерживаемым, но не заменяемым различными технологиями»
Участники «Форума» рассуждали об ИИ как о полезном инструменте, который в одних видах деятельности эффективнее, чем в других. Многие готовы переложить на ИИ трудо- и времяза-тратные операции, такие как сбор данных внутри большого массива, группировку материала, выделение из научного текста ключевых слов, составление краткой аннотации, поиск в тексте стилистических ошибок. Однако Наталья Ковалева предостерегает от того, чтобы считать написание текста «бременем, которое отнимает драгоценное время ученых собственно от исследований» . С ней нельзя не согласиться . До тех пор, пока основным способом представления научных результатов остается публикация текста, писать научный текст — это тоже исследовательская работа. Подбирая конкретные формулировки, мы доказываем (или, наоборот, не можем доказать) наш тезис, и именно из этих слов, воспринятых (и возможно, в дальнейшем оспоренных) нашими коллегами, возникает наш вклад в науку
Недостатком ChatGPT является выдумывание фактов — его отмечает в ответах и сам ChatGPT . Наталья Ковалева описывает свой эксперимент по запросу к чат-боту на составление библиографии, что привело к появлению списка во многом вымышленных работ . Задавая вопрос о применении нейросети при работе с библиографией, редколлегия имела в виду ИИ вроде Research Rabbit, который помогает в том, чтобы следить за выходящими работами по определенной теме Конечно, прежде чем использовать инструмент, нужно выяснить особенности его работы и не задействовать его там, где это может навредить
Как справиться с недобросовестным использованием нейро-сети студентами? Участники «Форума» считают, что проблема со сдачей сгенерированных работ коренится не в ИИ, а в системе контроля успеваемости. Иван Широбоков отметил, что «развитие технологий ИИ не создает каких-то новых специ-
фических проблем, а просто усугубляет проблему формального отношения к образованию». Как мне представляется, пока мы требуем от студентов гладко написанные эссе без признаков собственной проработки конкретного материала, мы должны смириться с тем, что они будут сдавать творчество ChatGPT . Умение писать стройно, с введением и заключением кажется преподавателям важным навыком, который тренируется именно в таких заданиях. И этот-то навык нейросети имитируют лучше всего . Об этом пишет и Наталья Ковалева: и студенты, и преподаватели считают результатом обучения на курсе финальный текст, тогда как истинным результатом обучения должен быть более образованный человек
В системе образования начиная со школы чем менее конкретным выглядит вывод, тем лучше . Требование вывода в сочинениях и актуальности в проектах уже с третьего класса (в российской школе) заставляет учеников генерировать общие фразы. Разве удивительно, что, научившись пользоваться нейросетями, учащиеся прибегают к инструменту, который мастерски льет воду и может доказать актуальность чего угодно и закончить текст словами, максимально похожими на вывод? Так что корень проблемы видится в преувеличенной ценности в нашем образовании гладкой письменной речи в отрыве от стоящей за этой речью мысли . Школа и вуз изо всех сил готовят людей к тому, что им придется писать стройные скучные тексты Но мир изменился, стройные скучные тексты сейчас могут появиться без участия людей . А школе и вузу пора готовить людей к тому, что им придется думать. Как отметила Наталья Ковалева, «прежде чем спешить на защиту существующих практик от (потенциальных) угроз ИИ, нам всем будет полезно приостановиться и тщательно проверить, насколько эти практики содействуют достижению нашей цели» А Иван Широбоков прогнозирует благодаря нейросетям возможный «новый всплеск интереса исследователей к проблеме генерации правдоподобной чуши естественным интеллектом», т е людьми
Если говорить о конкретных советах преподавателям, столкнувшимся с недобросовестностью студентов, то на страницах «Форума» звучали рекомендации не сводить контроль только к письменным работам (Альберт Байбурин). Некоторые участники писали, что внимательное отношение к студентам и наблюдение за динамикой обучения каждого из них в течение семестра позволяют не волноваться об искусственной генерации финальных работ (Анна Москвитина, Надежда Станулевич). Если же без письменных проверок у большого потока студентов не обойтись, то участники «Форума» рекомендовали задавать вопросы, ответы на которые требуют проработки изученных на занятиях конкретных материалов (Наталья Ковалева, Илья
Утехин). Звучал также совет предварительно «скормить» свои задания нейросети, чтобы понять, какого рода текст она может выдать в ответ (Наталья Ковалева, Илья Утехин). Кроме того, уже сейчас появились нейросети, которые определяют, сгенерирован ли текст ИИ, например AI Content Detector (Иван Широбоков). Но и проверяющий-человек при известной натренированности может заметить факт использования нейросети студентом. Среди характерных признаков сгенерированного текста — шаблонность структуры и «бесшовное письмо» (Анна Москвитина), общая неконкретность и отсутствие подробностей, а также фактические ошибки (Илья Утехин). Я могу добавить к последнему пункту, что нейросеть легко попадается, когда пытается сочинять цитаты, например из стихов Ахматовой, и у нее получаются такие вирши:
Я помню все. И некуда идти,
И слов нет на те уста.
Я тебя в первый раз узнала
Там, где я не была .
Все сказанное выше касается бездумного использования ChatGPT нерадивыми студентами. Если же студент творчески доработал полученный с помощью нейросети текст, то уже можно оценивать собственную работу студента (Альберт Бай-бурин, Андрей Громов) . Илья Утехин приводит положительный пример того, как нейросеть помогла студенту преодолеть неравенство из-за незнания языка Многие участники сходились в том, что современных студентов следует обучать работе с ИИ . Иван Широбоков прямо написал: «Нейросети нельзя запретить, но их можно и нужно сделать частью системы образования»
Анна Москвитина представила интересные примеры использования ИИ при обучении студентов языку суахили. Она отметила, что некоторая шаблонность нейросетевых выдач не является препятствием в области образования Описывая свой опыт, Анна Москвитина назвала ИИ «интерактивным учебным пособием». Думаю, что это неслучайно. На нынешнем уровне развития искусственный интеллект не может стать преподавателем, который заменил бы человека (Альберт Байбурин выразил это так: «Я не представляю себе возможности полной замены преподавателя ИИ-аналогом хотя бы потому, что человеческие отношения между студентами и преподавателями невозможно заменить никакими аналогами»), зато ИИ может оказать людям-преподавателям помощь . Другие участники «Форума» отмечали, что применение ИИ в образовании позволит персонализировать обучение, давая каждому студенту возможность подробнее останавливаться на непонятных разделах и проскакивать понятные В ответе на этот вопрос отличился и ChatGPT
Он назвал плюс, который никто другой не вспомнил, — «улучшение эффективности образовательного процесса через автоматизацию оценивания и обратной связи».
В вопросах авторства исследования все наши участники сходятся на том, что при обязательности упоминания нейросети в научном труде на данный момент ее место — в разделе «Методы» или «Благодарности» . Кира Коваленко и Евгений Соколов высказались так: «Так как в этом случае нейросеть лишь систематизирует данные, но не делает выводов, права на интеллектуальный продукт принадлежат, безусловно, авторам статьи, применяющим нейросетевые механизмы для обработки данных» Они сделали оговорку для случаев, когда нейросеть используется для получения выводов, однако в ответах «Форума» такие кейсы не рассматривались. Как написал Юрий Березкин, «гуманитарная наука, даже основанная на больших данных, предполагает не только знание, но и понимание»
Никто из участников не готов передать ИИ занятия наукой в полном объеме. Иван Широбоков высказал мнение, которое разделяют, думаю, многие исследователи: «Если когда-нибудь мы отдадим науку на аутсорсинг искусственному интеллекту, это может стать самоубийственным шагом если не для человечества, то для самой науки, поскольку изменит саму ее суть как формы человеческой деятельности»
Наталья Ковалева обращает внимание на дихотомию «Процесс — Результат» в ответе на вопрос об образовании . А научное творчество — это тоже не только результат, но и процесс. Получение нового знания и открытие того, чего никто раньше не знал, сами по себе доставляют исследователю удовольствие Если мы отдадим науку ИИ целиком, то лишим себя этого удовольствия
Редколлегия остается в уверенности, что ИИ пока не заменит ни авторов рубрики «Форум», ни исследователей, публикующих статьи в других разделах нашего журнала, ни саму редколлегию, и сердечно благодарит всех участников за ответы .
Библиография
Добрунов М., Хабарова В. Институт Пушкина назвал главное слово года в русском языке // РБК. 2023, 18 дек. <https://www.rbc. ru/society/ 18/12/2023/657ffc1d9a79472cfba66e12>.
Ольга Бойцова
Forum 60: AI in the Social Sciences and Humanities Albert Baiburin
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St Petersburg, Russia European University at St Petersburg 6/1A Gagarinskaya Str . , St Petersburg, Russia abaiburin@gmail . com
Yuri Berezkin
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St Petersburg, Russia European University at St Petersburg 6/1A Gagarinskaya Str . , St Petersburg, Russia berezkin1@gmail. com
Olga Boitsova
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St Petersburg, Russia boitsova@gmail . com
Andrey Gromov
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St. Petersburg, Russia a. v. gromov@mail. ru
Kira Kovalenko
European University at St Petersburg
6/1A Gagarinskaya Str . , St Petersburg, Russia
Institute for Linguistic Studies, Russian Academy of Sciences
9 Tuchkov Lane, St Petersburg, Russia
kira . kovalenko@gmail . com
Natalia Kovalyova
The University of North Texas
7400 University Hills Blvd, Dallas, TX, USA
nvk@utexas . edu
Anna Moskvitina (Siim)
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St. Petersburg, Russia anna. siim@gmail . com
Evgenii Sokolov
European University at St Petersburg
6/1A Gagarinskaya Str . , St Petersburg, Russia
Institute for Linguistic Studies, Russian Academy of Sciences
9 Tuchkov Lane, St Petersburg, Russia
pan_liwerij@mail . ru
Nadezhda Stanulevich
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St Petersburg, Russia nstanulevich@gmail . com
Ilya Utekhin
European University at St Petersburg
6/1A Gagarinskaya Str , St Petersburg, Russia
Indiana University Bloomington
355 N Eagleson Ave. , Bloomington, IN, USA
ilia@eu .spb . ru
Ivan Shirobokov
Peter the Great Museum of Anthropology and Ethnography (Kunstkamera), Russian Academy of Sciences
3 Universitetskaya Emb . , St Petersburg, Russia ivansmith@bk. ru
AI allows work with data to extend well beyond simple keyword searches or formulaic calculations. It is applied to help specialists in the history of art and in discourse analysis as well as in linguistics and physical anthropology who analyse big corpora and construct models. Participants in the "Forum", a written round table, are representatives of the social sciences and humanities. They describe their contact with such applications in their professional life (whether as a field of study or to practical ends), and discuss what the pluses and minuses of AI in the world of academic work and education are . They also touch upon cases where they knew, or suspected, that a student had submitted work that was actually written by a resource such as ChatGPT . Finally, ethical problems arising in connection with AI are considered
Keywords: social sciences, humanities, artificial intelligence, AI, neural network
References
'19th Century Materials and Technologies', Webinars. Image Permanence Institute, 2017, Sept. 13 . <https://s3. cad. rit. edu/ipi-assets/webinars/ webinar_identification_19th_century.pdf>.
'A Methodology for Process Identification . Pt . 1', Webinars. Image Permanence Institute, 2017, Dec. 13 . <https://s3. cad. rit. edu/ipi-assets/webinars/ webinar_identification_methods_p1. pdf>.
Del Tredici M. , Fernández R. , Boleda G . , 'Short-Term Meaning Shift: A Distributional Exploration', Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, MN: Association for Computational Linguistics, 2019, vol . 1 (Long and Short Papers), pp.2069-2075.
Dobrunov M. , Khabarova V. , 'Institut Pushkina nazval glavnoe slovo goda v russkom yazyke' [The Pushkin Institute Has Named the Main Word of the Year in the Russian Language], RBK, 2023, Dec . 18 . <https:// www. rbc. ru/society/18/12/2023/657ffc1d9a79472cfba66e12>. (In Russian)
Friedmann D . , 'Copyright as Affirmative Action for Human Authors until the Singularity', GRUR International, 2024, vol . 73(1), pp . 1-2 . doi: 10,1093/grurint/ikad133 .
Gefen A. , Saint-Raymond L. , Venturini T. , 'AI for Digital Humanities and Computational Social Sciences', Braunschweig B , Ghallab M (eds ), Reflections on Artificial Intelligence for Humanity. Cham: Springer, 2021, pp . 191-202. (Lecture Notes in Computer Science, vol. 12600). doi: 10.1007/978-3-030-69128-8_12 .
Herbold S . , Hautli-Janisz A . , Heuer U . , Kikteva Z . , Trautsch A . , 'A Large-scale Comparison of Human-written versus ChatGPT-generated Essays', Scientific Reports, 2023, vol. 13, article 18617 . doi: 10,1038/s41598-023-45644-9.
Jurafsky D , Martin J H , 'Vector Semantics and Embeddings', Jurafsky D , Martin J . H . , Speech and Language Processing. Draft of February 3, 2024. <https://web . stanford. edu/~jurafsky/slp3/6 .pdf>.
Kutuzov A. , Andreev I. , 'Texts In, Meaning Out: Neural Language Models in Semantics Similarity Tasks for Russian', Proceedings of the Dialogue 2015 conference, 2015, s. pag. <https://arxiv. org/ftp/arxiv/papers/ 1504/1504.08183. pdf>.
Lashmanov O . , 'Zachem obuchat mashiny' [Why Educate Machines], Blog Olega Lashmanova — Sistemnyy blok, 2023, Oct. 18 . <http://sysblok. ru/blog/ blog_olashmanov/zachem-obuchat-mashiny/>. (In Russian).
Lashmanov O . , Rogozhnikov V. , 'Chto kompyuter ponimaet v restavratsii' [What Computer Understands about Restoration], Proverka svyazey — Arzamas.academy, 2023, Oct. 4. <https://arzamas. academy/podcasts/ 330/5> (In Russian)
Licklider J C R , 'Man-Computer Symbiosis', IRE Transactions on Human Factors in Electronics, 1960, March, vol. HFE-1, no. 1, pp. 4-11. doi: 10 .1109/THFE2.1960.4503259.
Osborne T . , Gerdes K. , 'The Status of Function Words in Dependency Grammar: A Critique of Universal Dependencies (UD)', Glossa: A Journal of General Linguistics, 2019, vol. 4, no . 1, pp . 17. doi: 10.5334/gjgl. 537.
Rezaev A. , Tregubova N. , 'Ot sotsiologii k novoy sotsialnoy analitike: krizis sotsiologii i problema iskusstvennogo intellekta' [Sociology on the Way to New Social Analytics: The Crisis in Sociology and the Problem of Artificial Intelligence], Russian Sociological Review, 2021, vol. 20, no . 3, pp . 280-301. doi: 10.17323/1728-192X-2021-3-280-301. (In Russian).
Rehurek R. , Sojka P . , 'Software Framework for Topic Modelling with Large Corpora', Proceedings of LREC 2010 workshop New Challenges for NLP Frameworks. Valletta, Malta: University of Malta, 2010, pp . 46-50.
Shumailov I . , Shumaylov Z . , Zhao Y . , Gal Y . , Nicolas Papernot N. , Anderson R. , 'The Curse of Recursion: Training on Generated Data Makes Models Forget', Arxiv, 2023. <https://arxiv . org/abs/2305. 17493v2>. doi: 10.48550/arXiv.2305.17493.
Sokolov E. G . , 'Ustanovlenie semanticheskogo skhodstva, sinonimii i antonimii sredstvami distributivnoy semantiki na materiale kollektsii russko-yazychnykh tekstov XVIII veka' [Detecting Semantic Similarity, Synonymy and Antonymy between the Lexical Items in the 18th-century Russian Corpus with Distributional Semantics Instruments], Tezisy Mezhdunarodnoy nauchnoy konferentsii"XXXV chteniya pamyati Yu. S. Sorokina i L. L. Kutinoy (k 110-letiyu so dnya rozhdeniya Yu. S. Sorokina)" [Proceedings of the 35th International conference in memory of L Kutina and Yu Sorokin held on March 23-24, 2023 on the 110th anniversary of Yu. Sorokin]. St Petersburg: Institute for Linguistic Studies Press, 2023, pp 22-25 (In Russian)
Sokolov E G , 'Uchitel-provodnik, ili K voprosu o semantike slova nastavnik v XVIII stoletii' [Both Teacher and Guide, or On the Meaning of the Word nastavnik (Tutor) in the 18th Century], Russian Language at School, 2024, no 85(1), pp 106-116 doi: 10. 30515/0131-6141-2024-85-1-106-116. (In Russian).
'Tools Such as ChatGPT Threaten Transparent Science; Here Are Our Ground Rules for Their Use', Nature, 2023, vol. 213, p . 612 . <https://www. nature . com/articles/d41586-023-00191-1>. doi: 10,1038/d41586-023-00191-1.
Van Dis E. A. M. , Bollen J . , van Rooij R. , Zuidema W. , Bockting C. L. , 'ChatGPT: Five Priorities for Research', Nature, 2023, vol. 614, pp. 224-226. doi: 10,1038/d41586-023-00288-7.