2009 История №2(6)
УДК 930.1.09
А.В. Бочаров
МОДЕЛЬ ИЗУЧЕНИЯ РЕГИОНАЛЬНЫХ ЭЛЕКТРОННЫХ АРХИВОВ СМИ В КОНТЕКСТЕ СООТНОШЕНИЯ МИКРО- И МАКРОИСТОРИИ
Рассматривается отображение взаимодействия микро- и макроисторических процессов при изучении региональных электронных архивов СМИ в контексте методов типологизации и системного анализа.
Ключевые слова: электронные архивы СМИ, неструктурированная информация.
Региональная журналистика - это постоянный поиск казусов на микро-событийном уровне и спорадическое осмысление этих казусов на макрособытийном уровне. Как можно догадаться, в процессе творчества эти поиски проходят отчасти стихийно и ориентированы на текущую изменчивую актуальность. Но вот прошла очередная неделя с её новостями, и всё ушло в архив, теперь уже электронный. Изучение огромного архива должно быть уже не стихийным, а упорядоченным и систематизированным.
Поводом для начала исследования может стать казус или их группа из текущих событий, современных началу исследовательской работы. При этом исследователь может руководствоваться своей интуицией, эрудицией и предварительными научными интересами. Но при углублении и расширении исследования может понадобиться поиск аналогий и тенденций для исходного события, то есть нужно будет обращаться к архиву.
Какие из множества казусов и микрособытий регионального уровня за предшествующие годы достойны внимания для исторического исследования? Например, в Томске выходит более 150 инвариантных сообщений в разных СМИ, за месяц их накапливается более 4500 тыс., за год - более 50 тыс. Чем руководствоваться для такого огромного массива данных при выборе, сужающем поле исследования и конкретизирующем объект исследования? Какими методами и с какими целями можно упорядочить и систематизировать массив информации об огромном количестве отдельных казусов, случаев и мнений в разных сообщениях СМИ, не связанных в один нарратив? Какими могут быть принципы изучения взаимодействия микро- и макроисторических уровней для источниковой базы в виде региональных электронных архивов СМИ? Какими принципами стоит руководствоваться при структурировании огромных массивов неструктурированной информации? Насколько эти принципы применимы к более широкому полю исторических исследований, для разнообразных исторических текстов?
Все перечисленные вопросы лежат в области проблемы обработки неструктурированной информации, то есть свободного текста на естественном языке. Полноценная и полная обработка огромного архива возможна только при использовании компьютерной экспертной системы анализа текстов, которая позволяет частично автоматизировать выявление событийных тенденций и информационных контекстов. Если в области обработки структурированной информации уже сложились алгоритмы и методы поиска, то неструк-
турированная информация представляет собой terra incognita, хотя имеются и некоторые достижения для русскоязычных текстов (например, система RCO - Russian Context Optimizer на базе СУБД Oracle).
Задача автоматизации «понимания» компьютером текста - это проблема, которую представителям гуманитарных и компьютерных математических дисциплин предстоит решать совместно. Причём пути решения будут в очень большой степени зависеть от специфики предметной области. Так, например, для анализа неструктурированной информации, касающейся описания событий в жизни общества, могут быть задействованы теории и методы исторического познания и социологии.
К сожалению, тезисный формат не позволяет здесь презентировать такую компьютерную экспертную систему, разработанную автором, и продемонстрировать конкретные эмпирические результаты её использования. Здесь рассматривается только один возможный аспект применения экспертной системы, а именно, отображение взаимодействий микро- и макроисторических процессов в контексте методов типологизации и системного анализа.
Внутренняя среда любой системы может взаимодействовать с внешней средой по некоторым видам направлений этих взаимодействий. Если мы в системном анализе отражения исторической действительности в текстах будем рассматривать внутреннюю среду системы как уровень микроисториче-ских событий, а внешнюю среду - как уровень макроисторических процессов, то получится уже модель взаимодействия микро- и макроистории (рис. 1).
Внешняя среда системы:
4 Общероссийские и зарубежные /4\ I макро1вроц0ссы
Рис. 1. Графическое отображение направлений взаимодействий социальной системы
По конкретному содержанию взаимодействия воплощаются в перемещениях 4 типов: перемещения людей, материальных ресурсов, информации, финансов.
Граница для системы «Томская область» воплощается в нескольких смыслах. В пространственно-территориальном смысле - это граница области на географической карте. В административно-организационном смысле - это таможенные и представительные органы Томской области. В социально-психологическом смысле - это сознания и организмы томичей. В финансовом смысле - это юридическая принадлежность к финансовым агентам Томской области.
Взаимодействие системы и внешней среды подразделяется на 15 типов (рис. 1).
1) Всегда остаются в пределах границы (например, сообщение о внутренней жизни таможенных органов или о собственно географической границе).
2) Исходят из внешней среды внутрь системы, а затем покидают систему (например, сообщения о визитах в город и область).
3) Исходят изнутри системы, соприкасаются с внешней средой, затем возвращаются во внутреннюю среду системы (например, сообщения о поездках томичей или рефлексия по поводу реакции внешнего мира на информацию о городе или области).
4) Исходят с границы системы внутрь системы, не соприкасаясь затем с её границей (примером этого 4-го пункта, так же как пунктов 7-го и 12-го, могут служить сообщения о взаимодействиях администрации или организаций города или области с таможенными органами).
5) Исходят с границы системы внутрь системы, а затем покидают систему (например, отклик других регионов или стран на информацию, исходящую от томичей, побывавших в этих регионах или странах);
6) Исходят изнутри системы, соприкасаются с внешней средой, а затем остаются на границе системы (например, о том, что кто-то или что-то, покинув область, затем не смог или не смогло вернуться обратно и задержалось на границе области (независимо от того, что именно воплощает границу)).
7) Исходят из внешней среды внутрь системы, а затем остаются на её границе.
8) Исходят из внешней среды, соприкасаются с границей системы, не попадая внутрь системы, а затем возвращаются во внешнюю среду (например, сообщения о том, что кто-то или что-то извне не смог или не смогло попасть в город или область).
9) Исходят с границы системы во внешнюю среду (например, сообщения об информации, исходящей за пределами области от томичей или от таможенных органов области во внешний мир).
10) Исходят из внешней среды, а затем остаются на границе системы, не попадая во внутреннюю среду системы (например, сообщения о конфискациях на таможне).
11) Исходят изнутри системы и остаются на её границе (например, сообщения о том, что кто-то или что-то не смог или не смогло покинуть город или область, остановившись на её границах).
12) Исходят с границы системы во внутреннюю среду системы.
13) Исходят из внешней среды, а затем остаются во внутренней среде системы (например, сообщения о финансах, ресурсах или людях, прибывших и оставшихся в городе или области).
14) Исходят изнутри системы во внешнюю среду (например, сообщения о финансах, ресурсах или людях, покинувших и не вернувшихся в город или область).
15) Исходят с границы системы во внешнюю среду, затем возвращаются на границу системы, не попадая в её внутреннюю среду (например, сообщения о финансовых средствах, которые физически хранятся в регионе, но номинально и юридически ему не принадлежат, а используются вовне).
Очевидно, что данные направления взаимодействий системы и внешней среды применимы к любой системе, не только к региону, но, например, к любой организации или корпорации.
Первичная типология вышеприведенных 15 процессов может выглядеть следующим образом:
1. Темпоральное разделение макропроцессов: 1.1. Режим долгого времени в историческом прошлом в контексте исторических аналогий и ретроспекций. Такой контекст можно автоматически выявлять в тексте путём поиска упоминаний годов, веков, эпох, исторических ситуаций и личностей, не соответствующих по времени текущей современности. 1.2. Режим короткого времени в актуальной современности в контексте «новость дня», «новость недели» или «новость месяца».
2. Пространственное разделение макропроцессов в контексте «тенденции современности»: 2.1. Общерегиональные процессы. 2.2. Общероссийские процессы. 2.3. Общемировые и зарубежные общемировые процессы.
3. Тематическое разделение сообщений о событиях: 3.1. По сферам жизни общества. 3.2. По установкам авторов сообщений о событиях (эмоциональные, идеологические, логико-риторические). Например, для сообщений СМИ можно сформулировать лексико-семантические критерии для нескольких эмоциональных тональностей, а именно: «позитивная хвалебная», «конструктивная критика с преобладанием оптимизма», «конфликтная критика с преобладанием негатива», «негативная пессимистическая неудовлетворённость», «эмоционально нейтральная». Конечно, тональность не всегда можно определить однозначно и объективно - возможны разные толкования. Тем не менее все толкования можно свести к заранее оговоренным и формализованным алгоритмически устанавливаемым типам, имеющим конвенциональный и верифицируемый характер.
4. Отношения с реальностью как критерий разделения сообщений о событиях: 4.1. Объективно произошедшие в действительности процессы. 4.2. Мнимые, вымышленные, возможные процессы (которые должны, могут или могли бы произойти, по мнению авторов сообщений или респондентов).
Первичными вышеперечисленные типы будут потому, что их можно разделять на подтипы и подвиды сколь угодно глубоким и подробным образом. Например, тематическое разделение сообщений о событиях можно вначале отобразить в виде нескольких основных сфер жизни: политической, социальной, культурной, экономической. То, какой факт или случай, к какой сфере отнести, зависит исключительно от формальных аналитических установок исследователя, обусловленных его предметом и задачами исследования. Затем каждую из этих сфер можно разделить ещё на субсферы. Например, можно условиться, что в контексте сообщений региональных СМИ социальная тематика включает в себя следующие субсферы: «ЖКХ», «Детство, материнство, семья», «Пенсионеры», «Транспорт», «Здоровье и медицина». Далее тематику «ЖКХ» можно было бы разделить на подтемы, связанные с водоснабжением, электроснабжением, квартплатой, ремонтом, уборкой мусора или снега, озеленением города и так далее. В принципе для любого текста количество возможных тематик и их интерпретаций многократно превышает количество слов в тексте, так как одно и то же слово или выражение может относиться ко многим тематикам и по-разному интерпретироваться.
На основе статистических таблиц можно выявлять исторические казусы методом сравнительно-исторической индивидуализации. Это метод, направ-
ленный на выявление неповторимого и уникального на основе внешних признаков событий и объектов. Например: с какими странами или регионами меньше всего связей за определённый период? Какого типа связей меньше всего (по направлениям взаимодействий, по сферам жизни)? Какие сферы и тематики меньше всего сопряжены? По каким тематикам меньше всего сообщений с конфликтно-негативной эмоциональной тональностью (или, напротив, с позитивной тональностью)? Метод универсализирующего сравнения, напротив, позволит искать проявления макроисторических тенденции, если в матрице базы данных архива СМИ мы будем искать не минимальные, а максимальные частоты встречаемости.
Под микроисторическим уровнем в данном случае подразумеваются конкретные случаи и события, произошедшие в Томске или Томской области с конкретными людьми или их группами и описанные в сообщениях томских СМИ. Пристальность внимания к отдельным контекстным и семантическим деталям текста сообщения СМИ является при этом главным аргументом в пользу того, что мы имеем дело с микроисторическим анализом. Этот анализ в том числе может распространяться и на упоминания макропроцессов в России и мире, в контекст которых вписаны случаи и казусы томской жизни.
Для контекстов сообщений о данных разноуровневых соотношений можно использовать следующую типологию: 1) специфика микроисторического уровня по отношению к макропроцессам (специфика Томска внутри России или в мире); 2) типичность по отношению к макропроцессам (типичность Томска внутри России или по отношению к другим странам); 3) микроистори-ческий уровень как выражение специфики России по отношению к внешним макропроцессам (Томск как типичный представитель России); 4) микроисто-рический уровень как выражение специфики Томска по отношению к внешним макропроцессам (Томск как нетипичный представитель России).
Целостной контекстной единицей анализа для СМИ выступает весь текст конкретного сообщения, так как эти тексты, как правило, небольшие по объёму. Тем не менее предлагаемая модель применима к любым текстам любого объёма, поскольку исследователь сам может определять, что для него будет контекстной единицей. Например, в качестве такой единицы можно взять один абзац крупного текста (например, исторического трактата или мемуаров или дневников). В этом случае в базе данных, составленной для такого текста, в строках таблицы будут содержаться уже не отдельные целостные поименованные тексты разных авторов (как в случае с архивом СМИ), а отдельные пронумерованные абзацы или разделы одного и того же текста.
В целом при вложении всех вышеперечисленных типологий друг в друга исследователь может разработать практически бесконечную по своему потенциалу матрицу критериев для многомерного анализа социальной действительности. Если эти критерии выражать в виде тематических словарей-тезаурусов лексических единиц и контекстных взаимозависимостей этих единиц, то у представителей разных социальных наук появится модель для разработки компьютерных авторубрикаторов текстов и экстракторов фактов и тенденций, сближающих возможности искусственного и человеческого интеллектов.