Научная статья на тему 'Тестовый образец среднестатистического русскоязычного текста для определения насыщенности текстового набора электронных и печатных публикаций'

Тестовый образец среднестатистического русскоязычного текста для определения насыщенности текстового набора электронных и печатных публикаций Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
195
39
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ТЕКСТОВОЙ НАБОР / НАСЫЩЕННОСТЬ ТЕКСТОВОГО НАБОРА / ПРОГРАММНО-ИНСТРУМЕНТАЛЬНЫЙ МЕТОД ОПРЕДЕЛЕНИЯ НАСЫЩЕННОСТИ ТЕКСТОВОГО НАБОРА / ПЕЧАТНЫХ И ЭЛЕКТРОННЫХ ПУБЛИКАЦИЙ / УНИВЕРСАЛЬНЫЙ ТЕСТ-ОБЪЕКТ / TEXT SET / THE SATURATION OF A TEXT SET / SOFTWARE-BASED METHOD OF DETERMINING THE SATURATION / OF A TEXT SET OF ELECTRONIC AND PRINT PUBLICATIONS / UNIVERSAL TEST OBJECT

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Сысуев Игорь Александрович, Пруд Ирина Валерьевна, Державина Екатерина Александровна, Вдовина Мария Владимировна

В статье рассматривается программно-инструментальный метод определения насыщенности текстового набора печатных и электронных публикаций. Показана возможность модернизации метода, обеспечивающей универсализацию его использования относительно русскоязычных текстов за счет использования специального тестового образца. Приведена методика формирования универсального тест-объекта.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Сысуев Игорь Александрович, Пруд Ирина Валерьевна, Державина Екатерина Александровна, Вдовина Мария Владимировна

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The use of a test object of an average Russian text to determine the saturation of a text set of electronic and print publications

The article deals with a software-based method of determining the saturation of a text set of electronic and print publications. It considers the possibility of upgrading the method to ensure the universalization of its use with respect to Russian texts by employing a special test object. A method of forming a universal test object is introduced.

Текст научной работы на тему «Тестовый образец среднестатистического русскоязычного текста для определения насыщенности текстового набора электронных и печатных публикаций»

машины и технологии. С. 101-107.

Омск, 2015.

№ 1 (137).

СЫСУЕВ Игорь Александрович, кандидат технических наук, доцент (Россия), доцент кафедры «Оборудование и технологии полиграфического производства» Омского государственного технического университета (ОмГТУ).

ПРУД Ирина Валерьевна, ассистент кафедры «Оборудование и технологии полиграфического производства», магистрант гр. ТПП-514 нефтехимического института ОмГТУ.

ДЕРЖАВИНА Екатерина Александровна, магистрант гр. ТПП-514 нефтехимического института ОмГТУ.

ВДОВИНА Мария Владимировна, кандидат филологических наук, старший преподаватель кафедры английской филологии и лингвокультурологии Санкт-Петербургского государственного университета.

Адрес для переписки: [email protected]

Статья поступила в редакцию 02.04.2015 г. © И. А. Сысуев, И. В. Пруд, Е. А. Державина, М. В. Вдовина

УДК 681.3/655.244

И. А. СЫСУЕВ И. В. ПРУД Е. А. ДЕРЖАВИНА М. В. ВДОВИНА

Омский государственный технический университет

Санкт-Петербургский государственный университет

ТЕСТОВЫЙ ОБРАЗЕЦ СРЕДНЕСТАТИСТИЧЕСКОГО РУССКОЯЗЫЧНОГО ТЕКСТА ДЛЯ ОПРЕДЕЛЕНИЯ НАСЫЩЕННОСТИ ТЕКСТОВОГО НАБОРА ЭЛЕКТРОННЫХ И ПЕЧАТНЫХ ПУБЛИКАЦИЙ_

В статье рассматривается программно-инструментальный метод определения насыщенности текстового набора печатных и электронных публикаций. Показана возможность модернизации метода, обеспечивающей универсализацию его использования относительно русскоязычных текстов за счет использования специального тестового образца. Приведена методика формирования универсального тест-объекта. Ключевые слова: текстовой набор, насыщенность текстового набора, программно-инструментальный метод определения насыщенности текстового набора печатных и электронных публикаций, универсальный тест-объект.

В [1-2] были рассмотрены вопросы модернизации программно-инструментального метода определения насыщенности текстового набора электронных и печатных публикаций с использованием инструментария программы для обработки изображений Adobe Photoshop [3-6].

Модернизация метода заключается в использовании текстового тест-образца, содержащего такие количества символов русскоязычного текста, включая межсловные пробелы, которые соответствуют частоте их встречаемости. Это позволяет сделать метод универсальным и избавляет от необходимости выбирать в качестве образцов конкретные тексты для исследования.

Для реализации проблемы универсализации на первом этапе были определены частоты встречаемости символов в составе русскоязычных текстов на общую тему и среднестатистическая длина рус-

ского слова — для определения частоты встречаемости межсловных пробелов [1, 2]. На втором этапе определены насыщенности текстового набора, создаваемого единичными символами, что необходимо для расчета насыщенности текстового набора тестового образца, набранного конкретным шрифтом с конкретными параметрами набора.

Целью данного исследования — третьего этапа реализации проблемы универсализации метода и разработки тестового образца — являлось формирование тестового образца и определение его расчетной и фактической насыщенности.

Методика формирования тестового образца текстового набора среднестатистического русскоязычного текста заключалась в следующем.

После задания параметров текстового набора: гарнитуры, насыщенности, кегля шрифта и интерлиньяжа необходимо определить количество сим-

Таблица 1

Количество символов тестового образца среднестатистического текста на русском языке, набранного шрифтом гарнитуры Тахома прямого светлого начертания кегля 12 пт с интерлиньяжем 14,4 пт и его предполагаемая насыщенность

Символ Насыщенность L единичного символа, усл. ед. Частота P7 встречаемости символа Количество k символов на полосе тестового образца

1 2 3 4 5

а 197,4 0,06143 12,13 227,28

б 185,7 0,01369 2,54 50,66

в 193,3 0,03329 6,43 123,17

г 216,3 0,01460 3,16 54,00

д 189,2 0,02376 4,5 87,93

е 197,5 0,06915 13,65 255,85

ё 190,4 0,00001 0,01 0,05

ж 202,3 0,00952 1,93 35,22

з 203,5 0,01355 2,76 50,14

и 202,7 0,05827 11,81 215,59

й 189,4 0,00813 1,54 30,06

к 203,1 0,02777 5,64 102,75

л 206,5 0,03675 7,59 135,98

м 202,9 0,02449 4,97 90,60

н 207,1 0,05115 10,59 189,25

о 203,9 0,08962 18,27 331,59

п 206,6 0,01937 4,01 71,68

р 192,7 0,03275 6,31 121,18

с 208,7 0,04106 8,57 151,94

т 215,9 0,04976 10,74 184,10

у 202,3 0,02247 4,54 83,12

ф 183,6 0,00075 0,14 2,76

х 205,6 0,00705 1,45 26,10

ц 201,2 0,00216 0,44 8,00

ч 213,1 0,01306 2,78 48,31

ш 202,4 0,00623 1,26 23,04

щ 198,5 0,00331 0,66 12,25

ъ 203,8 0,00021 0,04 0,79

ы 203,6 0,01440 2,93 53,29

ь 206,1 0,01576 3,25 58,32

э 202,5 0,00212 0,43 7,84

ю 201,8 0,00545 1,1 20,16

я 199,4 0,01659 3,31 61,39

244,5 0,01003 2,45 37,11

. 232,5 0,02104 4,89 77,85

- 244,5 0,00181 0,44 6,71

пробел 255 0,15488 39,5 573,04

волов, содержащихся на полосе набора тестового образца.

Для этого единичный символ « а », относительная (к кеглю) ширина которого примерно равна среднестатистической математически ожидаемой ширине символа данного шрифта, набирается в прикладной программе для набора и форматирования текста Microsoft Office Word. Набор производится на полосе набора шириной 165 мм и высотой 257 мм

с выключкой влево с программным делением на строки и без деления на абзацы, с целью обеспечения однородности текстового набора. Общее количество кпн символов на полосе определяется с помощью инструмента «Статистика».

Используя полученное значение общего количества символов на полосе набора и значения частот встречаемости символов, определенных на первом этапе исследования [1, 2], рассчитывают количество

Окончание табл. 1

1 2 3 4 5

А 194,3 0,00082 0,16 3,03

Б 185,8 0,00039 0,07 1,43

В 178,3 0,00134 0,24 4,95

Г 210,5 0,00067 0,14 2,49

Д 177,9 0,00072 0,13 2,66

Е 190,3 0,00030 0,06 1,10

Ё 183,9 0,00000 0,00 0,00

Ж 189,9 0,00016 0,03 0,61

З 193,6 0,00028 0,06 1,05

И 186,9 0,00170 0,32 6,27

Й 175,6 0,00033 0,06 1,22

К 192,6 0,00066 0,13 2,46

Л 197,5 0,00064 0,13 2,37

М 187,7 0,00111 0,21 4,09

Н 196,5 0,00141 0,28 5,20

О 197,1 0,00114 0,22 4,22

П 197,6 0,00076 0,15 2,82

Р 193,5 0,00071 0,14 2,64

С 203,9 0,00085 0,17 3,14

Т 211,6 0,00079 0,17 2,91

У 203,8 0,00021 0,04 0,78

Ф 189,8 0,00011 0,02 0,41

Х 196,5 0,00010 0,02 0,37

Ц 190,8 0,00012 0,02 0,43

Ч 205,9 0,00024 0,05 0,90

Ш 192,2 0,00008 0,02 0,31

Щ 187,5 0,00000 0,00 0,02

Ъ 199,5 0,00000 0,00 0,00

Ы 190,2 0,00000 0,00 0,00

Ь 195,1 0,00000 0,00 0,00

Э 192,9 0,00033 0,06 1,23

Ю 192,8 0,00000 0,00 0,00

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Я 186,8 0,00024 0,05 0,90

Суммарный показатель 0,991651 209,88

Расчетная (предполагаемая) насыщенность текстового набора тестового образца 211,65

Примечание. Общее количество символов на полосе тестового образца 3700

каждого из исследуемых символов на полосе набора:

ki п.н. Pi К.н.'

(1)

где к пн — количество г-го символа на полосе набора,

Р( — частота встречаемости г-го символа,

кпн — общее количество символов на полосе набора.

Данные расчетов группируются в таблицы, аналогичные табл. 1.

Формирование тестового образца текстового набора среднестатистического русскоязычного текста производится путем набора единичных символов на полосе тестового образца. Набор символов выполняется последовательно, в соответствии с полученными по (1) значениями количества к1пн каждого из

исследуемых символов на полосе набора. Набор текста производится как и ранее в прикладной программе для набора и форматирования текста Microsoft Office Word в колонке шириной 165 мм и высотой 257 мм. Для обеспечения однородности набора и достоверности результатов измерения текст набирается с выключкой влево с программным делением на строки, без переносов, без деления на абзацы и без использования межсловных пробелов (они набираются последовательно, как и прочие символы). Полученный тестовый образец текста показан на рис. 1.

Расчет математически ожидаемой (предполагаемой) насыщенности Нр текстового набора универсального тест-объекта ( образца) производится

ОМСКИМ НАУЧНЫЙ ВЕСТНИК № 2 (140) 2015

3 й

m m

fü го ю

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го

го го

го го го

го го го

го го

го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го го

го го

го го

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

"888

8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8---

8___

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

О О О О

8 8 8 8

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

8 8 8 8

О О О О

8 8 8 8

О О О О

с; 5

W

s

Я (Ö H ft

0) у

(Ö я

о w _н

к

3 Отг

я- ё ^

м a S S

л w «

a л a «

ю я и g

а

н н

В и

ft CN

S §

о й

H

0) F

s

H

и s

H (Ö H

ü s

ф -©H

я a

< a

ф я ft я

ü о

о я я

сö ft ю (Ö я

зК fö

s f

Таблица 2

Насыщенность электронного текстового набора среднестатистического русскоязычного текста, полученного с различными параметрами

№ п/п Гарнитура Начертание Кегль, пт Интерлиньяж, пт Насыщенность текстового набора Среднестатистическое отклонение, усл. ед.

расчетная (Нр), усл. ед измеренная (Низм), усл. ед.

1 Тахома прямое светлое 12 14,4 211,64 211,66 0,02

2 Тахома прямое светлое 12 14 210,5 210,39 0,11

3 Тахома прямое светлое 12 15 214,98 214,92 0,06

4 Тахома прямое светлое 13 15,6 217,69 217,67 0,02

5 Тахома прямое светлое 13 15 214,22 214,3 0,08

6 Тахома прямое светлое 13 16 218,57 218,48 0,09

7 Джорджия прямое светлое 12 14,4 214,97 215,02 0,05

8 Джорджия прямое светлое 12 14 214,14 214,1 0,04

9 Джорджия прямое светлое 12 15 216,03 216,08 0,05

10 Джорджия прямое светлое 13 15,6 218,53 218,56 0,03

11 Джорджия прямое светлое 13 15 216,7 216,63 0,07

12 Джорджия прямое светлое 13 16 219,39 219,37 0,02

13 Тахома прямое полужирное 12 14,4 197,78 197,72 0,06

14 Тахома прямое полужирное 12 14 196,09 196,06 0,03

15 Тахома прямое полужирное 12 15 200,25 200,27 0,02

16 Тахома прямое полужирное 13 15,6 195,82 195,83 0,01

17 Тахома прямое полужирное 13 15 192,45 192,47 0,02

18 Тахома прямое полужирное 13 16 198,35 198,28 0,07

19 Джорджия прямое полужирное 12 14,4 205,4 205,39 0,01

20 Джорджия прямое полужирное 12 14 204,55 204,47 0,08

21 Джорджия прямое полужирное 12 15 207,93 207,92 0,01

22 Джорджия прямое полужирное 13 15,6 209,69 209,71 0,02

23 Джорджия прямое полужирное 13 15 207,04 207,08 0,04

24 Джорджия прямое полужирное 13 16 211,3 211,27 0,03

Таблица 3

Насыщенность текстового набора печатной публикации среднестатистического русскоязычного текста, полученного с различными параметрами

№ п/п Гарнитура Начертание Кегль, пт Интерлиньяж, пт Насыщенность текстового набора Среднестатистическое отклонение, усл. ед.

расчетная (Нр), усл. ед измеренная (Н^), усл. ед.

1 Таймс прямое светлое 10 11 224,05 227,01 2,96

2 Таймс прямое светлое 10 12 222,23 228,06 5,83

3 Таймс прямое полужирное 14 14,5 215,85 217,03 1,18

4 Таймс прямое полужирное 14 15 217,56 218,08 0,52

На основании проведенных исследований 24 вариантов универсальных тест-объектов (образцов) среднестатистического русскоязычного текста электронных публикаций установлено, что расчетная математически ожидаемая (предполагаемая) насыщенность находится в интервале — 192,46 — 219,39 усл. ед., а среднестатистическое отклонение расчетных и экспериментально определенных значений не :: превышает 0,11 усл. ед., что составляет 0,04 %. | На основании проведенных исследований четы-

ш рех вариантов универсальных тест-объектов (образ-о цов) среднестатистического русскоязычного текста §: печатных публикаций установлено, что расчетная 2 математически ожидаемая (предполагаемая) насыщен-^^ ность находится в интервале — 215,85 — 224,05 усл. 42 ед., а среднестатистическое отклонение расчетных

и экспериментально определенных значений не превышает 5,83 усл. ед., что составляет 2,28 % (здесь более высокие значения среднестатистического отклонения обусловлены наличием операции сканирования в методе определения насыщенности текстового набора).

Полученные результаты подтверждают работоспособность модернизированного программно-инструментального метода определения насыщенности текстового набора электронных и печатных публикаций.

Таким образом, является целесообразным практическое использование разработанного универсального тест-объекта (образца) среднестатистического русскоязычного текста для определения насыщенности текстового набора электронных и печатных публикаций.

Библиографический список

1. Сысуев, И. А. Модернизация метода определения насыщенности текстового набора печатных и электронных публикаций / И. А. Сысуев, Е. А. Державина, И. В. Пруд // Инновационные решения при реструктуризации логистических систем : матер. заоч. науч.-практ. конф. с междунар. участием. — Омск, 2014. - С. 44-48.

2. Сысуев, И. А. К вопросу о разработке универсального тест-объекта для определения насыщенности текстового набора русскоязычных текстов / И. А. Сысуев, И. В. Пруд, Е. А. Державина // Омский научный вестник. Сер. Приборы, машины и технологии. - Омск, 2015. - № 1 (137). - С. 101-107.

3. Сысуев, И. А. Программно-инструментальный метод определения насыщенности текстового набора электронных публикаций / И. А. Сысуев // Динамика систем, механизмов, машин : матер. VII Междунар. науч.-техн. конф. - Омск : ОмГТУ, 2009. - С. 327-330.

4. Григорова, Ю. С. Программно-инструментальный метод определения насыщенности текстового набора печатных публикаций / Ю. С. Григорова, О. А. Зырянова, И. А. Сысуев, О. А. Тимощенко // Полиграфия: технология, оборудование, материалы : матер. заоч. науч.-практ. конф. с междунар. участием. - Омск : ОмГТУ, 2010. - С. 54-58.

5. Воробьева, А. С. Насыщенность текстового набора электронных публикаций / А. С. Воробьева, И. А. Сысуев // Полиграфия: технология, оборудование материалы : матер. заоч. науч.-практ. конф. с междунар. участием. - Омск : ОмГТУ, 2010. - С. 39-45.

6. Воробьева, А. С. Программно-инструментальный метод определения насыщенности текстового набора печатных и электронных публикаций / А. С. Воробьева, Ю. С. Григоро-ва, О. А. Зырянова, И. А. Сысуев, О. А. Тимощенко // Омский научный вестник. Сер. Приборы, машины и технологии -Омск, 2010. - № 2 (90). - С. 228-231.

СЫСУЕВ Игорь Александрович, кандидат технических наук, доцент (Россия), доцент кафедры «Оборудование и технологии полиграфического производства» Омского государственного технического университета (ОмГТУ).

ПРУД Ирина Валерьевна, ассистент кафедры «Оборудование и технологии полиграфического производства», магистрант гр. ТПП-514 нефтехимического института ОмГТУ.

iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

ДЕРЖАВИНА Екатерина Александровна, магистрант гр. ТПП-514 нефтехимического института ОмГТУ.

ВДОВИНА Мария Владимировна, кандидат филологических наук, старший преподаватель кафедры английской филологии и лингвокультурологии Санкт-Петербургского государственного университета.

Адрес для переписки: [email protected]

Статья поступила в редакцию 02.04.2015 г. © И. А. Сысуев, И. В. Пруд, Е. А. Державина, М. В. Вдовина

ЮБИЛЕИ

К 50-летию полиграфического образования в Сибири

Поздравляем коллектив кафедры «Оборудование и технологии полиграфического производства» с юбилеем — 50-летием научно-педагогической деятельности!

На основании приказа МВиССО РСФСР № 665 от 18 сентября 1964 г. в Омском политехническом институте на факультете горячей обработки металлов были открыты две новые специальности: 1109 «Технология полиграфического производства» и 0515 «Полиграфические машины». В 1965 г. был впервые осуществлен прием студентов в количестве 100 человек. В это время подготовку специалистов для полиграфии осуществляли Московский полиграфический институт и Украинский полиграфический институт в г. Львове, но специалистов для предприятий в связи бурным ростом полиграфической промышленности в СССР катастрофически не хватало.

В 1970 году состоялся первый выпуск (66 человек) инженеров-технологов и инженеров-механиков и был образован полиграфический факультет (просуществовавший до 2004 г.) в составе двух кафедр: «Технология полиграфического производства» и «Полиграфические машины».

За прошедшие годы коллективом кафедры подготовлено свыше 2800 инженеров-технологов, бакалавров и магистров полиграфического производства. Кафедрой «Полиграфические машины», а с 2009 г. кафедрой «Оборудование и технологии полиграфического производства» подготовлено свыше 2000 инженеров-механиков, бакалавров и магистров.

География распределения молодых специалистов распространялась с юга на север — от Узбекистана до Салехарда и с запада на восток — от Ленинграда до Камчатки. Выпускники кафедры и факультета работают сегодня на полиграфических предприятиях, в издательствах, в сфере графических услуг во всех федеральных округах России, в республиках ближнего и дальнего зарубежья. Среди них государственные служащие федерального и регионального рангов, руководители крупных и малых предприятий полиграфической промышленности, ученые, общественные деятели, предприниматели среднего и малого бизнеса. Большинство специалистов работает в Уральском, Сибирском и Дальневосточном федеральных округах Российской Федерации.

Выпускники с теплотой и любовью отзываются о преподавателях вашей кафедры, которые на протяжении многих лет готовят высококлассных специалистов в области полиграфии.

Желаем коллективу кафедры «Оборудование и технологии полиграфического производства» здоровья, оптимизма и дальнейших успехов в подготовке высококвалифицированных специалистов для полиграфической промышленности России!

Коллектив сотрудников Омского государственного технического университета

Редакция журнала «Омский научный вестник»

i Надоели баннеры? Вы всегда можете отключить рекламу.