Научни трудове на Съюза на учените в България-Пловдив. Серия В. Техника и технологии, естествен ии хуманитарни науки, том XVI., Съюз на учените сесия "Международна конференция на младите учени" 13-15 юни 2013. Scientific research of the Union of Scientists in Bulgaria-Plovdiv, series C. Natural Sciences and Humanities, Vol. XVI, ISSN 1311-9192, Union of Scientists, International Conference of Young Scientists, 13 - 15 June 2013, Plovdiv.
СТРУКТУРИРАНЕ НА СЪВКУПНОСТИ ОТ ДАННИ ЗА РАСТЕНИЕВЪДНАТА ПРОДУКЦИЯ В БЪЛГАРИЯ НА БАЗАТА НА БОТАНИЧЕСКАТА КЛАСИФИКАЦИЯ НА РАСТЕНИЯТА
Деляна Димова
Катедра „Математика, информатика и физика" Аграрен Университет - Пловдив, e-mail: delyanadimova@abv.bg
RESTUCTURING OF DATASETS ON CROP PRODUCTION IN BULGARIA BASED ON BOTANIC CLASSIFICATION OF CROPS
Abstract
The paper presents restructuring of datasets on crops production based on botanical classification of crops. The data are extracted from multidimensional database. The developed software provides data visualization and trend analysis.
1. Увод
Извличането на информация се отнася за автоматичното извличане на структурирани данни като същности, връзки между тях и описващите ги атрибути от неструктурирани източници. Когато структурираните и неструктурирани данни съществуват едновременно, извличането на информация дава възможност да се интегрират двата типа източници и представят заявки от тях. Извличането на данни от неструктурирани източници е предизвикателство, с което изследователите се занимават в продължение на две десетилетия [1]. Разработени са редица системи и техники за решаване на споменатия проблем. Успешните техники включват статистически методи [2]. От една страна статистическите модели могат да бъдат базирани на връзките между изследваните променливи, а от друга страна те могат да бъдат теоретично обобщено описание на данните [3]. В големите корпороции, фирми и организации трябва да се съхраняват огромни количества данни. Те се предоставят в различни формати като плоски файлове, релационни таблици, обектно-ориентирани бази данни, HTML страници и т.н. [4]. Многомерната база данни (MDDB) предоставя интегрирана среда за съставяне на заявки, подпомагащи вземането на решения, което изисква агрегиране на огромни количества данни [5]. При MDDB информацията е организирана според тъй наречения модел звезда [6]. Специално изградена многомерна база данни [7, 8] за растениевъдната продукция се използва като източник, който предоставя данни за три страни от Европейския съюз, в случая България, Гърция и Румъния.
Целта на доклада е да представи едно структуриране на съвкупности от данни за растениевъдната продукция в България на базата на ботаническата класификация на растенията. Използването на предварително дефинирани условия (правила) дават възможност за намиране на зависимости между изследваните обекти, тяхното
групиране и извършване на оценка за получените данни. Изграденият софтуер визуализира резултатите за растениевъдната продукция и предоставя тренд анализ.
2. Дефиниране на условия и извличане на данни
Дефинирането на условия е едно от изискванията, когато трябва да бъдат извлечени данни принадлежащи на определени множества. Възможно е да възникнат затруднения при търсенето им от различни източници, от сложни структури от данни или в случаите при които се работи с големи масиви от информация. За тази цел използването на изграден софтуер значително би улеснило самия процес на намиране и групиране на необходимите данни по подходящ начин и в подходяща форма. Това позволява впоследствие те да бъдат анализирани. Специално за формирането на съвкупности от данни за растениевъдната продукция се използват няколко условия:
- изисква се представяне на семействата, към които принадлежат изследваните обекти (растения). В случая се използва отделен файл, от който се търси всяко семейство [9, 10] според ботаническа класификация.
- необходимо е да се посочи групата, в която са включени разглежданите обекти. Това се извършва съобразно прилагането на стопанска класификация [9,10], където растенията са обединени спрямо продуктивната им част.
- при всяка определена група трябва да се представи подгрупата (съвкупността), за която впоследствие ще бъде извършен математико-статистически анализ.
- дефинира се изследвания период. В настоящата работа се разглежда 15 годишен интервал от време, който включва годините от 1997 до 2011.
- в тясна връзка с избраните обекти (растения) са следните две множества. Първото от тях се отнася до произведената продукция, а второто до засети площи в хектари. Практически от тях трябва да бъде извлечена информация за изследваните години.
Обект на разглеждане в разработката е групата на плодовите зеленчуци, както е представено на фиг. 1. В резултат от прилагането на изброените по-горе условия, изграденият софтуер търси данните за България. С цел извършване на сравнения и предоставяне на изводи за производството на изследваните култури, едновременно с това ще бъде извлечена информация също така за Гърция и Румъния.
$Е||Л1 и.-."
Яа1тш>ш
5о1аисж
С итЛлЯ а с с в
> лЬагга«'
ГаЬас^аг
УсПахы:««
ГлЬяг^я*
Лрмиш
Су* ЛЮТ II гитер
ЛЯКПТ II 1-Л.Т.ТКК шгп^-р
^ е..ен фаста :№нн грах 11а:плл.жлн1Е
£мйка
1
Декмч
Сухлш и ыоан. гинг-ср ЗСЛЖН ЛИЛ II ИШк гат«р
3
вI
1ТЛТН-Р ц ьгч пладц
[!№' гтрт^ншл ] пПр'Г Г'.гии.т ПЛСШ 1РИ 71 р':
1«И 11(4*
то зм тее 3»
[ЗИОО ПИ) Л Л со 11»!
■ино Я1М| ■ «1100 11Ш
5И1 та 595»
1600 с» 1»1
2НМ 1Ш 3«»
нп ЗИ Ш 31»
±и Л
- ■ Пп#Ч1 11НИ
зозынм <37» 11ИМ 44 »3
ЯП № ко •0
ит ГМ 1И1Н
1-1ГМП 1Ш .=1
»
{.'углгео и илаэь». вшкр 3«лсн лют II «щи гаглер
Кр^-ТЛМВЦ'! 1Е юрюнлшм
3
-I
пратталк 4НШ
зыоо
И1НХМ
ним
1ШШ 171Ы) НАШ
11.1
лротл йттцт
! 14300
пищи
10000 1Ш4 13000
3
•г1
Фиг. 1 Представяне на групираните данни за плодовите зеленчуци
За всяка от трите страни в групирането на плодовите зеленчуци могат да се включат всички елементи от съвкупността или избрана част от тях. Данните за семействата на растенията се намират от споменатия файл. Специално в разглеждания случай се визуализират три от тези семейства:
- Solanaceae,
- СисшЪйасеае,
- Fabaceae.
Изследваната група растения, произведената продукция от тях и засетите площи с тези обекти за 15 годишния период се представят в отделни списъци, както е показано на фиг. 1. Тези данни са извлечени от изградена многомерна база данни за растениевъдната продукция [7]. Софтуерът дава възможност да се извежда информация само за едно от двете множества, тоест само за производството или за засетите хектари. В случая това зависи основно от два фактора. Първият е свързан с потребителите и техния избор, вторият зависи от целите на провежданото изследване.
3. Оценка на данни и тренд анализ
Съвкупността от растения от всяка една разглеждана група като цяло или отделен обект могат да бъдат анализирани. Специално данните представени за трите Балкански страни на фиг. 1 се изследват. За тази цел потребителят трябва да избере от предложения списък с плодови зеленцуци съответния обект. Настоящата работа разглежда данни за производството на домати в България, Гърция и Румъния. В този случай след посочването на културата е необходимо да се изчисли средната стойност на произведената продукция за споменатия интервал от 1997 до 2011 година. Тази информация се визуализира на фиг. 2. Регресионият анализ дава възможност да се определи тенденцията на времевото изменението на средния добив от хектар на културата домати в изброените страни. Построяването на модел изисква намирането на параметрите на регресионните уравнения. Това се реализира чрез прилагане на разработения софтуер. Интензивността и основното направление на динамичните промени в средните добиви на споменатата култура в България аналитично се представя с уравнението:
у = 1,695х - 3376,04 (1)
Фиг. 2 Оценка и тренд анализ на изследваната култура в трите страни от ЕС С единица нарастването на независимата променлива (х) в приетата мярка, зависимата
променлива (y) нараства с 1,695 единици.
За Румъния и Гърция динамичните промени в средните добиви от домати аналитично се представя съответно с уравненията:
y = 0,243x - 472,02 (2)
y = 0,593x - 1139,09 (3)
Следователно тенденцията на изменение на средното производство на разглежданата култура за тези две страни е съответно 0,243 и 0,593.
При изследваните величини - среден добив (в тонове) и засети площи (в хектари) за домати в България, Румъния и Гърция стойностите на изчислените корелационни коефициенти са следните - rl = 0,86; r2 = 0,412 и r3 = 0,58. Всяко едно от изброените числа е по-голямо от 0,3. Извършва се оценяване на параметрите на представените регресионни уравнения. В случая те са адекватни. Изграденият софтуер визуализира също така и съответните трендове, както може да се проследи от фиг. 2.
4. Заключение
Докладът представя структуриране на съвкупности от данни за растениевъдната продукция в България на базата на ботаническата класификация на растенията. Необходимата информацията се извлича основно от многомерна база данни. Прилагането на предварително дефинирани условия позволяват да се намерят зависимости между разглежданите обекти, както и тяхното групиране. Разработеният софтуер представя съответните резултати относно растениевъдната продукция за изследвания 15 годишен интервал от време (от 1997 до 2011) не само за България, но също така за Гърция и Румъния и предоставя тренд анализ.
5. Литература
1. S. Sarawagi, Information Extraction, Foundations and Trends in Databases, 2007, Vol. 1, No. 3, р. 261-377
2. D. Kauchak, J. Smarr, C. Elkan, Sources of Success for Information Extraction Methods, Technical Report CS2002-0696. Department of Computer Science and Engineering, University of California, San Diego, January 2002
3. D. J. Hand, Statistics and data mining: intersecting disciplines, ACM SIGKDD Explorations, June 1999, Volume 1, Issue 1, p. 16-19
4. A. S. Varde, Data Warehousing and Data Extraction on the World Wide Web, WebTech99, In WebTech 1999 Somerset, New Jersey, USA, November 1999, Track 19.
5. E. Baralis, S. Paraboschi, and E. Teniente, Materialized View Selection in a Multidimensional Database, proceedings of the 23 rd VLDB conference, Athens, Greece, 1997, p.156-165.
6. R. Kimball, The data warehouse toolkit, John Wiley & Son, 1996
7. N. Tsaikin, M. Zarkova, D. Stoyanova, and K. Onkov, Analysis of apple production of EU Balkan states based on PC time series database, proceedings of the international conference on international business, 2010, p. 57-65, (http://www.u-picardie.fr/CRIISEA/colloque/suite/ICIB_
actes.pdf#page=66)
8. K. Onkov, D. Stoyanova, Software Platform for Statistical Time Series Structuring and Analysis, World Conference on Information Technology, Barcelona, Spain, December 2012, (Imprint: Elsevier, Procedia Social and Behavioral Sciences Journal)
9. Т. Муртазов, И. Минков, Хр. Петров, Зеленчукопроизводство със селекция и семепроизводство, Хр. Г. Данов, Пловдив, 1984
10. bg.wikipedia org/wiki/Зеленчукови_култури
11. Т. Лидански., Статистически методи в биологията и в селското стопанство, Земиздат, 1988 г.
12. http://faostat.fao.org/