Научная статья на тему 'Application of semantic search to software error tracking process'

Application of semantic search to software error tracking process Текст научной статьи по специальности «Компьютерные и информационные науки»

CC BY
61
11
i Надоели баннеры? Вы всегда можете отключить рекламу.
Ключевые слова
ПРОЦЕСС ОТСЛЕЖИВАНИЯ ОШИБОК / ERROR TRACKING PROCESS / TICKETS SEARCH / ПОЛНОТЕКСТОВЫЙ ПОИСК / FULL-TEXT SEARCH / СЕМАНТИЧЕСКИЙ ПОИСК / SEMANTIC SEARCH / TF-IDF ВЗВЕШИВАНИЕ / TF-IDF WEIGHTING / ПОИСК ЗАЯВОК

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Samsonov Sergey

Software supporting specialists spend a lot of time to search tickets corresponded with customers’ issues. In the article we offer to apply semantic search approach to improve error tracking process. So, we improved tickets search algorithm with WordNet language database usage and tf-idf weighting that allowed us to consider synonyms for requested words and importance of these words.

i Надоели баннеры? Вы всегда можете отключить рекламу.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

Текст научной работы на тему «Application of semantic search to software error tracking process»

обрешётки не обеспечена при полном приложении снеговой нагрузки. Состояние стропильной системы оценивается как недопустимое к дальнейшей эксплуатации.

Полы в помещениях жилого дома выполнены из досок по деревянным лагам. Основными дефектами полов являются: загнивание, перекосы из -за прогибов балок перекрытия, провалы досок. Полы имеют повышенную зыбкость. Заполнения дверных и оконных проемов выполнены деревянными из столярных изделий. Большая часть деревянных оконных блоков повреждена гнилью и имеет значительные перекосы, в ряде мест обнаружены просветы, створки не закрываются в притворах. Дверные проемы имеют перекосы. Состояние полов оценивается как аварийное, а окон и дверей - как неудовлетворительное.

Оценкой работоспособности основных конструктивных элементов обследованного дома установлено, что его физический износ, согласно ВСН 53-86 (р), достиг 68 % при максимально допустимом в 65 % [3, с. 7], а сами конструктивные элементы являются неремонтопригодными. Проведение капитального ремонта здания нецелесообразно, так как примерная стоимость капитального ремонта составит 125...130 % от восстановительной стоимости конструктивных элементов. Необходимым является проведение страховочных мероприятий и усиление конструкций для исключения обрушения до выселения жителей. Жилой дом является непригодным для проживания согласно п. 2, 3 Постановления № 10 Госстроя России от 20.02.2004 и п. 34 Постановления № 47 Правительства Российской Федерации.

В заключение следует отметить, что по формальным признакам обследуемый жилой дом полностью исчерпал свой технический ресурс, он морально изношен и не соответствует своему функциональному назначению по действующим СанПиН. Кроме того, по противопожарным нормам огнестойкость здания не отвечает требованиям, предъявляемым к многоквартирным домам.

Литература

1. Афанасьев А. А., Матвеев Е. П. Реконструкция жилых зданий. Часть I. Технологии восстановления эксплуатационной надежности жилых зданий. М.: Строительство, 2008. 479 с.

2. Шагин А. Л., Бондаренко Ю. В., Гончаренко Д. В., Гончаров В. Б. Реконструкция зданий и сооружений. М.: Высшая школа, 1991. С. 352.

3. ВСН 53-86 (р). Правила оценки физического износа жилых зданий. М.: Госгражданстрой, 2000. 80 с.

Application of semantic search to software error tracking process Samsonov S. (Russian Federation) Использование семантического поиска в процессе отслеживания ошибок

программного обеспечения Самсонов С. А. (Российская Федерация)

Самсонов Сергей Александрович /Samsonov Sergey - магистрант, кафедра информационно-вычислительных систем,

Политехнический институт, Пензенский государственный университет, г. Пенза

Abstract: software supporting specialists spend a lot of time to search tickets corresponded with customers' issues. In the article we offer to apply semantic search approach to improve error tracking process. So, we improved tickets search algorithm with WordNet language database usage and tf-idf weighting that allowed us to consider synonyms for requested words and importance of these words.

Аннотация: специалисты по сопровождению программного обеспечения тратят достаточно много времени на поиск заявок, корреспондирующих с проблемами клиентов. В статье мы предлагаем использовать подход семантического поиска в целях совершенствования процесса отслеживания ошибок программного обеспечения. Таким образом, мы изменили алгоритм поиска заявок, используя языковую базу данных WordNet и tf-idf веса, что позволило нам учитывать синонимы для запрашиваемых слов, а также важность этих слов.

Keywords: error tracking process, tickets search, full-text search, semantic search, tf-idf weighting. Ключевые слова: процесс отслеживания ошибок, поиск заявок, полнотекстовый поиск, семантический поиск, tf-idf взвешивание.

In last years, software companies try to improve their supporting services with optimization of an error tracking process. Nevertheless, supporting staff spend a lot of time to solve customers' issues. The most time-consuming phase of an error tracking process is searching tickets corresponded with users' requests. In addition, the significant problem of error tracking process is searching tickets with synonyms corresponded with requested words. However, existing error tracking systems use full-text approach to search relevant results that do not allow users to search tickets considering synonyms. Moreover, these systems use term frequency (tf) ranking algorithm while sorting tickets that do not allow supporting specialists to consider requested words frequencies of tickets corpus. In this case users do not have any opportunities to sort tickets regarding importance of requested words.

Thus, supporting staff needs an error tracking system, which would allow them to solve the problems described above. So, the purpose of the article is to develop tickets search algorithm, which would consider synonyms for requested words and importance of these words.

To achieve the purpose we used semantic search approach, because this technique considers semantic relations between words including words synonymy [1]. The approach is based on usage of domain specific ontologies that allows users to search documents considering semantic relations between terms [2]. Also the approac extends the documents search with such a respective lanaguage databases as WordNet, BabelNet, sentiWordNet and other linguistic resources [3].

To apply the approach to an error tracking process we identified the full-text search algorithm, which are used in the most of existing error tracking systems [4]. The algorithm is shown on Figure 1.

Start

Excluding stop words _±_

Search tickets with requested words

i

Calculating tf of requested words for each ticket

±

Sorting ticket

I

End J)

Fig. 1. Full-text search algorithm used in existing error tracking systems

Firstly, we exclude stop words from user request.

Secondly, we search tickets, which contain requested non-stop words.

The third phase of the algorithm is calculating frequencies of requested non-stop words for each ticket. After that we sort tickets according to decrease sum of tf of requested words.

The algorithm is ease of realization. But the approach doesn't consider synonyms for requested words and importance of these words.

c

We improved the algorithm with semantic search approach. The improved algorithm is shown on Figure 2.

Start

Excluding stop words

I

Lemmatization *

Synonyms search i

Search tickets with requested words/synonyms for the words

I

Calculating similarity between user request and each ticket

I ~

Sorting tickets according to decrease calculated similarity

- 1 -

End

c

Fig. 2. Improved search algorithm, based on semantic search approach

So, after excluding stop words from user request we lemmatize non-stop words. The next stage is synonyms search for each lemma using WordNet language database. Then we search for tickets, which contain lemmas for requested non-stop words or synonyms for these lemmas. To weight tickets we calculate cosine similarity [5] between tf-idf [6] vectors of user request and of tickets. For this reason we calculated tf-idf as:

f - Ww,d = TT * l0§ N , where: Nd

n - number of occurency of word w in ticket d;

Nd - total number of words in ticket d;

N - total number of tickets;

d - number of tickets with word w.

So, tf-idf weighting allows us to filter out common terms. Thus, this approach considers importance of requested words.

Then we sort tickets according to decrease cosine similarity between tf-idf vectors of user requests and of tickets.

So, a new algorithm considers synonyms using WordNet language database and allows us to consider importance of non-stop requested words.

To estimate efficience of the algorithm we evaluated the results the full-text algorithm used in existing error tracking systems and improved algorithm developed during this study. The evaluation results are shown in Table 1.

Table 1. Search algorithms evaluation results

Search algorithm Precision Recall F measure

Full-text search algorithm 0.4791 0.5239 0.5005

Semantic search algorithm 0.8734 0.9275 0.8996

Thus, the F measure is increased from the full-text search algorithm's 0.5005 to the semantic search algorithm's 0.8996. So, the evaluation results showed the semantic search algorithm is much more effective than the full-text search algorithm.

In conclusion, semantic search approach can be usefull to optimize an error tracking process with tickets search impovement. So, the technique would allow software companies to significantly improve the quality of their supporting services.

References

1. Tumer D., Shah M. A., Bitirim Y. An Empirical Evaluation on Semantic Search Performance of Keyword-Based and Semantic Search Engines: Google, Yahoo, Msn and Hakia, Internet Monitoring and Protection, 2009. ICIMP '09. P. 51-55.

2. Loganantharaj R. et al. An Ontology Based Semantic Literature Retrieval System, Proc. of the 19th IEEE Symp. On Computer-Based Medical Systems (CBMS'06).

3. Pianta E. et al. Multiwordnet Developing an aligned multilingual database, Proceedings of the 1st International WordNet Conf., Jan 2002, Mysore. P. 293-302.

4. Singh V. B. Kumar, Krishna Kumar Chaturvedi. Bug Tracking and Reliability Assessment System, International Journal of Software Engineering and Its Applications; No. 4, October, 2011. P. 17-30.

5. Richardson R., Smeaton A. & Murphy J. 1994. Using WordNet as a Knowledge Base for Measuring Semantic Similarity Between Words. Technical Report Working paper CA-1294, School of Computer Applications, Dublin City University, Dublin, Ireland.

6. Zhou Z., Wang Y. and Gu J. 2008. «New Model of Semantic Similarity Measuring in Wordnet», Proceedings of the 3rd International Conference on Intelligent System and Knowledge Engineering, November 17-19, Xiamen, China.

i Надоели баннеры? Вы всегда можете отключить рекламу.