Рус Eng Cn Перевести страницу на:  
Please select your language to translate the article


You can just close the window to don't translate
Библиотека
ваш профиль

Вернуться к содержанию

Программные системы и вычислительные методы
Правильная ссылка на статью:

Мальшаков Г.В., Мальшаков В.Д. Методика нормализации алфавита поиска для повышения качества идентификации сущностей по частотным характеристикам их данных

Аннотация: Используя частотные распределения данных как их «идентификатор», возможно обнаружить данные одной системы в других предназначенных для взаимодействия системах, тем самым согласовав их работу. В этом случае идентификация сущностей предметной области происходит с помощью алфавита поиска - набора лексем с частотами их использования в данных сущности, располагающихся в записях реляционной базы данных прикладного программного обеспечения. Предметом исследования является методика нормализации алфавита поиска для повышения качества идентификации сущностей предметной области по частотным характеристикам их данных, заключающийся в удалении лексем алфавита входящих в другие лексемы алфавита с аналогичной частотой повтора в данных сущности. В качестве методов исследования использовались системный анализ, теория информации, теория алгоритмов, алгебра логики, теория множеств, сравнительный анализ, методы интеллектуального анализа данных и методы разработки программного обеспечения и баз данных. Экспериментально (на примере 178 сущностей) доказано, что данная методика позволяет в среднем в 5 раз уменьшить объём алфавита поиска, что значительно повышает быстродействие идентификации сущностей по частотным характеристикам их данных. Благодаря уменьшению количества более коротких лексем методика нормализации позволяет уменьшить ошибку распознавания, как показали эксперименты в среднем на 0.02036 на каждую идентификацию.


Ключевые слова:

нормализация, алфавит, поиск, сущность, частотный анализ данных, корреляция, база данных, программное обеспечение, идентификация, методика

Abstract: Using frequency distributions of data as identifier it is possible to find data of one system in other systems intended for interaction and coordinate their work. In this case entity identification of a subject domain is done using the alphabet of search. An alphabet of search is a set of lexemes with frequencies of their use in the data, stored as records of a relational database. Object of the research is a technique of normalization of the alphabet of search for improvement of quality of entity identification in a subject domain using frequency characteristics of their data. The technique requires deleting lexemes of the alphabet found in other lexemes of the alphabet with similar frequency of repetition in entity. The methods of the research include the system analysis, the theory of the information, the theory of algorithms, algebra of logic, the theory of sets, the comparative analysis, methods of the intellectual analysis of data and methods of development of the software and databases. The authors prove experimentally (on an example 178 entity), that the given technique allows to reduce the volume of the alphabet of search in 5 times on average, that considerably increases speed of identification entity under frequency characteristics of their data. By reducing the quantity of shorter lexemes the technique of normalization allows to reduce an error of recognition on average by 0.02036 per identification as shown by experiments.


Keywords:

correlation, frequency analysis of data, entity, search, the alphabet, normalization, database, software, identification, method


Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография
1.
2.
3.
4.
5.
6.
References
1.
2.
3.
4.
5.
6.