Рус Eng За 365 дней одобрено статей: 1993,   статей на доработке: 312 отклонено статей: 755 
Библиотека
Статьи и журналы | Тарифы | Оплата | Ваш профиль

Менщиков А.А., Комарова А.В., Гатчин Ю.А., Полев А.В. Разработка системы автоматического категорирования тематики страниц веб-ресурса

Опубликовано в журнале "Программные системы и вычислительные методы" в № 4 за 2016 год в рубрике "Системный анализ, поиск, анализ и фильтрация информации" на страницах 383-391.

Аннотация: В данной статье рассматриваются вопросы автоматической обработки содержимого веб-ресурсов. Поскольку скорость устаревания передаваемой во всемирной сети информации очень велика, актуальной темой становится своевременное извлечение необходимых данных из сети интернет. Объектом исследования являются веб-ресурсы, содержащие в себе неадаптированный к автоматизированной обработке текст. Предметом исследования является набор программных средств и методов. Особое внимание уделяется определению категорий объявлений, расположенных на специализированных сайтах. Также рассматриваются прикладные аспекты разработки универсальной архитектуры систем сбора информации. В ходе данного исследования использовались следующие методы: аналитический обзор основных принципов разработки систем автоматизированного сбора информации и анализа естественных языков. Для получения практико-ориентированного результата использовались методы синтеза и анализа. Особым вкладом авторов в исследование темы является разоработка автоматизированной системы сбора, обработки и классификации информации, содержащейся на веб-ресурсе. Новизна исследования заключается в использовании нового подхода к решению данной проблемы на основе учета семантики и структуры характерной для конкретных сайтов. Основными выводами проведенного исследования являются применимость и эффективность используемого метода классификации для решения данной задачи.

Ключевые слова: парсинг, анализ текста, категоризация веб-сайтов, система классификации, сбор информации, веб-роботы, машинное обучение, обработка информации, краулинг, большие данные

DOI: 10.7256/2305-6061.2016.4.21438

Эта статья может быть бесплатно загружена в формате PDF для чтения. Обращаем ваше внимание на необходимость соблюдения авторских прав, указания библиографической ссылки на статью при цитировании.

Скачать статью

Библиография:
Liu H. and Milios, E. (2012), PROBABILISTIC MODELS FOR FOCUSED WEB CRAWLING. Computational Intelligence, 28: 289–328
Менщиков А.А., Гатчин Ю.А. Методы обнаружения автоматизированного сбора информации с веб-ресурсов // Кибернетика и программирование. – 2015. – № 5. – С.136-157.
Razniewski Simon, and Werner Nutt. Long-term Optimization of Update Frequencies for Decaying Information // Proceedings of the 18th International Workshop on Web and Databases. ACM. – 2015.
Pant Gautam, and Padmini Srinivasan Learning to crawl: Comparing classification schemes // ACM Transactions on Information Systems (TOIS) 23.4 (2005): 430-462.
Kim Jin Young, et al. Characterizing web content, user interests, and search behavior by reading level and topic // Proceedings of the fifth ACM international conference on Web search and data mining. ACM, 2012.
Паутов К. Г., Попов Ф. А. Информационная система анализа и тематической классификации веб-страниц на основе методов машинного обучения // Современные проблемы науки и образования. 2012. №6.
Aggarwal Charu C., and ChengXiang Zhai. "A survey of text classification algorithms." Mining text data. Springer US, 2012. 163-222.
Chen Yu, Wei-Ying Ma, and Hong-Jiang Zhang. "Detecting web page structure for adaptive viewing on small form factor devices." Proceedings of the 12th international conference on World Wide Web. ACM, 2003.
Агеев Михаил Сергеевич, Добров Борис Викторович, Лукашевич Наталья Валентиновна Автоматическая рубрикация текстов: методы и проблемы // Учен. зап. Казан. ун-та. Сер. Физ.-матем. науки. 2008. №4.
Eswaran Dhivya, Paul N. Bennett, and Joseph J. Pfeiffer III. "Modeling Website Topic Cohesion at Scale to Improve Webpage Classification." Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015.
Martinez-Alvarez, Miguel et al. "Document Difficulty Framework for Semi-automatic Text Classification" DAWAK (2013).
Tripathi Nandita, Michael Oakes, and Stefan Wermter. "A Scalable Meta-Classifier Combining Search and Classification Techniques for Multi-Level Text Categorization." International Journal of Computational Intelligence and Applications 14.04 (2015).
Морфологический анализатор pymorphy [Электронный ресурс]. – Режим доступа: https://pythonhosted.org/pymorphy/, свободный (дата обращения: 30.09.2016).
Менщиков А.А. Методы обнаружения автоматизированного сбора информации с веб-ресурсов // Альманах научных работ молодых ученых Университета ИТМО-2016. – Т. 3. – С. 230-232

Правильная ссылка на статью:
просто выделите текст ссылки и скопируйте в буфер обмена