Автоматизированные системы управления технологическими процессами
Правильная ссылка на статью:
Рудометкин В.А.
Мониторинг и поиск неисправностей в распределённых высоконагруженных системах
// Кибернетика и программирование.
2020. № 2.
С. 1-6.
DOI: 10.25136/2644-5522.2020.2.32996 URL: https://nbpublish.com/library_read_article.php?id=32996
Аннотация:
Предметом исследования является проблема мониторинга и поиска неисправностей в распределённых высоконагруженных системах. Описываются наиболее распространенные ошибки при проектировании и разработки, способы их прогнозирования и решений. В данной статье автор описывается наиболее популярные инструменты, которые используются в настоящее время при разработке высоконагруженных систем и основные ошибки при работе с ними с точки зрения разработчика. В данной статье описывается набор инструментов, внедрение которых позволяет существенно сократить время на поиск уязвимостей, описаны сложности при выборе набора технологий метрик - ELK/EFK, описываются их преимущества и недостатки. Подробно разбираются аналоги используемых инструментов. Основными выводами в работе являются: - необходимость разработки инфраструктуры мониторинга системы с начала разработки проекта, благодаря чему можно исправить высокую сложность проекта на этапе его разработки. - необходимо использовать наиболее популярные инструменты, по которым имеется большое количество информации в открытых источниках, например, в Интернет. Данный подход позволит сократить время на исправления ошибок, которые могут быть вызваны специфическим набором инструментов. - компании необходимо не экономить на высококвалифицированном персонале, который в будущем позволит сэкономить большое количество времени на исправлении проблем, снизит время на разработку нового функционала и позволит уделять минимум времени для поддержки и тестирования уже разработанного функционала. - при анализе проблем стоит обратить внимание на публичные ресурсы, в которых другие компании, скорее всего, решали уже подобные проблемы. Например, компания Facebook долгое время занимается проблемой мониторинга и разработало большое количество инструментов для решения этой задачи. Так же собирают большое количество системных записей, которые позволяют анализировать поведения системы при любых ситуациях.
Ключевые слова:
мониторинг, высоконагруженная система, метрики, ELK, EFK, белый ящик, черный ящик, тестирование, контроль качества, архитектура
Abstract:
The subject of the research is the problem of monitoring and troubleshooting in distributed high-load systems. The most common mistakes in design and development, methods of their forecasting and solutions are described. In this article, the author describes the most popular tools that are currently used in the development of high-load systems and the main mistakes when working with them from a developer's point of view.This article describes a set of tools, the implementation of which can significantly reduce the time spent searching for vulnerabilities, describes the difficulties in choosing a set of metrics technologies - ELK / EFK, describes their advantages and disadvantages. The analogs of the tools used are analyzed in detail. The main conclusions in the work are:- the need to develop the infrastructure for monitoring the system from the beginning of the project development, due to which it is possible to correct the high complexity of the project at the stage of its development.- it is necessary to use the most popular tools for which there is a large amount of information in open sources, for example, on the Internet. This approach will reduce the time spent on fixing errors that can be caused by a specific set of tools.- the company needs not to save on highly qualified personnel, which in the future will save a lot of time on fixing problems, reduce the time for developing new functionality and allow spending a minimum of time to support and test the already developed functionality.- when analyzing problems, it is worth paying attention to public resources in which other companies, most likely, have already solved similar problems. For example, the Facebook company has been dealing with the monitoring problem for a long time and has developed a large number of tools to solve this problem. They also collect a large number of system records for analyzing the behavior of the system under any circumstances.
Keywords:
quality control, testing, black box, white box, EKF, ELK, metrics, hightload system, monitoring, architecture