Проектирование, внедрение и настройка систем мониторинга (Zabbix, Prometheus, Grafana, ELK и др.).
Разработка метрик, дашбордов и алертинга для контроля состояния инфраструктуры и сервисов.
Оптимизация и масштабирование существующих решений мониторинга.
Интеграция мониторинга с другими системами (CMDB, системами автоматизации, SIEM).
Автоматизация процессов мониторинга
Разработка скриптов и инструментов (Python или Bash, Docker, Ansible, Terraform) для автоматизации сбора
метрик, обработки логов и реагирования на инциденты.
Создание и поддержка автоматических реакций на события (автолечение, эскалация, уведомления).
Внедрение внешнего мониторинга для улучшения общей системы мониторинга.
Анализ и улучшение наблюдаемости системы
Постоянный анализ эффективности мониторинга, выявление "слепых зон".
Внедрение распределенного трейсинга и логирования (Loki, Graylog).
Оптимизация хранения и обработки метрик.
Обеспечение надежности и производительности
Участие в построении SLO/SLA для критичных сервисов.
Настройка proactive-мониторинга для предотвращения сбоев.
Работа с инженерами и командами тестировщиков для внедрения мониторинга на этапе CI/CD.