惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Stack Overflow Blog
Stack Overflow Blog
P
Privacy International News Feed
U
Unit 42
B
Blog
GbyAI
GbyAI
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
Forbes - Security
Forbes - Security
Engineering at Meta
Engineering at Meta
J
Java Code Geeks
Scott Helme
Scott Helme
MongoDB | Blog
MongoDB | Blog
H
Help Net Security
美团技术团队
T
Threat Research - Cisco Blogs
MyScale Blog
MyScale Blog
爱范儿
爱范儿
Schneier on Security
Schneier on Security
Y
Y Combinator Blog
C
Cisco Blogs
P
Proofpoint News Feed
T
Tenable Blog
TaoSecurity Blog
TaoSecurity Blog
aimingoo的专栏
aimingoo的专栏
Hugging Face - Blog
Hugging Face - Blog
H
Hackread – Cybersecurity News, Data Breaches, AI and More
H
Heimdal Security Blog
N
News and Events Feed by Topic
S
Security @ Cisco Blogs
N
News | PayPal Newsroom
W
WeLiveSecurity
SecWiki News
SecWiki News
小众软件
小众软件
I
InfoQ
Project Zero
Project Zero
Recent Announcements
Recent Announcements
Microsoft Azure Blog
Microsoft Azure Blog
Blog — PlanetScale
Blog — PlanetScale
Attack and Defense Labs
Attack and Defense Labs
Recent Commits to openclaw:main
Recent Commits to openclaw:main
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
Apple Machine Learning Research
Apple Machine Learning Research
S
Secure Thoughts
Martin Fowler
Martin Fowler
Cyber Security Advisories - MS-ISAC
Cyber Security Advisories - MS-ISAC
Cloudbric
Cloudbric
G
Google Developers Blog
Hacker News: Ask HN
Hacker News: Ask HN
Help Net Security
Help Net Security
C
Cybersecurity and Infrastructure Security Agency CISA
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как мы построили централизованную CMDB для управления Zabbix с RFC, аудитом и откатом изменений
JetHabr · 2026-06-18 · via Все публикации подряд на Хабре

Средний

7 мин

0

Привет, Хабр!

Чем больше растет инсталляция Zabbix, тем сложнее становится управлять ее конфигурацией. Особенно если речь идет не об одном сервере мониторинга, а о нескольких инсталляциях, десятках команд и сотнях инженеров, которым регулярно нужно что-то менять: пороги срабатывания, IP-адреса, триггеры, шаблоны или наборы метрик.

В какой-то момент мы столкнулись с тем, что прямой доступ к Zabbix оказался плохим решением: давать его всем нельзя, а проводить каждое изменение через команду мониторинга — долго. В результате мониторщики постепенно превратились в узкое горлышко в команде Сервисного центра, а история изменений конфигурации оказалась разбросана между встроенным аудитом Zabbix, заявками и переписками.

Тогда мы решили посмотреть на конфигурацию мониторинга как на отдельный объект управления и вынести ее в централизованную CMDB. Так появилась система, которая собирает конфигурацию из нескольких инсталляций Zabbix, предоставляет единый интерфейс для работы с настройками, поддерживает RFC-процессы, хранит историю изменений и позволяет откатывать их при необходимости.

В этой статье расскажем, как устроена архитектура решения и какие задачи нам удалось закрыть с его помощью.

О системе концептуально

Наша система — это централизованная CMDB для частичного управления конфигурацией мониторинга в нескольких инсталляциях Zabbix. Zabbix по-прежнему остается источником фактического состояния мониторинга.

В нашем случае CMDB выступает как:

  • агрегатор инсталляций;

  • интерфейс над их управлением;

  • система контроля изменений.

Конфигурационная единица (KE)

Базовая сущность системы — конфигурационная единица — хост в Zabbix:

Все изменения выполняются в рамках конкретного хоста и его конфигурации:

Модель работы с данными. Синхронизация

Одним из первых вопросов при проектировании системы стал способ работы с конфигурацией Zabbix. Теоретически можно было обращаться к API напрямую каждый раз, когда пользователю требуется посмотреть или изменить настройки. Однако такой подход плохо масштабируется, особенно когда нужно работать сразу с несколькими инсталляциями мониторинга.

Поэтому мы выбрали Pull-модель. С определенным интервалом система самостоятельно забирает данные из Zabbix и сохраняет их в собственной базе. В синхронизацию попадают основные объекты конфигурации: теги, макросы, группы, шаблоны, интерфейсы, триггеры и метрики.

Такой подход решает сразу несколько задач. Во-первых, пользовательский интерфейс и бизнес-логика не зависят от доступности конкретной инсталляции Zabbix. Во-вторых, появляется единая точка хранения данных для нескольких систем мониторинга. Наконец, все операции чтения выполняются из локальной базы, что заметно снижает нагрузку на API.

Чтобы избежать лишних операций записи, после каждой синхронизации мы рассчитываем контрольную сумму полученных данных и сравниваем ее с предыдущим состоянием. Если изменений нет, запись в базу не выполняется.

В результате уменьшается количество операций обновления, снижается нагрузка на СУБД и ускоряется сама процедура синхронизации.

Статусная модель RFC и атомарность применения

Любое изменение оформляется как RFC. В этой схеме пользователь сначала привязывает изменение к задаче из Service Desk:

А затем вносит изменения:

Логично, что после этой процедуры пользователь перед отправкой изменений на согласование должен видеть, что именно поменялось. Также хотелось бы понимать, что именно нужно проверять. Мы предусмотрели это: взяли пакет json-diff-ts и передали два json-объекта до применения конфига. На выходе получили уже готовый diff, который отрисовали в качестве чейнджа.

В итоге получаем:

Процесс обработки изменений в нашей системе строится вокруг статусной модели RFC:

New(draft) → approved → pending → success

 ↓                                          ↓

 rejected                       error        

Проблема атомарности

На каждом этапе мы фиксируем состояние в базе: от «Новой» задачи через «Ожидание проверки» до статуса «Проверена», после чего в работу вступает executor job. На этом этапе мы столкнулись с проблемой: Zabbix API представляет собой набор независимых методов, и при последовательном применении нескольких изменений одно может выполниться, а другое — нет.

Для себя мы нашли решение — компенсирующая транзакция. Ее логика работает в соответствии с алгоритмом.

Алгоритм

На этапе создания черновика (draft) сохраняются:

  • планируемые изменения;

  • полный текущий конфиг хоста (точка восстановления).

После перехода в статус «Проверена» executor последовательно применяет изменения через API Zabbix. При любой ошибке:

  • процесс останавливается;

  • запускается откат к сохранённому состоянию.

При успехе всех операций RFC переходит в статус «Применена».

Изменения проходят вот такой workflow:

  • создание draft;

  • review;

  • approve/reject;

  • apply.

Аудит и история

Теперь обратимся к контролю внесенных изменений.  

Для аудита мы использовали механизмы postgres, написали функцию и повесили триггеры на таблицы, которые хранят данные по КЕ. И теперь каждый insert update delete фиксируется в таблице changelog.

В базе данных мы написали функционал аудита, а также триггеры на каждую таблицу (INSERT / UPDATE / DELETE). В таблицу changelog теперь записывается:

  • когда изменяли;

  • что изменяли;

  • детали значения до / после.

В итоге система хранит полную историю изменений, внесенных в хост:

Теперь переходим к настройке аудита RFC. Нам необходимо было добавить возможность просмотра изменений: кто создал RFC, и кто его подтвердил. Для этого мы отобразили таблицу с RFC-задачами.

Благодаря этому функционалу мы получили:

  • единую точку доступа: просмотр конфигурации мониторинга без доступа к Zabbix;

  • контроль изменений: все изменения проходят через workflow;

  • снижение операционной нагрузки: инженеры мониторинга освобождаются от рутинных задач, в частности от корректировки макросов, тегов, отключения триггеров и прочего.

Архитектура

В качестве взаимодействия между компонентами мы использовали прослойку Hasura, которая сэкономила нам сотни часов разработки, вместо того чтобы вручную писать множество запросов в БД.

Матчасть:

Скрытый текст

1. Scheduler (планировщик)

  • Запускается по cron / ticker

  • Собирает список всех инсталляций Zabbix

  • Кладет задачи синхронизации в очередь

2. Sync jobs (джобы синхронизации)

  • Pull-модель: забирает данные через Zabbix API

  • Получает: хосты, шаблоны, группы, макросы, тэги, интерфейсы

  • Вычисляет checksum (например, от JSON-представления конфига хоста)

  • Если checksum изменился — пишем в БД, нет — пропускаем (экономия нагрузки)

3. CMDB config loader (метрики и триггеры)

  • Тот же принцип, но свой интервал

  • Вынесен отдельно, так как запрос метрик — тяжёлый

4. Executor (применение изменений)

  • Атомарно применяет утвержденный RFC к Zabbix

  • Реализует компенсирующие транзакции:

  1. сохраняет полный конфиг хоста до изменений

  2. если любой вызов API упал → откат к сохраненному состоянию

5. База данных (PostgreSQL)

Хранит:

  • актуальную конфигурацию всех хостов

  • историю изменений (триггерный аудит)

  • черновики RFC

  • аудит RFC

  • аудит лог

6. Кэш — Redis

  • Чексуммы по хостам, шаблонам, метрикам, триггерам

7. Frontend (React + TypeScript)

  • Просмотр конфигурации (доступ без прямого доступа в Zabbix)

  • Редактирование через RFC

  • Визуализация JSON diff (json-diff-ts)

Этапы разработки

Разработка шла последовательно, каждый этап давал работающий результат, который сразу начинали использовать.

Технический стек:

  • Backend и jobs — Golang (синхронизация, executor, scheduler)

  • Frontend — React + TypeScript

  • API слой — Hasura GraphQL Engine

  • БД — PostgreSQL

  • Кэш и очереди — Redis

1 этап. Синхронизация с Zabbix

Цель — получить «золотой слепок» всех инсталляций в единой базе.

Что сделали:

  1. Написали sync-worker на Golang, который по расписанию ходит в Zabbix API каждого заказчика

  2. Выгрузили: хосты, шаблоны, группы, макросы, тэги, интерфейсы, метрики, триггеры

  3. Внедрили checksum в Redis: сверили хэш текущего состояния с предыдущим, если не изменилось — не пишем в PostgreSQL

  4. Самые тяжелые сущности (метрики и триггеры) вынесли в отдельный воркер с интервалом 15 минут и обязательной пагинацией

  5. Для организации очередей и retry-политик использовали Redis + очередь на Golang (экспоненциальная задержка при ошибках API)

Результат первого этапа: работающая синхронизация с шести Zabbix. В БД лежит актуальная конфигурация всех хостов.

2 этап. Просмотр конфигурации

Цель — дать инженерам сервисного центра возможность смотреть настройки мониторинга без доступа к Zabbix.

Что сделали:

  • Написали React + TypeScript-приложение с таблицей хостов (фильтрация по заказчику, группе, шаблону)

  • Страницу деталей хоста: макросы, тэги, интерфейсы, привязанные шаблоны, метрики, триггеры

  • Добавили поиск и фильтры

Результат второго этапа: единая точка входа для просмотра мониторинга. Инженеры сервисного центра перестали писать «А посмотри в Zabbix» — теперь они все видят сами.

3 этап. Редактирование через RFC

Цель — разрешить инженерам сервисного центра изменять настройки, но под контролем мониторинга.

Что сделали:

  1. Добавили статусную модель RFC: draft → approved → pending → success/error и rejected

  2. Создание RFC на React + TS: выбор хоста → создание кнопки редактирования → написание

  3. JSON diff через json-diff-ts: перед отправкой пользователь видит, что именно изменил

  4. Ревьюер при проверке видит тот же самый diff

  5. Написали executor на Golang — сервис, который применяет одобренные RFC к живому Zabbix

  6. Решили проблему отсутствия транзакций: executor сохраняет snapshot хоста до изменений, при любой ошибке откатывается

  7. Добавили Redis-блокировки (lock:host:{id}), чтобы два executor'а не меняли один хост одновременно

  8. Аудит: триггеры PostgreSQL логируют все изменения таблиц, отдельная таблица хранит историю статусов RFC

Результат третьего этапа: инженер Сервисного центра меняет настройки сам за 3 минуты, мониторинг только проверяет diff и нажимает Approve. Всё под тикетом, всё аудируется, всё откатывается.

Резюмируем

Команда мониторинга перестала быть узким местом для типовых изменений, а инженеры сервисного центра получили контролируемый сервис для работы с конфигурацией мониторинга. Главная техническая проблема — отсутствие транзакций в Zabbix API — была решена с помощью компенсирующих транзакций. При возникновении ошибки система автоматически откатывает конфигурацию к исходному состоянию. Аудит всех изменений реализован на уровне PostgreSQL через триггеры, что дало полную и неизменяемую историю правок. Архитектура построена на pull-синхронизации с кэшированием чексумм в Redis, что минимизирует нагрузку на базу данных. Тяжелые сущности вроде метрик и триггеров вынесены в отдельные воркеры с разными интервалами опроса. Использование Hasura GraphQL в качестве API-прослойки сэкономило ресурсы на ручной разработке запросов.

Не благодарите!