惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

J
Java Code Geeks
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
U
Unit 42
Last Week in AI
Last Week in AI
P
Proofpoint News Feed
酷 壳 – CoolShell
酷 壳 – CoolShell
Microsoft Azure Blog
Microsoft Azure Blog
B
Blog
WordPress大学
WordPress大学
The GitHub Blog
The GitHub Blog
Vercel News
Vercel News
月光博客
月光博客
D
Docker
腾讯CDC
罗磊的独立博客
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
博客园 - 三生石上(FineUI控件)
The Cloudflare Blog
S
Secure Thoughts
云风的 BLOG
云风的 BLOG
Cisco Talos Blog
Cisco Talos Blog
L
Lohrmann on Cybersecurity
P
Privacy & Cybersecurity Law Blog
博客园 - 聂微东
The Hacker News
The Hacker News
小众软件
小众软件
Simon Willison's Weblog
Simon Willison's Weblog
T
Threatpost
Scott Helme
Scott Helme
NISL@THU
NISL@THU
Y
Y Combinator Blog
C
Cisco Blogs
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
D
DataBreaches.Net
T
Tor Project blog
H
Help Net Security
Project Zero
Project Zero
IT之家
IT之家
Engineering at Meta
Engineering at Meta
美团技术团队
有赞技术团队
有赞技术团队
MyScale Blog
MyScale Blog
Spread Privacy
Spread Privacy
Hugging Face - Blog
Hugging Face - Blog
Security Latest
Security Latest
GbyAI
GbyAI
Latest news
Latest news
人人都是产品经理
人人都是产品经理
Blog — PlanetScale
Blog — PlanetScale
AWS News Blog
AWS News Blog

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Дашборд зелёный, командир, но сервис мёртв: ставим требования к observability правильно
Александра · 2026-06-17 · via Все публикации подряд на Хабре

Средний

4 мин

11

Подходя к офису ты думаешь, что сейчас придешь, нальешь себе кофе, поболтаешь с коллегами, откроешь таск-трекер и спокойно начнешь рабочий день. Инженеры GitHub 27 апреля 2026 года тоже так думали… И начали. А через пару часов поиск по репозиториям, issues и PR-ам начал отваливаться — до 65% запросов уходили в таймауты. Но самое странное: все дашборды были зелёными. CPU — в норме, память — в норме, 200 OK — летят. А пользователи обрывают линию техподдержки. Потому что метрики меряют техническое здоровье, а не бизнес-результат.

Как так получилось?

GitHub — не слепая система: мониторинг зафиксировал деградацию поиска, поднял инцидент. Но метрики видели только следствие — перегрузку балансировщиков. Они не могли классифицировать природу этой нагрузки. А причина оказалась в распределённом скрейпинге: более 600 000 уникальных IP-адресов гнали анонимный поисковый трафик, обходя rate limits, и сжимали 30% дневного объёма в четырёхчасовое окно. 

Балансировщики захлебнулись, время ответа выросло, и поиск перестал возвращать результаты. Дашборды были зелёными, потому что они измеряли техническое здоровье компонентов, но не различали тип нагрузки. А различать нужно: если это обычный рост — масштабируйся, если баг клиента — чини клиента, если скрейпинг — вводи конитроль для анонимного трафика. GitHub не сразу понял это, и инцидент длился больше шести часов. 

Когда инженеры GitHub наконец поняли, с чем имеют дело, они развернулись в четырёх направлениях одновременно: разгружали балансировщики, масштабировали балансировочный слой, блокировали аномальный трафик и тюнили настройки балансировщиков. К 21:33 UTC основные последствия были устранены, и поиск начал возвращать результаты. Ещё чуть больше часа команда мониторила систему, и в 22:46 UTC инцидент был официально закрыт.

Но главное — выводы, которые GitHub сделал после инцидента. Они не ограничились «починили и забыли». Во-первых, масштабировали сам балансировочный слой и применили оптимизации для работы с соединениями, чтобы подобное насыщение не повторилось. Во-вторых, добавили новые мониторы и механизмы контроля, которые позволяют ограничивать анонимный трафик, защищая зарегистрированных пользователей. И в-третьих — пересмотрели саму логику мониторинга: теперь система должна не просто фиксировать «нам плохо», а различать тип нагрузки, чтобы скрейпинг больше не оставался незамеченным риском.

Именно здесь граница наблюдаемости: GitHub не был слеп, но система видела следствие, а не причину. И только когда причина стала ясна, применили правильные действия. Теперь система умнее — она не просто кричит «мне больно», а подсказывает, где именно болит и что с этим делать.

Наблюдаемость (observability) — это способность системы объяснить своё поведение в момент, когда она ведёт себя не так, как ожидалось.

Как заложить наблюдаемость в требования

На этапе проектирования нужно задать один главный вопрос: какое объяснение должно быть доступно команде через пять минут после начала деградации? Ответ на него раскладывается на пять конкретных вопросов:

  1. Какая бизнес-операция страдает? Не сервис, не компонент, а операция: поиск, платёж, заказ, регистрация. Пользователь мыслит результатом, а не железками.

  2. Как мы поймём, что операция деградирует? Ошибки, задержки, дубли, ложный success, устаревший результат.

  3. С чем мы можем перепутать симптомы? В случае GitHub перегрузку балансировщиков перепутали с обычным ростом нагрузки, а не со скрейпингом.

  4. Какие данные позволят различить причины? Если этих данных нет — вы не различите причины.

  5. Какое действие должно следовать из понимания? Если после отклонения метрики непонятно, что делать — это не наблюдаемость, а сигнализация.

Таким образом, получаем следующую систему требований к разным аспектам наблюдаемости:

1. Требования к метрикам.
Каждая критичная бизнес-операция должна иметь сквозную метрику, проходящую через все слои системы. 
2. Требования к логированию.
Каждый запрос к критичной операции должен оставлять структурированный лог с обязательными полями.
3. Требования к трейсингу.
Каждый запрос должен передавать идентификатор для отслеживания, позволяющий отследить бизнес-операцию от начала до завершения через все слои.
4. Требования к оповещениям.
Уведомления об отклонениях должны приходить с дифференцирующей информацией, а не просто «модуль сломался».
5. Требования к дашбордам.
Важно учесть, что дашборд лучше строить не по компонентам, а по бизнес-операциям.
6. Требование к действиям.
Для каждого различимого класса причин должен быть описан конкретный механизм вмешательства с проверяемыми шагами.

Бизнес не платит за дашборды и метрики. Бизнес платит за то, чтобы сервис работал, а инциденты заканчивались быстро. Инцидент с поиском на GitHub длился больше шести часов. Если бы у них были заложены требования различать трафик по источнику (authenticated vs anonymous), время диагностики сократилось бы с двух-трёх часов до 15–20 минут.

Для платформы с миллионами пользователей это прямые потери: упущенная выручка, отток пользователей, удар по репутации.

Конкретные требования —к метрикам, к логам, к дашбордам по бизнес-операциям, копопвещениям, к проверяемым runbook'ам — это не бюрократия.  Они позволяют сократить MTTR (Mean Time To Resolve) с часов до минут.

Эта статья – конспект выпуска подкаста “Граница сложности”. Из аудиоверсии вы узнаете о том, как инженеры GitLab удалили базу в продакшене и что общего у метрики с Красной Шапочкой. 

Послушать полный  выпуск можно здесь:

Apple

Яндекс.Музыка