惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Engineering at Meta
Engineering at Meta
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cyber Attacks, Cyber Crime and Cyber Security
A
Arctic Wolf
Help Net Security
Help Net Security
T
Threatpost
K
Kaspersky official blog
T
Threat Research - Cisco Blogs
C
CERT Recently Published Vulnerability Notes
T
The Exploit Database - CXSecurity.com
Stack Overflow Blog
Stack Overflow Blog
大猫的无限游戏
大猫的无限游戏
J
Java Code Geeks
B
Blog
Latest news
Latest news
爱范儿
爱范儿
G
Google Developers Blog
P
Privacy International News Feed
C
CXSECURITY Database RSS Feed - CXSecurity.com
S
Schneier on Security
H
Help Net Security
aimingoo的专栏
aimingoo的专栏
T
Tenable Blog
S
Securelist
博客园 - 【当耐特】
MongoDB | Blog
MongoDB | Blog
Last Week in AI
Last Week in AI
美团技术团队
P
Proofpoint News Feed
Cisco Talos Blog
Cisco Talos Blog
Know Your Adversary
Know Your Adversary
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Cyberwarzone
Cyberwarzone
C
Cisco Blogs
F
Fortinet All Blogs
L
Lohrmann on Cybersecurity
AWS News Blog
AWS News Blog
P
Privacy & Cybersecurity Law Blog
M
MIT News - Artificial intelligence
G
GRAHAM CLULEY
Simon Willison's Weblog
Simon Willison's Weblog
The Cloudflare Blog
The Register - Security
The Register - Security
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
GbyAI
GbyAI
V
Vulnerabilities – Threatpost
L
LINUX DO - 热门话题
V
Visual Studio Blog
I
InfoQ
阮一峰的网络日志
阮一峰的网络日志

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Как обнаруживают утечку информации по сетевым скрытым каналам
Михаил · 2026-06-18 · via Все публикации подряд на Хабре

Как обнаруживают утечку информации по сетевым скрытым каналам

Средний

9 мин

4

В предыдущей статье этого цикла мы закончили на превентивных мерах противодействия утечке информации по скрытым каналам. Как вы помните, данные меры могут быть достаточно эффективны, однако, у них есть серьезный минус – их введение существенно понижает характеристики легитимного канала связи и может затрагивать функциональные возможности сетевых протоколов. Особенно ярко это выражается для сетевых скрытых каналов по времени.

Поэтому, достаточно логичным выглядит подход, когда мы сначала следим за легитимным каналом связи, и только если обнаруживаем реальное существование скрытого канала в системе, вводим конкретные меры противодействия. В данной статье мы поговорим о том, как обнаруживают сетевые скрытые каналы по времени, для которых не стоит вводить превентивные меры, пока скрытый канал не был обнаружен.

Почему это сложно?

Скрытый канал по своей сути является незаметным. Мы пытаемся поймать рыбку в аквариуме, но саму рыбку мы никогда не увидим, мы можем лишь замечать ее следы – волны на поверхности воды, необычное поведение других рыб, неожиданные движения водорослей. Обнаружение скрытых каналов работает примерно так же – сам канал мы не видим, зато можем поймать его отпечатки в сетевом трафике – тонкие аномалии, выдающие присутствие нарушителя.

Однако, мы даже не знаем, на что конкретно нам смотреть – ведь схемы кодирования скрытой информации могут различаться достаточно сильно даже в рамках одного типа скрытых каналов. Помогает нам то, что пытаемся мы обнаружить все-таки именно скрытые каналы по времени, а значит от основополагающего принципа никуда не деться – информация так или иначе все равно будет кодироваться либо в длинах межпакетных интервалов, либо в самом факте присутствия/отсутствия сетевого пакета в конкретный момент времени.

Итак, функционирующий скрытый канал – это аномалия в потоке трафика. Аномалия возникает за счет закономерностей, которых в трафике быть не должно, ведь закладка «выстраивает» пакеты специальным образом. Значит, нам нужно либо уметь выявлять данные закономерности напрямую, либо выявлять аномалии путем сравнения тестируемой выборки с «эталонной».   «Эталонным» мы будем называть трафик с гарантированным отсутствием в нем функционирующего скрытого канала. Внимательный читатель увидит здесь еще одну проблему. Ведь скрытый канал возникает за счет закладок, которые могут быть в любом программном или аппаратном обеспечении. И кто даст гарантию, что в системе в момент получения этого «эталонного» трафика не присутствует никаких закладок? А собрать эталонный трафик мы должны именно в нашей исследуемой системе, ведь аномалия в одной сети может быть нормальным поведением в другой – разное оборудование, разные приложения, разный график работы сотрудников, сезонные изменения нагрузки и так далее. К сожалению, эту проблему обойти нельзя, и приходится все равно принимать какое-то состояние сети как состояние без функционирующего скрытого канала.

Помимо этого, обнаружение требует времени. Естественно, любую аномалию будет видно лишь со временем, и если время реакции будет слишком долгим, то потенциально через такой скрытый канал уже утечет часть критичной информации.

Поэтому, ключевые показатели методов обнаружения – точность и скорость реакции. И уже следом идет универсальность, то есть количество скрытых каналов разного типа, обнаруживаемых в рамках одного конкретного метода.

История развития методов обнаружения

Для задач сравнения двух выборок (эталонный трафик и трафик, в котором потенциально присутствует передача скрытого сообщения) изначально применялись классические методы на основе математической статистики – критерий Пирсона и критерий Колмогорова-Смирнова.

Далее развитие получили статистические методы, разработанные специально для задачи обнаружения скрытых каналов, либо адаптированные для них. В этих методах извлекаемые из трафика последовательности значений длин межпакетных интервалов анализируются на предмет возможных закономерностей путем подсчета конкретного параметра (энтропии, дисперсии и других), при этом обязательно должно иметься некоторое пороговое значение, при превышении которого делается вывод о наличии функционирующего скрытого канала в системе.

Наконец, в настоящее время активно развиваются методы обнаружения, тесно связанные с применением машинного обучения и нейронных сетей – они используют в своей основе наработки от статистических методов, улучшая и дополняя их.

Обнаруживаем простейший скрытый канал по времени

Для примера давайте разберем достаточно простой статистический метод, направленный на обнаружение бинарного скрытого канала по времени на основе длин межпакетных интервалов. Имеется два диапазона значений длин межпакетных интервалов, один из них кодируется как скрытый символ «0», другой – «1». Для передачи скрытой информации закладка будет посылать пакеты с задержкой, попадающей в один из двух выбранных интервалов.

Все статистические методы начинаются одинаково – выделяем из трафика значения длин межпакетных интервалов и строим гистограмму, в которой представлено распределение числа пакетов в зависимости от значений этих длин.

Если мы будем следить за каналом связи достаточно долго, то на гистограмме будут видны два пика с максимальным числом переданных пакетов C_{\mathrm{max}} на одном из них и близким к C_{\mathrm{max}} значением на другом. Оба пика будут сосредоточены возле выбранных на этапе кодирования временных интервалов. Среднее значение длин межпакетных интервалов \mu, в свою очередь, будет находиться между двумя данными пиками. При этом количество пакетов C_\mu в точке \mu будет мало.

На гистограмме четко видно два пика, сосредоточенных вокруг скрытых "0" и "1"

На гистограмме четко видно два пика, сосредоточенных вокруг скрытых "0" и "1"

Если же мы будем следить за каналом связи, когда закладка неактивна, то у нас получится нормальное распределение, представленное ниже.

Скрытый канал отсутствует - пик один, в соответствии с нормальным распределением

Скрытый канал отсутствует - пик один, в соответствии с нормальным распределением

Присутствует один пик, находящийся примерно по центру, в котором количество пакетов C_\mu максимально по отношению к другим, то есть C_\mu = C_{\mathrm{max}}.

Вводится отношение \frac{C_\mu}{C_{\mathrm{max}}} в пределе от числа переданных пакетов N: \lim_{N \to \infty} \frac{C_\mu(N)}{C_{\mathrm{max}}(N)}. Можно заметить, что при \lim_{N \to \infty} \frac{C_\mu(N)}{C_{\mathrm{max}}(N)} = 1 с высокой долей вероятности скрытого канала в системе нет. И наоборот, при \lim_{N \to \infty} \frac{C_\mu(N)}{C_{\mathrm{max}}(N)} \ll 1 скорее всего, скрытый канал присутствует в системе. Тогда метрика P вероятности наличия скрытого канала в системе: P = 1 - \lim_{N \to \infty} \frac{C_\mu(N)}{C_{\mathrm{max}}(N)}.

Стоит отметить, что вероятность обнаружения построенного скрытого канала данным методом понижается, если выбирать временные интервалы для кодирования таким образом, чтобы они были расположены близко друг к другу, тем самым приближая значение \frac{C_\mu}{C_{\mathrm{max}}} к единице. Однако, это ведет к увеличению уровня шума.

Пытаемся уменьшить вероятность обнаружения скрытого канала, "сближая" значения скрытых "0" и "1"

Пытаемся уменьшить вероятность обнаружения скрытого канала, "сближая" значения скрытых "0" и "1"

Возникает вопрос, как выбрать границу, после которой будем считать, что присутствует активный скрытый канал? Здесь универсальных решений нет. Основываем это решение на математической модели скрытого канала, который мы пытаемся обнаружить, и на политике безопасности организации.

Другие статистические методы обнаружения

Если мы будем наблюдать за каналом долгое время, при этом закладка будет работать лишь небольшой отрезок времени, то все закономерности, создаваемые закладкой, растворятся в общем потоке трафика. С этим нам может помочь разбиение всего наблюдаемого интервала на отрезки и анализ как каждого отрезка в отдельности, так и всех отрезков совокупности. Именно так работает метод обнаружения на основе дисперсии.

Строим уже знакомую нам гистограмму, разделяем ее на N непересекающихся окон по w пакетов в каждом окне. Для каждого окна вычисляем разброс значений длин межпакетных интервалов через дисперсию. Далее считаем попарные относительные разности дисперсий  \frac{\left| D_i - D_{i+1} \right|}{D_i}, и наконец вычисляем разброс этих относительных разностей через еще одну дисперсию. В случае малого значения данной финальной дисперсии мы делаем предположение, что в окнах присутствуют зависимости, а значит присутствует активный скрытый канал.

Подсчет относительных разностей мы встречаем и в методе «эпсилон-схожести» (ε-similarity). Строим гистограмму w отсортированных по возрастанию значений длин межпакетных интервалов. Вычисляем относительные разности между попарно расположенными точками: \nu_i = \frac{P_{i+1} - P_i}{P_i}. Выбираем параметр \varepsilon и подсчитываем количество относительных разностей k таких, что \nu_i < \varepsilon. Вычисляем основную метрику метода обнаружения – меру схожести \rho = \frac{k}{w - 1}. Наконец, принимаем решение о наличии скрытого канала при \rho < \rho_0. Здесь мы видим уже два параметра, которые мы должны установить сами – \varepsilon и \rho_0. Дальнейший анализ метода и то, как выбирать данные параметры, можно найти к примеру в этой статье.

Существует и ряд методов, которые берут уже известные математические сущности и применяют их к задаче обнаружения скрытых каналов. Например, условную энтропию, которая также показывает наличие либо отсутствие закономерностей в последовательности значений длин межпакетных интервалов, или даже колмогоровскую сложность.

Колмогоровская сложность K(S) строки S – наиболее краткая универсальная компьютерная программа, которая производит данную строку. K(S) = C обеспечивает максимально возможное сжатие строки S. Пусть С – строка, полученная из строки S c помощью некоторой функции сжатия. Тогда сжимаемость строки будет равна K(S) = \frac{|S|}{|C|}, где |\cdot| – длина строки. Пусть длина межпакетного интервала равна 0.0247 секунды. Тогда строковое представление получается путем отбрасывания первых нулей и округлением оставшегося числа до двузначного. При этом к началу числа приписывается буква, которое определяет количество нулей после запятой. A соответствует одному нулю, B – двум и так далее. То есть, строковым представлением числа 0.0247 будет А25. Длины межпакетных интервалов представляются в виде строки, после чего считается ее сжимаемость. При этом сжимаемость для строки, полученной из длин межпакетных интервалов для канала связи, в котором присутствует скрытый канал с шумом, будет выше, чем сжимаемость для аналогичной строки без присутствия скрытого канала.

Машинное обучение в задаче обнаружения скрытых каналов

Свое дальнейшее развитие статистические методы получили в рамках подходов с использованием методов машинного обучения. Ведь ту статистику, которая собирается с помощью статистических методов, можно использовать в качестве признаков при обучении и работе модели искусственного интеллекта.

Существует три различных сценария работы таких ML-детекторов, связанных с тем, какие датасеты у нас имеются для обучения модели.

В первом сценарии у нас имеется и «эталонный» трафик, то есть трафик с гарантированным отсутствием скрытого канала, и «скрытый» трафик, то есть трафик с гарантированным присутствием скрытого канала, причем мы точно знаем тип скрытого канала и схему кодирования. Звучит не очень реалистично, и это идеальный для нас случай, ведь это классическое обучение с учителем. Этот сценарий подходит только для лабораторных тестов, ведь «скрытый» трафик в реальной системе мы получить не сможем.

Во втором сценарии мы имеем на руках только «эталонный» трафик. Более правдоподобный случай, ведь можно предположить наличие какой-то точки отсчета, когда в системе не было закладок, и мы сняли дамп трафика как раз в этот момент. При этом, мы не знаем заранее, какой скрытый канал будет использоваться для утечки информации. Здесь будут применяться алгоритмы обнаружения аномалий.

Наконец, самым реалистичным будет третий сценарий, когда у нас нет ни «эталонного», ни «скрытого» трафика. Мы пришли защищать систему, в которой возможно уже имеются закладки, и мы не знаем, в какой момент времени они активны. Тут на помощь приходят алгоритмы кластеризации. Алгоритмы ищут структуры в данных без каких-либо меток. Если данные хорошо кластеризуются, то скорее всего в потоке трафика есть зависимости, а значит, вероятно присутствие скрытого канала.

Известные результаты по обнаружению скрытых каналов с использованием ML-детекторов

Одной из первых заметных работ в этом направлении стала статья, в которой предложен вектор из четырех признаков – результат теста Колмогорова-Смирнова, оценка регулярности, энтропия и скорректированная условная энтропия (CCE). На основе этих четырёх чисел SVM-классификатор разделяет трафик на «обычный» и «скрытый». Авторы тестировали систему на четырёх различных типах скрытых каналов и показали, что она способна обобщаться – то есть обнаруживать не только те каналы, на которых обучалась.

Для первого сценария отлично показали себя и деревья решений. В другой статье использовалось четыре статистических признаков – среднее, дисперсия, асимметрия и эксцесс распределения межпакетных интервалов.

Известны работы по использованию глубокого обучения для задачи обнаружения скрытых каналов. Так, в данной статье использовалась LSTM. Модель обучается на нормальном трафике и обнаруживает аномалии в паттернах, растянутых во времени. Это особенно актуально для очень медленных каналов: если канал передаёт по одному биту в несколько секунд, его сигнал «размазан» по длинному отрезку времени, и именно LSTM может уловить эту длинную зависимость, которую обычные методы просто не видят.

Бывают и более нестандартные подходы. Например, как вам идея превратить поток межпакетных интервалов в цветное изображение и применить CNN, которые обычно используются в компьютерном зрении? Алгоритм SnapCatch конвертирует временные паттерны трафика в изображения, после чего CNN ищет в них «визуальные» следы скрытого канала.

Общий подход ML-детектора

Независимо от выбранного алгоритма, работа любого ML-детектора скрытых каналов включает три этапа:

  1. Снятие дампа трафика и извлечение массива значений длин межпакетных интервалов.

  2. Формирование вектора признаков. Из полученного массива вычисляются различные статистические характеристики, как стандартные математические, так и признаки, полученные из различных статистических методов обнаружения скрытых каналов.

  3. Обучение модели и принятие решения. В зависимости от наличия обучающих данных классификатор, детектор аномалий или кластеризатор выносит вердикт о наличии либо отсутствии скрытого канала в системе.

Направление по обнаружению сетевых скрытых каналов на основе искусственного интеллекта – крайне актуально на сегодняшний момент. Впрочем, как и задача защиты от утечки информации по скрытым каналам в целом. Ведь это все еще крайне эффективный, пусть и дорогой, способ извлечь незаметно любую чувствительную информацию в системе. А значит, мы увидим как совершенствование методов построения скрытых каналов, так и методов противодействия им.

На этом наш цикл статей по скрытым каналам подходит к концу. Надеемся, вам было интересно погрузиться в данную тему!

А тем, кто только подключился, вот ссылки на предыдущие статьи цикла: