惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Hacker News: Front Page
Know Your Adversary
Know Your Adversary
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
The Hacker News
The Hacker News
G
GRAHAM CLULEY
T
Threat Research - Cisco Blogs
K
Kaspersky official blog
C
Check Point Blog
Latest news
Latest news
A
Arctic Wolf
云风的 BLOG
云风的 BLOG
I
Intezer
cs.AI updates on arXiv.org
cs.AI updates on arXiv.org
SecWiki News
SecWiki News
Project Zero
Project Zero
F
Fortinet All Blogs
V
V2EX - 技术
P
Proofpoint News Feed
N
News and Events Feed by Topic
A
About on SuperTechFans
Google DeepMind News
Google DeepMind News
Application and Cybersecurity Blog
Application and Cybersecurity Blog
Cyberwarzone
Cyberwarzone
W
WeLiveSecurity
U
Unit 42
L
Lohrmann on Cybersecurity
E
Exploit-DB.com RSS Feed
Recent Announcements
Recent Announcements
H
Hackread – Cybersecurity News, Data Breaches, AI and More
Blog — PlanetScale
Blog — PlanetScale
C
CERT Recently Published Vulnerability Notes
AI
AI
H
Help Net Security
C
Cisco Blogs
Microsoft Azure Blog
Microsoft Azure Blog
Hacker News - Newest:
Hacker News - Newest: "LLM"
Recorded Future
Recorded Future
博客园 - 聂微东
美团技术团队
V
Visual Studio Blog
PCI Perspectives
PCI Perspectives
TaoSecurity Blog
TaoSecurity Blog
B
Blog
P
Privacy International News Feed
月光博客
月光博客
IT之家
IT之家
C
Cyber Attacks, Cyber Crime and Cyber Security
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
G
Google Developers Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
LLM, персональные данные и 152-ФЗ
Александр Ерошкин · 2026-06-17 · via Все публикации подряд на Хабре

Простой

9 мин

629

Зачем это вообще

LLM и агенты по типу Codex, Claude Code и т.д. изначально задумывались и использовались для работы с кодом.

Всё больше и больше модели и агенты используются для работы с договорами договорами, таблицами, отвечают на тикеты, разгребают почту, лезут в CRM. А там ФИО, телефоны, ИНН, паспорта. Как только ты отправил такие данные в модель — ты начал обрабатывать персональные данные и попал под 152-ФЗ.

Мы занимаемся внедрением ИИ в операционные, юридические, маркетинговые отделы компании. И это постоянная проблема, с которой нам приходится сталкиваться.

Там куча нюансов. Например:

  • ИНН — персональные данные. Сам по себе, без имени.

  • База, которую легко выгрузить из ЕГРЮЛ, — всё равно твоя зона ответственности.

  • Клиентская база в Google Sheets — нарушение, которое нельзя «дооформить».

  • Галочка «согласен на обработку» при регистрации не закрывает отправку чужих данных в зарубежную модель.

Дальше по порядку: что считается персональными данными, какие правила и наказания, и какие есть варианты у того, кто хочет гонять документы через LLM и не словить штраф. С плюсами, минусами и рабочими схемами.

Сразу оговорюсь: я не юрист. Это разбор для инженеров и продактов, а не юридическая консультация. Перед использованием лучше сверяться с профильным юристом.

Что такое персональные данные

Определение в законе короткое и резиновое. Персональные данные — любая информация, которая прямо или косвенно относится к человеку (ст. 3 152-ФЗ). Закрытого списка нет специально: данные делает персональными не тип, а возможность по ним выйти на конкретного человека.

Удобно делить всё на две группы.

Идентификаторы указывают на человека напрямую: ФИО, телефон, email, паспорт, СНИЛС, ИНН. Это персональные данные всегда.

Признаки человека описывают: должность, образование, город. Сами по себе — не персональные данные. «Инженер с высшим образованием» — таких миллионы. Но рядом с именем или в узкой комбинации признак превращается в персональные данные.

Отдельно про ИНН, потому что это ломает интуицию. ИНН — персональные данные сам по себе, без имени. Это уникальный государственный идентификатор: по нему через открытые сервисы ФНС выходишь на конкретного человека. Та же логика, что с паспортом и СНИЛС. Нюанс: ИНН предпринимателя совпадает с ИНН физлица — это персональные данные. А ИНН компании (ООО) — нет, он про организацию.

Признаки опасны в совокупности. «Выпускник такого-то вуза 2008 года, главный сварщик единственного завода в городе N» — имени нет, а человек определяется однозначно. Это косвенная идентификация. Поэтому вопрос не «какой это тип данных», а «выводит ли это в этом контексте на конкретного человека».

Кроме этого, «Данные из открытого источника» != «можно что угодно». ФИО и ИНН предпринимателей лежат в ЕГРЮЛ, но это всё ещё персональные данные. Реестр открыт для проверки контрагентов, а не для того, чтобы ты собрал из него базу под рассылку. Утечёт такая база — отвечаешь ты, а не ЕГРЮЛ. То, что данные «и так публичные», от штрафа не спасает.

Правила: два уровня требований

Держи в голове картинку из двух уровней. Первый — для всех, кто вообще работает с персональными данными. Второй включается, только если данные уходят за границу.

Первый уровень — общий для всех:

  • Основание обработки (ст. 6). Чтобы законно обрабатывать данные, нужно основание. Для сервиса это обычно не «согласие», а «исполнение договора» с клиентом: человек принял оферту — значит, обрабатывать его данные ради услуги можно без отдельной галочки. Согласие нужно для того, что выходит за рамки услуги: рассылки, передача партнёрам.

  • Договор поручения (ч. 3 ст. 6). Если данные по твоему заданию обрабатывает кто-то ещё (облако, SaaS, модель) — с ним нужен договор поручения. Без него сама передача обработчику уже нарушение, ещё до всякой утечки.

  • Локализация (ч. 5 ст. 18). Первичная запись данных о россиянах должна идти в базу на территории РФ. Нюанс для LLM: вызов модели — это обработка, а не хранение. Если первичная запись у тебя в российской базе, а в модель данные уходят на обработку — локализация не нарушается.

  • Уведомление РКН (ст. 22). Ты оператор — уведоми регулятор, что обрабатываешь ПД.

Второй уровень — только при выходе за границу:

  • Трансграничная передача (ст. 12). Отправка данных в зарубежный сервис — это трансграничная передача. Нужно отдельное уведомление РКН до начала.

  • Адекватность страны. РКН делит страны на «адекватные» и нет (приказ №128). Китай в списке, США — нет. В адекватную можно передавать сразу после уведомления; в неадекватную — только через 10 рабочих дней и если РКН не запретит.

  • Согласие на ТГП. Отдельный документ, не пункт в оферте. С сентября 2025 требования к форме жёстче.

Что будет, если нарушить

После 2024-2025 стало серьёзно.

Штраф за саму обработку с нарушением (ст. 13.11 КоАП) — десятки и сотни тысяч рублей по составам, и они складываются. Передал данные без основания, без договора и без уведомления — это не один штраф, а сумма.

Штраф за утечку (с 30 мая 2025) — отдельная история и считается по объёму: миллионы рублей в зависимости от числа пострадавших, за повторную утечку — оборотный штраф, процент от выручки. Плюс при утечке надо за 24 часа уведомить РКН и за 72 — отдать результаты расследования. Не уведомил — ещё один штраф.

Уголовка (ст. 272.1 УК, с конца 2024) карает незаконный оборот персональных данных, и отдельная часть — про трансграничную передачу, до 8 лет. В основном статья целится в тех, кто торгует ворованными базами. Если данные собраны легально, а ты нарушил процедуру передачи — базовый риск административный. Но при масштабе и систематичности грань размывается, поэтому списывать со счетов нельзя.

Точные суммы и части статей я округляю намеренно. Лучше свериться с актуальной редакцией.

Варианты: куда отправлять данные

Разберём по очереди: зарубеж в лоб, российское облако и своё железо. У каждого одна и та же развилка — данные идут с персоналкой или обезличенными. Обезличивание вынес в отдельную главу ниже, пока считаем, что данные настоящие.

Куда можно отправлять персональные данные в LLM

Куда можно отправлять персональные данные в LLM

Зарубеж в лоб: Claude, OpenAI, DeepSeek

Самый простой в реализации и самый рискованный по закону. Отправляешь данные клиентов прямо в зарубежный API — это трансграничная передача, включается весь верхний уровень. Пройдёмся по требованиям для случая с настоящими персональными данными.

  • Локализация — выполнимо. Первичная запись у тебя в российской базе, в модель уходит копия на обработку. Не нарушено.

  • Уведомление РКН о ТГП — выполнимо. Подаёшь до начала, это процедура.

  • Адекватность страны — как повезёт. Китай (DeepSeek) в списке, передавать можно сразу после уведомления. США (OpenAI, Anthropic, Google) — нет: нужно ждать 10 рабочих дней, ждать не запретят ли.

  • Согласие субъекта на ТГП — сложно, а на чужих данных невыполнимо. Если через модель идут данные самого клиента (он и есть субъект) — согласие взять можно, но не галочкой в оферте: нужен отдельный документ с получателем, страной и целью, его нельзя делать условием доступа, и его могут отозвать. А если в модель попадают данные третьих лиц — клиентов твоего клиента, его сотрудников, контрагентов — согласие за них дать некому. Плюс есть старая база.

  • Договор поручения — невыполнимо. Публичный зарубежный API не подписывает договор по 152-ФЗ и не берёт обязательства российского закона. Это главный стоп, и он не лечится оформлением.

Главная проблема — договор поручения: публичный API его не даёт, и обойти нельзя. Поэтому с настоящими персональными данными путь не «рискованный», а нелегальный. Единственный вариант – обезличивание. Про него дальше.

  • Плюс: лучшие модели, минимум возни.

  • Минус: с персональными данными это прямое нарушение, которое нельзя закрыть оформлением.

Российское облако

Данные не покидают страну — весь верхний уровень отпадает: ни трансграничной передачи, ни согласия на неё, ни уведомления о ней. Остаётся только первый уровень, и он выполним.

  • Договор поручения — выполнимо. Российское облако его даёт, обычно прямо в оферте.

  • Локализация — выполнимо. Обработка и так в РФ.

  • Основание обработки — выполнимо. Обычно «исполнение договора» с клиентом.

Дальше — два подвида.

Российские модели — YandexGPT, GigaChat. Развилка простая: пускает ли сервис персональные данные. Yandex Cloud заключает договор поручения и разрешает слать ПД, есть аттестация. GigaChat в своих условиях прямо запрещает отправлять персональные данные в запросах — значит, ему только обезличенное.

Чужая open-source модель в РФ-облаке — DeepSeek, Qwen например на Yandex Cloud. Раз обработка идёт на серверах в России, а договор поручения у тебя с российским облаком — трансграничной передачи нет. «Китайская модель» здесь не равно «данные ушли в Китай».

  • Плюс: легальный путь для настоящих персональных данных, без верхнего уровня.

  • Минус: модели слабее топовых зарубежных; нужно проверить договор и аттестацию провайдера.

Своё железо

Модель крутится в твоём закрытом контуре, наружу ничего не уходит. Выполнять почти нечего из «трудного».

  • Трансграничная передача — не применяется. Границы нет.

  • Договор поручения — не нужен. Нет третьего лица: обработчик это ты сам.

  • Локализация — выполняется сама. Всё в твоём контуре в РФ.

  • Базовое остаётся: уведомление РКН (ст. 22) и меры защиты — это твоя зона.

Эталон для самого чувствительного.

  • Плюс: максимальный контроль, минимальный юридический риск.

  • Минус: нужны GPU и эксплуатация; локальные модели слабее облачных топов.

Обезличивание: главный приём

Самое лучшее — сделать так, чтобы в модель уходили вообще не персональные данные. Нет персоналки — нет ни трансграничной передачи, ни договора поручения, ни согласия, ни локализации. Все проблема из прошлых разделов отваливаются разом. Именно это, а не «согласие» и не «договор», открывает легальный путь к топовым зарубежным моделям.

Идея простая: перед отправкой в модель находим в тексте персональные данные и заменяем их на заглушки. «Иван Петров, ИНН 770…» превращается в «NAME, INN». Модель работает с обезличенным текстом, а реальные значения подставляются обратно уже в ответе.

Но весь вопрос в том, насколько это «обезличивание» обратимо.

Обезличивание против псевдонимизации

Закон проводит черту (ст. 3 п. 9, плюс приказ РКН №140 с сентября 2025). Данные обезличены, только если без отдельного ключа восстановить личность нельзя — и этого ключа у получателя нет. Если ключ где-то лежит и связь восстановима — это псевдонимизация, а псевдонимизированные данные остаются персональными.

Поэтому важно не «заменили или нет», а что за заглушка и где живёт ключ. Тут есть спектр.

Стабильный токен из базы — худший случай. Если «Иван Петров» всегда превращается в user_8842, а где-то хранится таблица «user_8842 = Иван» — это псевдоним. Мало того что ключ хранится, так ещё и сам токен становится идентификатором: по нему можно связывать запросы и копить профиль. Это персональные данные.

Эфемерная generic-замена — лучший случай. Заглушка не уникальна: имя становится просто NAME, СНИЛС — SNILS, и так у всех. NAME для Вани и для Саши — одно и то же, в нём ноль информации о человеке. Маппинг «заглушка → оригинал» живёт только в оперативной памяти на время одного запроса, в РФ, и стирается после ответа. Получатель за границей видит обезличенный текст и физически не может восстановить, кто это.

Разница принципиальная. Стабильный токен — псевдоним, по которому человека опознают. Generic-заглушка ближе к зачёркиванию: «здесь было имя». Поэтому эфемерный режим — единственный, где можно всерьёз спорить, что за границу ушли не персональные данные.

Важная оговорка: Российская практика по такому маскированию пока не сложилась и возникает вопрос в интерпретации того или иного решения от регулятора.

Чего маскирование не лечит

Даже идеальная замена прямых идентификаторов оставляет две дыры.

Контекст. Детектор вычищает имена, телефоны, номера — но не текст вокруг. «NAME, главный сварщик единственного завода в городе N, оборот SNILS» — все прямые данные скрыты, а человек опознаётся по описанию. Это косвенная идентификация, и она уезжает за границу в открытом виде.

Пропуски. Поиск персональных данных в русском тексте не идеален: имя в редком падеже, нестандартный формат, опечатка — и заглушка не поставилась. Каждый пропуск — реальные персональные данные наружу.

Как маскировать?

Есть 2 варианта: у себя в контуре или на стороне облачного прокси-посредника.

Свой контур. Ставишь детектор персональных данных перед вызовом модели. Оригиналы, карта замен и ключ не покидают периметр — наружу уходит уже обезличенный текст. Бонус — полный контроль: сам крутишь пороги, ловишь сомнительное, держишь поведение fail-closed (детектор не сработал или упал — запрос не уходит) и блокируешь не только персоналку, но и коммерческую тайну.

Из чего собрать. Базовый каркас на опенсорсе — Microsoft Presidio (находит и заменяет сущности) плюс русский NER для имён и организаций (Natasha, DeepPavlov или spaCy). Но из коробки ни один западный инструмент не знает российских идентификаторов — СНИЛС, ИНН, ОГРН, паспорт. Их добавляешь сам. Для структурированных номеров это надёжно: у СНИЛС, ИНН, ОГРН есть контрольные суммы, и regex плюс проверка контрольного числа дают почти нулевой процент ошибок. Слабое звено — имена и организации: русский NER ловит их вероятностно, отсюда и нужен fail-closed.

Это не коробка, а сборка: распознаватели написать, NER подобрать, пороги настроить. Зато всё под твоим контролем.

Облачный прокси-посредник. Сервисы вроде KodikRouter, ProxyAPI, Jay Guard встают между тобой и зарубежной моделью и маскируют на лету. Удобно и быстро, но есть важная развилка.

Важно чтобы посредник реально обезличивал а не просто проксировал. Если посредник реально вычищает персоналку до границы — ок. Если просто проксирует сырые данные, это тот же «зарубеж в лоб», только через российское юрлицо: договор поручения с посредником есть, но конечный OpenAI его всё равно не подписывал, и дыра на месте.

Итого

Сводим всё в один принцип — маршрут по тому, есть ли в запросе персональные данные.

  • Нет персональных данных или они обезличены — можно куда угодно, включая топовые зарубежные модели. Самый качественный и при этом легальный путь.

  • Есть настоящие персональные данные — только российский контур: российское облако с договором поручения или своё железо. Зарубеж в лоб закрыт.

  • Особо чувствительное (здоровье, тайны, большие объёмы) — своё железо или изолированный контур, без внешних API вообще.


Если хотите разбираться глубже в том, как использовать LLM и AI-агентов в продуктивности, работе, бизнесе и повседневной жизни — подписывайтесь на наш Telegram-канал “Вкалывают роботы”.