惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

N
News and Events Feed by Topic
Malwarebytes
Malwarebytes
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
C
Cybersecurity and Infrastructure Security Agency CISA
F
Future of Privacy Forum
C
Cisco Blogs
T
The Exploit Database - CXSecurity.com
A
Arctic Wolf
S
Securelist
K
Kaspersky official blog
S
Schneier on Security
T
ThreatConnect
T
Tenable Blog
Spread Privacy
Spread Privacy
T
True Tiger Recordings
AWS News Blog
AWS News Blog
F
Fox-IT International blog
量子位
T
Threatpost
V
Vulnerabilities – Threatpost
C
CERT Recently Published Vulnerability Notes
Cisco Talos Blog
Cisco Talos Blog
GbyAI
GbyAI
宝玉的分享
宝玉的分享
腾讯CDC
G
Google Developers Blog
aimingoo的专栏
aimingoo的专栏
Cyberwarzone
Cyberwarzone
有赞技术团队
有赞技术团队
S
SegmentFault 最新的问题
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
V
Visual Studio Blog
U
Unit 42
雷峰网
雷峰网
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Simon Willison's Weblog
Simon Willison's Weblog
O
OpenAI News
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
The GitHub Blog
The GitHub Blog
The Register - Security
The Register - Security
MyScale Blog
MyScale Blog
小众软件
小众软件
A
About on SuperTechFans
Last Week in AI
Last Week in AI
Y
Y Combinator Blog
博客园 - 三生石上(FineUI控件)
美团技术团队
Google Online Security Blog
Google Online Security Blog
P
Proofpoint News Feed
MongoDB | Blog
MongoDB | Blog

Все публикации подряд на Хабре

Java 21 в стиле «клятый энтерпрайз» на одноплатном компьютере возрастом 13 лет 10× труда. 10% к бонусу. Главный риск AI-эпохи — это сениор AI-инженер, который умеет считать Сапожник с сапогами Минимум, который удержит тебя на плаву в период дедлайнов Как без проблем переносить курсы между платформами? Обзор формата SCORM Когда Claude Code ошибается не по своей вине: документационный долг в соло-проектах 70% кода с AI — и ни на день быстрее qrrot — база данных со встроенным ИИ Шахматные программы V. Оценочная функция Восстание масс в обществе спектакля и отчуждение труда в царстве количества: что делать во времена всеобщего упадка? Не умеешь работать с ИИ? Тебя заменит тот, кто умеет Как интеллект становится уязвимостью под давлением Не надо так: три типичные ошибки, которые приводят ко взлому Заметки про код-стайл в C++ Забытый мультиколор (часть 1) Культура ест стратегию на завтрак: почему не работает долгосрочное планирование Советское ИИ: Забытые гении Как оплатить iCloud в России в 2026 году без смены региона Apple ID Глубокая интеграция месседжинга с бизнес процессами в фреймворке NodaLogic Контекстные менеджеры в Python за пределами with open(): пишем свои и упрощаем код Пароль против уборщицы Выяснились детали мега-IPO SpaceX, а также первый прибыльный квартал Anthropic Люди с психическими расстройствами – новая нефть? Когда нейросети перестанут галлюцинировать? И почему на «что за дичь» они несут ещё большую дичь? Мессенджер HalChat теперь в Google Play: 3 года разработки, ИИ в браузере и квест с модерацией Реверс-инжиниринг Xiaomi Smart Band 10 Когда памяти мало Среда повседневности как объект проектирования: что общего у горца, серотониновой ямы и митохондрий AGENTS.md создавали, чтобы помогать агентам. Я использую его, чтобы их вычислять Почему устанавливают join_collapse_limit = 20 Почему устанавливают join_collapse_limit = 20 Эрик Рис, автор Lean Startup: Почему хорошие компании становятся плохими после IPO Context-driven Reusable Form Pattern: Масштабируемая архитектура для Create / Edit / Create-from-Source Пузырьковая сетка, кошачья стая и не только — неожиданные источники вдохновения для QoS-алгоритмов ___, или «Заголовок намеренно оставлен пустым» ИИ-боты сканируют даже логи TLS-сертификатов. Любая информация используется для обучения LLM Нейросеть оживить фото ИИ: Как оживить фото нейросетью в 2026 году? Разбираемся в ML без воды: от базы до Attention. Часть 5: Метрики качества В поисках «кофейного Грааля». Как человечество пытается сварить идеальный кофе и какие рецепты предлагают…математики Программатик: Часть 2 — OpenRTB Интернет до бесконечных лент: каким был 2010 год Перезапуск TrueIndex: что изменилось в рейтинге языков программирования Проектный холст: как менеджеру подбирать «краски» управления под разные команды «Метафизика в формулах: математическое ядро «Веры Паломника — Исход» Java и постквантовый TLS Marcli: Markdown Терминал Кнопочный смартфон с 5G за 2800 рублей — разбираем и изучаем китайскую диковинку Где неприятности — там и жизнь Разворачивайте платформы: stackfile Мой путь в Microsoft Мобильная разработка за неделю #631 (18 — 24 мая) Что не так с Mixtape, и почему не все довольны новой игрой? Стоматология каменного века. Как неандертальцы лечили зубы 59 тысяч лет назад Почему классическое управление проектами часто не работает в IT-продуктах Строительство Саркофага. Часть 2. Бетонные реки и стальные берега РАЗРАБОТКА ПАРАМЕТРИЗИРУЕМОГО МОДУЛЯ CORDIC-АЛГОРИТМА НА SYSTEM VERILOG Вариационное исчисление как метафора свободы выбора: от градиентного спуска к онтологии пути Ekahau Sidekick и RSSI‑offset: физические ограничения метода и пять независимых причин неточности клиентской модели Колесо потока против раскола Обзор интересных особенностей переворачивающихся при умножении чисел В С неопределённое поведение повсюду MCP-агрегатор: объединяем инструменты для LLM в один сервер Дата-центры в космосе: как Google и SpaceX готовят новую инфраструктуру для ИИ Google готовит замену Chromebook: какими будут ноутбуки Googlebook Пользователь пишет issue, агент меняет сайт. Да, я это сделал Корпоративные конфликты в ИТ-секторе: механика судебной защиты активов и субсидиарных рисков Цена одной опечатки: Как три неверные буквы сорвали киберограбление на миллиард долларов Как я победил спам в своих email аккаунтах Whitepaper Сбера «AI-Disrupt PDLC»: разбор для тех, кто пишет код RustDesk Pro в России не купить. После долгих лет администрирования мы собрали своё честное решение Не пики, а бассейны: почему эволюция — это блуждание по графу жизни Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге) Вредоносная атака на Laravel-Lang meta-attention is all you need Как перестать путаться в IP-адресах серверов Сколько стоят ошибки в арбитраже: декомпозиция ценообразования на судебные услуги в Москве Разбираемся в ML без воды: от базы до Attention. Часть 4: kNN Vortex: фреймворк для тех, кого задолбала итальянская кухня в репозитории Использование тепла ЦОД в мире и РФ Часть 4. Скорость света — технические детали Не цитируй мне нейросеть Что сейчас с Project Loom? Примеры и код Рождённые в Сумерках Meta 1 мая показала как они хранят ключи от ваших бэкапов WhatsApp. Разбираю архитектуру и сравниваю Линт проектов: собираем ESLint, Prettier и Stylelint в один пакет Reasoning-модели сломали мой промпт-инжиниринг. Год переучиваюсь РБМК: enfant terrible Как я собеседую менеджеров AI-продуктов для крупного Enterprise Парадокс рынка труда: конкуренция выросла, но не везде, нанимать легче, но не везде Модификаторы в Blender: осваиваем Boolean «Бесплатно» — это красный флаг: почему мы доверяем не тем (опрос) Стратегия выживания в эпоху ИИ Новая теория обещает переписать фундамент всей математики MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное [Перевод] Соль и перец в безопасности паролей Что такое «статьи-зомби» CodeGraph: граф кода для Claude Code вместо grep по файлам. Разбираю архитектуру и проверяю бенчмарки Мессенджер Ласточка. Часть 3 Google представила Gemini Omni — универсальную ИИ-модель. Роботы работают, счастлив человек Что у SpaceX с патентным портфелем перед IPO?
Ваши секреты внутри LLM. Куда уходят промпты и чего стоит опасаться?
daniilgorben · 2026-05-25 · via Все публикации подряд на Хабре

Уровень сложностиПростой

Время на прочтение5 мин

Охват и читатели17

Каждый раз, когда Вы отправляете часть своего кода в Cursor, Claude Code или скидываете свой отчет для анализа в Gemini или Qwen, где-то в мире грустит один юрист по информационной безопасности. Нейросети — это магия (ну или статистическая закономерность), а кто-то из нас хотя бы раз открывал юридические документы, которые размещены на любимых нами ресурсах?

Давайте немного покопаемся в документах крупнейших игроков: OpenAI, Google, Qwen, DeepSeek и, конечно же, в российском GigaChat. И посмотрим, а кто же кроме нас может иметь доступ к нашей информации?

Зачем кому-то наши данные?

Для большинства компаний наши данные — это не просто тысячи строк кода (который им и не нужен) и не просто отчеты (который никто даже не откроет). Наши данные — это топливо для будущего улучшения моделей. Почти все компании прямо заявляют

[ChatGPT] As noted above, we may use Content you provide us to improve our Services, for example to train the models that power ChatGPT. Read our instructions⁠(opens in a new window) on how you can opt out of our use of your Content to train our models.

[Google] Google использует эти данные, как описано в нашей Политике конфиденциальности, в следующих целях: «Предоставление наших сервисов. Поддержка и улучшение наших сервисов....». Это также относится к моделям генеративного ИИ и другим технологиям машинного обучения, которые используются в наших сервисах.

Это значит, что любой Ваш уникальный алгоритм или важная информация из отчета может стать частью весов модели. И теоретически — эти данные могут всплыть в ответе ваших конкурентов или злоумышленников, если сервисы недостаточно позаботятся об обезличивании данных при обучении!

Большой брат и живые люди

Думаете, Вашу переписку видит только ИИ? Как бы не так… Например, Google (Gemini) прямо предупреждает:

[Google] Некоторые чаты проверяются специалистами компании Google и ее поставщиков услуг. Это делается, чтобы улучшать модели Gemini, другие модели генеративного ИИ

[Qwen] We may collect, use, process and/or disclose your personal data for the purposes set out in the table below... To provide customer support and troubleshooting, and to respond to your inquiries, requests, feedback, and suggestions.

Аналогичные предупреждения есть и в документах у Anthropic (Claude) и OpenAI (ChatGPT). Данные компании оставляют за собой право ручной модерации в случае срабатывания фильтров безопасности. Если вы без раздумий скармливаете ИИ приватные документы (например, финансовые отчеты компаний, внутренние переписки) или документы, содержащие личные данные (например, данные карт, паспорта), будьте готовы к тому, что их может увидеть модератор из далекой от Вас Индии или Вьетнама (а дальше может случиться так, что эти данные окажутся на черном рынке или попросту будут использованы случайными людьми)

География данных: куда улетают переписки?

Один из важных рисков для компаний, связанных с комплаенсом и законом, напрямую связан с местом, где хранятся данные:

  • США (OpenAI, Anthropic, Google): Данные попадают под юрисдикцию США (включая Cloud Act). Это означает доступ спецслужб по запросу и обработку данных на серверах по всему миру;

  • Китай (DeepSeek, Qwen): Ваши промпты физически уходят в КНР. В документах DeepSeek указано: «Ваша информация может передаваться... в Китайскую Народную Республику». Особенности местного законодательства дают государству практически неограниченный доступ к данным техгигантов;

  • Россия (GigaChat): Здесь всё по 152-ФЗ. Данные в РФ, но доступ правоохранительных органов по запросу гарантирован.

Кошмар регулятора: почему государства «боятся» сервисов ИИ?

До генеративного искусственного интеллекта у государств был понятный и отработанный механизм контроля информации. Если в сети появился «нежелательный» контент, то механизм модерации работал линейно:

  1. Регулятор (в лице РКН в РФ или службы кибербезопастности в КНР) направлял запрос поисковой системе или соцсети

  2. Ссылка удалялась из выдачи или блокировалась по IP/URL

  3. Доступ для граждан определенной геолокации прекращался

Но с LLM моделями эта схема ломается. Модель не «выдает ссылку» на сайт — она генерирует текст здесь и сейчас, исходя из миллиардов своих внутренних весов

Проблема точечного бана

Нельзя просто так «забанить» информации внутри нейросети ни для жителей определенного региона, ни для всех пользователей сразу. Обученная модель — это монолит, который если знает о каком-то факте, то будет его выдавать как есть. Конечно, сейчас делают обвязки вокруг LLM моделей с помощью моделей-фильтров, однако это всё не только удорожает и усложняет продукты, но и по своей природе является тем, что можно обойти при помощи промпт-инжиниринга

Идеологическая прошивка

Государства осознают, что LLM — это не просто инструмент, а транслятор культурных и политических ценностей той страны, где она была обучена. Именно поэтому мы видим такую гонку за «суверенными» моделями

География обработки данных

Ваши переписки с сервисами по большей части хранятся на серверах тех стран, где эти сервисы представлены юридически и физически. Таким образом для стран повышаются риски, связанные с утечкой важных данных из диалогов с ИИ сервисами к сторонним государствам

С точки зрения государства такие модели означают потерю контроля над качеством (с точки зрения регулятора) контента, который попадает в массы. Если раньше можно было блокировать поисковую выдачу, то теперь нужно блокировать целые сервисы (как это делают некоторые государства с блокировкой ChatGPT). А именно отсутствие прозрачного и линейного контроля над информацией делает Ваши переписки с ИИ еще более желанной целью для модерации государством

Ну а как мы можем прочитать из юридических документов компаний, то почти каждая организация прямо заявляет, что Ваши данные могут переданы соответствующим органам власти для анализа и обработки. Поэтому все ваши переписки может увидеть не только сотрудник сервиса или фрилансер Индус, но и сотрудник правоохранительных органов

[Сбер] 8.5. Не является нарушением режима конфиденциальности предоставление Сторонами информации по запросу уполномоченных государственных органов в соответствии с законодательством Российской Федерации.

Как не «слить» информацию: правила гигиены

На сегодняшний день практически невозможно на 100% запретить сотрудникам не использовать ИИ, так как это повышает скорость и качество работы, а как следствие, бизнес с этого получает выгоду. Поэтому для сотрудников необходимо внедрять культуру использования ИИ моделей:

  • Включать «Training Off». В OpenAI и Anthropic — это важная настройка, которая позваоляет отключить ипользование ваших переписок с ИИ для дальнейшего обучения;

  • Ручная анонимизация

    • Заменяйте имена сотрудников/личностей на -> Сотрудник_1, Менеджер, Доктор, Сотрудник отдела продаж;

    • Названия брендов/проектов на -> Проект_Х, Бренд_Альфа;

    • Цифры в отчетах -> меняйте их пропорционально или заменяйте на [ДАННЫЕ_О_ВЫРУЧКЕ].

  • Временные чаты (Temporary Chat)

    • В ChatGPT есть режим «Temporary Chat». История не сохраняется, обучение отключено по умолчанию. Идеально для разовых быстрых вопросов.

  • Не храните открыто ключи доступов. При работе с Cursor, Claude Code или другими агентами необходимо ограничивать доступ агентов к файлам, где у вас лежат ключи (будь то env файлы или просто json-конфиги), через настройки самого агента

  • Если у вас в руках данные клиентов, финансовая тайна или гостайна

    • Локальные модели — самый надежный путь. Используйте инструменты вроде Ollama, LM Studio или AnythingLLM. Вы скачиваете модель (например, Llama 3, Mistral или Qwen — открытые версии) на свой сервер или мощный ноутбук. Данные вообще не покидают ваш компьютер. Нет интернета — нет утечки

    • Облачные изолированные инстансы (Enterprise PaaS).

Итог

На сегодняшний день стоит опасаться не «восстания машин», а потери контроля над данными! Каждая компания борется за клиентов, каждый человек борется за приватность, а бесконтрольное использование LLM может привести к тому, что вся наша приватность однажды станет доступна огромному числу людей вокруг нас

Относитесь к любому облачному чат-боту как к выступлению перед сотнями тысяч зрителей. Если вы не хотите, чтобы однажды кто-то использовал Ваши труды и наработки против Вас, то лучше стараться прибегать к простейшим правилам защиты своих личных и корпоративных данных!