Каждый раз, когда Вы отправляете часть своего кода в Cursor, Claude Code или скидываете свой отчет для анализа в Gemini или Qwen, где-то в мире грустит один юрист по информационной безопасности. Нейросети — это магия (ну или статистическая закономерность), а кто-то из нас хотя бы раз открывал юридические документы, которые размещены на любимых нами ресурсах?
Давайте немного покопаемся в документах крупнейших игроков: OpenAI, Google, Qwen, DeepSeek и, конечно же, в российском GigaChat. И посмотрим, а кто же кроме нас может иметь доступ к нашей информации?
Зачем кому-то наши данные?
Для большинства компаний наши данные — это не просто тысячи строк кода (который им и не нужен) и не просто отчеты (который никто даже не откроет). Наши данные — это топливо для будущего улучшения моделей. Почти все компании прямо заявляют
[ChatGPT] As noted above, we may use Content you provide us to improve our Services, for example to train the models that power ChatGPT. Read our instructions(opens in a new window) on how you can opt out of our use of your Content to train our models.
[Google] Google использует эти данные, как описано в нашей Политике конфиденциальности, в следующих целях: «Предоставление наших сервисов. Поддержка и улучшение наших сервисов....». Это также относится к моделям генеративного ИИ и другим технологиям машинного обучения, которые используются в наших сервисах.
Это значит, что любой Ваш уникальный алгоритм или важная информация из отчета может стать частью весов модели. И теоретически — эти данные могут всплыть в ответе ваших конкурентов или злоумышленников, если сервисы недостаточно позаботятся об обезличивании данных при обучении!
Большой брат и живые люди
Думаете, Вашу переписку видит только ИИ? Как бы не так… Например, Google (Gemini) прямо предупреждает:
[Google] Некоторые чаты проверяются специалистами компании Google и ее поставщиков услуг. Это делается, чтобы улучшать модели Gemini, другие модели генеративного ИИ
[Qwen] We may collect, use, process and/or disclose your personal data for the purposes set out in the table below... To provide customer support and troubleshooting, and to respond to your inquiries, requests, feedback, and suggestions.
Аналогичные предупреждения есть и в документах у Anthropic (Claude) и OpenAI (ChatGPT). Данные компании оставляют за собой право ручной модерации в случае срабатывания фильтров безопасности. Если вы без раздумий скармливаете ИИ приватные документы (например, финансовые отчеты компаний, внутренние переписки) или документы, содержащие личные данные (например, данные карт, паспорта), будьте готовы к тому, что их может увидеть модератор из далекой от Вас Индии или Вьетнама (а дальше может случиться так, что эти данные окажутся на черном рынке или попросту будут использованы случайными людьми)
География данных: куда улетают переписки?
Один из важных рисков для компаний, связанных с комплаенсом и законом, напрямую связан с местом, где хранятся данные:
США (OpenAI, Anthropic, Google): Данные попадают под юрисдикцию США (включая Cloud Act). Это означает доступ спецслужб по запросу и обработку данных на серверах по всему миру;
Китай (DeepSeek, Qwen): Ваши промпты физически уходят в КНР. В документах DeepSeek указано: «Ваша информация может передаваться... в Китайскую Народную Республику». Особенности местного законодательства дают государству практически неограниченный доступ к данным техгигантов;
Россия (GigaChat): Здесь всё по 152-ФЗ. Данные в РФ, но доступ правоохранительных органов по запросу гарантирован.
Кошмар регулятора: почему государства «боятся» сервисов ИИ?

До генеративного искусственного интеллекта у государств был понятный и отработанный механизм контроля информации. Если в сети появился «нежелательный» контент, то механизм модерации работал линейно:
Регулятор (в лице РКН в РФ или службы кибербезопастности в КНР) направлял запрос поисковой системе или соцсети
Ссылка удалялась из выдачи или блокировалась по IP/URL
Доступ для граждан определенной геолокации прекращался
Но с LLM моделями эта схема ломается. Модель не «выдает ссылку» на сайт — она генерирует текст здесь и сейчас, исходя из миллиардов своих внутренних весов
Проблема точечного бана
Нельзя просто так «забанить» информации внутри нейросети ни для жителей определенного региона, ни для всех пользователей сразу. Обученная модель — это монолит, который если знает о каком-то факте, то будет его выдавать как есть. Конечно, сейчас делают обвязки вокруг LLM моделей с помощью моделей-фильтров, однако это всё не только удорожает и усложняет продукты, но и по своей природе является тем, что можно обойти при помощи промпт-инжиниринга
Идеологическая прошивка
Государства осознают, что LLM — это не просто инструмент, а транслятор культурных и политических ценностей той страны, где она была обучена. Именно поэтому мы видим такую гонку за «суверенными» моделями
География обработки данных
Ваши переписки с сервисами по большей части хранятся на серверах тех стран, где эти сервисы представлены юридически и физически. Таким образом для стран повышаются риски, связанные с утечкой важных данных из диалогов с ИИ сервисами к сторонним государствам
С точки зрения государства такие модели означают потерю контроля над качеством (с точки зрения регулятора) контента, который попадает в массы. Если раньше можно было блокировать поисковую выдачу, то теперь нужно блокировать целые сервисы (как это делают некоторые государства с блокировкой ChatGPT). А именно отсутствие прозрачного и линейного контроля над информацией делает Ваши переписки с ИИ еще более желанной целью для модерации государством
Ну а как мы можем прочитать из юридических документов компаний, то почти каждая организация прямо заявляет, что Ваши данные могут переданы соответствующим органам власти для анализа и обработки. Поэтому все ваши переписки может увидеть не только сотрудник сервиса или фрилансер Индус, но и сотрудник правоохранительных органов
[Сбер] 8.5. Не является нарушением режима конфиденциальности предоставление Сторонами информации по запросу уполномоченных государственных органов в соответствии с законодательством Российской Федерации.
Как не «слить» информацию: правила гигиены
На сегодняшний день практически невозможно на 100% запретить сотрудникам не использовать ИИ, так как это повышает скорость и качество работы, а как следствие, бизнес с этого получает выгоду. Поэтому для сотрудников необходимо внедрять культуру использования ИИ моделей:
Включать «Training Off». В OpenAI и Anthropic — это важная настройка, которая позваоляет отключить ипользование ваших переписок с ИИ для дальнейшего обучения;
Ручная анонимизация
Заменяйте имена сотрудников/личностей на -> Сотрудник_1, Менеджер, Доктор, Сотрудник отдела продаж;
Названия брендов/проектов на -> Проект_Х, Бренд_Альфа;
Цифры в отчетах -> меняйте их пропорционально или заменяйте на [ДАННЫЕ_О_ВЫРУЧКЕ].
Временные чаты (Temporary Chat)
В ChatGPT есть режим «Temporary Chat». История не сохраняется, обучение отключено по умолчанию. Идеально для разовых быстрых вопросов.
Не храните открыто ключи доступов. При работе с Cursor, Claude Code или другими агентами необходимо ограничивать доступ агентов к файлам, где у вас лежат ключи (будь то env файлы или просто json-конфиги), через настройки самого агента
Если у вас в руках данные клиентов, финансовая тайна или гостайна
Локальные модели — самый надежный путь. Используйте инструменты вроде Ollama, LM Studio или AnythingLLM. Вы скачиваете модель (например, Llama 3, Mistral или Qwen — открытые версии) на свой сервер или мощный ноутбук. Данные вообще не покидают ваш компьютер. Нет интернета — нет утечки
Облачные изолированные инстансы (Enterprise PaaS).
Итог
На сегодняшний день стоит опасаться не «восстания машин», а потери контроля над данными! Каждая компания борется за клиентов, каждый человек борется за приватность, а бесконтрольное использование LLM может привести к тому, что вся наша приватность однажды станет доступна огромному числу людей вокруг нас
Относитесь к любому облачному чат-боту как к выступлению перед сотнями тысяч зрителей. Если вы не хотите, чтобы однажды кто-то использовал Ваши труды и наработки против Вас, то лучше стараться прибегать к простейшим правилам защиты своих личных и корпоративных данных!




















