惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

SecWiki News
SecWiki News
H
Help Net Security
罗磊的独立博客
Stack Overflow Blog
Stack Overflow Blog
M
MIT News - Artificial intelligence
Jina AI
Jina AI
L
LangChain Blog
K
Kaspersky official blog
I
Intezer
Martin Fowler
Martin Fowler
爱范儿
爱范儿
AWS News Blog
AWS News Blog
The Hacker News
The Hacker News
Recorded Future
Recorded Future
人人都是产品经理
人人都是产品经理
H
Hackread – Cybersecurity News, Data Breaches, AI and More
C
CXSECURITY Database RSS Feed - CXSecurity.com
Spread Privacy
Spread Privacy
Simon Willison's Weblog
Simon Willison's Weblog
U
Unit 42
N
News and Events Feed by Topic
A
Arctic Wolf
G
GRAHAM CLULEY
Microsoft Azure Blog
Microsoft Azure Blog
博客园 - 聂微东
F
Fortinet All Blogs
C
Cisco Blogs
美团技术团队
Vercel News
Vercel News
K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
H
Hacker News: Front Page
T
Tailwind CSS Blog
I
InfoQ
宝玉的分享
宝玉的分享
Google DeepMind News
Google DeepMind News
博客园 - 司徒正美
P
Palo Alto Networks Blog
A
About on SuperTechFans
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
云风的 BLOG
云风的 BLOG
TaoSecurity Blog
TaoSecurity Blog
Google Online Security Blog
Google Online Security Blog
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
P
Privacy & Cybersecurity Law Blog
H
Heimdal Security Blog
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Hacker News: Ask HN
Hacker News: Ask HN
O
OpenAI News
博客园 - Franky
Scott Helme
Scott Helme

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Парсинг данных: когда это законно, а когда нет — разбираю судебную практику
aveazazello · 2026-05-07 · via Все публикации подряд на Хабре

Парсинг данных: когда это законно, а когда нет — разбираю судебную практику

Время на прочтение7 мин

Охват и читатели988

Аналитика

Компании используют парсинг каждый день: мониторинг цен, сбор контактов, агрегация объявлений. При этом большинство не задумывается о правовых рисках, ссылаясь на то, что «интернет открытый». В статье разбираю, что говорит закон и чем закончились реальные споры.

Парсинг (скрапинг) — автоматизированный сбор данных с сайтов. Технически всё выглядит просто: задаёшь условия, программа проходится по сайту, сортирует данные, выдаёт отчёт. Однако юридически могут возникать определенные риски.

Когда парсер проходится по сайту, он потенциально затрагивает сразу несколько правовых режимов:

  • авторские права на материалы (фото, видео, тексты)

  • смежные права на сайт как базу данных

  • пользовательское соглашение

  • закон о персональных данных

  • антимонопольное законодательство

Разберу каждый на основе реальных дел.

Авторские права

Если собираете только фактические данные, допустим, цены, артикулы, технические характеристики — юридически проблем нет, так как всё вышеперечисленное не является объектами авторских прав.

Другая история с фотографиями, видео и оригинальными текстами. Их парсинг — это воспроизведение чужого произведения, и тут уже есть нюансы.

Когда агрегация не нарушение? В деле А40-48686/2021 агрегатор «Селдон Новости» автоматически собирал статьи из открытых источников вместе с фотографиями. Суд первой инстанции признал нарушение прав фотографа. Апелляция решение отменила: фото публиковалось со ссылкой на источник, в объёме, оправданном целью цитирования. Кассация поддержала. Логика суда примерно заключалась в том, что агрегатор направлял читателя к оригиналу, а не заменял его.

В американском деле Associated Press против Meltwater ситуация выглядела похоже: новостной агрегатор показывал выдержки статей со ссылками на оригиналы, но суд признал нарушение. Причина: Meltwater автоматически брал лид каждой статьи — первый абзац, который AP называла «сердцем материала». Пользователи получали нужное из выдержки и на сайт AP не переходили — показатель кликов составил 1,4%. Суд расценил это не как цитирование, а как коммерческую замену оригинала: Meltwater продавал подписку корпоративным клиентам и фактически конкурировал с теми, кто платил AP лицензионный сбор за то же самое.

Вывод: ссылка на источник — необходимое, но не достаточное условие. Определяющий вопрос: заменяет ли ваш сервис оригинал или только направляет к нему? Если пользователь получает из агрегата всё, что ему нужно, и не переходит на сайт правообладателя — это уже не цитирование.

Смежные права на базу данных

По российскому закону сайт может быть признан базой данных, если на его создание были вложены существенные ресурсы. Закон предполагает это для сайтов с не менее 10 000 информационных элементов (ст. 1334 ГК РФ).

Нарушением является не любое извлечение, а перенос всего содержания или существенной части. Есть и второй запрет: неоднократное извлечение даже несущественных частей, если это противоречит нормальному использованию базы и ущемляет интересы её изготовителя (п. 3 ст. 1335.1 ГК РФ).

Самый долгий и резонансный российский спор на эту тему — дело ВКонтакте против Double Data (А40-18827/2017). Компания Double Data собирала данные пользователей ВКонтакте для оценки кредитоспособности заёмщиков и продавала этот сервис третьим лицам. ВКонтакте заявил нарушение смежных прав на базу данных.

Дело прошло два полных круга через все инстанции за пять лет. Суды раз за разом расходились во мнениях: первые инстанции вставали на сторону Double Data, апелляции — на сторону ВКонтакте. В 2022 году на стадии кассации в Суде по интеллектуальным правам стороны заключили мировое соглашение: Double Data обязалась прекратить нарушения, обе стороны договорились действовать добросовестно.

Вывод: российские суды так и не выработали единой позиции по скрапингу баз данных соцсетей. Однако две проигранные апелляции вынудили Double Data пойти на мировую — это сигнал о том, что систематический коммерческий скрапинг суды склонны считать нарушением, даже если данные формально публичны.

Пользовательское соглашение

Почти каждый сайт запрещает автоматизированный сбор данных в правилах использования. Значит ли это, что любой парсинг автоматически незаконен? Нет.

Несоблюдение пользовательского соглашения не является само по себе основанием для признания парсинга незаконным, если не доказана недобросовестная конкуренция и парсинг не приводил к сбоям в работе сайта.

Дело HeadHunter против «Стафори» (сервис «Робот Вера»). HeadHunter обратился в Мосгорсуд с требованием защитить права на базу данных резюме. Суд отказал: истец не доказал, что ответчик обращался к закрытой платной части базы, и не объяснил, каким образом использование открытой части противоречит её нормальному использованию (Апелляционное определение Мосгорсуда от 04.09.2018 по делу № 33–34020/2018).

Параллельно ФАС рассматривала жалобу «Стафори» на действия HeadHunter и признала: блокировка автоматизированного сбора данных создала препятствия для доступа на рынок, то есть ограничила конкуренцию. Нарушение антимонопольного законодательства — несмотря на прямой запрет парсинга в пользовательском соглашении.

Американские суды в последние годы последовательно приходят к тому же выводу. В деле LinkedIn против hiQ Labs суд запретил платформе технически блокировать сбор общедоступных данных, указав на риск информационных монополий. В деле Meta против Bright Data (2024) Meta подала иск за скрапинг своих платформ и проиграла: суд указал, что сбор публично доступных данных, не закрытых авторизацией, не нарушает закон о компьютерном мошенничестве (CFAA). Суд разграничил два случая: данные за логином — под защитой, данные в открытом доступе — нет.

Вывод: запрет парсинга в пользовательском соглашении — не истина в последней инстанции. Если владелец сайта использует его как инструмент устранения конкурентов с рынка, это само по себе может стать нарушением антимонопольного законодательства. Ключевое разграничение, которое прослеживается и в российской, и в американской практике: открытые данные защищены слабее, данные за логином — значительно сильнее.

Антимонопольный риск

Парсинг данных конкурента может быть квалифицирован как недобросовестная конкуренция, но только при определённых условиях. Показательный пример — дело Авито против Auto.ru.

Авито заявило, что Auto.ru за 10 месяцев скопировал более 300 тысяч объявлений, включая фотографии с логотипом Авито. Администраторы Auto.ru обзванивали пользователей Авито, чтобы уточнить скрытую информацию и полностью перенести объявления на свою площадку.

ФАС нарушений не нашла. Суд поддержал:

  • контактирование с пользователями другого классифайда — обычная деловая практика

  • публикация на одной площадке не мешает разместить объявление на другой

  • информация об автомобилях принадлежит продавцам, а не Авито

  • Авито не доказало, что действия Auto.ru направлены на получение необоснованных конкурентных преимуществ

Американский аналог Craigslist против Instamotor закончился иначе: суд встал на сторону Craigslist, поскольку ответчик был прямым конкурентом и паразитировал на чужой базе данных, не создавая собственной ценности.

Вывод: в России доказать недобросовестную конкуренцию через парсинг сложно: нужно показать, что действия конкурента направлены именно на вытеснение с рынка, а не на расширение сервиса для пользователей. В США суды в аналогичных ситуациях настроены жёстче.

Персональные данные

При парсинге соцсетей возникает отдельный вопрос: являются ли публичные профили пользователей общедоступными источниками персональных данных и можно ли их собирать без согласия?

Российская практика и Роскомнадзор отвечают: нет. Арбитражный суд Москвы прямо указал, что «информация о субъекте, содержащаяся в социальных сетях, не может быть отнесена к персональным данным, сделанным субъектом общедоступными, поскольку социальные сети не являются источником общедоступных персональных данных».

В США позиция противоположная. В уже упомянутом деле LinkedIn против hiQ Labs суд признал публичные профили общедоступными данными и на этом основании в том числе запретил LinkedIn технически препятствовать их сбору.

Вывод: если вы парсите профили российских пользователей в соцсетях — это зона повышенного риска вне зависимости от того, публичны эти данные или нет. Роскомнадзор и суды не считают факт открытости профиля согласием на обработку данных.

Итог: когда парсинг законен?

Закон не запрещает парсинг открытых данных, если соблюдаются следующие условия:

  1. Нет нарушения авторских прав на материалы сайта и смежных прав на базу данных.

  2. Сбор осуществляется без обхода технических средств защиты.

  3. Парсинг не нарушает работу сайта — иначе возникает основание для иска об убытках.

  4. Персональные данные используются в соответствии с целями их предоставления.

  5. Действия не ограничивают конкуренцию.

Практически это означает:

  • Собирайте фактические данные (цены, артикулы), а не охраняемый контент (фото, видео).

  • Не копируйте существенную часть базы данных целиком.

  • Соблюдайте инструкции robots.txt.

  • Ограничивайте скорость парсинга — перегрузка серверов может стать основанием для иска.

  • Не копируйте данные конкурента для размещения на конкурирующей площадке.

  • Не включайте в свои пользовательские соглашения тотальный запрет на парсинг — это может быть квалифицировано как ограничение конкуренции.


Автор — Азалия Гарипова, юрист по IP/IT‑праву. Если у вас вопросы по правовому статусу парсинга в вашем бизнесе — пишите в личные сообщения.