Cursor пишет вам unit‑тесты за минуту. 5 паттернов, на которых эти тесты пропустят любой баг

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

artem · 2026-05-29 · via Все публикации подряд на Хабре

Средний

6 мин

13K

Cursor пишет тесты быстро. Открыл класс, нажал Ctrl+I, кинул промпт «напиши unit‑тесты» — через минуту в файле сорок строк с моками, ассертами и красивыми именами вроде shouldReturnUserWhenIdIsValid. Прогнал — зелёные. Закоммитил, замержил, побежал дальше. Покрытие в проекте растёт, скорость написания тестов раза в три‑четыре выше, чем руками.

А потом замечаешь, что тесты есть, а толку от них всё меньше. Регрессия пролетает мимо них и падает в проде. Открываешь тот самый тест, который должен был это ловить, — формально зелёный, но если присмотреться, не проверяет вообще ничего.

Ниже — пять типичных паттернов вайбкодинга unit‑тестов, которые сейчас встречаются практически в каждом проекте, где разработчики делегируют тесты Cursor, Copilot или Claude. Примеры на Java с JUnit и Mockito, но в pytest и Jest картина один в один.

Cursor пишет один happy‑path тест и считает работу выполненной

@Test
void shouldDivideTwoNumbers() {
    assertEquals(2, calculator.divide(10, 5));
}

Один тест на счастливый путь, и на этом Cursor останавливается — никаких проверок «что, если делитель ноль», «что, если переполнение int», «что, если оба значения отрицательные». Сделал ровно то, что просили: «напиши тест для метода divide», метод делит два числа — вот тест на деление двух чисел. От регрессий защита нулевая, можно сломать в divide вообще всё, кроме случая 10 / 5 = 2, и тест останется зелёным.

Лечится тем, что edge cases приходится проговаривать в промпте явно: «напиши тесты для divide, включая граничные случаи — деление на ноль, переполнение, отрицательные значения, ноль в делимом». После такой формулировки Cursor выдаёт уже три‑пять тестов вместо одного. Но просить нужно каждый раз, сам по дефолту edge cases часто не вспоминает, останавливается на самом простом сценарии.

Ассерт по строке там, где надо было по значению

assertEquals(
    "User created successfully",
    response.getMessage()
);

Cursor взял текущее значение из реализации и зафиксировал его в тесте. Через полгода продактам надоело «User created successfully», переименовали на «Пользователь зарегистрирован» и двести тестов краснеют разом, хотя в коде ничего не сломано.

Если в ассерте сравнивается строка, рядом должен быть комментарий о том, почему важна именно эта строка — контракт с фронтом, документация API, ещё какая‑то внешняя завязка. Если такого объяснения нет, проверять надо структуру, а не текст:

assertThat(response.getStatus()).isEqualTo(Status.CREATED);
assertThat(response.getUserId()).isNotNull();
assertThat(response.getCreatedAt()).isAfter(beforeTest);

Cursor про это правило не знает, и его надо явно прописывать либо в шаблоне промпта для каждой задачи, либо в системном промпте проекта (./cursor/rules или аналогичный конфиг).

Тест проверяет, что мок отдал то, что мок отдал

when(userRepository.findById(1L))
    .thenReturn(new User(1L, "Alice"));

User result = userService.getById(1L);

assertEquals("Alice", result.getName());

Этот тест проверяет ровно одно — что Mockito работает. Если внутри userService.getById написать return new User(1L, "Alice") напрямую, без обращения к репозиторию, тест останется зелёным. Сам же метод можно переписать в обход всей логики, и тест ничего не заметит.

Самый рабочий способ такие тесты выявлять — mutation testing. Идея очень простая: в тестируемый код вносятся мутации (+ меняется на -, < на <=, true на false), тесты прогоняются заново. Если мутация осталась живой, а тесты при этом зелёные — значит, они её не ловят, и реальной защиты в них нет. Для Java стандарт — PIT (pitest), для Python — mutmut, для JavaScript — Stryker. В PR с вайбкоженными тестами mutation score обычно болтается в районе 10–15%: то есть 85% потенциальных багов вносятся в код, а тесты их прозевают.

Mutation score ниже шестидесяти процентов — нормальный порог, после которого тесты идут на доработку, не доходя до мержа.

Cursor повторяет баг из кода прямо в ассерте

Cursor смотрит в код, видит, что метод делает X, и пишет тест, который ровно это X и подтверждает — даже если X на самом деле неправильное.

Допустим, в коде сидит такой баг:

if (price > 1000) {
    discount = price * 0.1;  // по ТЗ должно быть 0.15

Cursor читает реализацию, видит коэффициент 0.1, генерит тест:

@Test
void should10PercentDiscountForExpensive() {
    order.setPrice(2000);
    assertEquals(200, order.getDiscount());  // 200 = 10% от 2000
}

Тест зелёный, баг живёт в проде. Cursor посмотрел в код, увидел 0.1, написал тест ровно на 0.1. Имя теста — should10PercentDiscount — мимоходом цементирует баг: вот же, явно написано «должен быть 10%», всё работает по тестам, какие вопросы.

Профилактика — давать Cursor бизнес‑требования (спецификацию или ссылку на тикет с requirements), а не сам исходник, и просить написать тест по требованиям. Тогда у него есть с чем сверять код, и баг не уползает в тест автоматом. Для критической логики — платежи, скидки, расчёты по контрактам — это вообще должно быть железным правилом.

На замоканный сервис тест не ловит вообще ничего

@InjectMocks OrderService orderService;

@Mock OrderRepository repo;
@Mock PaymentService payments;
@Mock NotificationService notifications;
@Mock InventoryService inventory;
@Mock TaxCalculator tax;

@Test
void shouldCreateOrder() {
    when(repo.save(any())).thenReturn(new Order(1L));
    when(payments.charge(any())).thenReturn(true);
    when(inventory.reserve(any())).thenReturn(true);
    when(tax.calculate(any())).thenReturn(BigDecimal.TEN);

    Order result = orderService.create(buildRequest());

    assertNotNull(result);
}

В тесте замокано всё, и по факту проверяется одна строчка: что orderService.create возвращает не null. Любая логика между компонентами остаётся за бортом — поменяешь порядок вызовов в сервисе, удалишь вызов notifications.send, переставишь местами payments.charge и inventory.reserve, тест всё равно останется зелёным. Cursor такие тесты обожает: ничего сложного, никаких реальных баз, никаких контейнеров, никакого ожидания готовности, чистые моки.

Лучший фикс — там, где это уместно, перевести юнит‑тест на интеграционный с TestContainers и реальной Postgres, оставив моки только под внешние сервисы, которые недоступны в тестовом окружении. Cursor, кстати, с этим хорошо справляется: пишешь «перепиши этот юнит‑тест на интеграционный с TestContainers и реальной Postgres» — он переделывает за минуту. Проверить за ним надо только одно: чтобы замоканной не оказалась как раз та самая логика, которую тестом и хотите покрыть.

Итого

Чтобы вайбкодинг тестов реально работал, в процесс имеет смысл добавить две штуки. Первая — каждый PR с тестами от Cursor (или Copilot, или Claude в Cursor — без разницы) обязательно прогоняется через mutation testing. Mutation score меньше шестидесяти процентов — тесты на доработку. Вторая — на ревью к каждому тесту задаётся один вопрос: «Если в коде сделать баг X, этот тест его поймает?». Если ответ «нет» — тест либо переписывается, либо удаляется.

AI уже помогает писать тесты, генерировать кейсы и разбирать логи, но сам по себе он не делает тестирование надёжнее. Чтобы от него была польза, QA‑инженеру нужно понимать, где нейросеть ускоряет работу, а где начинает уверенно воспроизводить ошибки из кода, требований и моков.

На курсе «ИИ в тестировании: ускорение процессов и проверка ИИ‑функций» разберем, как применять AI‑инструменты в реальных QA‑процессах: от генерации тестовых сценариев и анализа дефектов до проверки функций, построенных на искусственном интеллекте.

Присмотритесь к бесплатным открытым урокам, которые проходят в рамках курса. Их проведут преподаватели‑практики: можно будет познакомиться с экспертами, протестировать формат обучения и задать вопросы.

2 июня в 20:00 — «Нейросети и глубокое обучение в тестировании ПО: как приручить ИИ».
_{Расскажем, как QA‑инженеры используют инструменты на базе ИИ для генерации тест‑кейсов, анализа логов, подготовки автотестов и автоматизации рутины.}
18 июня в 20:00 — «Тесты, которые чинят себя сами: практика ИИ в UI‑тестировании».
_{Покажем подходы к генерации тестов из пользовательских сценариев, семантические локаторы вместо XPath, computer‑use агентов и другие практики применения ИИ в UI‑тестировании.}

И подписывайтесь на канал OTUS в MAX — там публикуем анонсы открытых уроков, полезные материалы по IT‑направлениям и подборки для тех, кто хочет развиваться в профессии без лишнего инфошума.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Cursor пишет один happy‑path тест и считает работу выполненной

Ассерт по строке там, где надо было по значению

Тест проверяет, что мок отдал то, что мок отдал

Cursor повторяет баг из кода прямо в ассерте

На замоканный сервис тест не ловит вообще ничего

Итого