Нужно ли использовать Qwen? Качество и цена

Текст носит юмористический характер и написан для @mahmud90 и @MountainGoat

Китайские модели стоят в разы дешевле западных — и каждый месяц кто-нибудь спрашивает: а можно ли просто пересесть на Qwen и не платить за Claude с GPT? Я взял одну реальную задачу и прогнал её через три модели сразу, а потом свёл качество с ценой. Ниже — что получилось и кому Qwen реально подойдёт.

Задача одна на всех: разобрать топ-10 heap alloc_objects выкосонагруженного Go-сервиса по pprof-профилю и выдать фиксы по файлам. Профиль один, требования одни, доступ к репозиторию у всех троих. Go приложение обслуживает миллионы реквестов в минуту, кодовая база по размеру средняя.

Короткий итог

Модель	Оценка (0–50)	Если коротко
Codex (GPT-5.5)	46	`-peek` + `-list`, нашёл per-request причины
Claude Opus 4.8	46	`-peek`-разбор: тот же per-request логгер, bid 14%, `HGETALL`
Qwen 3.7 Max	43	Прогнал `-top -cum`, нашёл корень (45%), но до `-peek` не дошёл; плюс небезопасный фикс в «быстрых победах»

Что нашли все трое

Главную причину выявили все: функция матчинга источников трафика на каждый запрос заново парсила URL-ы из статической конфигурации (та меняется раз в сутки). Кумулятивно — около 45% всех аллокаций объектов. Фикс у всех одинаковый: парсить конфиг один раз при загрузке, а не в обработке запроса.

То есть как «находилка узких мест» работают все три. Если задача — «покажи, где течёт», Qwen справится не хуже.

Где разница

Профилирование тут не бинарное «запускал / не запускал», а вопрос глубины:

Codex — -peek (разбивка по вызывающим) + -list. Нашёл то, что видно только на этом уровне: на каждый внешний запрос создаётся новый объект-логгер, код тянет весь хеш из хранилища ради трёх полей, а в проекте уже есть LRU-кэш под соседнюю задачу — можно переиспользовать. Прочитал исходники библиотек, указал версии и строки.
Claude — -peek-разбор, независимо вышел на те же причины. Вровень с Codex по находкам, чуть лучше по готовности к внедрению, но где Codex сам гонял профайлер, Claude иногда советовал «запустите команду сами».
Qwen — -top -cum. Через кумулятив честно нашёл главный корень (45%, статические правила), привёл верный API и структуры, ничего не выдумал. Но -peek не использовал ни разу → пропустил per-request логгер, bid-узел и разбивку по вызывающим.

Единственная серьёзная заноза Qwen

Он предложил переиспользовать один объект в цикле и отдавать указатель в функцию сохранения, вынес это в Quick Win. Сам приписал оговорку «работает, только если сохранение синхронное, иначе Clone()» — но не проверил, что путь асинхронный. А он асинхронный: указатель уходит в канал и сериализуется позже в другой горутине. Такой приём для async прямо небезопасен — порча данных. Codex и Claude этот вариант пометили как недопустимый и дали безопасную альтернативу (копии по значению).

То есть Qwen знает про риск, но не доводит проверку до конца. Это ровно то место, где перед мержем нужен человек или второе мнение.

Рубрика по баллам (0–5)

Критерий	Codex	Claude	Qwen 3.7
Нашёл главную причину	5	5	5
Глубина профилирования	5	5	4
Новые находки	5	4	4
Корректность API/кода	5	5	5
Безопасность рекомендаций	5	5	3
Верификация по исходникам	5	5	4
Готовность к внедрению	4	5	4
Широта альтернатив	4	3	5
Лёгкость первого шага	3	5	5
Плотность/ясность	5	4	4
Сумма	46	46	43

Числа субъективны, это не бенчмарк. Но направление держится: разница — в глубине работы профайлером (-peek против -top -cum), а не в «IQ модели». И отдельная заноза Qwen — небезопасный фикс в «быстрых победах» — от профилирования не зависит.

Так нужно ли использовать Qwen?

Да если нет в доступе топовых альтернатив, иначе вы просто теряете свое личное время, чтобы контролить и подчищать за ним.

Что с ценой ?

Подписка на квен стоит 50 долларов у алибабы , купить ее не возможно, каждый день висит оутофсток и будет в наличии в полночь, вторую неделю захожу в полночь никогда не появляются новые подписки. Пришлось купить план за кредиты на $30, то есть оплату за токены + акция на квен макс -50% . На задачу потратил квен минут 10 и 5% токенов. Пакета токенов за 200 долларов мне хватит примерно на 33 часа работы в один поток. Если посмотреть как я работаю в клоде и гпт в 5+ потоков то вообще за день два могу сьесть пакет токенов квена за 200 долларов. Итого в 15-30 раз дороже клода и чатгпт по подписке. Еще раз отмечу что подписку за 50 долларов у квена купить не получилось.

Качество qwen3.7-max?

В целом не плохое, отстает на 2-4 поколения от топовых чатгпт и клода, что вполне достойно, с учетом того что новые поколения выходят чуть реже чем раз в месяц.

А стоит ли включить в пул агентов для работы в связике?

Я не могу сказать что я особо сильно погонял его в большом пуле задач, но в небольшом я не смог получить какой то выигрыш от работы квена в пуле агентов. Так что если есть альтернативы заюзать в связке кодекс, клод или гемени, выберите их.

推荐订阅源

Все публикации подряд на Хабре