Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкой

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Кто решает судьбу вашего проекта? Разбираем заинтересованные стороны. BABOK #1 Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь

Трещилов Алексей · 2026-06-13 · via Все публикации подряд на Хабре

Средний

9 мин

6.3K

Строю приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему.

В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально.

Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать.

Три вещи, которые хотелось знать

Сначала кажется, что нужна одна метрика — «точность». Но это зависит от того, что считать ошибкой.

«Борщ с говядиной» вместо «борщ» — не ошибка. Пользователь это залогирует без вопросов. А «гречка» вместо «пельмени» — катастрофа: человек закроет приложение и не вернётся. Значит, нужно делить ошибки на те, что можно поправить за пару тапов, и те, после которых доверие уже не восстановить.

Я ввёл три вердикта: correct (то же блюдо, гарниры и уточнения не считаются), wrong-but-close (другое, но похожее — той же категории или кухни, нужно переименовать), wrong (принципиально другое блюдо). Неисправимая ошибка — только wrong. Если их доля ниже ~20%, доверие к продукту держится.

Второе — калибровка уверенности. Gemini возвращает confidence от 0 до 1. Я показываю предупреждение при значении ниже 0.85. Хотелось проверить, работает ли это вообще или просто висит для красоты.

Третье — правдоподобие калорий. Блюдо распознано правильно, но цифры разумные? Для каждого блюда в датасете задал референсный диапазон (борщ — 300–500 ккал на порцию, пельмени — 400–700) и проверял, попадает ли результат.

Датасет

Нужны фотографии с известным ответом. Взял два открытых источника.

Food-101 от Stanford — 101 класс блюд, по тысяче фото на каждый. Оттуда взял азиатскую и европейскую еду: суши, пицца, паэлья, пад тай.

Roboflow russian-food — датасет с русскими блюдами. Небольшой, но есть борщ, пельмени, оливье, блины. Единственная проблема — классы там на английском, пришлось написать маппинг labels_map.json с переводами.

Скрипт setup.py скачивает оба источника и генерирует manifest.csv:

file,cuisine,source,truth_dish,ref_kcal_low,ref_kcal_high
borscht_001.jpg,RU,roboflow,борщ,300,500
pelmeni_002.jpg,RU,roboflow,пельмени,400,700
sushi_003.jpg,ASIA,food101,суши,200,400
pizza_004.jpg,EU,food101,пицца,600,900

Итого — 66 фотографий: RU, ASIA, EU. Немного, но для первой проверки гипотезы хватает.

Как работает пайплайн

Два прохода.

Первый — прогоняем каждую фотографию через vision.Provider.Recognize(), это Gemini 2.5 Flash через OpenRouter. Возвращает название блюда, ингредиенты с весами, КБЖУ и confidence. Всё пишется в results.csv, поля verdict пока пустые.

res, err := provider.Recognize(ctx, f, mime)
// res.DishName    — "борщ с говядиной"
// res.Confidence  — 0.92
// res.Kcal        — 420
// res.Ingredients — [{говядина, 100г}, {свёкла, 80г}, ...]

Второй — оценка результатов. Проверять 66 строк вручную утомительно и невоспроизводимо. Я использовал ту же модель как судью — она получает ground truth и предсказание и отвечает одним словом:

const judgePrompt = `You are grading a food-photo recogniser.
Ground truth dish: "%s". The model predicted: "%s".

Classify the match from the user's point of view:
- correct: names the SAME core dish. Extra detail does NOT make it wrong —
  added garnishes ("бургер с картофелем фри" for гамбургер), descriptive
  qualifiers ("грибное ризотто" for ризотто), regional names ("нэм" for
  спринг роллы) are all still correct.
- wrong-but-close: a DIFFERENT but related dish — same category or cuisine —
  that the user would have to rename.
- wrong: a fundamentally different dish, or a failure to recognise the food.

Reply with exactly one word: correct, wrong-but-close, or wrong.`

temperature=0, max_tokens=16. Никаких объяснений, только метка.

Использовать ту же модель как судью — спорное решение, теоретически возможен self-serving bias. Я прошёлся по части результатов вручную — явных расхождений не нашёл. Для 66 строк приемлемо; если бы датасет был в тысячи строк, взял бы отдельную модель подешевле.

Удобно ещё то, что вердикты в CSV можно поправить руками и пересчитать итоги без повторного прогона распознавания:

go run ./cmd/benchmark -rescore   # переоценить вердикты
go run ./cmd/benchmark -summarize # итоговый отчёт

Результаты по распознаванию

Dish accuracy (overall):
  correct:          56  (84.8%)
  wrong-but-close:   6  ( 9.1%)
  wrong:             4  ( 6.1%)

  Recoverable   (correct + close): 62 / 66  = 93.9%
  Unrecoverable (wrong):            4 / 66  =  6.1%

Это уже после грандинга нутриентов (об этом ниже). До него baseline был похуже — 87.9% восстановимых, 12.1% неисправимых, но сам грандинг распознавание не меняет, разница между прогонами — шум на 66 строках. В любом случае при планке в 20% неисправимых ошибок запас приличный.

По кухням картина неожиданная:

RU:   14/14 = 100.0%
ASIA: 21/22 =  95.5%
EU:   27/30 =  90.0%

Русскую еду модель не путает вообще — все 14 блюд распознаны как минимум близко. Хуже всего европейская. Это контринтуитивно: я ждал, что западная еда, которой в обучающих данных заведомо больше, пойдёт легче. На деле наоборот.

Если посмотреть на сами четыре провала, становится понятно почему:

На фото	Что увидела модель
жареный рис	омлет с мясом и микрозеленью
лазанья	тефтели в томатном соусе с сыром
лазанья	жульен с грибами и сыром
лосось на гриле	курица терияки с рисом

Все четыре — составные или запечённые блюда, где ключевой ингредиент спрятан под сыром, соусом или корочкой. Лазанья под слоем расплавленного сыра действительно похожа на запеканку. Это не «русская/западная» граница, а «видно ингредиенты / не видно». Открытые блюда (борщ, суп, тарелка с гарниром) читаются легко; запечённые — угадываются по внешней оболочке.

А вот с уверенностью — совсем нехорошо

  Of WRONG guesses:  0 low / 4 = 0.0% warned the user

  2x2:
              low   high
    correct     0    56
    wrong       0     4

Ни одна из четырёх неисправимых ошибок не получила предупреждения. Все четыре — high.

Но дело даже не в этом. Я полез смотреть распределение самого confidence — и оно убийственное:

49 из 66 — ровно 0.90. За весь датасет модель опустилась ниже моего порога 0.85 один раз. То есть confidence — это не вероятность, а почти константа, которую модель приклеивает к ответу «на автомате». Она не несёт информации о том, права модель или нет: коррелирует не с правильностью, а в лучшем случае с тем, насколько уверенно модель звучит.

Вывод: confidence < 0.85 как системный фильтр ошибок не работает в принципе — отсекать им нечего. Это поле можно писать в лог, но строить на нём UX («перефотографируйте, мы не уверены») нельзя — оно почти никогда не сработает, а когда модель ошибётся всерьёз, промолчит.

Грандинг нутриентов по справочнику

Разобрались с распознаванием, переходим к калориям. Здесь, как окажется, и зарыта основная собака.

Базовый показатель: из всех правильно распознанных блюд с референсным диапазоном только около половины попали в него. То есть распознать блюдо — мало; в половине случаев цифра калорий всё равно мимо.

Первая гипотеза — очевидная: LLM «придумывает» ккал/100г, потому что у неё нет структурированной БД, она интерполирует по памяти. Решение: взять справочник и подставлять реальные значения.

Я взял данные Скурихина — советский справочник состава пищевых продуктов, достаточно полный для русской кухни — дополнил частью USDA для зарубежных позиций и занёс в таблицу nutrient_reference. 226 записей.

Резолвер работает в два уровня:

// Tier 0 — точный поиск по нормализованному ключу
row, err := r.store.exactByKey(ctx, normKey)
if row != nil {
    return rowToMatch(row, 1.0), true, nil
}

// Tier 1 — MySQL ngram fulltext + Go similarity re-ранжирование
candidates, err := r.store.fulltextShortlist(ctx, name)
best, bestSim := pickBest(normKey, candidates)
if bestSim >= 0.85 {
    return rowToMatch(best, bestSim), true, nil
}

// miss — оставляем LLM-значения

Normalize() убирает стоп-слова (варёный, жареный, свежий) перед сравнением, чтобы «варёная говядина» и «говядина» совпадали на Tier 0. Similarity() — bigramная схожесть (коэффициент Дайса), порог 0.85 подобран на выборке из 50 названий ингредиентов.

Покрытие вышло отличным — 96.7% ингредиентов нашлись в базе. Я был доволен.

Прогнал бенчмарк с грандингом:

Macro plausibility:
  LLM (ungrounded): 55.4%
  Grounded:         53.6%

Подождите. Покрытие 96.7%, а правдоподобие... стало немного хуже?

Вот тут я и завис на пару дней.

Почему грандинг не помог: разбираем по строкам

Когда агрегат не сходится с интуицией, помогает только одно — открыть сырые строки и посмотреть глазами. Я выписал все 26 случаев, где калории вышли за диапазон, и стал их сортировать. Проблем оказалось не одна, а несколько разных, и они тянут в разные стороны.

Проблема 1: баг оказался не в модели, а в моём датасете

Сразу бросилась в глаза гречка — 783 ккал при норме 150–350. Я обрадовался: вот он, тот самый «сухой/варёный» косяк, про который все пишут. Модель назвала ингредиент «гречневая крупа», грандинг подставил калорийность сухой крупы (~330 ккал/100г), отсюда и втрое больше. Красивая история: модель не различает сырое и готовое.

Перед тем как писать про это, я открыл само фото. И завис.

На фото была сырая крупа. Буквально миска сухой гречки с веточкой петрушки — сток, а не тарелка с обедом. Модель назвала её «крупой» абсолютно правильно. 783 ккал на 300г сухой гречки — тоже примерно верно.

Кто был неправ — так это я. В манифесте этой фотографии я проставил референсный диапазон 150–350 ккал — как для варёной порции. Бенчмарк сравнил честный ответ модели с моим кривым ground truth и записал модели «провал».

Полез проверять рис — там же был «рис белый, 1650 ккал». То же самое: фото сырого риса, высыпанного из мешка. Модель права, диапазон мой неверный.

Roboflow-датасет russian-food — это набор для детекции, надёрганный из веб-картинок. Под меткой «гречка» там лежит и тарелка каши, и стоковое фото крупы в мешке. Я скриптом присвоил всем фото под одной меткой один диапазон калорий «как для порции» — и сам себе насадил мин.

Вывод отрезвляющий: я сел мерить точность модели, а нашёл баг в собственных эталонных данных. Это, пожалуй, главный практический урок всей затеи — первым делом бенчмарк ловит кривизну твоего ground truth, а не модели. Прежде чем верить любой цифре «модель ошиблась на N%», стоит открыть несколько «ошибок» глазами.

Проблема 2: переоценка веса порции — вот это уже модель

Теперь настоящий баг модели. Вычистив из головы ложную гречку, я отобрал случаи, где блюдо реально готовое, названо верно, а калории всё равно в космос:

Блюдо	Что на фото	Ингредиент (верно)	Грандинг	Норма
сосиски	тарелка сосисок	«сосиски молочные»	1305 ккал	200–400
пельмени	порция пельменей	тесто + фарш	1203 ккал	350–600
гречка	каша с овощами на тарелке	«каша гречневая»	588 ккал	150–350

Вот гречка с овощами (ru_гречка_06) — это уже настоящая тарелка готовой каши, и модель назвала её правильно «каша». Но 588 ккал при норме до 350 — перебор. Молочные сосиски — ~170 ккал/100г, никакого сырого/варёного подвоха; 1305 ккал значит, что модель «увидела» на тарелке ~770 граммов сосисок.

Здесь имя правильное и справочник правильный — модель просто переоценила порцию в три-четыре раза. Чтобы оценить вес по фото, нужно чувство масштаба: размер тарелки, ракурс, толщина куска. Его у модели по сути нет, а грандинг тут вообще не помощник — он про ккал/100г, а ошибка в граммах.

Проблема 3: грандинг иногда делает хуже

Самое неприятное открытие. Я думал, грандинг в худшем случае нейтрален. Нет — на трёх блюдах он сломал то, что у LLM было правильно:

Блюдо	LLM	После грандинга	Норма
омлет	404 (ок)	503	200–450
пад тай	490 (ок)	445	450–700
пибимпап	453 (ок)	408	450–700

Для составных блюд усреднённое значение из справочника бывает хуже, чем контекстная оценка модели. Модель видела конкретный омлет с конкретным количеством масла; справочник подставил «омлет вообще». В сумме грандинг исправил 2 блюда и сломал 3 — отсюда и движение метрики вниз (55.4% → 53.6%), а не вверх.

Проблема 4: жёсткий диапазон — слишком суровая метрика

И отдельно стоит признать слабость самого измерения. «Попал в диапазон / не попал» — бинарно, и край жёсткий. Восемь из 26 «провалов» — это промахи в пределах 10% от границы:

пад тай: 445 при норме 450–700 — мимо на 5 ккал, засчитано как полный провал;
рис с маслом: 377 при норме 150–350 — перебор на 27 ккал;
гамбургер: 820 при норме 450–800.

То есть реальная доля «грубо неправильных» калорий заметно ниже, чем пугающие 46%. Если бы я считал мягче (например, штраф пропорционально промаху), картина была бы добрее. Но для honest-метрики я оставил жёсткий вариант — лучше недооценить себя, чем переоценить.

И ещё — хвост занижений

Чтобы не создавать впечатление, что модель всегда завышает: из 26 промахов 20 — завышения и 6 — занижения. Спагетти болоньезе — 157 ккал при норме 400–700, гёдза — 170 при 250–450. Реже, но бывает. Так что простой эвристикой «всегда дели на два» проблему не закрыть.

Что со всем этим делать

Картина по калориям получилась такая: распознавание блюда работает, справочник по ккал/100г работает (96.7% покрытия) — а итоговая калорийность всё равно мажет, и по нескольким независимым причинам сразу. Грандинг закрыл ровно одну подзадачу (точность ккал/100г), которая, как выяснилось, и не была главным источником ошибок.

Что собираюсь пробовать дальше, примерно в порядке стоимости:

Промпт на состояние ингредиента — заставить модель писать «рис отварной», а не «рис». Снимает Проблему 1, дёшево, но ненадёжно.
Кросс-чек на уровне блюда — после суммирования ингредиентов сверять итог с референсным диапазоном для типа блюда и флагировать аномалии (сосиски на 1300 — явный выброс). Бьёт по Проблеме 2.
Грандинг применять выборочно — для односоставных продуктов (крупа, мясо) доверять справочнику, для составных блюд (омлет, ризотто) оставлять оценку модели. Чинит Проблему 3.
Few-shot с весами порций — показать модели несколько фото с известными граммовками, чтобы калибровать масштаб. Самое прямое лекарство от Проблемы 2, но и самое дорогое.

Самое же главное, что дал бенчмарк, — это не цифры, а понимание, куда не надо было копать. Я потратил время на грандинг ккал/100г, уверенный, что проблема там. Бенчмарк показал, что главный источник ошибки — оценка веса порции, которую грандингом не возьмёшь. Без замера я бы ещё месяц улучшал не то.

Итоги

Метрика	До грандинга	После
Восстановимые ошибки	87.9%	93.9%
Неисправимые ошибки	12.1%	6.1%
Покрытие грандинга	—	96.7%
Макро-правдоподобие	~52%	53.6%
Confidence ловит ошибки	0 из 4	(не менялось)

Если коротко — три вывода:

Распознавание блюд готово к проду (93.9%), и слабое место не там, где ждёшь: хуже всего не русская еда, а запечённые блюда, где ингредиенты не видны.
Confidence от модели — почти константа, строить на нём логику предупреждений нельзя.
Калории мажут по нескольким причинам сразу, и доминирует не точность справочника, а оценка веса порции — самая дорогая для исправления часть. Грандинг чинил не то узкое место.

Если интересно поговорить про LLM-бенчмарки для domain-specific задач или про грандинг нутриентов — задавайте вопросы в комментариях.

Бенчмарк — часть реального проекта: Crumb AI — дневник питания по фото.

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Все публикации подряд на Хабре

Три вещи, которые хотелось знать

Датасет

Как работает пайплайн

Результаты по распознаванию

А вот с уверенностью — совсем нехорошо

Грандинг нутриентов по справочнику

Почему грандинг не помог: разбираем по строкам

Проблема 1: баг оказался не в модели, а в моём датасете

Проблема 2: переоценка веса порции — вот это уже модель

Проблема 3: грандинг иногда делает хуже

Проблема 4: жёсткий диапазон — слишком суровая метрика

И ещё — хвост занижений

Что со всем этим делать

Итоги