惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
Cisco Talos Blog
Cisco Talos Blog
T
Threat Research - Cisco Blogs
P
Privacy International News Feed
S
Schneier on Security
P
Privacy & Cybersecurity Law Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
云风的 BLOG
云风的 BLOG
P
Proofpoint News Feed
Scott Helme
Scott Helme
人人都是产品经理
人人都是产品经理
G
GRAHAM CLULEY
O
OpenAI News
CTFtime.org: upcoming CTF events
CTFtime.org: upcoming CTF events
PCI Perspectives
PCI Perspectives
GbyAI
GbyAI
宝玉的分享
宝玉的分享
Y
Y Combinator Blog
T
Troy Hunt's Blog
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
C
CXSECURITY Database RSS Feed - CXSecurity.com
腾讯CDC
C
Check Point Blog
Spread Privacy
Spread Privacy
L
LINUX DO - 最新话题
Recent Announcements
Recent Announcements
大猫的无限游戏
大猫的无限游戏
P
Palo Alto Networks Blog
Hacker News: Ask HN
Hacker News: Ask HN
M
MIT News - Artificial intelligence
奇客Solidot–传递最新科技情报
奇客Solidot–传递最新科技情报
The Hacker News
The Hacker News
H
Hacker News: Front Page
Microsoft Azure Blog
Microsoft Azure Blog
I
InfoQ
T
Tor Project blog
Martin Fowler
Martin Fowler
博客园 - 叶小钗
罗磊的独立博客
C
Cyber Attacks, Cyber Crime and Cyber Security
H
Heimdal Security Blog
V
Vulnerabilities – Threatpost
Simon Willison's Weblog
Simon Willison's Weblog
Latest news
Latest news
WordPress大学
WordPress大学
G
Google Developers Blog
N
Netflix TechBlog - Medium
S
Security Affairs
S
Secure Thoughts
Know Your Adversary
Know Your Adversary

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Мы — другие. Компьютерное зрение без миллионов параметров: практический разрыв SOTA
Алексей Упатов · 2026-06-19 · via Все публикации подряд на Хабре

Простой

3 мин

192

Краткий манифест-тизер; запомните этот твит.

Повторяем как мантру, чтобы она дошла до как можно большего количества людей. У YOLO, семейства DINO и прочих сетей - сотни миллионов и миллиардов параметров для решения задач детекции, классификации, сегментации. На фундаменте этих сетей по всему миру рождаются сервисы, которые позволяют решать какие-то задачи детекции, классификации, сегментации. В России они тоже есть: конечно, это не собственная разработка, не собственная архитектура, не собственная математика, а "всего лишь" надстройка со своими датасетами и пр.

пум-пум-пум

пум-пум-пум

У нас есть своя собственная универсальная модель компьютерного зрения – со своей собственной архитектурой – со своей собственной “математикой” ("математика" в кавычках, потому что в нашем случае классической математикой дело не исчерпывается). И нам для решения задач детекции, классификации, сегментации нужны не сотни и даже не десятки миллионов параметров, и уж тем более не миллиарды, а меньше 100 тыс. А точность при этом в худшем случае сопоставима с SOTA, а в обычном – превосходит SOTA.

Но как же так? С одной стороны миллионы и миллиарды параметров, а с другой – меньше 100 тыс. Это же гигантская разница. Что происходит? Что все это значит?

Это значит, что мы про что-то другое, чем все остальные ML-модели (и не только). Понятно, что эта разница на порядки в количестве параметров потом проецируется на “железо”, скорость, затраты и прочие штучки, важные для бизнеса. Да, мы можем, например, обрабатывать N число видеопотоков на очень маленьком количестве оборудования с очень плохих камер. И показывать при этом результаты лучше, чем SOTA.

Наши результаты скорее всего просто недостижимы для любых других сервисов, моделей и так далее. Мы уже говорили, что пиксели “вредят” ИИ: построить разрушенные (при переводе в пиксели) связи в исходном изображении ML может и не суметь, и уж точно не сумеет правильно – отсюда и миллиарды параметров. 

Мы вводим понятие “лучше SOTA”.

У нас другая технология, другие методы, которые позволяют добиваться непредставимо лучших результатов – а вы уже сейчас можете придумывать задачи, которые казались вам нереализуемыми или очень трудно реализуемыми с текущими – SOTA ли, не-SOTA ли – технологиями.

Говорить, что нам нужно меньшее количество ресурсов – не совсем точно, потому что это не объясняет примерно ничего. Еще раз: как описать этот gap между сотней миллионов параметров и ста тысячью, между фермой NVIDIA Tesla T4 и CPU x2 Inel Xeon E5-2697 v2 @ 2.70GHz, ОЗУ 256 Гб памяти, DDR3, 1600 MT/s, при том что мы не задействуем видеокарту для их работы никаким образом, а ОЗУ используется меньше 2х гигабайт во время тренировки? Можно ли объяснить ли превосходство современных станков на заводах над ручной силой рабов Древнего Египта простым перечислением цифр мощности, скорости и проч.?

TAPe – это качественные изменения.

Если у нас для реальных задач с производства, где попробовали буквально всё, mAP-95 выше, чем у самых крутых ML, то о чем говорить? Рассматривать другие показатели? Точность? Точность у нас тоже лучше. Время обучения? Тоже лучше. А число изображений, необходимое для обучения модели на классе? Тоже другое. А “железка”, которая все это обрабатывает? Тоже другая. 

И что же у нас тогда пересекается с современным так называемым классическим ML? Да ничего.

Мы даже сейчас не говорим, чтобы не забегать вперед, что если бы были чипы, работающие по TAPe, камеры, работающие по TAPe, то и наша модель была бы еще лучше. Точнее нет, вот так: тогда нашей модели не было бы, потому что она была бы не нужна, так как не нужен был бы ML, а нужен был бы чистый TAPe.

Посему мы и говорим о том, что у нас просто всё - другое, а то что у нас каждый параметр, на который принято обращать внимание, лучше, чем у любых конкурентов – это уже детали.

Как правильно все это сформулировать мы пока не знаем.

Эра TAPe, по крайней мере в научном плане, уже началась:)

То, что об этом знает небольшое количество людей, говорит лишь о наших маркетинговых возможностях. Мы уже реализовали TAPe научно, уже создали на основе TAPe продукты. 

Может быть завтра появится где-то в мире новая модель, которая покажет точность в детекции лучше, чем у YOLO на несколько процентов, и об этом напишут обзоры, релизы, разборы, статьи, потратят маркетинговые бюджеты, чтобы об этом узнало как можно больше людей.

Но это же не то же самое, что десятки миллионов параметров vs меньше ста тысяч параметров. Это другое. Вообще – другое.

У нас: RF-DETR 2XL (127 млн параметров) достигли максимального показателя точности детекции на COCO-датасете mAP50-95 в 60.1 и это стало мировым бенчмарком. YOLO так и не смогли достичь этих высот. А мы сходу получили 62%.

И мы получили в классификации 86,6%, а Meta* с ее DINOv3 и 7 млрд параметрами - 88,4%.

Да, это звучит невероятно и вы можете не верить, но, во-первых, в обоих случаях (в детекции и классификации) у нас меньше 100 тыс. параметров.

А во-вторых – чуть не забыли сказать – это одна модель. Одна модель распознавания по TAPe.

Мы называем ее TAPe+ML v2 – и в ближайшее время напишем о ней статью и выложим в открытый доступ, как только докрутим обязательные технические нюансы. Ну и способы платежей за это чудо – не бесплатно же.

А пока здесь можно посмотреть файл презентации