惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

K
KPMG report finds enterprise disconnect between AI and its ROI | CIO
T
Troy Hunt's Blog
Schneier on Security
Schneier on Security
N
News | PayPal Newsroom
Hacker News: Ask HN
Hacker News: Ask HN
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
Google DeepMind News
Google DeepMind News
www.infosecurity-magazine.com
www.infosecurity-magazine.com
N
News and Events Feed by Topic
V
Vulnerabilities – Threatpost
Cyberwarzone
Cyberwarzone
K
Kaspersky official blog
P
Privacy & Cybersecurity Law Blog
P
Privacy International News Feed
WordPress大学
WordPress大学
U
Unit 42
PCI Perspectives
PCI Perspectives
S
Schneier on Security
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
V
Visual Studio Blog
Engineering at Meta
Engineering at Meta
The Cloudflare Blog
I
Intezer
宝玉的分享
宝玉的分享
N
News and Events Feed by Topic
Martin Fowler
Martin Fowler
B
Blog
美团技术团队
T
The Blog of Author Tim Ferriss
C
Cisco Blogs
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
酷 壳 – CoolShell
酷 壳 – CoolShell
The Last Watchdog
The Last Watchdog
J
Java Code Geeks
博客园_首页
A
About on SuperTechFans
Vercel News
Vercel News
Attack and Defense Labs
Attack and Defense Labs
H
Heimdal Security Blog
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
IT之家
IT之家
小众软件
小众软件
H
Help Net Security
D
Darknet – Hacking Tools, Hacker News & Cyber Security
Exploit-DB.com RSS Feed
Exploit-DB.com RSS Feed
T
The Exploit Database - CXSecurity.com
Y
Y Combinator Blog
Recent Commits to openclaw:main
Recent Commits to openclaw:main
Webroot Blog
Webroot Blog
T
Tenable Blog

Все публикации подряд на Хабре

Ловим музу за клавиатуру: как айтишнику стать автором Что умеет Midjourney в 2026? Мой немного грустный разбор этого шикарного инструмента Никто не любит писать тесты, но ИИ может исправить это IPv8 выглядит как мечта. Поэтому почти наверняка не взлетит Производители вернули в продажу материнки с DDR3. Что происходит? Управление агентом с телефона через Telegram теперь в KodaCode От координации к лидерству: как меняется роль руководителя разработки Я сделала родителям бизнес вместо пенсии: зарабатываем 70 тысяч, мама не даёт продать В три раза быстрее приемка товара и оптимизация трудозатрат на 73%: как «РСТ-Инвент» помог Gulliver Group ИИ-шечный мир победил? О влиянии искусственного интеллекта на игропром Кремль снижает давление на Телеграмм пока Европа строит интернет по паспорту Как CEO, CTO и CIO за 8 часов собрали ИИ-директора, который умеет держать позицию под давлением Как (не) потерять домен за выходные Вместо 8 разных VPS: как я организовал практику студентам на одном сервере Почему твой Open Source проект не замечают? R&D: искусство управления неопределенностью в разработке AI-дефляция: вакансий для разработчиков больше, а рост зарплат — худший за 15 лет Мы отдали управление роботами OpenClaw. Что из этого вышло Галактический ID: система идентификации для всех форм разумной жизни Шесть основ бизнес-анализа: начинаем с вопроса «Кто в игре?» Код-ревью, в котором дело не в коде Данные переехали. Команда — нет Системной подход к сдаче OSWE в 2025 Почему комната управления реактором покрашена в цвет морской пены 4 YAML-файла вместо PySpark: как аналитикам строить пайплайны без разработчиков LLM-агент для поиска свободных доменов: автоматизируем подбор Когда, зачем и как правильно начинать новую сессию в Claude Code? Как я заставил нейросеть писать макросы для FreeCAD Анатомия ИИ‑агента для подбора персонала. От тысячи резюме к топ‑10 за минуты Опыт разработчика как экономика внимания Автономность как точка невозврата: кто будет субъектом в цифровом будущем Обучение ИИ в «диких» условиях: как рутинные действия превращаются в датасеты Как измерить LLM для задач кибербеза: обзор открытых бенчмарков Где хранить код? Сравнение GitHub, GitLab и Bitbucket Математика объясняет, почему нормальное распределение встречается повсюду Почему ваш FinOps не работает: 12 тезисов от практиков Как подписать проектную документацию УКЭП с использованием бесплатных лицензий Pilot Адаптивное администрирование Sigla Vision Я грузил уран в бочки, а потом 20 лет строил ИТ в атомной отрасли Чем позвонить с Эвереста? История и обзор спутниковой связи. Часть 2 Как языковая модель помогает контролировать качество инструктажей по охране труда в металлургии Как не передать на desktop свой IP в РКН Анатомия SAP Privileges: как устроено управление правами в macOS MoneyDev: Сказка про три главных слова Обновлённый токенизатор видео K-VAE 2.0 от Сбера Как сделать диспетчеризацию дома на 1284 квартиры почти бесплатно Как мы разогнали железную дорогу Мы дали агентам рутину. Теперь надо решить — что делать с освободившимся временем Токсичный контент, промпт-хакинг и защита ИИ — всё о Guardrails для LLM Умный город начинается с точного взгляда: как «Фалькон Тех» меняет пространство к лучшему Навайбкодил приложение для анализа графов Почему Дюну так интересно читать? Упрощаем работу с рутиной или как стать Гендальфом Белым Деконструкция Go: CPU, RAM и что там происходит. Go Assembler база. Часть 1.1 Какие профессии исчезнут из-за ИИ, а какие появятся? И что с этим делать Как мы построили IT-отдел, где хочется расти: архитектурные встречи, прозрачные метрики и книжные подарки Rufler: Делаем из Claude Code автономный рой через один YAML-конфиг Sing-box и белый список приложений Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом Дом, который не построил Фишер (Часть 2) «Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки Мультимодальные модели – грубый и дорогой инструмент Разговоры ничего не стоят. Код тоже Проверки физических лиц: с кого начнет ФНС Топ-10 бесплатных нейросетей для создания видео в 2026 году Первые слои кода: как наши решения сегодня определяют архитектуру ИИ на десятилетия Разработка нового статического анализатора: PVS-Studio JavaScript Поиск уязвимостей ПО: базовый минимум или роскошный максимум Почему оценка персонала не работает как инструмент управления Как мы разработали ИИ-ассистента и сократили рутину продуктовой команды на 50% Как я ушел из найма, нажарил косточек и продал на маркетплейсах на 168 млн в год Когда 1С:ERP уже внедрена, а нормального производственного плана всё ещё нет Как я сделал Claude мультимодальным, подключив к нему Qwen Omni Как приглашение на вакансию мечты превращается в атаку Infrastructure as Code: философия и лучшие практики IaC Тестируем Yandex Code Assistant на задаче, в которой нужно хранить секреты nxs-universal-chart v3.0: новое поколение универсального Helm-чарта Callback Injection: Техника, которая отправила Microsoft Defender в глухой нокаут «Все идеи на стол»: митап как способ вывести проект из тупика Сегодня я узнал нечто новое о GPU благодаря багу в своей игре Как заставить LLM ̶ ̶г̶а̶л̶л̶ю̶ ̶ эволюционировать Карта событий как фундамент аналитики: практический кейс для E-commerce Что выбрать для AI: x86, ARM или RISC-V? Дайджест железа за март Роль соматических мутаций в развитии аутоиммунных заболеваний: путь к избирательной терапии Mythos от Anthropic — тревожный сигнал для всех, а не только для банков Guardrails для LLM на Java: как приручить промпт‑инъекции и токсичные ответы Green-VLA: как мы собрали VLA-модель для реального антропоморфного робота и не потеряли обобщение Финансовая гонка вооружений: почему умные люди добровольно в ней участвуют Эра ИИ-агентов наступила: выбираем лучшего цифрового сотрудника # Практический опыт внедрения WinCC Redundancy на производственном предприятии Сделал MVP за 3 дня, а потом неделю прикручивал оплату. Оно того стоило? Физика против Маска: почему Starship V3 может оказаться ещё одной катастрофой Нефть Венесуэлы: крупнейшие запасы в мире, но не крупнейшая нефтяная держава JPA 4. Переосмысление Hibernate Почему зеркальная фотокамера Nikon D5 десятилетней давности идеально подошла для миссии «Артемида-2» Проект «Уровень-Спутник» или как мы сделали платформу для гидрологов «Замедлиться, чтобы ускориться»: почему ИИ повышает цену ошибок в требованиях и архитектуре Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить Pixel-perfect Downsampling — идеальная отрисовка 50 миллионов точек без потерь
Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация
YH7H22 · 2026-05-19 · via Все публикации подряд на Хабре

 Если вы зайдете на Reddit или HuggingFace, вы увидите одну и ту же картину: люди соревнуются в том, кто сильнее покалечит модель, чтобы втиснуть её в свои 8 или 12 ГБ видеопамяти.

«Смотрите, я запустил 70 миллиардную модель на RTX 3060! Правда, пришлось использовать 3 битное квантование с размером группы 32, но она работает!»

Да, она работает. Она складывает слова в предложения. Но давайте снимем розовые очки и поговорим о математике. Экстремальное квантование сегодня превратилось в культ слепую веру в то, что магия алгоритмов (AWQ, GPTQ, EXL2) способна бесконечно сжимать информацию без потери интеллекта. Но у физики нейросетей есть предел.

Золотая середина: почему 8 и 6 бит работают идеально

Нужно вспомнить, почему квантование вообще работает. Веса хорошо обученной нейросети имеют нормальное распределение вокруг нуля. Большинство весов близки к нулю, и лишь крошечная доля уходит в хвосты (выбросы).

Когда мы переходим от FP16 к INT8 (8 бит), у нас есть 256 дискретных значений, чтобы описать этот колокол. Для непрерывного пространства нейросети 256 градаций это более чем достаточно. Мы сохраняем и общую массу весов, и, что критически важно, точность в хвостах распределения. Переход на 8 (и даже на 6) бит это почти lossless операция. Мы срезаем математический шум.

Обрыв: переход к 4 и 3 битам

Но дальше начинается жадность.
4 бита это всего 16 значений.
3 бита это 8 значений.

Задумайтесь об этом. Вы берете сложнейшее N-мерное латентное пространство, в котором сеть выучила тончайшие семантические различия между сарказмом и иронией, между квантовой физикой и кулинарией, и заставляете каждый вес в матрице принимать одно из 8 фиксированных значений. Это как попытаться сыграть симфонию на детском пианино с тремя клавишами.

Как это вообще работает? За счет костылей. Алгоритмы вроде GPTQ или AWQ вычисляют, какие веса наиболее важны для активаций, и пытаются сохранить их точность за счет группировки (Group Size = 128 или 64). Мы спасаем каркас, но полностью уничтожаем детали

Иллюзия perplexity: что мы на самом деле теряем

Главный аргумент фанатов экстремального квантования звучит так: "Смотрите на бенчмарки! Perplexity (ошибка предсказания) на 3 битах выросла всего на 0.2 по сравнению с FP16!"

И вот здесь кроется главная ловушка, в которую попала индустрия. Perplexity это метрика в среднем

80% любого текста это вода. Предлоги, союзы, очевидные продолжения фраз. Чтобы предсказать, что после "Девочка пошла домой потому что позвала" идет "мама", модели достаточно 2 бит. Базовая структура языка очень устойчива к шуму, поэтому perplexity почти не страдает.

Но что происходит с оставшимися 20%? Что происходит с редкими знаниями?
Вспомните механику градиентов. Редкие факты (названия специфических библиотек кода, имена ученых, тонкие логические выводы) кодируются микроскопическими сдвигами весов во время обучения.

Когда вы применяете 3 битное квантование, эта тонкая топология просто округляется до нуля (или до ближайшей грубой корзины). Вы получаете лоботомированную модель. Она всё ещё прекрасно болтает о погоде (поэтому вам кажется, что она умная), но когда вы просите её написать сложный python скрипт или решить логическую задачу, она начинает жестоко галлюцинировать. Вы отрезали ей ту часть мозга, которая хранила нюансы.

Жадность: Большой и глупый

Стремление квантовать модели до 4 (а теперь уже и до 3) бит породило абсурдную ситуацию.
Люди берут гигантскую модель на 70 миллиардов параметров (которая весит 140 ГБ в FP16) и сплющивают её до 3 бит, чтобы она влезла в 24 ГБ VRAM.

Но с математической точки зрения, 70B модель в 3 битах это архитектурный инвалид. Её веса настолько искажены ошибкой квантования, что её реальная предсказательная способность падает ниже плинтуса.

Если у вас есть 24 ГБ VRAM, гораздо умнее взять модель на 14B или 32B параметров, но оставить её в 6 или 8 битах. Плотная, математически чистая маленькая модель всегда порвет огромного квантованного франкенштейна в задачах, требующих логики, а не просто генерации связного текста

Налог (Dequantization overhead)

Не будем забывать и про архитектуру GPU. Видеокарта не умеет перемножать 3 битные числа. Современные тензорные ядра работают с FP16/BF16 (или INT8 на новых архитектурах).
Это значит, что при генерации текста ядру CUDA нужно сначала на лету распаковать (де-квантовать) эти 3 битные значения обратно в FP16, и только потом сделать умножение. Мы разгрузили шину памяти (VRAM), но перегрузили ALU (вычислительные блоки) бесполезной работой по распаковке.

Заключение

Инженерия это искусство компромисса, а не фанатизм. Переход с FP16 на 8 битное или 6 битное квантование это здравый смысл, который демократизировал ИИ.

Но то, что происходит сейчас с 4 bit, 3 bit и ниже это чистый фанатизм. Это зависимость от оптимизации ради оптимизации. Мы так увлеклись попытками засунуть слона в багажник легковушки, что не заметили, как в процессе переломали слону все кости. Он влез, да. Но ходить он больше не может.