惯性聚合 高效追踪和阅读你感兴趣的博客、新闻、科技资讯
阅读原文 在惯性聚合中打开

推荐订阅源

H
Help Net Security
T
ThreatConnect
SecWiki News
SecWiki News
F
Future of Privacy Forum
AWS News Blog
AWS News Blog
C
Cisco Blogs
A
Arctic Wolf
Vercel News
Vercel News
The GitHub Blog
The GitHub Blog
Scott Helme
Scott Helme
V
V2EX
博客园 - 叶小钗
阮一峰的网络日志
阮一峰的网络日志
K
Kaspersky official blog
G
Google Developers Blog
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
P
Privacy International News Feed
C
Cyber Attacks, Cyber Crime and Cyber Security
N
News | PayPal Newsroom
Schneier on Security
Schneier on Security
NISL@THU
NISL@THU
Microsoft Azure Blog
Microsoft Azure Blog
量子位
The Hacker News
The Hacker News
Stack Overflow Blog
Stack Overflow Blog
Security Latest
Security Latest
M
Microsoft Research Blog - Microsoft Research
Google Online Security Blog
Google Online Security Blog
博客园_首页
C
CXSECURITY Database RSS Feed - CXSecurity.com
I
InfoQ
Google DeepMind News
Google DeepMind News
Y
Y Combinator Blog
The Cloudflare Blog
Microsoft Security Blog
Microsoft Security Blog
Martin Fowler
Martin Fowler
Cisco Talos Blog
Cisco Talos Blog
钛媒体:引领未来商业与生活新知
钛媒体:引领未来商业与生活新知
T
Troy Hunt's Blog
F
Fox-IT International blog
S
Security @ Cisco Blogs
博客园 - 司徒正美
cs.CV updates on arXiv.org
cs.CV updates on arXiv.org
C
Comments on: Blog
Threat Intelligence Blog | Flashpoint
Threat Intelligence Blog | Flashpoint
L
LINUX DO - 最新话题
GbyAI
GbyAI
Project Zero
Project Zero
腾讯CDC
T
Tailwind CSS Blog

Все публикации подряд на Хабре

Архитектура крипто-сканера для биржи: Open Interest, Funding Rate, EMA и MACD в реальном времени @tanstack/vue-table: почему я почти отказался от этого… WHERE превращает ваш LEFT JOIN в INNER JOIN. И никто вам об этом не скажет Гравитация не существует. Вы задали 454 вопроса о времени. Вот ответы с уравнениями Эйнштейна Конец бесплатного кремния: как Google AI Studio превратилась из рая для инженеров в симулятор смены аккаунтов Свой AI-агент из почты, systemd и LLM MemForge2: загрузочная флешка, которая за минуту говорит — какую планку памяти менять Лицензии важны. Разбор ошибок авторов и пользователей программ От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде Serial Terminal: кастомный веб-терминал для последовательного порта на Web Serial API Китайский стартап GigaAI обещает робота-домработника за 1 млн рублей уже в 2027 году — правда или PR? Open-source VPN клиент Tunguska Роман за 6 недель без идеи на старте: миф или реальность? ИИ построит ваш план действий за 10 секунд Security Week 2622: эффективность Claude Mythos по версии Cloudflare Reactive Forms vs Signal Forms: Эволюция сложных форм в Angular TorFlash — приложение для Linux: поиск торрентов, скачивание и копирование на флешку в одно нажатие Как я решил проблему русской диктовки для ИИ Оверинжиниринг, потопивший немецкую подлодку или некоторые «баги» не чинятся десятилетиями Как ставить цели и не забывать о них: пошаговая система с примерами в таск-менеджере Как настроить observability в Spring Boot 3 HackTheBox. Прохождение Mini Pro Lab Puppet Обзор серверного ускорителя NVIDIA Tesla V100 16 Gb в корпусе от RTX 4090: Часть 3 — Запуск локальных моделей ИИ Редактирование текста нейросетью: как сделать диплом и курсовую более человечными Самодельный ARM ноутбук, реально ли? Как 100+ авторов пишут 100+ процессов в 3 версиях и не путаются. Или как мы переехали с Wiki на Git Прошла AnalystDays – хорошие выступления и нетворкинг VSCode как IDE для embedded разработки Моделирование широкополосной антенны с двойной круговой поляризацией и высокой изоляцией Ваше прошлое физически существует прямо сейчас. И вы заморожены там навсегда От списка инструментов к technical output: как security engineer’у описывать hands-on опыт в CV и на интервью I just want an agent. Часть 1. Как я научил ИИ собирать ИИ-агентов за пользователей и выиграл конкурс I just want an agent. Часть 1. Как я научил ИИ собирать ИИ-агентов за пользователей и выиграл конкурс Вайбкодинг спас меня от подрядчиков. А потом я поняла, что сама стала подрядчиком для своих агентов Святой Августин и GAN: почему борьба добра и зла — это генеративная состязательная сеть В каждом QR-коде зашита половина лишней информации. Намеренно Я открываю автомат ключом, меняю рулон бумаги и зарабатываю 180 тысяч в месяц с точки Мастер восстановления. Культура достиженства и выгорание Недельный геймдев: #279 — 24 мая, 2026 Защита от дублирования кода агентами: семантические концепции Frontend Status: свежий дайджест фронтенда и AI — 25.05.2026 Где искать IT-работу кроме HH: подборка платформ 2026 Почему простые числа собираются в спирали? OCR для Data Lakehouse: от Apache Tika к собственному решению на базе Docling Jira — Тьюринг-полная Kubernetes-аудит после Wiz и Prisma: как живут без CNAPP в 2026 «Тестируем MVP в 4 раза быстрее»: как нейросети изменили жизнь предпринимателей На каком стеке и железе работает умное наблюдение в вашем городе: обзор технологий от разработчиков видеоаналитики Как мы ускорили согласования на двух заводах в 24 раза Heartbeat-мониторинг cron-job'ов: dead-man-switch на FastAPI [Перевод] Сегодня нет джуниоров, а в 2031 году не станет и синьоров Профайлер для PostgreSQL: от идеи до работающего MVP за сутки [Перевод] Ограничения размера cookie в ASP.NET Core в продакшене: причины и способы решения Проблема «божественного» Obsidian: почему я отказался от централизованного подхода в работе Лицензии GNU GPL: как пройти проверку Минцифры и заказчика для госзакупок и КИИ Хакатон Samsung IT Academy Hack 2026: как студенты оптимизировали поиск в корпоративном мессенджере Хакатон Samsung IT Academy Hack 2026: как студенты оптимизировали поиск в корпоративном мессенджере MTProxy jumper — делаем автоматическое переключение прокси-серверов Telegram Ты уже используешь агента. Просто не заметил Книжный салон. Послевкусие и благодарности Как отлаживать мини‑приложения в MAX и почему без DevTools это боль Cбор биометрических данных. Как защищается наша биометрия на практике Как запустить учет активов без цифровой свалки: первые 90 дней CGE: визуализация кравлера и скрытых связей между поддоменами Зачем банки тратят миллиарды на науку (спойлер: не благотворительности ради) Книга: «Современный Java Concurrency. Глубокое погружение в Virtual Threads, Structured Concurrency и Scoped Values» Как использовать подписку ChatGPT и Claude в Cursor без оплаты за API токены Специализированная ИСУП или модуль в универсальной платформе: вот в чем вопрос Обход белых списков через WebRTC на стероидах (с поддержкой iOS и десктопа) Регата INFOSTART CIO CAMP: когда команда проверяется не в переговорной, а на воде Пет-проект, который не умер: система бронирования устройств как полигон для AI-разработки Не надо встраивать ИИ в каждую корпоративную систему, это архитектурная ошибка Нейросети для дизайна интерьера: Выбираем лучший ИИ для генерации концептов и планировок квартиры Что там с Ил-114-300 Что такое DAS: как и зачем продукт-менеджеры саботируют запуск новых продуктов 8% компаний измеряют критическое мышление руководителей. Что делают остальные 92% CVE, Shell и побег из контейнера: испытываем возможности PT Cloud Application Firewall Как я научил Алису петь: генерация музыки по голосовой команде Восстановление данных с помощью бесплатной утилиты Easy Disk Checker Как мы построили сквозную аналитику в Power BI Год разработки iOS-игры, 266 тысяч показов и $33: как я делал Vault и почти ничего не заработал Ты прокрастинируешь потому, что избегаешь напрасных усилий, а не чрезмерных нагрузок Я построила диагностику «стоит ли это автоматизировать» — и она трижды говорила глупости. Разбор ошибок Как устроены world models, что показал Google на прошлой неделе и где это меняет gamedev и робототехнику Двухдневная рабочая неделя — будущий стандарт CPU не умер, он просто ждал. Китай строит двухэксафлопсный суперкомпьютер без единого GPU — прорыв, необходимость, фейк? 3Sound: поиск бесплатных звуков для игр больше не боль? 3 Тбит/с по-русски: почему DDoS в 2026 году стал угрозой для любого бизнеса 10 Гбит/с — зачем вам такая скорость передачи данных в облаке Ремонтируем аналоговый XY-самописец Endim 622 [Перевод] IPO компании SpaceX: хорошая попытка, но нет «Ща будет шрифт»: история одного русского embedded‑шрифта Как аквариум на подоконнике превратился в full-stack платформу с AI GiftsHub — из чат-бота в полноценный backend-продукт Пиратство, копирайт и DMCA: как Napster, The Pirate Bay и YouTube изменили закон. Часть II Как найти внутренние резервы для развития предприятия Как один французский чиновник от безысходности начал платил зарплаты картами и практически изобрёл банкноты RAG в энтерпрайзе: почему демо работает, а прод нет AI-агент для финансовых процессов: как мы научили ИИ считать числа из базе данных без галлюцинаций Автопостинг на 8 платформах: архитектура waterfall, custom publisher'ы и API-ловушки
20 лет видеокарт в цифрах: как росли FLOPS и TDP и кто вёл в дуэли NVIDIA vs AMD (+ открытый датасет на 13 500 GPU)
ha7y · 2026-05-26 · via Все публикации подряд на Хабре

Мы держим каталог видеокарт и накопили базу на 13 566 GPU — от GeForce 256 (1999) до Blackwell и MI355X (2025). В какой-то момент стало интересно, как менялась индустрия: насколько выросли FLOPS, во что упёрся TDP, и кто вёл в гонке NVIDIA против AMD в разные годы.

Ниже — разбор по нашим данным. Сразу скажу, что зафиксировал: методологию (что и как считал, где данные шумят) и открытый датасет в конце статьи — забирайте и копайте вместе с нами 😊

TL;DR

  • Пиковый FP32 флагмана вырос ~в 400 раз за 19 лет: 0.3 TFLOPS (GeForce 8800 GTX, 2006) → 126 TFLOPS (Blackwell, 2025). Это почти ровная экспонента в полулог-масштабе.

  • TDP полз медленно (155 → 300 Вт за 2006–2020), а потом рванул в датацентре: 700 Вт (H100), 1000 Вт (MI325X / B200), 1400 Вт (MI355X, 2025).

  • При этом производительность на ватт выросла ~в 100 раз — то есть «жрут больше», но «делают на ватт кратно больше». Главный драйвер — техпроцесс (90 нм → 3 нм) и архитектура.

  • Дуэль NVIDIA/AMD по пиковому FP32 менялась волнами: AMD вела в начале 2010-х (эра GCN) и снова в 2023–24 (Instinct MI300/MI325), NVIDIA — в 2016–2020 (разворот в ИИ) и в 2025 (Blackwell). Но «сырой FP32» — обманчивая метрика, и об этом ниже.

Методология

  • Что такое эти TFLOPS и почему они «теоретические». Все FP32-числа в статье — это теоретический пик, который вендоры считают по формуле:

    FP32 TFLOPS = (число шейдерных ALU / CUDA-ядер) × boost-частота, Гц × 2 / 10¹²
    

    Множитель ×2 — потому что инструкция FMA (fused multiply-add) делает умножение и сложение за один такт, то есть две операции. Это потолок, а не реальная производительность: на практике достигается ощутимо меньше — обычно 60–90% на хорошо оптимизированных compute-bound ядрах и кратно меньше на memory-bound, — потому что мешают пропускная способность памяти, занятость SM, состав инструкций и тот факт, что boost-частота не держится постоянно под нагрузкой и тепловым лимитом. Расхождение теории и практики — это норма. Теоретический пик ценен другим: он считается по одной формуле для всех карт и поколений, поэтому это честная сопоставимая линейка для исторического сравнения — её и указывают в спеках, её и используем мы. Реальную производительность меряют уже бенчмарками (они в датасете отдельной таблицей).

  • Источник — наша база спецификаций. «Флагман года» = карта с максимальным fp32_performance, выпущенная в этом году, отдельно по NVIDIA и AMD.

  • Для кривой TDP/эффективности я исключил dual-GPU карты (GTX 295, HD 6990, R9 295X2 и т. п.) — иначе TDP и FLOPS задваиваются и ломают тренд.

  • Где данные шумят:

    • vendor проставлен у ~2 360 из 13 566 карт (остальное — в основном OEM-варианты партнёрских плат). Медианы считаю по размеченной выборке; пики флагманов размечены полностью.

    • FP16/tensor-производительность между вендорами в лоб не сравнима — из-за structured sparsity. Начиная с Ampere (A100), NVIDIA в спеках указывает тензорные FP16/BF16 уже с учётом sparsity — это ×2 к «плотному» (dense) значению (фича обрабатывает разреженные матрицы вдвое быстрее). В нашей базе для таких карт хранится именно эта «sparse»-цифра. У AMD аналогичной строки в спеках нет — там dense. Поэтому сырой столбец FP16 у NVIDIA (A100+) нужно делить на 2, чтобы сравнивать с AMD честно: A100 = 624 (sparse) → 312 dense, H100 = 1979 → ~990 dense. Раздел про «AI-перелом» ниже опирается на эти приведённые к dense числа.

1. FLOPS: почти ровная экспонента

Пиковый FP32 одиночного флагмана по годам (NVIDIA):

Год

Флагман

FP32, TFLOPS

2006

GeForce 8800 GTX

0.3

2010

GeForce GTX 580

1.6

2013

GeForce GTX 780 Ti

5.3

2016

Quadro P6000

12.6

2017

Tesla V100

15.7

2020

RTX A6000

38.7

2022

L40S

91.6

2025

RTX PRO 6000 Blackwell

126.0

≈400× за 19 лет — это CAGR около 37% в год. В полулогарифмическом масштабе линия почти прямая: классическая экспонента, которая лишь недавно начала загибаться на «настольном» сегменте и переехала в датацентр.

FP32 флагманов NVIDIA и AMD по годам (лог-шкала)

График: FP32 флагманов NVIDIA и AMD по годам (лог-шкала)

2. TDP: тихий рост, затем датацентровый взрыв

Год

Карта

TDP, Вт

2006

GeForce 8800 GTX

155

2010

GTX 580

244

2017

Tesla V100

250

2020

RTX A6000

300

2022

H100 SXM

700

2024

MI325X / B200

1000

2025

MI355X

1400

Полтора десятилетия TDP флагмана держался в коридоре 150–300 Вт. Перелом — после 2020-го, и он целиком датацентровый: ускорители для ИИ (SXM/OAM-модули) выскочили на 700–1400 Вт, потому что их охлаждают не кулером в корпусе, а жидкостью в стойке. Настольный потолок отдельно упёрся в ~450–600 Вт (RTX 4090/5090).

Любопытный разрыв виден, если посмотреть отдельно на потребительские флагманы NVIDIA: GeForce-флагман семь лет (2013–2019) простоял ровно на 250 Вт — GTX 780 Ti, Titan X, 1080 Ti, 2080 Ti, — и прорвал этот потолок только с RTX 3090 (350 Вт, 2020), дальше 4090 (450 Вт) и 5090 (575 Вт). А вот датацентровые ускорители ушли на 700–1400 Вт почти сразу. Похоже, выше игровой TDP пускал не столько кремний, сколько рынок — корпуса, блоки питания и привычки покупателей; в стойке таких ограничений нет, и там ватты росли без оглядки. (Это интерпретация: спека хранит ватты, а не намерения — но 250-ваттное плато на семь поколений в данных видно отчётливо.)

TDP флагманов, с пометкой «настольные» vs «датацентровые модули»

График: TDP флагманов, с пометкой «настольные» vs «датацентровые модули»

3. Производительность на ватт: вот это и есть прогресс

Если смотреть только на TDP, кажется «всё хуже, карты жрут как не в себя». Но FP32 на ватт рассказывает обратное:

Год

Флагман

TFLOPS/Вт

2006

8800 GTX

0.002

2013

GTX 780 Ti

0.021

2016

Quadro P6000

0.051

2020

RTX A6000

0.129

2022

L40S

0.262

2025

RTX PRO 6000 Blackwell

0.21

~100× по эффективности. Пик «классической» эффективности приходится на 2022 (Ada/L40S); датацентровые карты 2024–25 местами проигрывают по TFLOPS/Вт, потому что сознательно меняют эффективность на абсолютную плотность вычислений в стойке. Главные драйверы роста эффективности — техпроцесс (90 нм → 3 нм) и архитектурные улучшения, а не частоты.

TFLOPS/Вт по годам (двойная линия N/AMD)

График: TFLOPS/Вт по годам (двойная линия N/AMD)

4. Дуэль NVIDIA vs AMD

Если по годам отмечать, чей одиночный флагман имел больший FP32:

Период

Лидер

Контекст

2007–2008

AMD

FireStream 9170/9270

2010–2013

AMD

GCN: HD 6970, HD 7970 GHz, R9 290X

2014

NVIDIA

Titan Black (5.6) vs FirePro W9100 (5.2)

2015

AMD

Fury X (8.6)

2016–2020

NVIDIA

Pascal → Ampere, разворот в ИИ

2021

AMD

Instinct MI250X (47.9)

2022

NVIDIA

L40S / Hopper

2023–2024

AMD

Instinct MI300A/MI325X (81.7)

2025

NVIDIA

Blackwell (126)

Картина волнообразная и привёл я её только для интриги, чтобы хоть как-то дать AMD шанс. Ведь по сырому FP32 AMD регулярно выбивала лидерство — в эру GCN и снова на свежих Instinct. Но именно сырой FP32 — обманчивая метрика для современного мира. Эра ИИ выигрывается не на FP32, а на софте и FP16/BF16/FP8. Здесь NVIDIA с tensor-ядрами (начиная с V100, 2017) и экосистемой CUDA построила ров, который цифрами одного только FP32 не виден: V100 дал ~125 TFLOPS tensor-FP16, A100 — ~312, H100 — ~990 (публичные данные вендора). То есть «дуэль по FP32» — это про прошлое железа как графического ускорителя; настоящая битва ушла в плоскость, которую FP32 не измеряет.

Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)

Таймлайн-«дуэль»: по годам, чей флагман выше по FP32 (ступенчатая раскраска зелёный/красный)

Поэтому, +1 график с FP16-дуэлью, где NVIDIA стабильно впереди. А если на это накинуть ещё и софт для ИИ…

AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала

График: AI-перелом — пиковый tensor/matrix FP16 (dense) vs FP32 по годам, лог-шкала

5. Что ещё видно в данных

  • Техпроцесс: 90 нм (2006) → 28 нм (плато 2012–2015, «застрявший узел») → 16/12/7 → 3 нм (MI355X, 2025).

  • VRAM флагмана: 0.77 ГБ (8800 GTX) → 12–24 ГБ (середина 2010-х) → 48 ГБ (A6000) → 192–288 ГБ (MI300/MI355X). Память растёт даже быстрее, чем компьют, — потому что модели ИИ упираются в неё.

  • «Застрявшие» 28 нм: четыре года (2012–2015) индустрия сидела на одном узле — и именно тогда AMD держала паритет/лидерство по FP32. Как только пошёл рывок по техпроцессу и появились tensor-ядра, преимущество качнулось к NVIDIA.

Открытый датасет — забирайте

Выложили очищенный дамп нашей базы характеристик GPU — для тех, кто хочет покопать сам:

📦 Скачать: gpuark.com/datasets — файлы gpuark-gpu-specs.csv, gpuark-benchmarks.csv, gpuark-gpu-dataset.sqlite, либо всё одним архивом gpuark-gpu-dataset.tar.gz.

  • 13 566 GPU (поля: вендор, производитель, дата выпуска, архитектура, техпроцесс, транзисторы, частоты, объём и тип памяти, шина, FP16/FP32/FP64/BF16/TF32/INT8, TDP, NVLink, CUDA SM и др.) + 993 результата сторонних бенчмарков (джойнятся по gpu_id).

  • Форматы: CSV (Excel/pandas) и SQLite (готовые SQL-запросы) — две таблицы gpu_specs и benchmarks.

  • Лицензия: CC BY 4.0 (атрибуция на gpuark.com).

Выводы

  1. FLOPS росли почти ровной экспонентой (~37%/год) — но «бесплатный» рост закончился, дальше платим TDP и переездом в стойку.

  2. Реальный прогресс измеряется не ваттами и не сырым FP32, а производительностью на ватт (×100) — и она держится на техпроцессе.

  3. AMD по «сырым» числам бодалась и лидировала чаще, чем принято думать; но эру ИИ определил не FP32, а tensor + софт.

Данные открыты — если найдёте в них что-то, чего мы не заметили, напишите.