В третьей части обзора посмотрим на что способна Tesla V100 в работе с современными локальными моделями ИИ. Сравним ее с более современными серверными ускорителями и видеокартами по вычислительной мощности. Проверим какие модели ИИ она способна запустить в LM Studio и протестируем их.
Сравнение производительности Tesla V100 с современными серверными ускорителями и видеокартами
NVIDIA Tesla V100 стала первым массовым серверным ускорителем с интегрированными тензорными ядрами, что в 2017 году ознаменовало революцию в сфере обучения нейронных сетей. Данный ускоритель стал стандартом для индустрии и активно использовался при разработке прорывных моделей того времени, таких как GPT-2 (хотя финальная версия этой модели обучалась на TPU). Рост сложности моделей ИИ и объемов данных со временем требовал увеличения мощности и объема быстрой памяти, что напрямую стимулировало прогресс в разработке аппаратных ускорителей. Ниже приведена таблица для сравнения вычислительной мощности Tesla V100 с более современными серверными ускорителями и видеокартами NVIDIA.
Модель | Год | Пиковая вычислительная мощность в зависимости от формата представления чисел с плавающей запятой (Floating Point), TFLOPS | Тип и объем памяти, Гб | |||||
FP64 | FP32 | TF32 Tensor | FP16/BF16 Tensor | FP8 Tensor | FP4 Tensor Dense | |||
|---|---|---|---|---|---|---|---|---|
V100 | 2017 | 7.8 | 15.7 | — | 125 | — | — | 16/32 HBM2 |
A100 | 2020 | 9.7 | 19.5 | 312 | 624 | — | — | 40/80 HBM2/HBM2e |
H100 | 2022 | 34 | 67 | 989 | 1979 | 3958 | — | 80/96 HBM2e/HBM3 |
H200 | 2024 | 34 | 67 | 989 | 1979 | 3958 | — | 141 HBM3e |
B200 | 2025 | 37 | 75 | 2200 | 4500 | 9000 | 9000 | 180/192 HBM3e |
B300 | 2025 | 1.2 | 75 | 2200 | 4500 | 9000 | 15000 | 288 HBM3e |
RTX 4070 | 2023 | — | 29 | — | 117 | 233 | — | 12 GDDR6X |
RTX 4080 | 2022 | — | 49 | — | 195 | 390 | — | 16 GDDR6X |
RTX 4090 | 2022 | — | 83 | — | 330 | 660 | — | 24 GDDR6X |
RTX 5070 | 2025 | — | 31 | — | 123 | 247 | 494 | 12 GDDR7 |
RTX 5080 | 2025 | — | 56 | — | 225 | 450 | 900 | 16 GDDR7 |
RTX 5090 | 2025 | — | 105 | — | 419 | 838 | 1676 | 32 GDDR7 |
Из-за отсутствия поддержки современных форматов (FP8/FP4), прямое сравнение по мощности с современными картами возможно лишь в форматах FP16 и FP32. Если взять наиболее универсальный формат данных для LLM - FP16, то более современные серверные ускорители существенно опережают Tesla V100 по вычислительной мощности, а ее главные конкуренты - видеокарты RTX 4070 и RTX 5070. Однако близкие показатели TFLOPS не всегда означают одинаковую скорость вычислений. Tesla V100 использует старые тензорные ядра 1-го поколения, в то время как RTX 4070 и RTX 5070 имеют гораздо более эффективные ядра 4-го и 5-го поколений. Они выполняют операции над матрицами значительно быстрее. Однако в задачах, ограниченных памятью, Tesla V100 выигрывает за счёт высокой пропускной способности HBM2 ~900 ГБ/с, тогда как у RTX 4070 пропускная способность GDDR6X ~504 ГБ/с, а у RTX 5070 ~672 ГБ/с.
Для оценки средней вычислительной мощности CUDA и тензорных ядер я запустил скрипт, написанный на Python с использованием библиотеки PyTorch, который измеряет производительность матричного умножения (GEMM).
Этот тест напрямую нагружает ядра GPU: в режиме FP32 работают CUDA-ядра, а в режиме FP16 - тензорные ядра.
Результат теста:

Реальная средняя вычислительная мощность Tesla V100 в форматах FP32 и FP16 несколько ниже пиковых значений из вышеприведенной таблицы - 15.7 и 125 TFLOPS.
LM Studio: запуск, тестирование и варианты использования локальных моделей ИИ
Запуск и тестирование локальных моделей ИИ
Для запуска LLM я использовал программу LM Studio. Список выбранных моделей приведен в таблице ниже:
Полное название модели | Издатель | Параметры, млрд | Тип квантования | Размер, Гб |
Qwen3.6-35b-a3b | unsloth | 35 для обучения, 3 активных | Q2_K_XL | 13,11 |
Qwen3.6-35b-a3b-mtp | unsloth | 35 для обучения, 3 активных | Q2_K_XL | 13,37 |
Qwen3.6-35b-a3b | qwen | 35 для обучения, 3 активных | Q4_K_M | 20,55 |
GPT-OSS-20B | openai | 20 | MXFP4 | 11,28 |
Gemma-4-e4b | 4 эффективных | Q8_0 | 8,4 |
Все представленные модели ИИ в формате GGUF. GGUF (GPT-Generated Unified Format) - это современный бинарный формат файлов для хранения и эффективного запуска больших языковых моделей (LLM) на центральных процессорах (CPU) и видеокартах (GPU). Он разработан специально для llama.cpp и совместим с Tesla V100.
В список я добавил две модели Qwen3.6-35b-a3b с одинаковым квантованием Q2_K_XL, но одна из них поддерживает спекулятивное декодирование MTP. MTP (Multi-Token Prediction) - это метод ускорения генерации текста языковыми моделями, позволяющий модели предсказывать сразу несколько следующих токенов за один проход, вместо одного. MTP позволяет генерировать текст в 1.5–2 раза быстрее без потери качества ответов. В LM Studio перед загрузкой модели MTP в память GPU нужно обязательно активировать опцию MTP Speculative Decoding в расширенных настройках.

Перед началом тестирования, привожу список основных компонентов и параметров своего ПК:
Материнская плата: ASRock A520M Phantom Gaming 4
Процессор: AMD Ryzen 7 5700GE
Оперативная память: 64 Гб (2x Patriot Viper Steel 32 Гб DDR4 3600 МГц)
Основной накопитель: SSD NVMe Kingston KC3000 1 Тб
Блок питания: FSP Vita GM 750 Вт
Операционная система: Windows 11 Pro
Драйвер NVIDIA: 553.74 (серверный grid драйвер от Google)
LM Studio: v.0.4.14 (Build 2), CUDA llama.cpp v.2.15, Vulkan llama.cpp v.2.15
Проверим скорость работы LLM. Каждой модели я отправил один и тот же запрос: "Напиши короткую фантастическую историю о приключениях путешественника во времени".
Настройки каждой модели - "по умолчанию", системный ptompt - отсутствует, режим размышлений - включен.
Результаты теста приведены в таблице ниже:
Полное название модели | Тип квантования | Размер, Гб | Скорость генерации, токены/сек. |
Qwen3.6-35b-a3b | Q2_K_XL | 13,11 | 38,24 |
Qwen3.6-35b-a3b-mtp | Q2_K_XL | 13,2 | 77,35 |
Qwen3.6-35b-a3b | Q4_K_M | 20,55 | 19,21 |
GPT-OSS-20B | MXFP4 | 11,28 | 109,11 |
Gemma-4-e4b | Q8_0 | 8,4 | 67,87 |
Самой быстрой моделью оказалась GPT-OSS-20B, а самой медленной - Qwen3.6-35b-a3b с квантованием Q4_K_M. Низкая скорость работы последней (19,21 т/с) обусловлена тем, что она не помещается целиком в быструю память GPU: часть слоев выгружается в более медленную оперативную память DDR4. Для сравнения: версия Qwen3.6 с квантованием Q2_K_XL, которая полностью поместилась в VRAM Tesla V100, работает вдвое быстрее (38,24 т/с), а модель с поддержкой MTP - в четыре раза быстрее (77,35 т/с). По моему мнению для большинства задач в работе с локальными LLM достаточно 35-40 токенов в секунду. В связи с этим стоит выбирать модели ИИ, которые полностью помещаются в память GPU. Далее я не буду использовать модель Qwen3.6-35b-a3b Q4_K_M из-за ее низкой скорости работы на моем ПК.
Так же стоит отметить, что модель Qwen3.6-35b-a3b-mtp работает нестабильно с движком CUDA llama.cpp v.2.15. С контекстным окном 15000 токенов модель занимает 15,5 Гб памяти GPU. Во время выполнения запроса в LM Studio иногда возникает резкий рост потребления памяти и модель полностью выгружается. В журнале LM Studio появляется ошибка - CUDA error: out of memory. Поэтому модель Qwen3.6-35b-a3b-mtp я запускал на движке Vulkan llama.cpp v.2.15. Разница в скорости генерации текста между CUDA и Vulkan для этой MTP-модели незаметна, при этом работа на Vulkan была стабильной.
Варианты использования локальных моделей ИИ
Рассмотрим наиболее интересные на мой взгляд варианты использования локальных моделей ИИ, запускаемых в LM Studio.
Генерация кода в OpenCode
Проверим на что способны локальные LLM в генерации кода.
В LM Studio есть встроенный локальный сервер API, который позволяет другим приложениям и ИИ-агентам обращаться к запущенным моделям. Я использовал эту функцию для интеграции локальных моделей в OpenCode.
Для начала попробую создать небольшой одностраничный сайт для ведения личного блога. Тестовый запрос был идентичным для всех моделей.
Qwen3.6-35b-a3b:

Время генерации сайта - 3 минуты 40 секунд. Использованное количество токенов из контекстного окна - 14901.
Qwen3.6-35b-a3b-mtp:

Время генерации сайта - 2 минуты 10 секунд. Использованное количество токенов из контекстного окна - 20244.
GPT-OSS-20B:

Время генерации сайта - 1 минута 45 секунд. Использованное количество токенов из контекстного окна - 17539.
Gemma-4-e4b:

Время генерации сайта - 2 минуты 5 секунд. Использованное количество токенов из контекстного окна - 22456.
Заключение:
Все четыре модели успешно справились с поставленной задачей: корректно сгенерировали структуру сайта, вставили изображения из папки с проектом к заголовкам статей. Правильно вставили текст, соответствующий теме для каждой статьи. Наиболее интересный дизайн на мой взгляд получился у модели Qwen3.6-35b-a3b-mtp.
Далее я решил усложнить задачу и проверить смогут ли локальные LLM справиться с созданием небольшой 2D-игры. Каждой модели отправил одинаковый запрос: "Создай игру, аналогичную игре Flappy Birds. Игра должна открываться в веб-браузере и должна быть максимально приближена к оригиналу".
Qwen3.6-35b-a3b:

Время генерации игры - 7 минут 24 секунды. Использованное количество токенов из контекстного окна - 18677.
Графика: Высококачественная, максимально приближенная к оригиналу.
Элементы: Красивые облака на фоне, желтая птица в стиле оригинала, зеленые трубы с характерными "горловинами" сверху.
Интерфейс: Есть экран приветствия ("Flappy Bird", "Click or Press Space"), отображается текущий счет (Score: 1) и лучший результат (Best: 5), полноценный экран Game Over.
Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - средняя.
Qwen3.6-35b-a3b-mtp:

Время генерации игры - 2 минуты 5 секунд. Использованное количество токенов из контекстного окна - 19107.
Графика: Хорошая, но фон отличается от оригинала. Облака проработаны лучше, чем в предыдущем варианты. Некорректно выбран цвет земли (зеленый).
Элементы: Желтая птица и зеленые трубы выглядят аккуратно.
Интерфейс: Экран приветствия с текстом "Tap or press Space to play", отображается текущий счет и лучший результат. На экране Game Over изменяется фон в отличии от предыдущего результата.
Геймплей: Птица успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - легкая, так как количество труб меньше, чем в предыдущем варианте.
GPT-OSS-20B:

Время генерации игры - 2 минуты 24 секунды. Использованное количество токенов из контекстного окна - 20015.
Графика: Базовая, минималистичная.
Элементы: Вместо птицы желтый круг без деталей, трубы - зеленые прямоугольники без горловин сверху.
Интерфейс: Экран "Click to Start", отображается текущий счет - Score: 0 и лучший результат - High: 1. На экране Game Over отображается только текущий счет, не указано как перезапустить игру.
Геймплей: Желтый круг успешно проходит между трубами, все элементы корректно отображаются. Сложность игры - легкая. Количество труб примерно такое же как в предыдущем варианте.
Gemma-4-e4b:

Время генерации игры - 1 минута 3 секунды. Использованное количество токенов из контекстного окна - 17333.
Графика: Простая, похожа на результат GPT-OSS-20B.
Элементы: Желтый круг вместо птицы, зеленые прямоугольники вместо труб.
Интерфейс: На стартовом экране нет информации как начать игру. Не отображается текущий счет во время игры. На экране Game Over не отображается лучший результат.
Геймплей: Часто встречаются трубы, которые накладываются друг на друга, или просто смыкаются. Худший геймплей среди всех вариантов.
Заключение:
Все модели создали рабочую версию игры Flappy Bird с основными элементами: птицей, трубами, счетчиком очков и экраном Game Over. Однако качество исполнения значительно различается. Обе модели Qwen-3.6-35b-a3b справилась отлично. GPT-OSS-20B удалось реализовать игру на базовом уровне. Gemma-4-e4b - справилась с задачей быстрее всех, но выдала худший с точки зрения геймплея результат.
Работа с документацией
В LM Studio можно прямо в чат приложить документ в формате docx и попросить модель ИИ проанализировать документ: найти ошибки, улучшить стиль текста или дополнить. Однако редактировать и создавать файлы в формате docx модель ИИ не сможет. Для того, чтобы с помощью LM Studio можно было сразу вносить изменения в файл docx нужно установить соответствующий плагин - word-tools. С помощью этого инструмента ИИ модели хорошо справляются с дополнением текста, рерайтом и исправлением ошибок прямо в файле docx.
В качестве примера я решил проверить насколько быстро локальные LLM справятся с генерацией краткого содержания первой части моего обзора Tesla V100. Полный текст статьи был сохранен в файле docx.
Результаты генерации краткого содержания статьи:
Qwen3.6-35b-a3b:
Статья описывает процесс модификации серверного ускорителя NVIDIA Tesla V100 16 GB (SXM2) для домашнего ПК путем установки в корпус от видеокарты RTX 4090. Автор приобрел карту и адаптер через Taobao, затратив около 15 000 рублей. Ключевые этапы работы:
Настройка BIOS: отключение CSM, включение Above 4G Decoding и выбор интегрированной графики для вывода изображения на монитор.
Установка драйверов: официальный драйвер NVIDIA работал только в режиме TCC (без игр), а серверный драйвер Google вызывал сбои. Стабильная работа достигнута с драйвером 553.74, требуются манипуляции с виртуальным экраном.
Физическая сборка: из-за крупных габаритов карты (3,5 кг) потребовались опорный кронштейн и райзеры для переноски других устройств в заблокированные слоты PCIe.
Особое внимание уделено модификации охлаждения. Стандартные кулеры не поддерживают автоматическую регулировку, поэтому вентиляторы были подключены к материнской плате через специальные переходники. Настройка Fan Control позволила добиться бесшумной работы в простое (~15%) и безопасных температур до 60°C при нагрузке.
Обзор является первой частью цикла. Во второй части запланированы тесты ускорителя в современных играх.
Время генерации - 3 минуты.
Qwen3.6-35b-a3b-mtp:
В статье описывается первая часть обзора серверного ускорителя NVIDIA Tesla V100 16 ГБ, установленного в корпус от видеокарты RTX 4090. Рассматриваются технические характеристики карты (архитектура Volta, 5120 CUDA-ядер) и процесс её покупки через китайский маркетплейс. Описываются трудности физической установки: большие габариты корпуса перекрывают слоты расширения материнской платы, что потребовало использования райзеров для подключения Wi-Fi адаптера и дополнительного накопителя, а также специальной опоры из-за веса конструкции. Указывается на отсутствие видеовыходов у серверной карты. Подробно разбирается настройка BIOS, в частности необходимость включения Above 4G Decoding для адресации памяти, и выбор основного устройства вывода изображения. Отмечаются проблемы с драйверами: официальное ПО от NVIDIA поддерживает только вычислительный режим TCC, а серверные версии от Google вызывают сбои системы; в итоге была успешно применена версия драйвера 553.74. В завершении рассказывается о модернизации охлаждения: подключении вентиляторов к материнской плате и настройке их оборотов через программное обеспечение Fan Control для баланса между шумом и температурой.
Время генерации - 51 секунда.
GPT-OSS-20B:
В статье описывается покупка, установка и настройка серверного ускорителя NVIDIA Tesla V100 16 Гб в корпусе RTX 4090. Автор подробно рассказывает о технических характеристиках карты (5120 CUDA‑ядер, 640 тензорных ядер, 16 ГБ HBM2), стоимости доставки и комплектации, а также об особенностях сборки: необходимость установки дополнительных райзеров, настройка BIOS (отключение CSM, включение Above 4G Decoding) и выбор видеокарты для вывода изображения. Далее рассматриваются драйверы – официальные NVIDIA‑драйверы работают только в режиме TCC, а Google‑драйверы поддерживают WDDM, но требуют отключения виртуального экрана. Охлаждение осуществляется через PWM‑переходники и программу Fan Control. Автор отмечает, что Tesla V100 не имеет видеовыходов, поэтому для игр используется интегрированная графика процессора.
Время генерации - 17 секунд.
Gemma-4-e4b:
Статья описывает процесс установки и настройки вычислительного ускорителя Tesla V100 (архитектура Volta, 16 ГБ HBM2) в ПК на базе материнской платы ASRock A520M с использованием адаптера SXM2 на PCI-e 3.0 и корпуса от RTX 4090. В обзоре освещаются технические детали, включая покупку ускорителя (стоимость около 15 000 руб.), сложности физической установки и необходимость использования райзеров. Подробно описаны шаги по настройке BIOS (отключение CSM, включение Above 4G Decoding) для корректной работы с большим объемом памяти. Также рассматриваются проблемы с драйверами — переход от официальных драйверов NVIDIA к серверным драйверам Google и решение вопроса охлаждения путем подключения кулеров Tesla V100 к материнской плате и настройки кривых оборотов через Fan Control.
Время генерации - 26 секунд.
Все модели успешно справились с генерацией краткого содержания статьи и сохранением в файл формата docx. Лучший результат с точки зрения качества текста на мой взгляд у модели Qwen3.6-35b-a3b: в кратком содержании отражены все основные моменты, а ключевые выделены в структурированный список. Самой быстрой оказалась - GPT-OSS-20B.
Итоговая таблица для сравнения времени генерации краткого содержания статьи локальными LLM:
Модель | Время генерации, с |
|---|---|
Qwen3.6-35b-a3b | 180 |
Qwen3.6-35b-a3b-mtp | 51 |
GPT-OSS-20B | 17 |
Gemma-4-e4b | 26 |
Заключение
NVIDIA Tesla V100 представляет собой отличную и доступную платформу для экспериментов с локальными моделями ИИ. Ускоритель успешно запускает современные модели, демонстрируя производительность, достаточную для комфортной работы. Ключевым фактором производительности является возможность полной загрузки LLM в память GPU. При выгрузке части слоев модели в оперативную память ПК скорость значительно снижается, сильно затормаживая работу.
Вывод по итогам тестирования моделей ИИ в LM Studio:
Qwen3.6-35b-a3b Q2_K_XL (особенно версия с поддержкой MTP): выдает наиболее качественный результат по сравнению с другими протестированными моделями. Лучше всех справилась со всемми задачами: генерация кода одностраничного сайта, создание игры Flappy Bird, рерайт статьи. Модель с поддержкой MTP обеспечивает высокую скорость работы.
GPT-OSS-20B: лидер по скорости генерации текста. В генерации кода и рерайте статьи качественно уступает модели Qwen3.6-35b-a3b, но превосходит Gemma-4.
Gemma-4-e4b: на мой взгляд показала посредственный результат. При скорости работы сравнимой с Qwen3.6-35b-a3b-mtp качество итогового результата существенно уступает последней.
В итоге NVIDIA Tesla V100 показала себя универсальным решением. Хотя изначально на момент выхода в 2017 году - это был мощный серверный ускоритель для дата-центров, сегодня - это отличное доступное решение для работы с нейросетям с возможностью комфортно играть в современные игры на высоких настройках графики.
На мой взгляд, покупать её стоит как вариант апгрейда старого ПК или для универсальной бюджетной сборки - "работай и играй". Современные видеокарты с 16 Гб памяти стоят дороже, а меньший объем VRAM будет недостаточен для запуска современных моделей ИИ. При этом 16 Гб - это минимальный порог. Для полной загрузки в память GPU модели Qwen3.6-35b в квантовании Q4 (которую я исключил из теста из-за низкой скорости работы) нужен объем VRAM минимум 24 Гб.















