慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
WordPress大学
WordPress大学
量子位
M
Microsoft Research Blog - Microsoft Research
Microsoft Azure Blog
Microsoft Azure Blog
Jina AI
Jina AI
罗磊的独立博客
V
Visual Studio Blog
Last Week in AI
Last Week in AI
阮一峰的网络日志
阮一峰的网络日志
IT之家
IT之家
aimingoo的专栏
aimingoo的专栏
雷峰网
雷峰网
酷 壳 – CoolShell
酷 壳 – CoolShell
美团技术团队
博客园 - 三生石上(FineUI控件)
OSCHINA 社区最新新闻
OSCHINA 社区最新新闻
MongoDB | Blog
MongoDB | Blog
小众软件
小众软件
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog
IntelliJ IDEA : IntelliJ IDEA – the Leading IDE for Professional Development in Java and Kotlin | The JetBrains Blog

Все публикации подряд на Хабре

Вредоносная атака на Laravel-Lang meta-attention is all you need Как перестать путаться в IP-адресах серверов Сколько стоят ошибки в арбитраже: декомпозиция ценообразования на судебные услуги в Москве Разбираемся в ML без воды: от базы до Attention. Часть 4: kNN Vortex: фреймворк для тех, кого задолбала итальянская кухня в репозитории Использование тепла ЦОД в мире и РФ Часть 4. Скорость света — технические детали Не цитируй мне нейросеть Что сейчас с Project Loom? Примеры и код Рождённые в Сумерках Meta 1 мая показала как они хранят ключи от ваших бэкапов WhatsApp. Разбираю архитектуру и сравниваю Линт проектов: собираем ESLint, Prettier и Stylelint в один пакет Reasoning-модели сломали мой промпт-инжиниринг. Год переучиваюсь РБМК: enfant terrible Как я собеседую менеджеров AI-продуктов для крупного Enterprise Парадокс рынка труда: конкуренция выросла, но не везде, нанимать легче, но не везде Модификаторы в Blender: осваиваем Boolean «Бесплатно» — это красный флаг: почему мы доверяем не тем (опрос) Стратегия выживания в эпоху ИИ Новая теория обещает переписать фундамент всей математики MTP у Qwen3.6 в llama.cpp обещает ×2 по скорости. Я прогнал ту же модель через своего агента — и получил обратное [Перевод] Соль и перец в безопасности паролей Что такое «статьи-зомби» CodeGraph: граф кода для Claude Code вместо grep по файлам. Разбираю архитектуру и проверяю бенчмарки Мессенджер Ласточка. Часть 3 Google представила Gemini Omni — универсальную ИИ-модель. Роботы работают, счастлив человек Что у SpaceX с патентным портфелем перед IPO? Делегирование, которому можно научиться у промпт‑инженеров Feature Based Clean Architecture. Часть 5: Масштабирование FBCA и теоретико-графовый анализ зависимостей Настройка типизации формы React Hook Form (≥ v7.44.0) + Zod с разными входными и выходными типами Feature Based Clean Architecture. Часть 4: FBCA: формализация границ ответственности в NestJS-модуле Корпорация «Святые Технологии». Работа мечты (рассказ) CyLab Security Academy: как Carnegie Mellon превратила CTF в полноценную обучающую платформу Feature Based Clean Architecture. Часть 3: Архитектурный риск циклов в NestJS: ROI решений на горизонте пяти лет Домашний сервер без белого IP: безопасная публикация сервисов через VPS, обратный SSH-туннель и Caddy Почему не взлетели дирижабли? Часть 22: Митягина, Эйхенвальд и Ховрина, первый в истории женский экипаж дирижабля Китайцы ответили на H200 — обзор Zhenwu M890 от Alibaba Feature Based Clean Architecture. Часть 2: Декомпозиция на сервисы: анализ ограниченности подхода Лучшие игры для Steam Deck в 2026 году по мнению пользователей Обход блокировок внутри iOS-приложения: VLESS + Reality через sing-box, и грабли по дороге [Перевод] Любой пользователь интернета может позвонить в вашу дверь Новый экспериментальный препарат для похудения обеспечил резкое снижение веса Хром и скорость Провалила вайтборд, но прошла тестовое — как я делала задание для Т-Банка Космическая линза помогла Уэббу увидеть древнейшую галактику Вселенной Почему custom URI schemes в Telegram Mini Apps ведут себя по-разному на Android, iOS и Desktop Как я сократил рутину QA до пары кликов: генератор API-тестов и тест-кейсов на LLM, которым хочу поделиться ИИ‑спасатель в кармане: как мы сделали агента для помощи при ЧС, который работает без интернета QNAME minimisation на практике: RFC 7816, реализация, грабли
何故 Gemini 3.5 Flash 为求炫丽图形而损其功能(且唯于纸上胜过 3.1 Pro)
YH7H22 · 2026-05-24 · via Все публикации подряд на Хабре

難度等級中級

閱讀時間3分鐘

覆蓋面與讀者1.3K

於演講中,吾等見圖表,新出、價廉之gemini 3.5 flash,竟破旗艦gemini 3.1 pro。數字顯得堅實:76.2%對於代理terminal bench之70.3%。

然吾試之,遂生疑問: "何故其木讷若此?"。此模型生文,似非神思之网,乃脚本耳。变通之趣亡矣,语境之韵失矣,昔3.0闪存中犹存之灵光亦杳矣。

何故智度愈高之模,反显愚钝寡味于世?其解在架构之折衷与古德哈特之律。

一、代理之咒

若汝细览谷歌之公告,当见一语,屡见不鲜。 自主能动. 艾米尼3.5閃存非為對之而談。其創立乃為抗重力2.0之驅動與代理OS平台之基。

何谓良之代理,于自动脚本评鉴之见乎?
此乃应提示而生之模。 "制文件" 必出 {"action": "create", "file": "x.txt"}.
若模型应曰: "诺,今当立此檄,尔之JSON如左...",则判官将溃于解析,而予模型以零分.

欲胜gemini 3.1 pro于MCP atlas或toolathlon之试,匠者必穷极调校之能。于百万之例,模型 以健谈为咎,则重罚;以寡言而决断为善,则嘉奖之。

优化模型以合代理器之标,谷歌几尽伐模型中联想之络,应乎隐喻、同理及句式之变。模型失为良伴,盖因教习之际,减其赏也。

2. 陨熵之死

汝所感之干涸者,乃数学之理也。 分配模式之崩溃

古之gemini 3.0 flash,softmax之输出概率分布甚广。网常存五至十佳之词候,赖温度参数之助,得择殊途,生文脉之趣。

于Gemini 3.5之闪存,为应标测试而优,softmax之锋锐至极。无论何种境遇,模型习得唯一“安全、代理、正道”之应答。其余字词之概率,悉归趋零。
尔可设温1.2或1.5,此无益也。若活字之概率于潜空间等 10-6。 任何温度皆不能救之。此网物理上囿于狭廊,乃官僚辞典之域也。

3. 古德哈特之法显灵

"度若为的,则度非善度"。

当今之业,尽逐图表。欲售B2B之模,须示其较竞品于终端测试优五分。
然測試之弊,在於測其用,非測其智也 

Gemini 3.1 pro,乃巨模也,容量廣大。能兼蓄寫碼之能,微言笑之能,及繁理之能。
于gemini 3.5闪存,参数之容量甚微。欲纳SOTA之编程与工具调用成果于此狭小之容量,工程师不得不弃其余物。

营销者导吾辈迷途,伪称 为特定格式之回应而施以再训练 ,实为 智识之增长。此模型未臻3.1 pro之智。惟善应于试炼耳.

结语

gemini 3.5 flash非不佳之模。乃系统间AI以API互语之理想工蚁也.

然与人言则大谬不然。
吾等已至彼境,开发为基准测试而设,渐毁吾辈初爱大型语言模型之由,其能类人而生,出人意表之抽象也。

若需解析日志或唤用bash脚本,当用3.5 flash。然若欲激荡思绪,撰文或求生动对谈,则返归3.1 pro / 3.0 flash。