何故 Gemini 3.5 Flash 为求炫丽图形而损其功能（且唯于纸上胜过 3.1 Pro）

於演講中，吾等見圖表，新出、價廉之gemini 3.5 flash，竟破旗艦gemini 3.1 pro。數字顯得堅實：76.2%對於代理terminal bench之70.3%。

然吾試之，遂生疑問： "何故其木讷若此？"。此模型生文，似非神思之网，乃脚本耳。变通之趣亡矣，语境之韵失矣，昔3.0闪存中犹存之灵光亦杳矣。

何故智度愈高之模，反显愚钝寡味于世？其解在架构之折衷与古德哈特之律。

若汝细览谷歌之公告，当见一语，屡见不鲜。 自主能动. 艾米尼3.5閃存非為對之而談。其創立乃為抗重力2.0之驅動與代理OS平台之基。

何谓良之代理，于自动脚本评鉴之见乎？
此乃应提示而生之模。 "制文件" 必出 {"action": "create", "file": "x.txt"}.
若模型应曰： "诺，今当立此檄，尔之JSON如左..."，则判官将溃于解析，而予模型以零分.

欲胜gemini 3.1 pro于MCP atlas或toolathlon之试，匠者必穷极调校之能。于百万之例，模型 以健谈为咎，则重罚；以寡言而决断为善，则嘉奖之。

优化模型以合代理器之标，谷歌几尽伐模型中联想之络，应乎隐喻、同理及句式之变。模型失为良伴，盖因教习之际，减其赏也。

汝所感之干涸者，乃数学之理也。 分配模式之崩溃。

古之gemini 3.0 flash，softmax之输出概率分布甚广。网常存五至十佳之词候，赖温度参数之助，得择殊途，生文脉之趣。

于Gemini 3.5之闪存，为应标测试而优，softmax之锋锐至极。无论何种境遇，模型习得唯一“安全、代理、正道”之应答。其余字词之概率，悉归趋零。
尔可设温1.2或1.5，此无益也。若活字之概率于潜空间等 10^-6。任何温度皆不能救之。此网物理上囿于狭廊，乃官僚辞典之域也。

"度若为的，则度非善度"。

当今之业，尽逐图表。欲售B2B之模，须示其较竞品于终端测试优五分。
然測試之弊，在於測其用，非測其智也。

Gemini 3.1 pro，乃巨模也，容量廣大。能兼蓄寫碼之能，微言笑之能，及繁理之能。
于gemini 3.5闪存，参数之容量甚微。欲纳SOTA之编程与工具调用成果于此狭小之容量，工程师不得不弃其余物。

营销者导吾辈迷途，伪称 为特定格式之回应而施以再训练 ，实为 智识之增长。此模型未臻3.1 pro之智。惟善应于试炼耳.

gemini 3.5 flash非不佳之模。乃系统间AI以API互语之理想工蚁也.

然与人言则大谬不然。
吾等已至彼境，开发为基准测试而设，渐毁吾辈初爱大型语言模型之由，其能类人而生，出人意表之抽象也。

若需解析日志或唤用bash脚本，当用3.5 flash。然若欲激荡思绪，撰文或求生动对谈，则返归3.1 pro / 3.0 flash。

推薦訂閱源