於演講中,吾等見圖表,新出、價廉之gemini 3.5 flash,竟破旗艦gemini 3.1 pro。數字顯得堅實:76.2%對於代理terminal bench之70.3%。
然吾試之,遂生疑問: "何故其木讷若此?"。此模型生文,似非神思之网,乃脚本耳。变通之趣亡矣,语境之韵失矣,昔3.0闪存中犹存之灵光亦杳矣。
何故智度愈高之模,反显愚钝寡味于世?其解在架构之折衷与古德哈特之律。
一、代理之咒
若汝细览谷歌之公告,当见一语,屡见不鲜。 自主能动. 艾米尼3.5閃存非為對之而談。其創立乃為抗重力2.0之驅動與代理OS平台之基。
何谓良之代理,于自动脚本评鉴之见乎?
此乃应提示而生之模。 "制文件" 必出 {"action": "create", "file": "x.txt"}.
若模型应曰: "诺,今当立此檄,尔之JSON如左...",则判官将溃于解析,而予模型以零分.
欲胜gemini 3.1 pro于MCP atlas或toolathlon之试,匠者必穷极调校之能。于百万之例,模型 以健谈为咎,则重罚;以寡言而决断为善,则嘉奖之。
优化模型以合代理器之标,谷歌几尽伐模型中联想之络,应乎隐喻、同理及句式之变。模型失为良伴,盖因教习之际,减其赏也。
2. 陨熵之死
汝所感之干涸者,乃数学之理也。 分配模式之崩溃。
古之gemini 3.0 flash,softmax之输出概率分布甚广。网常存五至十佳之词候,赖温度参数之助,得择殊途,生文脉之趣。
于Gemini 3.5之闪存,为应标测试而优,softmax之锋锐至极。无论何种境遇,模型习得唯一“安全、代理、正道”之应答。其余字词之概率,悉归趋零。
尔可设温1.2或1.5,此无益也。若活字之概率于潜空间等 10-6。 任何温度皆不能救之。此网物理上囿于狭廊,乃官僚辞典之域也。
3. 古德哈特之法显灵
"度若为的,则度非善度"。
当今之业,尽逐图表。欲售B2B之模,须示其较竞品于终端测试优五分。
然測試之弊,在於測其用,非測其智也 。
Gemini 3.1 pro,乃巨模也,容量廣大。能兼蓄寫碼之能,微言笑之能,及繁理之能。
于gemini 3.5闪存,参数之容量甚微。欲纳SOTA之编程与工具调用成果于此狭小之容量,工程师不得不弃其余物。
营销者导吾辈迷途,伪称 为特定格式之回应而施以再训练 ,实为 智识之增长。此模型未臻3.1 pro之智。惟善应于试炼耳.
结语
gemini 3.5 flash非不佳之模。乃系统间AI以API互语之理想工蚁也.
然与人言则大谬不然。
吾等已至彼境,开发为基准测试而设,渐毁吾辈初爱大型语言模型之由,其能类人而生,出人意表之抽象也。
若需解析日志或唤用bash脚本,当用3.5 flash。然若欲激荡思绪,撰文或求生动对谈,则返归3.1 pro / 3.0 flash。













