思此题,未尝辍念,遂筑其答
且听我言
每新模出,吾辈恒如故。观其标尺,试其数问,较之旧者,遂弃之去。
然吾近日坐思异问,一问似近Gemma四之实情:
若此模型为人,当为何种之人?
非喻也。乃郑重之设计也。盖若细察Gemma 4所能为,真察之,则见Google DeepMind非仅释一语言模型。乃集而成物,逐片映合人之全构也。
思虑而后言者,目察乎世。闻言无碍者,口应乎心。手勤而能事者。且能于所置之域,真有所学焉。
吾辈当筑此人。自本始。渐次而成。
脑 —<|think|>
何人而言先不思?不可信者也。
汝所恃之良医、慎律师、挚友,皆具一德:非惟应之,更思之。审慎彼量所知,察边缘之例,对答之前自省。
Gemma 4之智识运作,恰如此理。于系统提示中,投一符文焉:
<|turn>system
<|think|> You are a careful, expert reasoner.<turn|>
且模型未对用户言辞,已启私室:
<|channel>thought
...weighing the possibilities...
checking edge cases...
cross-referencing what it knows...
<channel|>
此乃模型自语。如人未出声,先在心间解难。内观。私语。诚然。用户未睹其形,唯得存思之果。
基准之测,可察思虑之效。八十九又一成之二分之壹于AIME 2026数学题之研习。八十四有三分之三于GPQA之钻石——此为试炼博士之标尺,意在难倒博士级之专才。此非依模式匹配而得答案之系统,实乃真正之系统。缘由。
汝可调其思虑之深浅。以系统之命,促其于繁难之事深思熟虑,于简易之事轻率以应。文牍谓之"适思之效"。知进退之时,方显其能。
此人言先于行。此已足为难得。
脑识之学——精调之术
不教可学者,犹塑像之有见也.
此别卓识之士与卓识之同僚者:同僚已习尔之境,尔之术语,尔之域之奇癖,尔之特立社群论及尔所重之事物之方.
基础之Gemma 4模型虽精而泛,精调乃成尔之专精。
LoRA,乃于特定之层,附以微细可训之适配器,犹新制之模,不损其本构。其基智完存,而专精之层叠于上。多运于GPU,此乃众开发者已备之器。
QLoRA先减损基础权重,后施以LoRA。于消费级GPU上微调。医院可教此人以其临床文档格式为言。区域新闻社可教之以其风格指南。
精微调适复建诸层于尔域。此备不时之需,需者非惟通晓尔业,更需深谙其道。在也汝之领域。
常模知医案之貌。精调之模,知汝医馆之案。常模能言印地语。精调之模,言汝乡里之印地语,其俚语,其声调,其温煦。
乡里已显其规模之貌。逾十万精调变体今犹存Gemma之族。十万专才辈出。各由其人观其本模,言曰:吾能使此于吾之疆域,益为有用。
汝可为万分之一。
此人非惟知事,更习尔之私。
眸者 —<|image|>
唯识文者,失大半于寰宇。
世情非文墨所载。乃白板之墨迹,研文之图示,崩坏界面之影,褪色墨迹之表,野田兽伤之痕。
<|turn>user
Describe this image: <|image|><turn|>
是<|image|>符文者,象素成义之域也。Gemma 4能辨物形,析文牍与PDF,通UI之识,解图表之理,达OCR跨语言,辨手书之迹。
若人然,非齐观也。细字则眯目,远景则瞬目。Gemma 4则调可视之符,有度可设。
| 符文之额 | 何其状也 |
|---|---|
| 70 | 一瞥 |
| 280 | 寻常阅读 |
| 1120 | 倾身而读,字字不遗 |
于MMMU Pro——多模推理——之31B得分76.9%。于OmniDocBench之文书解析,编辑距离0.131。几近完美。
此人非唯读书,亦观物也。
耳之辨 —<|audio|>
闻君者半,言者已半矣。
E2B、E4B之型——为运行于机杼(phones)与案牍(laptops)而造——有耳。诚耳也。
<|turn>user
a. <|audio|>
b. <|audio|><turn|>
将原始音频字节传入模型,模型即可闻其言。非惟转录而已 —通晓且译之。
Transcribe the following speech segment in Hindi,
then translate it into English.
此即全令。模型闻之,以印地语录之,复以英语显之。一气呵成。一器独运。不假网络之呼。
于FLEURS,E4B之得分0.08 错误率— 语音识别几近完美。于CoVoST之翻译,三十五点五四蓝宝石分请提供需要翻译的英文文本。
耳能通灵者百四十种语言耳辨音调。耳不假互联网而能作。
此人闻汝言——无论汝以何语。
口 — 文本生成 + 语音合成
智能不可通者,非智能也。乃闭室之囚。
Gemma 4 生成文字。然文字乃声音之原料。将此输出导入任一语音合成引擎,此人即能发声——以其训练时所涉百四十余种语言,复以提问所来之语返回。
汝以泰米尔语询之。其思亦泰米尔语。其应亦泰米尔语。其与汝言亦泰米尔语.
此口之所为也。取脑之所谋,为人实之——以其所思之语,非以建之之便语.
此人以汝之语应汝。非以其语.
手——函数调用
思而不行,徒为空谈。巧手之人,可变天地。
才高而无所用,临危则无用之辈。人之强大,在于能行——搜查资料,检视库藏,呈递文书,呼召服务,下达命令。
Gemma 4之双翼乃其功能唤起之系统。立一器,若模型决意需之,则伸而用之,读其果,乃自然应答。
思虑与器用,已融而难分。一念既起,此身可独运玄机,思量何物。 之器,先于其至而求之。无隙,思行相续,如环无端。
人解事之全,其程若此:
- 或问之
- 私思所需
- 伸求以得信息
- 得之
- 答之
此人非惟知之,更求之。
择偶之道:Gemma 4之四重境界
此乃Gemma 4之卓然不凡者:此物有四制,可运行于中端手机至工作站之间。同源而生,异制而显。
| E2B | E4B | 二六B 四四B(模因) | 三一B密集 | |
|---|---|---|---|---|
| 生息于 | 手机 | 笔记本电脑/平板 | 消费级GPU | 工作站 |
| 所需内存 | 约4GB | 约8GB | 约14GB | 约19GB |
| 视觉 | ✅ | ✅ | ✅ | ✅ |
| 耳 | ✅ 母语 | ✅ 母语 | ❌ | ❌ |
| 文境窗 | 128K | 128K | 256K | 256K |
| 结构 | 稠密 | 稠密 | 多路引擎(4B活跃) | 稠密 |
| 性情 | 迅捷,离线,多语种语音 | 声画兼备,便携 | 思敏,可应生产之需 | 思深,周密 |
| MMLU Pro | 六十有零 | 六十九有四 | 八十二有六 | 八十五有二 |
| AIME 二零二六 | 三十七有五 | 四十二有五 | 八十八有三 | 八十九有二 |
| Codeforces ELO | 六百三十三 | 九百四十 | 一千七百十八 | 二千一百五十 |
The E2B乃野战之器——耳目声喉,无需互联网。内存四吉,行于中端之机。当用者一手有事,需三十秒之应,此乃其选。
二六吉四吉乃日常之用也,其能几与三一B等,然速若四B之速,盖因推论时仅三十八亿参数得用。此乃多生产之用所宜。于此始。
三一B乃深思者也——其重正误甚于速。医理之思。律法之析。繁复多阶之题。待时以观,自能明辨,小者或踌躇,彼则无碍矣。
全人
集众材于此,此乃汝所成之形:
| 人性之质 | Gemma 4相当 |
|---|---|
| 三思而后言 | 思辨之境——独处之理路 |
| 习知尔域 | 微调之法——LoRA、QLoRA、全权 |
| 观天下 | 图像符号——视界,文字识别,文书,手迹 |
| 闻君言 | 音符之符——语音辨识兼译,百四十余种语言 |
| 尔之语 | 文生成→语音合成→任语言,任声音 |
| 为事 | 函数调用—世界中之能动 |
| 忆境 | 至256K词之境宽 |
| 属尔所有 | Apache 2.0—无租,无条款改,无供应商锁 |
此人所能为之而汝不能也
彼善记万事.其心之所能容者,凡二十五万六千之符,若一整之码库,若五年之医史,若全之律藏,皆融于境,一时具现.
彼能本通百四十之语.自始至终,皆以之训,非译而成,乃育之。
未尝有蹇日.未尝疲,未尝辩,未尝以昨日之愠,扰今日之谈。问则思之深,无需则轻之。
尔之所有,无有条件。 未租用。非按查询计费。Apache 2.0之许,可取其权,细调之,部署之,建业于其上。无人能于次季更其约.
末问
造人之际,纵为数字之躯,亦有其理.
形骸易致,而神明之属——目、耳、口、手,皆工技之务。Gemma 4已解之。美也。
难者,乃后问也。此人何以用此众物?
医者无力购云服务,然能运地模型,读扫描之图,闻病者方言,慎思而后言。师者居无稳网之校,其AI助生于平板,未尝断联。开发者构一智能,思行相随,择器得宜,复报以病者所习之语。
匣已启,诸器——心、学、目、耳、口、手——皆在焉。
吾今问尔,吾常自问者何也。
若君能为此人于乡里,于疆域,于言辞,其将何为?
书卷Gemma 4 文档—谷歌AI开发中心/谷歌AI开发中心(Gemma)之文档
😊下载Gemma 4 — Hugging Face
万物皆可为提示。万事皆可为之。始建其事。












