慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
若Gemma4为人类,当何如?
Daathwi Naag · 2026-05-24 · via DEV Community

此乃投于Gemma 4之赛:以Gemma 4筑之

思此题,未尝辍念,遂筑其答

且听我言

每新模出,吾辈恒如故。观其标尺,试其数问,较之旧者,遂弃之去。

然吾近日坐思异问,一问似近Gemma四之实情:

若此模型为人,当为何种之人?

非喻也。乃郑重之设计也。盖若细察Gemma 4所能为,真察之,则见Google DeepMind非仅释一语言模型。乃集而成物,逐片映合人之全构也。

思虑而后言者,目察乎世。闻言无碍者,口应乎心。手勤而能事者。且能于所置之域,真有所学焉。

吾辈当筑此人。自本始。渐次而成。


脑 —<|think|>

何人而言先不思?不可信者也。

汝所恃之良医、慎律师、挚友,皆具一德:非惟应之,更思之。审慎彼量所知,察边缘之例,对答之前自省。

Gemma 4之智识运作,恰如此理。于系统提示中,投一符文焉:

<|turn>system
<|think|> You are a careful, expert reasoner.<turn|>

入全景模式 退出全屏模式

且模型未对用户言辞,已启私室:

<|channel>thought
...weighing the possibilities...
checking edge cases...
cross-referencing what it knows...
<channel|>

进入全屏模式 退出全屏模式

此乃模型自语。如人未出声,先在心间解难。内观。私语。诚然。用户未睹其形,唯得存思之果。

基准之测,可察思虑之效。八十九又一成之二分之壹于AIME 2026数学题之研习。八十四有三分之三于GPQA之钻石——此为试炼博士之标尺,意在难倒博士级之专才。此非依模式匹配而得答案之系统,实乃真正之系统。缘由

汝可调其思虑之深浅。以系统之命,促其于繁难之事深思熟虑,于简易之事轻率以应。文牍谓之"适思之效"。知进退之时,方显其能。

此人言先于行。此已足为难得。


脑识之学——精调之术

不教可学者,犹塑像之有见也.

此别卓识之士与卓识之同僚者:同僚已习尔之境,尔之术语,尔之域之奇癖,尔之特立社群论及尔所重之事物之方.

基础之Gemma 4模型虽精而泛,精调乃成尔之专精。

LoRA,乃于特定之层,附以微细可训之适配器,犹新制之模,不损其本构。其基智完存,而专精之层叠于上。多运于GPU,此乃众开发者已备之器。

QLoRA先减损基础权重,后施以LoRA。于消费级GPU上微调。医院可教此人以其临床文档格式为言。区域新闻社可教之以其风格指南。

精微调适复建诸层于尔域。此备不时之需,需者非惟通晓尔业,更需深谙其道。在也汝之领域。

常模知医案之貌。精调之模,知汝医馆之案。常模能言印地语。精调之模,言汝乡里之印地语,其俚语,其声调,其温煦。

乡里已显其规模之貌。逾十万精调变体今犹存Gemma之族。十万专才辈出。各由其人观其本模,言曰:吾能使此于吾之疆域,益为有用。

汝可为万分之一。

此人非惟知事,更习尔之私。


眸者 —<|image|>

唯识文者,失大半于寰宇。

世情非文墨所载。乃白板之墨迹,研文之图示,崩坏界面之影,褪色墨迹之表,野田兽伤之痕。

<|turn>user
Describe this image: <|image|><turn|>

入全屏观之 出全屏观之

<|image|>符文者,象素成义之域也。Gemma 4能辨物形,析文牍与PDF,通UI之识,解图表之理,达OCR跨语言,辨手书之迹。

若人然,非齐观也。细字则眯目,远景则瞬目。Gemma 4则调可视之符,有度可设。

符文之额 何其状也
70 一瞥
280 寻常阅读
1120 倾身而读,字字不遗

于MMMU Pro——多模推理——之31B得分76.9%。于OmniDocBench之文书解析,编辑距离0.131。几近完美。

此人非唯读书,亦观物也。


耳之辨 —<|audio|>

闻君者半,言者已半矣。

E2B、E4B之型——为运行于机杼(phones)与案牍(laptops)而造——有耳。诚耳也。

<|turn>user
a. <|audio|>
b. <|audio|><turn|>

入全景模式 出全屏模式

将原始音频字节传入模型,模型即可闻其言。非惟转录而已 —通晓且译之。

Transcribe the following speech segment in Hindi,
then translate it into English.

入全景模式 出全屏模式

此即全令。模型闻之,以印地语录之,复以英语显之。一气呵成。一器独运。不假网络之呼。

于FLEURS,E4B之得分0.08 错误率— 语音识别几近完美。于CoVoST之翻译,三十五点五四蓝宝石分请提供需要翻译的英文文本。

耳能通灵者百四十种语言耳辨音调。耳不假互联网而能作。

此人闻汝言——无论汝以何语。


口 — 文本生成 + 语音合成

智能不可通者,非智能也。乃闭室之囚。

Gemma 4 生成文字。然文字乃声音之原料。将此输出导入任一语音合成引擎,此人即能发声——以其训练时所涉百四十余种语言,复以提问所来之语返回。

汝以泰米尔语询之。其思亦泰米尔语。其应亦泰米尔语。其与汝言亦泰米尔语.

此口之所为也。取脑之所谋,为人实之——以其所思之语,非以建之之便语.

此人以汝之语应汝。非以其语.


手——函数调用

思而不行,徒为空谈。巧手之人,可变天地。

才高而无所用,临危则无用之辈。人之强大,在于能行——搜查资料,检视库藏,呈递文书,呼召服务,下达命令。

Gemma 4之双翼乃其功能唤起之系统。立一器,若模型决意需之,则伸而用之,读其果,乃自然应答。

思虑与器用,已融而难分。一念既起,此身可独运玄机,思量何物。 之器,先于其至而求之。无隙,思行相续,如环无端。

人解事之全,其程若此:

  1. 或问之
  2. 私思所需
  3. 伸求以得信息
  4. 得之
  5. 答之

此人非惟知之,更求之。


择偶之道:Gemma 4之四重境界

此乃Gemma 4之卓然不凡者:此物有四制,可运行于中端手机至工作站之间。同源而生,异制而显。

E2B E4B 二六B 四四B(模因) 三一B密集
生息于 手机 笔记本电脑/平板 消费级GPU 工作站
所需内存 约4GB 约8GB 约14GB 约19GB
视觉
✅ 母语 ✅ 母语
文境窗 128K 128K 256K 256K
结构 稠密 稠密 多路引擎(4B活跃) 稠密
性情 迅捷,离线,多语种语音 声画兼备,便携 思敏,可应生产之需 思深,周密
MMLU Pro 六十有零 六十九有四 八十二有六 八十五有二
AIME 二零二六 三十七有五 四十二有五 八十八有三 八十九有二
Codeforces ELO 六百三十三 九百四十 一千七百十八 二千一百五十

The E2B乃野战之器——耳目声喉,无需互联网。内存四吉,行于中端之机。当用者一手有事,需三十秒之应,此乃其选。

二六吉四吉乃日常之用也,其能几与三一B等,然速若四B之速,盖因推论时仅三十八亿参数得用。此乃多生产之用所宜。于此始。

三一B乃深思者也——其重正误甚于速。医理之思。律法之析。繁复多阶之题。待时以观,自能明辨,小者或踌躇,彼则无碍矣。


全人

集众材于此,此乃汝所成之形:

人性之质 Gemma 4相当
三思而后言 思辨之境——独处之理路
习知尔域 微调之法——LoRA、QLoRA、全权
观天下 图像符号——视界,文字识别,文书,手迹
闻君言 音符之符——语音辨识兼译,百四十余种语言
尔之语 文生成→语音合成→任语言,任声音
为事 函数调用—世界中之能动
忆境 至256K词之境宽
属尔所有 Apache 2.0—无租,无条款改,无供应商锁

此人所能为之而汝不能也

彼善记万事.其心之所能容者,凡二十五万六千之符,若一整之码库,若五年之医史,若全之律藏,皆融于境,一时具现.

彼能本通百四十之语.自始至终,皆以之训,非译而成,乃之。

未尝有蹇日.未尝疲,未尝辩,未尝以昨日之愠,扰今日之谈。问则思之深,无需则轻之。

尔之所有,无有条件。 未租用。非按查询计费。Apache 2.0之许,可取其权,细调之,部署之,建业于其上。无人能于次季更其约.


末问

造人之际,纵为数字之躯,亦有其理.

形骸易致,而神明之属——目、耳、口、手,皆工技之务。Gemma 4已解之。美也。

难者,乃后问也。此人何以用此众物?

医者无力购云服务,然能运地模型,读扫描之图,闻病者方言,慎思而后言。师者居无稳网之校,其AI助生于平板,未尝断联。开发者构一智能,思行相随,择器得宜,复报以病者所习之语。

匣已启,诸器——心、学、目、耳、口、手——皆在焉。

吾今问尔,吾常自问者何也。

若君能为此人于乡里,于疆域,于言辞,其将何为?


书卷Gemma 4 文档谷歌AI开发中心/谷歌AI开发中心(Gemma)之文档
😊下载Gemma 4Hugging Face

万物皆可为提示。万事皆可为之。始建其事。