软件之主：Gemma 4之架构，默然改写本地人工智能之规

"全球"科技之幻

每启现代人工智能之教程，吾辄见同一默然之预设，镌于README之首行：汝有光纤之连，有信用卡之存，有机器不嗔汝一时启三浏览器之页。

此乃虚构。虽觉舒适，终究虚妄耳。

世之开发者，有处拉各斯、马尼拉、卡拉奇、雅加达，或巴西乡野者，十之六七，视云端API非为便利，实乃负累。或中途网络波折，或令牌之费，增速远超收益之增。或电力系统，不恤午后二时断供。及API停摆，或公司更易定价层级，或演示之际已达速率上限，则尔软件立止其功。非渐衰也，止也。

吾辈费五载光阴，筑一代应用，智识盎然。依服务器之便.

有更佳之心智模型，吾欲为之命名。软件之主权凡软件之用，当尽善尽美，于用户所用之器，无假外求于非己有、非己制、非己所能继之服务器。

Gemma 4之出，使此志更易得，非独以其小也。以其于构架之思，甚为郑重。 — 乃以特立独行之工技决断，积渐而成，质异于常物.

吾为君示其意.

入Gemma 4：形制殊异，非徒小耳.

世人闻"本地AI模型"，辄思简陋之聊生，幻象多而思辨寡。Gemma 4非是。此乃刻意于边缘之架构赌注——欲知其故，必须超越营销之辞，窥其真实之构。

轻便之强器：E2B与E4B

Gemma四系领航，有二变，众说多隐于更耸人听闻之31B密模之下：其一为E2B（有效参数二三十亿，加嵌入则逾五十亿），其二为E4B（有效参数四五亿，加嵌入则近八十亿）。

此非折衷之模，乃为资源有限之境而设——移动芯片组、单板计算机、 Nairobi 学生所实有之四GB内存之机。E2B可容于1.5GB RAM之INT4量化内，亦能于Raspberry Pi 5上运行。E4B则运行于中端智能手机。二者皆具128K词元上下文窗口——此能，两年前，需租GPU及账单警报。

此非凡参数之数，盖因二模型皆存深广多模推理：目见耳闻口读，同步进行，其硬件价不过数百金耳。

阿帕奇二零零许之赐

Gemma四依阿帕奇二零零许许可行。此非赘言也。

多"开放"之模，裹以非商用之限，定制之约，或禁部署与许可者竞者之条款。其心虽开，其行则闭，欲建实利之产者莫能出其外。

Apache 2.0 释此种种滞碍。汝可取Gemma 4，改之，精调之，商用之，嵌诸产品，而无须向人请许，亦无须受律法之审。独行者，地方之司，初创之业，处律法不明而项目未成先殁之市，此乃“或可他日”与“周一上线”之别。

128K之境，不费分文

百二十八千符文之境，运行在地— 当其自成一节，盖因其全易设计之域也。

此能存于云者，乃账单之细目也。每文入境，皆令符码耗损汝之户。若行于本地，则无费之算。汝之应用可载全册之书，岁之商牍，律法之契，或学子一学期之笔记——而遍理之——无一字节离器。

于三十一亿密集及二十六亿混合专家模型，此情境窗口延至二十五万六千。然即便于边缘，十二万八千已足令离线文档繁重之应用得真智，而无损架构之妥协。

机下之架构：何使Gemma 4异于众

众模型之覆盖，多止于参数之数与基准之分数。吾辈当深探——盖真谛所在，实乃工程之决断，使凡此种种得容于受限之硬件也。

层级嵌入法（PLE）：智识散布，非前置

小款Gemma 4型中最为独特的建筑特色，乃所谓逐层嵌入 — PLE.

标准之变译器中，每字得单矢嵌入于输入。初矢者，模型赖以运作，信息流经数十解码层时，唯此矢而已。此嵌入须“预载”模型于万般可能之境中所需之全。此乃架构之喻，犹如医者入门受一简报，术程之中永无更新。

PLE以更精妙之模态代之。于每字，非惟一前置之嵌入，PLE乃生一小而专之调节向量。每有解码之层。此法合二信号为之：一为符识之素（出并行低维嵌入表），一为境觉之素（自习得之投影主隐态）。每译层各得己信号——轻质残差，调层隐态于注解与前馈之後。

思之如为神経之網各層設獨通道以受符號之訊息恰逢其時非早非混雜萬物。蓋PLE之維遠侪於主隱藏之維故此添每層之專精不過費微参数之價。

其实用之效：此模达幽微，明境应思。不须之比例增参数。此乃E2B、E4B超乎同侪之要因。非得2B参数之质限，实得5B构架压缩于2B计算之能。

多模态输入——图像、音频、视频——PLE须先计算，而后软标记合并于嵌入序列，盖因PLE所恃标记ID，一旦多模态特征取代文本占位符即失。多模态位置用中性信号。此乃有意之设计决断，使架构统一，非为每模态设别径。

共享键值缓存：内存之效，不损其质

他者之要旨建築優化者，乃共置键值缓存末N層之模，不自行計其鍵與值之射。反復取自同類注意層（滑動或全）末非共層之K與V張量。

此似偷工减料之举。非也。KV缓存共享乃变分推理中冗余计算之所在——尤以长语境生成为甚。消弭此冗余投射，既减内存之耗，复降单次前向之算力，而输出质量损之甚微。于设备，内存频宽为最窘之资源，此实非细枝末节之优化。

交替关注：局部精微，全局洞悉

Gemma 4 交替运用局部滑动视窗与全局全境审视 之注意力层数。小模型用512之令牌为滑动窗；大模型则用1024。此意谓模型非全神贯注于各层每一令牌对每一令牌之全然关注——此乃O(n²)之运算，致长文推理之费。局部层处理细粒度、近邻之思；全局层则具通篇之识。双RoPE配置（滑动层之标准，全局层则删减之）使长文之长得以延展，而位次编码之精未损于远。

其果乃一模型，能驭128K之境，而无须具128K之符于每层之妄应.

视界：无须上传之见

Gemma 4之视界编码非临时附加，乃本源——四变模型皆自始至终视图像为上乘之输入，同列而处.

编码者用习得二维位置嵌入，且尤可贵者，能存图像原貌，不削其形以为定规。此非小节：若模型扭曲图像以合前设，则失空间之序，而此序往往关乎义理——形体之布，标识之向，图表之比例。

此编码器支持可配置之符文预算：七十、百四十、二百八十、五百六十，或一千一百二十图像符文。此使开发者得有明控于速-存-质之权衡。一语音指令之应用，需瞥视QR码者，用七十符文。一文书解析之流程，需析繁表者，用一千一百二十符文。此架构将择权授于工程师，而非代为决断。

何谓本地视觉启明日之钥

云端之视API，素有无形之税焉：凡所处理之图像，皆离汝之应用而去。每扫描之收据，医照之相，身分之文牍，手书之笔记，或白板之快照，皆往服务器，经其处理，复返以应。纵使提供者言其隐密，然架构本身即为其显。

本地观感处理，尽去此表。图像永驻其器。且以Gemma 4之变分编码器，此本地处理之质，实堪竞逐。

具言之，此能致：

零数据成本之离线文字辨识：学子摄其手书算题。Gemma 4 E4B（Gemma 4 E4B）于本地处之，思其解，而释其步骤。无数据计划之耗。无图像上传。
：机要文书之智，助商贾于隐秘之数据。律所、诊所、财务顾问可藉AI处理客户文书，文书未尝触外伺器。数据驻留之需，由架构满足，非由政令。
助技于低联境：为视障者设之观景之器，能状周遭之景，读图中文，辨物之形——皆于用户之机运行，无网亦可用。
：实时观思于嵌入式之硬。：小作坊质控之镜，运本地观检之模，无云端视算API之费与繁。

视象编码器亦支持视频——四模型变体皆能原生处理视频帧。于监控、制造或无障碍应用之需，持续视觉分析者，此架构可延至时序推理，无需更易模型。

音：言留器

E2B与E4B之边缘模型，内置音声编解码器 — 乃构建之要素，化原始音波为语言模型可思辨之符。此音处理之流，尽融于文与视之推演同途，使Gemma 4之边缘变体，诚为统合多模之真模，非拼凑之集也.

重构之音码器

Gemma 4之边缘模型中，音频编码器乃USM式之顺应器——一种为序列声学数据优化之变压架构。较之Gemma 3N之先辈，Gemma 4之编码器约减半，此减法直译为内存需求降低，边缘硬件推理加速。

框架时长大也四十毫秒。此乃要义。音讯编码者，乃分入之波形为短帧，自每帧中提取声学特征（通常为对数梅尔谱图）。其帧之持续时长，定编码者每秒所处理之帧数：以40毫秒计，则每秒25帧——较之10毫秒之细粒度方法所产100帧，此减缩实为有义。

何以为要？常例英语音素，时值在四十毫秒至百毫秒间。四十毫秒之帧，已摄得有义声单元——足辨音素——而毋须模型处理较之十毫秒法四倍之符。符少则编码前向过数减，此则转录迟滞降，且于制限硬件，端到端应答时促。

此两阶处理之流程，若此：原始之音转为对数梅尔谱图，经合形编码器，投射于与文词符号同之嵌入空间，复与主语言模型解码器及任何文词或图像输入，共行处理。音、视、文非分途而入，实融于同之语境窗，共谋其理。

明日何音可启

设备内语音辨识非新事。然设备内语音辨识，能于设备中思其所言，且于文档或图像亦在设备中，此诚新也。

此所成者：

当地语言少数者之语音首界面：大云语音识别系统，适于资源丰沛之语。Gemma 4可调适于地方方言，离线部署，无需调适之模，往告无义务支持此语之服务器。
：私语转写：记者、律师、心理治疗师及任何记录敏感对话者，皆可于本地转录并解析音频。波形永不上传。实录永不离境。
：多模态视听推理：示模型一图，述所见。模型观图像，闻诘问，同步推演——于一瞬，于手机。
无数据依赖之辅助工具：为听障者设实时字幕，离线运作，每用无费，适于网络不通或过贵之境。

四十分之一秒之帧时亦使Gemma 4适于近实时之应用——语音指令界面、实时会议转录、无障碍字幕——若编码器需缓冲更长之音频窗口方得产出，则此等应用将不可用.

"街头智慧"之架构：构建离线优先

知Gemma 4之能，其一也。周其能而建之，其二也。此心之所须变者如是.

解云之缚

首事者，易“呼API”为“运地之运”。

Ollama乃最便易之登陟径，能理模型下载、量化选择，复揭一地端REST端点，映照OpenAI之API表。汝可易一URL、去一API钥，遂将云倚代码基迁至本地推论。至若生产边陲部署，LiteRT。（昔称TensorFlow Lite Runtime）主司于移动芯片，借硬件加速以优化推演。若求无依之境，llama.cpp则纯用C言，辅以Gemma 4 GGUF之助，其耗几近于无。

未足多言之见：推演于地，非必迟滞。 当地之呼，返归于八百毫秒，胜过云呼，需四百毫秒加之六百毫秒之网络往返——且当连接断绝，当 API 坠毁，当用户在机中或在地下室，犹能运作不息。

对于多模态之应用，此架构亦甚易达。于 Ollama 之请体中，与提示语并传图像路径或 base64 编码之音，Gemma 4 自能善理其余。

本地状态管理__

离线优先之设，视本地存储为首要数据库，非缓存之用__

SQLite 乃众用之适者。其内嵌无需配置，遵从 ACID，且速于 AI 应用所生之重读负载：如对话史迹、检索文档之段、图像元数据、用户所好。一 SQLite 文件可容千兆字节之结构数据，毫秒间即可查询之。

此法：先于本地书诸事，设同步之接口，俟网通价廉时乃发之，而制状态之机，视“离线”为常本，非退而求其次之备。异步同步于偶得之WiFi，较之每启智思必求连通，价廉而信实。

精量：纳智于狭RAM

此等模型于拘束之硬物中，其体如何契合：四位量化。

量化之法，缩模型之重，自十六或三十二位浮点数，减至每值四位——约减其四倍之量，而多数任务之质损，殊不惊人。Gemma 4 E4B以四位量化之形（GGUF格式，Q4_K_M之变），行于三至四GB之RAM，犹有余地，供君之应用逻辑。于Ollama，模型之签，直书量化之级（gemma4:e4b-q4_0）。至若Hugging Face，GGUF之名，亦含此意。

Q4_K_M之变体，专以混合量化为用——于要层求精，于余层求简——恒为通用之最佳质速权衡。凡于精准为要（医、法、技）之用，Q5_K_M稍增RAM，而输出之效，迥然胜之。

世事之变：亿兆新用之启

技之要，在变实事于人耳。此乃Gemma 4之本地多模态之能，化而为人类之实效也。

教育于低联接之地：有学子，时断时续连网，摄其课本之惑，以乡音发问，得明理之解——于乡，不耗移动数据。此模一载于WiFi；其后会话，皆无偿。有128K之境，同模可容一科全章，于中推演。

小业经营：市井小贩，以本地Gemma 4之用，辨货殖，通商贾，理文书，皆以己言，用己之器，无SaaS之订，不耗其商贾所能堪之利。

医卫之达乡间诊所之社区医护者，可藉地声音转文之术，录病患之谈，使模型推究其症状描述，较之存档之参考，而生成条理之记录——皆离线为之，皆保隐私，皆使病患之数据不离其室。

數據隱私若為建築之構：运行于本地之应用，不泄用户之数据于异域之服务器。法律之士、政略敏感之地之记者，或罹数据驻留之规者，于本地推演非清单上之功能也。

推薦訂閱源

DEV Community