当Google于二零二五年四月释Gemma 4,吾初闻之,疑窦丛生。向者见所谓"开放"之模,其制限繁多,几不可用。及读其许诺:Apache 2.0。下载之,微调之,商用之,无碍无束。是故吾心为之一动。
吾于周末以之试炼,欲与众分其所得,尤宜于诸开发者,欲辨Gemma 4家之孰值其时者.
真所谓Gemma 4者何?
Gemma 4 乃 Google DeepMind 之四世开放权量模型。其有四制:E2B、E4B、12B、27B(27B 实为 26B 专家混合模型)。E 字前缀表边缘,谓此二小制专为运行于手机及笔记本电脑而建。
数事使此世真异于前者:
本生多模态。 家族诸模,皆能处文图。二边模(E2B、E4B)亦生知音声。此非插件,亦非训练后所铆之接件,乃内蕴于心也。
上下文之窗。 小模支128K符。中模至256K。为参,此长于众小说。
思维之态。四器皆可设思辨之变,类乎思续之链,然内蕴于调令之异。汝可调其应答前思量之深浅。
调用函数。自始即成,非后加之物。若为建使,此甚要也。
二十七B之模,用专家混合之架构,是故其参数约二百六十亿,然每字仅启三十八亿。其实,其计算之费,近若四B之模,而其知识之量,犹存于甚巨之物。
吾思其选模之道,如是:
| 模 | 宜于何事 |
|---|---|
| E2B | 移動應用、邊緣設備、快速批量推論 |
| E4B | 設備端功能更豐富,本地開發 |
| 12B | 多數微調任務,單GPU研究 |
| 27B (MoE) | 生產應用,複雜推理,智能工作流 |
吾之实验,用E4B者,以其为消费硬件微调之甜点也。小足以4位量化载于16GB GPU,而能足以实有所学。
实验之旨:教之识情
吾微调Gemma 4 E4B-it于dair-ai/emotion 之数据集,取自 Hugging Face。其务:将文辞分属六情之一(悲、喜、爱、怒、惧、惊)。
此乃文言语学之常务,看似浅易,实则难能。情之微妙,非一言可尽。譬如言“吾不信此事得生”,或为喜,或为怒,或为惊,皆视乎境也。
设置
吾以Google Colab,配T4 GPU,藉bitsandbytes以行4位NF4量化,复以LoRA以效微调。其全设若:
pip install transformers accelerate datasets trl peft bitsandbytes scikit-learn
为何行4位量化?
载四B参数之模,以十六位精度全载之,仅权重一项,需VRAM约八GB,此犹未计训练时之激活值、优化状态及梯度。于T4之16GB总显存中,实无余隙以行训练之事。
四比特NF4(常浮点四)量化压缩权重至约2.5GB。常浮点格式专为神经网络权重分布而设,其分布多呈钟形而非均匀。故NF4较之纯四比特量化,于同等位宽下更为精准。前向与后向传递时,权重暂解量化为bfloat16以行计算,故得四比特存储之内存节省,兼得十六比特数学之大部精度。
权衡之,较之全精,略有毫厘之损,然实践于专注之务,如斯类此,其别微不足道。
何故LoRA?
全量微调则模型中每一权重皆需更新。以四十亿参数之模型而言,需存储四兆权重之完整优化器状态,此于单块消费级GPU实难实现。
LoRA(低秩适配)之道异于常法。非更易原重,乃固其全模,于特定层侧添微可训之阵。此阵低秩,能摄变之要向,不须尽陈重之域。训习之际,惟此适配之重得更,其数常不及全参之百分之一。
要义在于,为特定任务微调模型,非必更易每重。其本知多存旧。汝所授者,乃狭新之技,非自头始重训也。
训毕之后,LoRA适配器可分而置之(待推演时覆载于本模之上),亦可永融于本重。分置之用,在于欲供同本模多版精调之态,而毋须储全模之复本。
资料格式
Gemma四者,欲得言谈之式:系统之语,用户之语,助者之应。吾将每情之例,裹此形:
SYSTEM_PROMPT = """You are an emotion classification assistant.
Read the user's text and answer with exactly one label.
Only choose from: sadness, joy, love, anger, fear, surprise.
Return only the label and nothing else."""
def to_prompt_completion(example):
text = example["text"]
label = label_names[example["label"]]
return {
"prompt": [
{"role": "system", "content": SYSTEM_PROMPT},
{"role": "user", "content": f"Classify the emotion:\n\n{text}"},
],
"completion": [
{"role": "assistant", "content": label}
],
}
此系统提示实为要务。明示输出格式("仅返标签,余皆无"),方能使模型不答以全句,如"此情表乐"。此冗言乃指令调适之模型之本性,且碍下游解析。精准系统提示,较之事后启发式处理,易为修正。
LoRA配置
吾持位十六,施诸线性层。此法增新可训之参数仅少许,而基模固守不迁。
lora_config = LoraConfig(
r=16,
lora_alpha=32,
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM",
target_modules="all-linear",
)
训练
训习之配置,用梯度累积以仿效较大之有效批量,而不逾越内存之限;用梯度存盘以易计算于记忆,行反向传播之时;又用八位分页之优化器,以使优化器之状态不耗尽余剩之虚拟显存。
吾亦于未训之前,于测试集行基准之评,故得公允之比较,非恃直觉以度模型之进退。
评鉴之果
| 量度 | 未精调之先 | 精调之后 |
|---|---|---|
| 精准度 | 五十八分之二十五 | 九十一分之十五 |
| 宏观F1 | 四百二十一之四百二十一分之二十一 | 0.893 |
| 无效之预测 | 33 | 2 |
自58%至91.5%之精妙,一Epoch间成,于T4之上,未及十刻,仅训四千例耳。模型亦几绝无效之输出,此足证其解任务之限,非徒识标签之式也。
未精调之时,基座模型时或给出"此文本之情为惧"之语,而非止言"惧"字。经训后,每回皆得洁净单字之标.
令我惊异者
基座模型已属不俗。 未经微调,于六类分类之任,其准确率达五十八,远胜随机之机。基础指令调适之模,虽无特定任务之训,亦略知其旨。
诸线性之任,施以LoRA,效果甚佳。 吾初仅攻注意力层,然效不彰。及施LoRA于凡线性层,兼及MLP之块,则于分类之务,大异其效。
四位量化犹可持。 吾忧量化损及微调之质,然终模效佳。NF4之式,于变器之重分,胜于素四,此可见于果。
汝当实用Gemma四乎?
若需速效API调用,且不重权柄或规模之费,则托管模式或较易。然若尔境遇合乎下列诸项,则Gemma 4实值深察:
數據隱私攸關。此模型运行于汝之硬件。无物离汝之境。
尔欲精调之。Apache 2.0者,无法律之灰色地带也。汝拥有微调之权重。
尔筑于边缘. E2B可量化约1.3GB。此乃手机之域,能处理视与音.
尔需长之境域. 中等之量,256K tokens实为处理文书、长码析解,或检索增补之设所大用。
吾所思者,乃Hugging Face之团队言,"苦寻良之微调例,盖模型原装已甚善也。"此乃奇之患,然实反映情状。此等模型初出已具能。微调者,自能进于精于专项,而为之费,今已低廉,足值尝试.
自行运行
吾所使用者,全册在此可取。
其运行于免费之Colab T4,需有Hugging Face之账户,得令入禁苑之模型权重之令牌,及约三十分钟之时。
此笔记簿能自辨GPU,随宜调适批量,故无论汝处T4、3090抑或A100,皆可应之。
终思__
此等能级之开权模型,更易诸务之数。旧需专有之API,与商贾之谊,及持续之费者,今可于地运行,调适于汝之数据,且尽归汝有。Gemma 4,乃吾所见此变之明例__
试之。最劣之局,不过费一周末以习新知。
惑于微调之设,欲较异集之果?投诸评注。













