這是一份提交給Gemma 4挑戰:寫關於Gemma 4
Google釋出了四種Gemma 4變體。每個人都正在他們對關於合成基準測試上沒有人實際關心的它們進行比較。我運行了全部四個在我家庭實驗室硬體上與真實任務__JHSNS_SEG_72303c71_6__。結果讓我驚訝了.
測試機器: Ryzen 7 5700X, RTX 1060 6GB, 32GB RAM. LM Studio, 4-bit quantization.
模型
| 模型 | 有效參數 | 4-bit 大小 | 架構 |
|---|---|---|---|
| E2B | ~2.3B | 1.5GB | 密集 |
| E4B | ~4.5B | 2.1GB | 密集 |
| 26B 混合专家模型 | ~4B 活動 / 26B 總計 | 13GB | 混合專家 |
| 31B | ~31B | 16GB | 密集 |
測試 1:視覺 — 書脊辨識
將攝影機對準書架。它能辨識書名嗎?
| 模型 | 時間 | 找到書籍 | 品質 |
|---|---|---|---|
| E2B | 83s | 0 — 回傳 "NONE" | ❌無法讀取書脊 |
| E4B | 25s | 6本書名,正確識別 | ✅可靠 |
| 26B MoE | 12GB上OOM | — | ❌ 不合適 |
| 31B | OOM 在 12GB | — | ❌ 不合適 |
這就是全部的故事. 對於多模態任務,E2B 是 不是 E4B 的較小版本 — 它是一個根本能力較低的視覺模型。它無法讀取單本書的書脊。E4B 找到了 6。
如果你正在用圖片建立任何東西,E2B 就不是一個選擇。絕對不是。
測試 2:文字 — 技術解釋
「用三句話解釋 TCP 與 UDP。」
| 模型 | 時間 | 代碼片段 | 速度 | 答案品質 |
|---|---|---|---|---|
| E2B | 93秒 | 256 (觸及上限) | 2.8 t/s | 普通 — 嘰嘀 |
| E4B | 20秒 | 113 | 5.7 t/s | 簡潔且準確 |
E4B 是 4.6倍快速,並在較少的 token 中產生更好的答案。這顛覆了「越小越快」的假設 — E4B 的推理更有效率,所以它更快完成。
測試 3:結構化輸出 — JSON 生成
"回傳包含 10 种程式語言的 JSON 陣列,包含語言創建年份及創造者。"
| 模型 | 有效的 JSON 嗎? | 正確的字段嗎? | 時間 |
|---|---|---|---|
| E2B | ✅ 是 | ❌ 3/10 年份錯誤 | 45秒 |
| E4B | ✅ 是 | ✅ 全部正確 | 12秒 |
E2B 虛擬創建日期。E4B 完美通過每一個.
測試 4:視覺 + 推理 Shelfie 管道
真正的測試。運行我的 Shelfie 應用程式 — 從照片檢測書籍 → 丰富元數據 → 生成推薦.
| 模型 | 檢測 | 豐富 | 總計 | 作品? |
|---|---|---|---|---|
| E2B | 找到 0 本書 | 不適用 | — | ❌ |
| E4B | 16 本書,106s | 2 批次,280s | ~8 分鐘 | ✅ |
| 26B/31B | OOM | — | — | ❌ |
只有 E4B 在消費性硬體上完成完整流程。八分鐘生成一個帶推薦的全櫃目錄並非即時 — 但它免費且保持本地化.
記憶牆
這是「在消費性硬體上運行」對我 RTX 1060 6GB 上每個模型的實際含義:
| 型號 | VRAM 需要量 (4位) | 可容納 12GB? | 有足夠的上下文空間? |
|---|---|---|---|
| E2B | ~1.5GB | ✅ 是 | ✅ 非常充足 |
| E4B | ~2.1GB | ✅ 是 | ✅ 非常充足 |
| 26B MoE | ~13GB | ❌ 否 | — |
| 31B | ~16GB | ❌ 不 | — |
兩款大型模型實在無法適用於3200級別的GPU。您需要至少3090(24GB)才能運行31B,即便如此,您也幾乎沒有任何上下文窗口剩餘了
作參考,31B密集模型需要多約800MB的VRAM。每百萬個詞的上下文。那 24GB 3090?它適合模型加上大約 30K 的上下文。不是廣告上說的 256K.
我希望有的決策樹
按順序問自己這些問題:
1. 它需要處理圖片嗎?
- 是 → 至少需要 E4B。E2B 的視覺功能非常差,無法使用。
- 否 → 前往問題 2。
2. 這能適合在 6GB VRAM 中嗎?
- 是 → E4B 4 位元 (~2.1GB) 可讓你有更多上下文空間.
- 不是 → E2B 或你需要一個更大型的 GPU.
3. 這是一個獨立任務還是重複的工作負載?
- 獨立 → Cloud API (OpenRouter 免費層有 E4B).
- 重複 → 本地 E4B。沒有每個 token 的費用.
4. 你需要最大限度的推理品質?
- 是 → 31B密集,但你需要24GB+ VRAM.
- 不是 → E4B即可。我實在無法分辨書籍識別上的差異.
殘酷的真相
E2B是行銷。 "可在您的手機上運行!" 嗯,但它無法讀書脊。E2B和E4B在多模態任務上的差距不是漸進的 — 它是"有效"和"無效"之間的差別。
E4B 是讓本地 AI 真正實用的模型。它可以放在 3060 上,可靠地運行視覺任務,生成結構化輸出,而且比 E2B 更快 ,因為它推理效率更高 。
26B MoE 和 31B 是為擁有伺服器 GPU 的用戶設計的。如果你有 4090 或 A100,它們非常出色。如果你有遊戲 GPU,它們就沒什麼用了。
我為Shelfie選擇了E4B,這是正確的決定。十六本書,完整的元數據,個性化推薦——所有功能都在我的家庭實驗室中免費運行。
E4B是Gemma 4家族中默默無聞的英雄。 基準測試不會告訴你這一點。實際使用才能。
試試Shelfie:github.com/scastile/shelfie












