これはGemma 4チャレンジへの提出です:Gemma 4について書く
GoogleはGemma 4の4つのバリエーションをリリースしました。皆が実際に関心のない合成ベンチマークでそれらを比較しています。私は私の自宅のラボハードウェアで実際のタスクでそれらをすべて実行しました。結果は私を驚かせました.
テストマシン: Ryzen 7 5700X、RTX 1060 6GB、32GB RAM。LM Studio、4ビット量子化.
モデル
| モデル | 有効パラメータ | 4ビットサイズ | アーキテクチャ |
|---|---|---|---|
| E2B | ~2.3B | 1.5GB | Dense |
| E4B | ~4.5B | 2.1GB | 密集 |
| 26B モジュール式 | ~4B 動作 / 26B 合計 | 13GB | エキスパートの混合 |
| 31B | ~31B | 16GB | 密集 |
テスト 1: 視覚 — 書の背表紙の読み取り
カメラを本棚に向ける。タイトルを読み取れるか?
| モデル | 時間 | 本が見つかり | 品質 |
|---|---|---|---|
| E2B | 83s | 0 — "NONE"が返された | ❌ 裏表紙を読み取れない |
| E4B | 25s | 6件のタイトル、正しく認識された | ✅ 信頼性が高い |
| 26B MoE | 12GBでOOM | — | ❌ 適合しません |
| 31B | 12GBでメモリ不足 | — | ❌ 合わない |
これは全部の物語です。多モーダルタスクにおいて、E2BはないE4Bのより小さいバージョン — 基本的により少ない能力を持つビジョンモデルです。1冊の本の背表紙を読むことができませんでした。E4Bは6を発見しました。
画像を使って何かを作っているなら、E2Bは選択肢にならない。その通りです。
テスト 2: テキスト — 技術的な説明
「TCP と UDP を 3 文句で説明する」
| モデル | 時間 | トークン | スピード | 回答の質 |
|---|---|---|---|---|
| E2B | 93秒 | 256 (制限に達した) | 2.8 t/s | 平凡 — 長々と |
| E4B | 20s | 113 | 5.7 t/s | 簡潔で正確 |
E4Bは4.6倍高速であり、より少ないトークンでより良い答えを出力しました。これは「小さい=速い」という仮説を覆しています—E4Bの推論はより効率的なので、より早く終了します。
テスト 3: 構造化出力 — JSON の生成
"10 のプログラミング言語の JSON 配列を返す。作成年と作成者。"
| モデル | 有効な JSON か? | 正しいフィールドか? | 時間 |
|---|---|---|---|
| E2B | ✅ はい | ❌ 3/10 の年が間違っている | 45秒 |
| E4B | ✅ はい | ✅ 全部正しい | 12秒 |
E2Bは作成日付を想像創造した。E4Bは全てを正しく処理した.
テスト4:ビジョン+推論Shelfieパイプライン
実際のテストだ。私のShelfieアプリを実行して—写真から本を検出→メタデータで豊かにする→推薦を生成.
| モデル | 検出 | 豊富化 | 総計 | 作品? |
|---|---|---|---|---|
| E2B | 0冊の本が見つかりません | 不適用 | — | ❌ |
| E4B | 16冊、106s | 2セット、280s | ~8分 | ✅ |
| 26B/31B | メモリ不足 | — | — | ❌ |
E4Bだけがコンシューマーハードウェアで完全なパイプラインを完了します。8分間で完全な棚カタログと推奨を表示するのはインスタントではありません——しかし、コストは$0でローカルに留まります.
メモリウォール
「コンシューマーハードウェアで動作する」という実際の意味は、私のRTX 1060 6GBの各モデルにとって何かですか:
| モデル | VRAM 必要量(4ビット) | 12GBに収まる? | コンテキストのスペースがある? |
|---|---|---|---|
| E2B | ~1.5GB | ✅ はい | ✅ 非常にスペースがある |
| E4B | ~2.1GB | ✅ はい | ✅ 非常にスペースがある |
| 26B MoE | ~13GB | ❌ いいえ | — |
| 31B | ~16GB | ❌ いいえ | — |
2つの大きなモデル文字通り3200クラスのGPUに収まらないです。31Bには最低限3090(24GB)が必要で、それでもコンテキストウィンドウにほとんど残りません
参考までに、31Bの密集モデルはVRAMで約800MB多く必要です百万トークンのコンテキストに対して。その24GB 3090?モデルに加えておそらく30Kのコンテキストが収まる。広告された256Kではない
。 私が持てたかった決定木
これらの質問を順番に自問自答してください
1. 画像を処理する必要がありますか
- はい → E4B最低。E2Bのビジョンは使い物になりません
- いいえ → Q2に進む
6GBのVRAMに収まるか?
- はい → E4B 4ビット(~2.1GB)でコンテキストのスペースがある
- いいえ → E2Bか、もしくはより大きなGPUが必要
3. これは一度きりタスクなのか、繰り返しの作業なのか?
- 一度きり → Cloud API(OpenRouterの無料トライアルにはE4Bがある)
- 繰り返し → ローカルE4B。トークンごとのコストなし
4. 最大の推論品質が必要か?
- はい → 31Bは密集しているが、24GB以上のVRAMが必要です.
- いいえ → E4Bで十分です。本の識別について正直に言って、違いがわかりませんでした.
悪い真実
E2Bはマーケティングです。「あなたの電話で動作します!」ええ、しかし本の背表紙を読めません。E2BとE4Bの多モーダルタスクにおける差は増分ではありません——「動作する」と「動作しない」の違いです。
E4Bは、ローカルのAIを実際に役に立つモデルです。3060に搭載でき、ビジョンタスクを確実に実行し、構造化された出力を生成し、E2Bより速くなのは、より効率的に推論するからです。
26B MoEと31Bは、サーバーグラフィックス処理ユニットを持つ人々のためにあります。4090やA100があるなら、それらはすごいものです。ゲーム用のグラフィックス処理ユニットがあるなら、それらは役に立たないものです。
ShelfieのためにE4Bを選びました。正解でした。16冊の本、完全なメタデータ、パーソナライズされた推薦——すべて無料で私のホームラボで動作しています.
E4BはGemma 4ファミリーの隠れた英雄です.ベンチマークはこれを教えてくれません。実際の使用は.
Shelfieを試してみてください:github.com/scastile/shelfie












