慣性聚合 高效追蹤和閱讀你感興趣的部落格、新聞、科技資訊
閱讀原文 在慣性聚合中打開

推薦訂閱源

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
我在我的家庭實驗室運行了每一個Gemma 4模型。E4B壓制了E2B。這裡是數據。
Shane Castil · 2026-05-24 · via DEV Community

這是一份提交給Gemma 4挑戰:寫關於Gemma 4


Google釋出了四種Gemma 4變體。每個人都正在他們對關於合成基準測試上沒有人實際關心的它們進行比較。我運行了全部四個在我家庭實驗室硬體真實任務__JHSNS_SEG_72303c71_6__。結果讓我驚訝了.

測試機器: Ryzen 7 5700X, RTX 1060 6GB, 32GB RAM. LM Studio, 4-bit quantization.


模型

模型 有效參數 4-bit 大小 架構
E2B ~2.3B 1.5GB 密集
E4B ~4.5B 2.1GB 密集
26B 混合专家模型 ~4B 活動 / 26B 總計 13GB 混合專家
31B ~31B 16GB 密集

測試 1:視覺 — 書脊辨識

將攝影機對準書架。它能辨識書名嗎?

模型 時間 找到書籍 品質
E2B 83s 0 — 回傳 "NONE" ❌無法讀取書脊
E4B 25s 6本書名,正確識別 ✅可靠
26B MoE 12GB上OOM ❌ 不合適
31B OOM 在 12GB ❌ 不合適

這就是全部的故事. 對於多模態任務,E2B 是 不是 E4B 的較小版本 — 它是一個根本能力較低的視覺模型。它無法讀取單本書的書脊。E4B 找到了 6。

如果你正在用圖片建立任何東西,E2B 就不是一個選擇。絕對不是。


測試 2:文字 — 技術解釋

「用三句話解釋 TCP 與 UDP。」

模型 時間 代碼片段 速度 答案品質
E2B 93秒 256 (觸及上限) 2.8 t/s 普通 — 嘰嘀
E4B 20秒 113 5.7 t/s 簡潔且準確

E4B 是 4.6倍快速,並在較少的 token 中產生更好的答案。這顛覆了「越小越快」的假設 — E4B 的推理更有效率,所以它更快完成。


測試 3:結構化輸出 — JSON 生成

"回傳包含 10 种程式語言的 JSON 陣列,包含語言創建年份及創造者。"

模型 有效的 JSON 嗎? 正確的字段嗎? 時間
E2B ✅ 是 ❌ 3/10 年份錯誤 45秒
E4B ✅ 是 ✅ 全部正確 12秒

E2B 虛擬創建日期。E4B 完美通過每一個.


測試 4:視覺 + 推理 Shelfie 管道

真正的測試。運行我的 Shelfie 應用程式 — 從照片檢測書籍 → 丰富元數據 → 生成推薦.

模型 檢測 豐富 總計 作品?
E2B 找到 0 本書 不適用
E4B 16 本書,106s 2 批次,280s ~8 分鐘
26B/31B OOM

只有 E4B 在消費性硬體上完成完整流程。八分鐘生成一個帶推薦的全櫃目錄並非即時 — 但它免費且保持本地化.


記憶牆

這是「在消費性硬體上運行」對我 RTX 1060 6GB 上每個模型的實際含義:

型號 VRAM 需要量 (4位) 可容納 12GB? 有足夠的上下文空間?
E2B ~1.5GB ✅ 是 ✅ 非常充足
E4B ~2.1GB ✅ 是 ✅ 非常充足
26B MoE ~13GB ❌ 否
31B ~16GB ❌ 不

兩款大型模型實在無法適用於3200級別的GPU。您需要至少3090(24GB)才能運行31B,即便如此,您也幾乎沒有任何上下文窗口剩餘了

作參考,31B密集模型需要多約800MB的VRAM。每百萬個詞的上下文。那 24GB 3090?它適合模型加上大約 30K 的上下文。不是廣告上說的 256K.


我希望有的決策樹

按順序問自己這些問題:

1. 它需要處理圖片嗎?

  • 是 → 至少需要 E4B。E2B 的視覺功能非常差,無法使用。
  • 否 → 前往問題 2。

2. 這能適合在 6GB VRAM 中嗎?

  • 是 → E4B 4 位元 (~2.1GB) 可讓你有更多上下文空間.
  • 不是 → E2B 或你需要一個更大型的 GPU.

3. 這是一個獨立任務還是重複的工作負載?

  • 獨立 → Cloud API (OpenRouter 免費層有 E4B).
  • 重複 → 本地 E4B。沒有每個 token 的費用.

4. 你需要最大限度的推理品質?

  • 是 → 31B密集,但你需要24GB+ VRAM.
  • 不是 → E4B即可。我實在無法分辨書籍識別上的差異.

殘酷的真相

E2B是行銷。 "可在您的手機上運行!" 嗯,但它無法讀書脊。E2B和E4B在多模態任務上的差距不是漸進的 — 它是"有效"和"無效"之間的差別。

E4B 是讓本地 AI 真正實用的模型。它可以放在 3060 上,可靠地運行視覺任務,生成結構化輸出,而且比 E2B 更快 ,因為它推理效率更高

26B MoE 和 31B 是為擁有伺服器 GPU 的用戶設計的。如果你有 4090 或 A100,它們非常出色。如果你有遊戲 GPU,它們就沒什麼用了。

我為Shelfie選擇了E4B,這是正確的決定。十六本書,完整的元數據,個性化推薦——所有功能都在我的家庭實驗室中免費運行。

E4B是Gemma 4家族中默默無聞的英雄。 基準測試不會告訴你這一點。實際使用才能。


試試Shelfie:github.com/scastile/shelfie