이것은 Gemma 4 챌린지에 대한 제출물입니다: Gemma 4에 대해 글을 써보세요
구글은 Gemma 4의 네 가지 변형을 출시했습니다. 모두가 실제로 신경 쓰지 않는 합성 벤치마크에서 그들을 비교하고 있습니다. 저는 네 가지 모두를 나의 홈 랩 하드웨어에 실제 작업으로 실행했습니다. 결과는 저를 놀랐습니다.
테스트 기계: Ryzen 7 5700X, RTX 1060 6GB, 32GB RAM. LM Studio, 4비트量子화.
모델들
| 모델 | 효과적 파라미터 | 4비트 크기 | 아키텍처 |
|---|---|---|---|
| E2B | ~2.3B | 1.5GB | Dense |
| E4B | ~4.5B | 2.1GB | Dense |
| 26B MoE | ~4B 활성화 / 26B 총량 | 13GB | 전문가 혼합 |
| 31B | ~31B | 16GB | Dense |
테스트 1: 시각 — 책등 읽기
책장에 카메라를 겨둬보세요. 제목을 읽을 수 있나요?
| 모델 | 시간 | 책 발견 | 품질 |
|---|---|---|---|
| E2B | 83s | 0 — "NONE"으로 반환 | ❌ 책 뒷표지 읽을 수 없음 |
| E4B | 25s | 6 권 올바르게 식별됨 | ✅ 신뢰성 |
| 26B MoE | 12GB에서 OOM 발생 | — | ❌ 맞지 않습니다 |
| 31B | OOM on 12GB | — | ❌ 맞지 않습니다 |
이것이 전체 이야기입니다. 다중 모달 작업에 대해 E2B는 not E4B의 작은 버전이 아닙니다 — 이것은 근본적으로 더 적은 능력을 가진 시각 모델입니다. 그것은 단 한 권의 책 뒷표지도 읽을 수 없었습니다. E4B는 6.를 찾았습니다.
이미지를 사용하여 무언가를 만들고 있다면 E2B는 선택지가 아닙니다. 결정적으로요.
테스트 2: 텍스트 — 기술적 설명
"TCP와 UDP를 3문장으로 설명하시오."
| 모델 | 시간 | 토큰 | 속도 | 답변 품질 |
|---|---|---|---|---|
| E2B | 93초 | 256 (제한 도달) | 2.8 t/s | 중간 — 늘어뜨린 |
| E4B | 20초 | 113 | 5.7 t/s | 간결하고 정확한 |
E4B는4.6배 빠른이며 토큰 수가 적게 필요한 더 좋은 답변을 생성했습니다. 이는 "더 작으면 더 빠르다"는 가정을 뒤집습니다 — E4B의 추론은 더 효율적이므로 더 빨리 완료됩니다.
테스트 3: 구조화된 출력 — JSON 생성
"10개의 프로그래밍 언어를 JSON 배열로 반환하십시오. 각 언어의 생성 연도와 창시자를 포함합니다."
| 모델 | 유효한 JSON인가요? | 올바른 필드인가요? | 시간 |
|---|---|---|---|
| E2B | ✅ 예 | ❌ 3/10 잘못된 연도 | 45초 |
| E4B | ✅ 예 | ✅ 모두 맞았습니다 | 12초 |
E2B는 창작 날짜를 허구했습니다. E4B는 모두 맞췄습니다.
테스트 4: 시각 + 추론 Shelfie 파이프라인
진짜 테스트입니다. 제 Shelfie 앱을 실행하세요 — 사진에서 책을 탐지 → 메타데이터로 풍부하게 하기 → 추천 생성.
| Model | 탐지 | 보충 | 총 | 작업? |
|---|---|---|---|---|
| E2B | 0권 책 발견 | N/A | — | ❌ |
| E4B | 16권 책, 106s | 2 세트, 280s | ~8분 | ✅ |
| 26B/31B | 메모리 초과 | — | — | ❌ |
E4B만이 소비자 하드웨어에서 전체 파이프라인을 완료합니다. 추천이 포함된 전체 쇼어 카탈로그를 8분에 만들어내는 것은 즉각적이지 않지만 — 하지만 비용은 $0이고 로컬에 남아있습니다.
메모리 벽
RTX 1060 6GB에 있는 각 모델에서 "소비자 하드웨어에서 실행"이 실제로 의미하는 바는 다음과 같습니다.
| 모델 | VRAM 필요 (4비트) | 12GB에 맞나요? | 문맥 공간이 있나요? |
|---|---|---|---|
| E2B | ~1.5GB | ✅ 예 | ✅ 많은 공간 |
| E4B | ~2.1GB | ✅ 예 | ✅ 충분한 공간 |
| 26B MoE | ~13GB | ❌ 아니요 | — |
| 31B | ~16GB | ❌ 아무것도 | — |
두 대형 모델3200 클래스 GPU에 정말 맞지 않습니다입니다. 31B를 위해서는 최소 3090 (24GB)가 필요하며, 그래도 그대로 컨텍스트 윈도우가 거의 남지 않습니다.
참고로, 31B 밀리 모델은 ~800MB 더 많은 VRAM이 필요합니다.백만 개의 토큰의 맥락입니다. 24GB 3090? 모델과 약 30K 맥락을 들어맞춰야 합니다. 광고된 256K가 아닙니다.
내가 가진 심판 트리
다음 질문들을 순서대로 질문해보세요.
1. 이미지를 처리해야 합니까.
- 예 → E4B 최소. E2B의 시각은 사용할 수 없을 정도로 나쁩니다.
- 아니오 → Q2로 계속합니다.
6GB VRAM에 맞는가요?
- 예 → E4B 4비트 (~2.1GB)는 컨텍스트 공간을 제공합니다.
- 아니오 → E2B 또는 더 큰 GPU가 필요합니다.
3. 이것은 단회 작업인가요 아니면 반복 작업인가요?
- 단회 → Cloud API (OpenRouter 무료 티어에는 E4B가 있습니다).
- 반복 → 로컬 E4B. 토큰당 비용은 없습니다.
4. 최대 추론 품질이 필요하신가요
- 네 → 31B 밀도가 높지만, 24GB+ VRAM이 필요합니다.
- 아니오 → E4B는 괜찮습니다. 저는 책 식별에 차이를 정말 구별하지 못했습니다.
무자비한 진실
E2B는 마케팅입니다. "스마트폰에서 실행됩니다!" 그래, 하지만 책 뒷표를 읽을 수 없습니다. 다중 모달 작업에서 E2B와 E4B 사이의 차이는 점진적인 것이 아니라 "작동한다"와 "작동하지 않는다" 사이의 차이입니다.
E4B는 지역 AI를 실제로 유용하게 만드는 모델입니다. 3060에 맞춰서 설치할 수 있으며, 비전 작업을 신뢰성 있게 실행하고, 구조화된 출력을 생성하며, 더 빠르게 E2B보다 효율적으로 추론하기 때문입니다.
26B MoE와 31B는 서버 GPU를 사용하는 사람들에게 적합합니다. 4090이나 A100을 가지고 있다면 놀라운 성능을 보입니다. 게임 그래픽카드를 가지고 있다면 무용지물입니다.
나는 Shelfie를 위해 E4B를 선택했고, 그것이 올바른 결정이었다. 열한 책, 전체 메타데이터, 개인화된 추천 — 모두 제 집의 실험실에서 무료로 작동한다.
E4B는 Gemma 4 가족의 숨겨진 영웅이다. 벤치마크는 이를 알려줄 수 없다. 실제 사용은 그렇다.
Shelfie를 시도해보세요: github.com/scastile/shelfie












