인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
오픈 모델과 소아프리카 지역
ATMR · 2026-05-25 · via DEV Community

이것은 Gemma 4 챌린지에 대한 제출물입니다: Gemma 4에 대해 쓰다

현재 유행하는 안심할 만한 이야기가 있으며, 그 내용은 이와 같습니다: 기술이 마침내 도래했습니다; 이제 오픈되었고 무료이며, 이로 인해 이전 컴퓨팅의 여파 속에서 뒤처져 있던 세계의 일부가 마침내 따라잡을 수 있습니다. 다른 사람의 인프라가 당신에게 도달할 때까지 기다리는 것이 더 이상 없으며, 신용카드가 없는 상태에서 API 키를 갈망하는 것이 더 이상 없습니다. 그 이유는 지능이 이제 폰에 맞춰 있기 때문이며, 한때 영원하게 느껴졌던 간극이 스스로 좁아지기 시작합니다.

직접 말씀드리자면 그 이야기를 믿는다고 생각합니다. 그 이유는 다음 내용의 대부분이 그 이야기를 복잡하게 만들 것이라고 생각해서, 그 복잡함이 비관주의로 오해되지 않기를 바라기 때문입니다. 그 이야기는 진정으로 참입니다. 그것은 한계까지 참하며, 한 주 전에 제가 Gemma에 대한 이야기를 멈추고 실제로 그것을 사용하기 시작했을 때, 그 한계가 어디에 있는지와 그 한계의 가장자리에 서 있는 것은 어떤 느낌인지 알게 되었습니다.

이런 도구를 실제로 누가 사용할 수 있을지에 대한 질문은 제게 새로운 것이 아닙니다. 네 년 전에 저는 시에라리온의 젊은이들이 기술 분야에 뛰어들어야 하는 이유에 대해 TEDx 강연을 했고, 올해 초에 그 강연이 기억 속에서 다시 나왔습니다 제 스마트폰에 있습니다. 다시 보면서, 당시에 질문했던 질문을 더 이상 하고 싶지 않다는 것을 깨달았습니다. 지금은 솔직해 보이는 질문은 더 어려운 질문이었습니다: 기술이 교육 기관, 교육과정, 그리고 그들을 기술에 대비시키기 위해 준비해야 할 일자리 시장보다 빠르게 발전하고 있을 때, 청소년들은 어떻게 자신을 정 hướng해야 하는가? 이 재정의된 질문은 Orient이라는 이름의 기원입니다. 이 질문을 생각하는 중간 어딘가에서, 나는 이후로 떨쳐낼 수 없는 한 줄을 적었습니다: 지리적 환경은 여전히 접근성을 결정하며, 인터넷은 개방성을 약속하기도 합니다. 당시에는 이 아이디어로 믿었고, Gemma와 함께 만드는 과정을 통해 이것이 사실로 믿게 되었습니다. 나는 이 전환이 일어난 정확한 순간에 다시 돌아올 것입니다.

하지만 오리엔트는 논문이나 제품으로 시작하지 않았습니다. 나 자신에게 필요한 것이었습니다. 많은 것을 읽었는데, 기사와 에세이, 사람들이 나에게 전달해주는 것들, 그리고 그것들을 받아들일 때보다 훨씬 빨리 잊어버립니다. 그래서 내가 원했던 것은 내가 읽을 때 옆에 있을 수 있는 것이었고, 내가 직접 이해하고 앞에 있는 것을 붙잡을 수 있도록 도와주는 것이었습니다. 왜냐하면 이 시대의 진정한 기술은 어떤 특정 도구나 사실이 아니라 배우는 방법을 배우는 것이며, 그것에서 자라나는 주체성의 감각이라고 믿기 때문입니다. 또한 내 친구들과 끊임없이 말다툼을 하고, 거의 모든 것에 대해 말다툼을 하고 싶었는데, 진정으로 나만의 것이어야 할 것이었고, 내 디바이스에서 살아있는 개인적이고 지역적인 것이었으며, 내가 마음에 들 때마다 생각하고 말다툼을 할 수 있는 것이었고, 먼저 누군가의 서버에서 허가를 받지 않고도 필요 없었습니다. 하지만, 이 모든 것에서 놓치기 쉬운 나의 세부 사항이 있는데, 그것은 대부분의 날 좋은 와이파이를 가지고 있고 전혀 어려운 경우가 아니라는 것입니다. 그럼에도 불구하고, 네트워크가 조용히 멎거나 전력이 끊어질 때 환경에 걸려서 나까지 걸려들곤 합니다. 그 순간, 다른 사람의 서버에서 살아있는 도구는 단순히 사라집니다. 내가 좋은 날에 그런 일이 벌어질 수 있다면, 내가 사는 곳에서 많은 사람들이 일상적인 현실로서 그것이 일상적인 일상 현실이라는 것을 알게 되면 놀랄 것입니다.

그러다 한밤에 내 이야기와는 전혀 상관없는 일이 되었다. 나는 페이퍼타운에 있는 카페에서 일할 때, 마주한 테이블에 대학생 커플이 몇 명 있는 것을 보았다. 분명히 단기간에 공부하는 모습이었는데, 마치 한밤에 전체 교과서를 머리에 쏟아부으면서 공부하는 것처럼 보였다. 우리는 이야기가 나왔고, 나는 자주 사용하는 NotebookLM을 보여주려고 했다. 아이디어는 메모를 넣으면 팟캐스트나 마인드맵이나 짧은 비디오를 돌려주는 것이다. 같은 페이지를 다시 읽다가 단어들이 의미를 잃을 때까지 하는 것보다 실제로 참여할 수 있는 것이지. 그중 한 명은 좋은 스마트폰이 있었고 다른 한 명은 없었다. 나는 그들에게 URL을 주었지만, 카페의 인터넷 연결은 혼란스러웠기 때문에 fast.com을 실행하여 정확히 무엇을 사용하고 있는지 확인했다. 그 결과 80 킬비트每초로 나왔는데, 킬비트가 아닌 메가비트였고, 그 속도로는 도구가 효과적으로 사용할 수 없었다. 결국 나는 그들을 제 스마트폰 와이파이에 연결했다; 우리는 바로 테이블에서 그들의 메모의 오디오 버전을 생성했고, 그 뒤에 그들은 집에 가는 길에 그것을 듣겠다고 했다.

그 후에 나는 함께 있었고, 위아래로 쌓인 두 개의 분리된 간극을 보았다. 첫 번째 것은 그들이 그런 도구가 존재한다는 사실조차 몰랐다는 점이었고, 그것이 진정으로 그들의 학습 방식을 바꿀 수 있는 것이다. 두 번째 것은, 더 무거운 것이었지만, 그들이 알게 되는 순간 연결성이 그들의 얼굴 앞에서 문을 밀어버렸기 때문에, 알게 되었다는 것은 충분하지 않았고 네트워크가 최종적인 결정을 내렸다. 그것은 내가 누구를 위해 무엇을 만들어야 하는지, 그리고 왜 그런지를 제대로 이해한 오후였다. 내가 만들어야 할 것은 좋은 커피 와이파이를 놓고 논쟁할 만한 현명한 것은 아니었고, 두 사람과 같은 학생들을 위한 학습 동반자를 만들어야 했다. 이는 개방형 모델에 기반하여 스스로의 장치에서 작동하며 서버가 루프에 없고 휴대폰에서 아무것도 나가지 않으며, 신호가 없는 일요일과 완전한 바와 같은 화요일에 동일하게 작동한다. 여기서 빠져있는 것은 도구에 대한 접근성이 아니었고, 도구는 무료이고 다운로드만 하면 된다. 빠져있는 것은 노출과 사용이며, "사용"은 그것이 사람들이 사는 조건 속에서 실제로 작동할 때만 발생한다.

이것은 불안한 학생들만이 따르는 특정 습관이 아닙니다. Andrej Karpathy는 이러한 모델들이 어떻게 구축되는지에 대해 누구보다 가까이에서 알고 있으며, 최근에는 언어 모델과 함께 블로그와 기사 그리고 전체 책의 장을 거의 모든 것을 읽는 습관에 빠져들었다고 설명했습니다.는 자신만의 첫 번째 패스를 하고, 두 번째 패스에서는 자신에게 설명하고 요약하라고 요청하며, 세 번째 패스는 질문과 답변을 오가며 돌아가는 과정을 거칩니다. 그는 자신이 단순히 한 번 읽고 넘어간 것보다 더 깊이 이해할 수 있다고 말했습니다. 또한 이것이 전체 기술의 최상위 사용 사례 중 하나가 되고 있다고 말했습니다. 그것을 읽었을 때 저는 그렇다, 정확히 그것이 맞다 생각했습니다. 왜냐하면 그것이 바로 저가 금요일 시험 전 토요일 밤 트리스턴에 있는 학생에게 들어줄 바로 그 것인 것 때문입니다. 모든 것의 가장 강력한 일상적인 사용 사례는 사실 가장 간단한 것 중 하나인데, 자신의 자료와 함께 애매한 것을 도와 진정으로 이해하게 하는 것입니다.

그래서 저는 그 아이디어의 디바이스 내 버전에 완전히 몰두했습니다.

왜 제가 가장 작은 모델을 선택했는지

Gemma 4 E2B에 대해 특히 짧게 말씀드리자면, Gemma는 여러 크기로 제공되며 이는 우연이 아니라 고의적인 선택이었습니다. E2B는 그중에서 가장 작은 모델로, 20억 개의 파라미터가 휴대폰에서 실행되도록 축소된 경계 모델입니다. 그 위에는 더 크고 더 능력 있는 버전들이 있습니다. 저는 그런 것들을 사용하지 않았고, 이유는 이 글의 전체 논점을 작게 만든 것입니다. Orient이 실제로 하는 일은 학생이 자신의 노트와 자격시험을 하도록 도와주고, 긴 문서에서 요약을 추출하고, 학생이 공부할 때 옆에서 앉아주는 일입니다. 이는 경계 규모의 모델이 필요하지 않습니다. 충분히 그런 일을 잘 해결할 수 있는 가장 가벼운 모델이 필요합니다. 왜냐하면 제 사용자들이 가지고 있는 하드웨어에서 모델 크기는 실제로 능력의 문제가 아니라 누가 배제될지의 문제입니다.

크기가 한 단계 커질 때마다 바닥이 조금 더 높아지며, 더 많은 메모리, 더 긴 다운로드 시간과 더 많은 배터리를 요구하고, 조용히 가장 저렴한 전화기를 몇 대 더 밖으로 내보냅니다. 따라서 E2B를 선택하는 것은 여전히 작업을 수행할 수 있는 가장 가벼운 것을 선택하는 것을 의미했으며, 더 크게 만들면 필요하지 않은 기능을 얻을 수 있지만, 내가 만들고 있던 사람들을 배제하는 대가를 치르게 될 것이라는 것을 이해하고 있습니다. 함정은 다음 섹션에서 설명할 것이며, 가족 중 가장 가벼운 모델조차도 바닥이 있습니다.

추월 이론이 바닥과 만나는 곳

여기서 말하는 것은 위로하는 이야기가 보통 빼놓는 부분인데, 그것은 개방형 가중치는 무료지만 그것들을 실행하기 위해 필요한 실리콘이 무료하지 않다는 것입니다.

E2B는 정말 대단한 공학적 작품이지만, 여전히 약 2.59 기가바이트의 파일이며, 실제로 실행하려면 폰이 모델과 작동 상태를 저장하기 위해 최소 1.3에서 1.7 기가바이트의 자유 메모리가 필요합니다. 그리고 그것은 자유 메모리인데, 운영체제가 폰을 작동하기 위해 필요한 1.5 또는 2 기가바이트를 이미 사용한 후 남은 메모리입니다.

학생들이 실제로 들고 다니는 전화를 상상해 보세요. 이는 핵심 모델이 아니라 총 3~4기가바이트의 메모리를 가진 중급 안드로이드 기종이며, 백만 달러 정도로 구매할 수 있는 종류입니다. 여기의 시장이 그렇기 때문입니다. 계산을 해보면 단순히 맞지 않습니다. 운영체제가 자신의 부분을 차지하고 모델이 자신의 부분을 요구하기 때문에 남는 것이 부족합니다. 따라서 전화는 할 수 있는 유일한 현명한 일을 하며, 모델을 로드하지 않거나 로드한 후에도 자기 자신을 보호하기 위해 중단됩니다.

개방형 모델은 포용을 강조하지만, 그들이 진심인지는 전혀 의심하지 않습니다. 하지만 지금 이곳에는 단어 아래에 조용한 주의사항이 존재하며, 더 나은 하드웨어를 가진 곳에서는 쉽게 놓치기 쉬운 미묘한 배제 요소입니다. Gemma를 자체적으로 원활하게 실행할 수 있는 폰, 즉 8기가바이트 메모리와 이런 종류의 작업에 전용 칩을 가진 폰들은 대부분 이미 거의 모든 것에 접근할 수 있는 사람들에게 속해 있습니다. 무료이고 개인적인 오프라인 학습 도구에서 가장 큰 이득을 얻을 수 있는 학생은 매우 자주 그 학생의 폰이 이를 실행할 수 없는 학생과 동일한 학생입니다.

그것은 악당의 일이 아니라 단순한 물리학이며, 그것은 여전히 현실이기 때문에 그렇지 않다고 가장하려면, 제가 돕기로 결심한 사람들 중 가장 부유한 소수에게 제품을 조용히 만드는 것이었을 것이고, 나는 포용적이라고 스스로에게 말해야 했다. 그런 일을 하고 싶지 않았기 때문에, 나는 그 기계를 제대로 이해하려고 했다.

전화기에서 모델을 실행하는 것의 의미

이것은 그 주간 동안 내가 어렵게 배워야 했던 부분이기 때문에, 그것을 반복하게 될 너희의 귀찮음을 덜어드릴 수 있도록 시도해 봅시다.

많은 사람들이 시작하는 곳에서 시작했습니다. 구글의 자체 AI Edge Gallery 안에서입니다. 이것은 구글이 오픈 소스 앱을 발표하여 디바이스 내 생성형 AI가 할 수 있는 일을 보여주기 위해 만든 것입니다. 그것을 놀리는 것 이상으로, 그것을 읽고 에이전트와 함께 저장소를 거치며 그것이 진정으로 어떻게 연결되어 있는지, 모델을 어떻게 로드하고, 위에 놓인 기술을 어떻게 처리하는지를 이해했습니다. 그래서 제 에이전트와 나는 아키텍처를 배우고 제가 만들고 있는 것에 맞는 부분을 적응시킬 수 있도록했습니다. 제가 발견하고 그 주간의 제 참조 노트에 적은 것은, Gemma 4를 로드하는 데 사용하는 경로는 AICore라는 것을 통해 Google의 ML Kit GenAI Prompt API를 거칩니다. 이것은 모델에 접근하는 시스템 수준의 구글 관리 방식입니다.

그 경로의 매력은 현실이며, 주로 배포에 관한 문제입니다. 당신이 자신의 앱 안에 2.5기가바이트 모델을 포함하는 대신, 당신의 앱이 3기가바이트 다운로드로 변해서 계량 연결을 사용하는 누구도 결코 수락하지 않을 것이라는 대신, AICore는 운영 체제가 시스템 수준에서 한 번 모델을 다운로드하고 유지하도록 허용하여, 휴대폰에 있는 모든 앱이 이를 공유할 수 있도록 하여 당신의 자신의 앱이 작게 유지합니다. 제가 처음 이해했을 때 정말로 가치 있는 일이며, 처음 이해했을 때 흥분했습니다.

하지만 저는 조용히 가정했던 것이 잘못되었음을 깨달았고, 명확한 수정을 통해 그것을 인식할 수 있었습니다. 저는 Google의 GenAI 서비스를 통해 이동한다고 생각했습니다. 모델이 실제로 휴대폰에서 계산되지 않고, 어딘가 다른 곳에서 무거운 일이 일어나고, 학생이 들고 있는 작은 휴대폰이 그것을 바라보는 창이 되는 것이라고 생각했습니다. 그렇지 않은 방식으로 모든 것이 작동합니다. 모델이 AICore를 통해 휴대폰에 도달하든 다른 경로를 통해 도달하든, 추론은 여전히 휴대폰 자체의 실리콘이나 프로세서, 그래픽 칩, 또는 전용 AI 코어에서 실행되며, 휴대폰의 전력을 사용하고, 생각할 때 휴대폰을 따뜻하게 하고 메모리를 소모합니다. GenAI 서비스는 저장 및 배포를 해결합니다. 즉, 모델이 어떻게 장치에 올라가고 어디에 저장되는지를 해결합니다. 하지만 계산 및 배터리와는 전혀 관련이 없습니다. 모델을 감싸고 서비스를 통해 라우팅하는 것은 실행되는 엔진을 어떻게 되돌리고 어떻게 도달하는지만 변경할 뿐, 실제로 생각이 일어나는 장소는 변하지 않습니다. 생각이 일어나는 곳은 학생의 손 안에 있으며, 매번 그렇습니다.

그리고 구글은 약한 프로세서가 20억 개의 매개변수 모델을 실행하면 폰이 얼어붙거나 멈추게 될 것을 완벽하게 알고 있기 때문에, 관리된 경로는 통제됩니다. 현재 개발자 프리뷰에서는 최근의 능력 있는 기기의 허용 목록에 제한되어 있으며, 이것이 바로 추상적인 논거가 나에게 구체적인 사실로 변한 지점입니다. 저는 iPhone을 사용하고 있고 Orient는 안드로이드 앱이므로, 제 기기에서 이를 테스트할 수 없었고, 친구의 삼성 갤럭시 S22를 빌려왔습니다. 이는 정말로 우수한 하드웨어를 가지고 있도록 하는 것을 목적으로 했습니다. 하지만 빌린 최상위 기기도 구글의 AICore 허용 목록에 없었으므로, 관리된 경로는 제게 닫혀 있었습니다. 저렴한 스마트폰이 아니라 현재의 고가하고 실제로 강력한 기기에 있었지만, 바로 내 책상에 놓여 있는 최상위 기기에 문이 닫혀 있었습니다. 그것은 올해 초에 적은 지리적 요소가 여전히 접근을 형성하고 있으며 인터넷이 개방성을 약속한다고 해도 그렇다는 생각을 멈추게 한 지점이었고, 이제는 우에스터랜드의 최상위 기기에 문이 닫혀 있는 사실이 되었습니다.

갤러리는 실제로 단일 스위치 뒤에 두 가지 경로를 제공하며, AICore 경로는 읽고 있던 것이고, 두 번째 경로는 LiteRT-LM을 통해 모델을 실행하는 것이며, 나는 그 두 번째 경로로 이동했고, 구글의 디바이스 내부 실행 환경이며, 우연히도 이제 이를 위해 권장하는 경로인 것입니다. LiteRT를 사용하면 모델을 직접 패키징하고 실행하며 시스템이 나에게 모델을 주기를 기다리는 대신, 이는 나를 허용 목록 뒤에서 제외시키고 빌린 S22에서 앱이 실제로 실행되도록 합니다. 거래는 2.5 기가바이트 모델이 다시 사용자가 다운로드해야 하는 것으로 나타나며, 이는 전체 연결 문제를 다시 가져오고, 카페에서 저가 학생들을 물리치게 한 동일한 문제입니다. 그 다운로드를 사람들에게 더 깔끔하게 전달하는 방법이 있습니다. 구글 플레이 자체의 자산 전달을 통해, 이는 플레이 콘솔 개발자 계정과 함께 오는 작은 한 번의 비용이 필요합니다. 하지만 이것도 오직 배포 문제이며, 파일이 휴대폰에 도달하는 방법이며, 계산은 항상 그 자리에 남아있습니다. 저는 Orient에서 모델 접근을 단일 인터페이스 뒤에 구축했으며, 앱이 사용 가능한 엔진으로 경로를 설정할 수 있게 하는 틈이며, 나머지 코드가 알 필요가 없거나 신경 쓰지 않도록 하여, LiteRT가 오늘 일을 실행하고, 관리되는 AICore 경로가 나중에 디바이스에서 허용하는 순간에 이를 대체할 수 있도록 합니다. 그러한 설계 방식의 조용히 중요한 결과 중 하나는 맥락 창, 즉 모델이 한 번에 들고 있을 수 있는 자료의 양이 고정된 상수가 아니라 앱이 경로를 통해 어떤 제공자로 라우팅되는지에 따른 속성이며, 모델이 작업할 수 있는 예산이 경로에 따라 넓거나 좁아질 수 있으며, 앱에 영구적으로 깎여 들어가는 것이 아닙니다.

배터리는 모든 것 중에서 제가 가장 오래 남아있었던 부분입니다. 이곳에 사는 학생들에게 배터리 수명은 화폐와 같아서, 단 한 번의 학습 세션으로 인해 눈에 띄게 배터리가 빠져서 스마트폰이 너무 뜨거워 편안하게 들지 못하게 되면, 그들은 도구를 사용하지 않을 것입니다. 그 이유는 작동하지 못했기 때문이 아니라, 그들이 지출할 수 없는 것을 지출해야 했기 때문입니다.

눈에 보이지 않는 예산

하드웨어 아래에 두 번째 한계가 기다리고 있었고, 그것은 내가 심각하게 잘못 이해했던 것이었는데, 그것은 맥락 창입니다.

문맥 창을 기억 장치로 생각했지만, 전혀 그렇지 않다; 그것은 각 호출당 예산이다. Gemma 4 E2B에 대해 그 예산은 약 128,000 토큰 규모이며, 이 단일 숫자는 모델의 한 번의 실행에 필요한 모든 것을 동시에 담아야 한다: 지시사항, 입력한 소스 자료, 아직까지 발생한 대화, 그리고 가장 중요한 것은 모델이 답변을 작성하기 위해 필요한 공간, 모든 것이 동일한 풀에서 가져와 동일한 천장으로 제한된다. 모델 자체는 상태가 없으므로, 한 번의 호출에서 다음 호출로 기억하지 않는다. 주어진 실행에서 모델이 알고 있는 유일한 것은 당신이 예산에 채워 넣은 정확한 내용뿐이다.

그것은 물릴 때까지 추상적이게 남아있다. 학생이 자신의 전체 강의 노트 PDF를 앱에 드롭하여 그것에 대해 퀴즈를 풀 수 있도록 상상해보고, 그 노트들이 자체적으로 창 전체를 채울 만큼 충분히 크다고 상상해보라. 이제 실제 역학적 교환, 질문과 답변과 후속 조치에 남은 예산이 거의 없다. 이것이 바로 앱을 엽니다고 하기 위해 열었던 정확히 그것인데, 소스는 대화가 살아있을 필요가 있는 공간을 먹어 치우고 말았기 때문이다.

그리고 소스는 모두 같은 비용이 아니라, 정말 놀랍게 생각했던 부분이었다. 텍스트는 가벼워서, 대략 토큰당 4개의 문자로 구성된다. 하지만 교과서의 사진 페이지는 픽셀로 측정되지 않습니다; 시각 인코더를 통해 1000/2000개의 토큰으로 변환됩니다. 그리고 오디오는 더 무겁다, Gemma의 디바이스 오디오는 분당 약 375개의 토큰으로 작동하므로, 47분의 강의 녹음은 이미 대략 18,000개의 토큰이며, 3시간 녹음은 한 파일에서 전체 창의 절반을 삼킬 수 있습니다. 세 개의 일반 텍스트 PDF는 예산에 거의 영향을 주지 않지만, 한 장의 긴 음성 메모는 직접 천장을 넘어서는 것입니다.

제가 만들어야 했던 것에서 제약 조건이 어떻게 나타나는지

나는 모든 것을 상세히 설명하고 있으며, 이유는 Orient의 형태, 그 아래에 놓인 실제 결정이 제가 제공할 수 있는 가장 명확한 증거인 것 때문입니다. 모델들이 개방될 때 억세지는 것이 사라지지 않고 단순히 한 단계 아래로 이동했으며, 그것이 정확히 어디에 내려앉았는지는 제가 그 주위에 강제로 만들어야 했던 것을 보고 알 수 있기 때문입니다.

창의 제한을 가져오십시오. 모델은 실행 사이에 아무것도 가지지 않고 한 번에 많은 것을 저장할 수 없기 때문에, 너무 크게 들어맞지 않는 재료를 처리하는 자연스러운 방법은 작고 재사용 가능한 것으로 정제하여 작업하고, 그 다음에는 원본 대신 그것을 계속 가져오는 것입니다. 당신은 매번 400 페이지의 교과서를 모델에 다시 넣지 않습니다. 그럴 수 없습니다. 그것은 훨씬 너무 큽니다. 대신 당신은 중요한 장을 한 번에 컴팩트한 노트로 요약하고, 그 이후로 당신이 하는 모든 일, 퀴즈와 추가 질문과 나머지 일은 그 작은 노트가 아닌 그 뒤의 거대한 책에 작동합니다. 큰 출처를 입력하고 작은 재사용 가능한 조각을 출력하며, 당신은 작은 조각에서 앞으로 구축합니다. Orient는 정확히 그것을 중심으로 구축되어 있으며, 당신이 생산하는 모든 것이 나중에 공부할 수 있는 것으로 되고, 모든 것이 전화에 살아있는 개인 도서관을 통해 연결됩니다. 저는 처음에 사람들이 실제로 배우는 방식과 관련된 이유로 그 디자인을 선택했고, 창의 제한은 나에게 동일한 아키텍처에 대해 두 번째이자 완전히 독립적인 이유를 주었는데, 128,000 토큰 장치에서 큰 재료가 사용 가능한 유일한 방법이라는 것입니다. 당신이 두려워했던 제약과 이미 믿었던 디자인이 동일한 방향으로 나타났을 때, 그것은 당신이 올바른 것을 구축하고 있는 것임을 알 수 있는 가장 강력한 신호입니다.

계산 제한은 매우 명확하게 나타납니다. 모델을 감싸거나 전달하는 방법이 스마트폰에서 생각을 이동시킬 수 있는 방법이 없기 때문에, 진정으로 할 수 있는 것은 작업을 클라우드로 보내는 것뿐이며, 따라서 Orient이 구축된 원칙은 로컬 우선이 아니라 로컬만이 아닙니다. 앱은 먼저 장치에서 모든 작업을 시도하려고 하지만, 그 이유는 프라이버시와 운영 비용이 없으며 오프라인 작업을 약속하는 곳이기 때문입니다. 하지만 작업이 스마트폰으로서 너무 무거운 경우, 앱은 단순히 학생의 얼굴에 실패하지 않습니다. 그는 우아하게 작업을 이관하고, 연결이 충분히 좋아서 그것을值得할 때, 더 풍부한 클라우드 도구로 안내된 이관을 포함합니다. 나는 그 카페에서 로드할 수 없었던 NotebookLM과 같은 것을 준비하고 올바르게 가리킨 것이 아니라, 내 앱 내에서 희석된 모방으로 제안된 것입니다.

모든 것의 아래에는 대부분의 신생 시장을 위한 구축에 대한 글에서 조용히 건너뛰는 진실이 존재한다. 그것은 여기에는 중립적인 선택지가 없다는 것이다. 당신이 선택할 수 있는 모든 건축은 어떤 사람들을 위해 서비스하지만 다른 사람들을 포기한다. 만약 당신이 완전히 오프라인을 유지하려고 한다면, 당신은 프라이버시 순수주의자에게 플래그십 폰을 제공하지만 중급 하드웨어를 사용하는 다수의 사람들을 포기한다. 만약 당신이 완전히 클라우드로 가려면, 저렴한 폰에 도달하지만 데이터 예산이 없는 학생을 포기하고, 전적으로 프라이버시를 포기한다. 만약 당신이 하이브리드로 가면, 제가 하는 방식대로, 당신은 가장 많은 사람들에게 도달하지만, 전혀 폰 밖으로 나가지 않는다는 깨끗한 약속을 흐리게 만들고, 시작할 때 당신이 깃발을 세웠을 수 있는 정확한 약속을. 당신은 트레이드오프를 피할 수 없다. 당신은 오직 그것을 의식적으로 선택할 수 있으며, 가장 적은 사람들이 밖에 있는 구조를 선택하고, 정확히 누가 그것이 여전히 누구인지에 대해 눈을 뜨고 있을 때만 그렇다.

끝에서, 제품 전략이 바뀌는 것입니다

모든 것에서 저가 교훈을 뽑아내야 한다면, 그것은 모델이 성공을 결정하는 것이 아니다는 것입니다. 모델은 중요하며, Gemma가 휴대폰에서 실행할 수 있을 만큼 열려 있고 작아서 이 모든 것이 처음부터 가능하게 만드는 것이 진정으로 바로 그것입니다. 하지만 그 자체로는 아무리 가까우지 않습니다. 사실 결정하는 것은 그것을 둘러싼 제품 전략이며, 이 한 주가 저에게 가르쳐준 모든 것을 돌아보면, 그 전략은 동시에 유지되어야 할 세 가지 이해의 바탕 위에 서 있습니다.

첫째는 모델 자체를 이해하는 것입니다. 이게 바로 당신이 어디에 의존할 수 있는지, 어디에 맞설 수 있는지, 혹은 전혀 회피해야 하는지를 알려주는 것입니다. 그것을 배우는 방법은 데모가 암시하는 모양이 아니라 실제 모양과 함께 일하는 것입니다. 제가 창이 예산이 아니라 메모리라는 것을 배우고, 오디오가 텍스트보다 무겁다는 것을 배우고, 관리된 경로가 허용 목록 뒤에 막혀 있다는 것을 배우고, 어떤 씨프한 포장 움직임이라도 컴퓨팅을 휴대폰에서 옮길 수 없다는 것을 배웠습니다. 실제 경계를 알면, 모델이 스스로 수행할 수 있는 작업과 어디에 맡겨야 하는 작업을 알 수 있습니다.

두 번째는 사용자를 이해하는 것인데, 이게 실제로 해결할 가치가 있는 문제는 무엇인지 알려주고, 그래서 중요한 것을 만드는 것이 아니라 무대에서 인상적인 것을 만드는 것이 아닌지에 대한 것입니다. 나는 이것을 정말로 커피숍에서 두 학생을 보면서 이해하지 못했습니다. 이 학생들은 이 도구들이 할 수 있는 정확히 필요한 것을 필요로 했지만, 그것에 도달할 수 없었고, 그 순간에 전기 단락이 있는 사람들에게 배터리는 사양 시트에 있는 숫자가 아니라 신중하게 소비해야 하는 화폐라고 배웠습니다. 당신이 실제로 누구의 하루에 영향을 미치는지 알지 못하면 트레이드오프를 잘 설계할 수 없습니다.

세 번째는 구축하는 환경과 인프라를 이해하는 것입니다. 이것이 바로 사물이 당신의 손을 떨어뜨렸을 때 무엇이 생존할지 알려주는 것입니다. 그것은 카페에서의 80 Kbps, 오가는 전력, 실제 돈을 쏟는 사람들에게 비용이 드는 저장소와 데이터 그리고 여기의 학술 활동이 이미 WhatsApp을 통해 이루어지는 사실입니다. 설계는 화이트보드에서 완벽하게 올바른 것일 수 있지만, 여기서 처음 만나는 그 어떤 것과도 만나면 처음부터 죽을 수 있습니다.

세 가지 모두 선택 사항이 아니며, 어느 것 하나도 독립적이지 않습니다. 제품 전략은 세 가지를 동시에 쥐고 그것들이 강요하는 거래를 하며, 스마트폰에서 어떤 것을 실행하고 클라우드로 어떤 것을 보내고, 스스로 구축하고 무엇을 위임하고, 먼저 누구를 서비스하고 나중에 누구를 도달하는 것을 결정하는 행위입니다. 이것은 내가 그 단어들을 가지기 전부터 믿어 온 것의 더 깊은 의미입니다. 그것은 경계 사례가 제품에서 분산되지 않는다는 것입니다; 그것은 제품입니다. 경계에서 전략은 이것이 실제로 누구에게 작동할지를 바꾸는 것입니다.

내가 아직 결정하지 않은 한 가지

그리고 전략이 가장 중요한 부분이기 때문에, 제가 아직 완료하지 못한 한 부분에 대해 솔직하게 말하고 싶습니다. 왜냐하면 이 부분에 대해 쉽게 끝맺음을 할 수 있지만, 실제로 이를 이루지 못했기 때문입니다. 원칙을 알고 있으며, 로컬 우선으로 우아하게 클라우드로 전환하는 원칙이 맞다는 것도 알고 있습니다. 하지만 여전히 결정하지 못한 것은 실제로 경계선이 어디에 위치해야 하는지, 스마트폰에 남겨야 할 양은 얼마가 되어야 하고, 외부로 라우팅되어야 할 양은 얼마가 되어야 하는지, 특히 디바이스 범위의 가장 하위에서는 LiteRT조차 어려워하고 클라우드가 더 이상 럭셔리가 아닌 실제로 작동하는 유일한 것이처럼 보이는 지점입니다. 바로 이것이 몇 초 전에 설명한 트레이드오프의 종류입니다. 실제 하드웨어에서 측정한 것이 아니라 다이어그램에서 측정한 것으로 하는 종류의 트레이드오프이며, 저는 여전히 이를 중간 단계에서 해결하고 있습니다. 이미 해결했다고 쓴다면 솔직하지 않을 것이므로, 진정으로 그 자리에 남겨두겠습니다. 그것은 열린 상태입니다.

다음 건축가가 이 층을 밟을 때를 위해

이 글을 읽고 있다면, 진정한 것을 빌드하기 위해 개방형 모델을 사용하여, 내가 지금 지금 건축 중인 것과 같은 곳을 위한 것을 준비하고 있으며, 당신이 내가 밟았던 것과 같은 층으로 들어왔을 때, 내가 당신에게 말하고 싶은 것이 있습니다.

첫째, 이것이 더 나아지고 느리지 않아야 합니다. 디바이스 내 AI가 신경 쓰는 가치 있는 전체 이유는 이미 우리 가방 속에 있는 휴대폰들이 올해는 작년에 할 수 없었던 일들을 하고 있고, 새 하드웨어를 사야 하는 사람이 없다는 것입니다. 맥락 창이 넓어지면서 모델들이 요구하는 컴퓨팅은 감소하고 있으며, 로컬에서 이를 실행해야 하는 상위 모델 선호 경계선은 매 몇 달이 지나면 중급 모델로 조금 더 미끄러지고 있습니다. 제가 설명한 배제는 현실이지만, 저는 진심으로 이것이 일시적인 것이라 믿습니다. 그래서 오늘 그것이 어디에 있는지만 아니라 바닥이 향하는 곳을 위해 구축하세요, 그러나 당신이 출시할 때에는 이미 이동했을 것입니다.

두 번째 것은 이 레이어가 지금 당장 당신을 막고 있고, 바닥이 떨어지기를 기다릴 수 없다면, 오픈 월드 내에서는 다른 옵션이 있습니다. 현재 Gemma가 가지고 있는 것보다 더 큰 컨텍스트 윈도우와 가벼운 푸인트를 가진 다른 오픈 모델들이 있으며, 특히 중국에서 나오는 몇몇 연구실들은 정확히 이러한 차원에서 매우 잘 나아가고 있으므로, 전체 제품이 이번 분기에 약한 폰에서 로컬로 실행되어야 한다면, 커밋하기 전에 제대로 둘러보는 것이 진정으로 가치가 있을 수 있습니다.

나는 봤고, 여기서 남으려고 선택했으며, 그것은 실수라기보다는 고의적인 결정이었다. 나는 의도적으로 Gemma와 더 넓은 Google 생태계에 걸고 있으며, 그 이유는 제 하드웨어에 대해 첫 날부터 완벽하지 않기 때문이 아니라, 앞으로 앱이 해야 할 다른 일들과 전체 스택이 제가 Orient을 다음으로 가져가는 방향에 어떻게 맞물리는지 때문이다. 그것은 제 자신의 로드맵에 대한 걸림이 아니라, 그것이 유일한 현명한 답변이라는 주장이 아니다. 당신의 것은 분명 다른 곳을 가리킬 수 있으며, 그것은 완전히 괜찮다. 포인트는 당신이 어떤 모델을 선택하는 것이 아니었다. 포인트는 당신이 전체 바닥을 완전히 보고 있을 때 선택하고, 그것을 바닥 아래에 서 있는 사람들에게 진정으로 설계하는 것이다.

추격 이야기는 참 진실이다. 기술이 정말 도래했고, 정말 열려 있으며, 정말 휴대폰에 맞춰질 수 있다. 당신은 단지 사람들이 실제로 소유한 휴대폰을, 데모가 촬영된 휴대폰이 아닌, 위해 구축해야 하며, 지금까지 지리가 접근을 형성한다는 것을 솔직하게 남아야 한다. 인터넷이 개방성을 약속하면서도.