인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
Gemma 러너츠: 아무것도 몰랐어요. 지금은 노트북에서 AI를 실행하고 있어요.
Aditthya SS · 2026-05-24 · via DEV Community

 dev.to에서 Gemma 4 챌린지를 보았습니다. 참여하고 싶었습니다. 어떻게 시작해야 할지 전혀 모르겠었습니다.

챌린지 페이지를 열었는데, 첫 번째로 보게 된 것은 "Gemma 4 모델을 로컬에서 실행하세요"였습니다. 그 문장을 잠시 바라보았습니다.

로컬에서 실행하는 것은 정말 의미가 무엇인가요?

진정으로 AI는 어딘가 거대한 서버에서만 존재한다고 생각했다. 당신이 입력하면, 그것이 생각하고, 답장한다. 결코 그것이 어떻게 작동하는지 의문을 제기한 적이 없었다. 그저 작동했다.

그래서 나는 기본적인 질문을 시작했다. 정말 기본적인 질문들.

"로컬에서 무엇이 실행 중인가?"
"RAM이 부족하면 어떻게 되는가?"
"나만의 노트북을 모두를 위한 서버로 사용할 수 없는 이유는 무엇인가?"

그리고 천천히 — 질문 하나하나씩 — 이해하게 되었습니다.

이 포스트는 저가 배운 모든 것입니다. 몇 일 전에 존재했던 저를 위해 쓰여졌습니다.


"로컬에서 실행하는"이란 무엇인가요?

ChatGPT를 사용할 때, 당신의 메시지는 인터넷으로 갑니다, 멀리 있는 서버에 도달하고, 처리되어 돌아옵니다. 당신은 다른 사람의 컴퓨터를 사용하고 있습니다.

로컬에서 실행되는 것은 AI가 당신의 컴퓨터에서 실행되는 것을 의미합니다. 인터넷 없음. 월간 요금 없음. 다른 사람의 서버 없음. 그저 당신의 노트북이 생각하는 것.

그것이 전체 개념입니다. 제가 아무 이유 없이 머리로 복잡하게 만들었습니다.


Gemma 4는 무엇입니까?

Google에 의해 만들어진 AI 모델로, 그들은 자신이 다운로드하고 실행할 수 있도록 무료로 만들었습니다.

다양한 크기로 제공됩니다:

모델 크기 적합한 대상
E2B ~2 GB 스마트폰, 엣지 디바이스
E4B ~4 GB 대부분의 노트북
31B ~20 GB 강력한 데스크톱/서버

더 크면 더 지능적이지만 더 느리고 더 많은 메모리가 필요합니다.

일반적인 노트북의 경우 — E4B로 시작하세요.


제 설정

Windows에서 8GB RAM과 Nvidia GPU(4GB VRAM)를 사용하고 있습니다.

누군가가 터미널을 열고 다음을 입력하라고 하셨습니다.

nvidia-smi

전체 화면 모드 입력 전체 화면 모드 종료

그게 무엇을 보여줄지 몰랐습니다. 입력하고 Enter를 눌렀는데 다음과 같은 결과가 나왔습니다.

NVIDIA-SMI 566.07    Driver Version: 566.07    CUDA Version: 12.7

전체 화면 모드 입력 전체 화면 모드 종료

그것을 완전히 이해하지 못했습니다. 하지만 명백히 그게 좋다 — 당신의 GPU가 준비되었어요.

CUDA는 당신의 Nvidia GPU가 AI 소프트웨어와 통신할 수 있게 해줍니다. Ollama — Gemma를 실행하는 도구 —는 자동으로 당신의 GPU를 사용하여 속도를 높입니다. 모델의 일부는 GPU 메모리에 로드되고, 일부는 RAM에 로드됩니다. 당신의 그래픽 카드는 AI 추론을 시작합니다.

그것이 진정으로 멋지게 느껴졌어요.


Gemma 4 실행 방법 (3단계)

단계 1:Ollama를 다운로드하세요 từollama.com 다운로드

일반 설치 프로그램입니다. 다른 앱처럼 설치하세요.

단계 2:터미널을 엽니다하고 입력하세요:

ollama run gemma3:4b

전체 화면 모드로 입력하세요 전체 화면 모드 종료

이 모델을 다운로드하고 채팅을 엽니다. 끝.

3단계: 그것과 대화하세요.

>>> What is photosynthesis?
>>> Write me a Python function to sort a list
>>> You are a helpful doctor. Answer my health questions simply.

전체 화면 모드 입력 전체 화면 모드 종료

인터넷 없음. API 키 없음. 비용 없음. AI는 당신의 머신에서 실행 중입니다.


이 생각을 바꾸는 질문

어느 시점에 저는 — "나의 노트북을 서버로 사용하고 모두가 접근할 수 있게 하지 못하는 이유는 무엇인가요?"

내가 듣자마자 답이 명백해졌다:

  • 당신의 노트북은 24/7으로 작동해야 합니다
  • 집 인터넷은 수신 트래픽을 위해 설계되지 않았습니다
  • 10명이 동시에 접속하면 멈춥니다
  • 그리고 가장 중요한 것은 — 인터넷이 없는 사람들에게 아무것도 해결하지 못했습니다 마지막 지점은 예상치 못한 곳으로 나를 이끌었습니다.

내가 정말 흥분했던 일

인터넷이 없는 마을을 상상해보세요.

클라우드 API를 호출하는 챗봇은 그곳에서 아무런 쓸모가 없습니다. 신호가 끊기면 챗봇도 죽습니다.

하지만 Gemma E2B를 로컬에서 실행하는 작고 저렴한 기기가 커뮤니티 센터나 진료소에 놓여 있으면요? 인터넷이 필요 없습니다. AI는 물리적으로 그 장소에 존재합니다. 사람들은 로컬 WiFi를 통해 연결하고 답변을 받습니다.

그래서 Google은 작은 모델을 만들었다. E2B는 80-300달러의 하드웨어에서 작동한다. 모두가 클라우드 인터넷을 가지고 있지 않다. Gemma 4는 그 현실을 염두에 두고 설계되었다.

그때 "로컬에서 실행"은 개발자의 속임수처럼 느껴지지 않게 되고 실제 영향을 미치는 것처럼 느껴지기 시작했다.


API를 사용할 때기

인터넷을 통해 실제 사용자가 앱에 접근할 경우 — 랩톱에서 실행하지 마세요. Gemma API를 사용하세요.

가장 쉬운 방법은 OpenRouter입니다 — 하나의 계정, 하나의 API 키, Gemma 4에 무료로 접근. 설정에 대한 고민은 없습니다.

간단한 규칙입니다:

로컬 Ollama = 학습과 실험
API = 구축과 배포


그것이 전부입니다.

몇 일 전에 저는 모델이란 무엇인지 몰랐습니다. CUDA가 무엇인지 몰랐습니다. RAM이 왜 중요한지 몰랐습니다.

이제 Gemma 4가 제 노트북에서 실행 중이고 실제로 왜 그런지 이해합니다.

외부에서는 학습 곡선이 매우 가파로워 보였습니다. 정말 그렇지 않았습니다.

Ollama를 다운로드하세요. 하나의 명령어를 실행하세요. 작동하는 것을 보세요. 나머지는 그 이후입니다.


초보자라면 댓글을 남겨주세요 — 실행하는 데 도움이 되어 기뻐요.

오프라인 또는 농촌 지역사회와 Gemma로 무언가를 만드시는 건가요. 그에 대해 듣고 싶어요.