慣性聚合 高效追讀感興趣之博客、新聞、科技資訊
閱原文 以慣性聚合開啟

推薦訂閱源

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
开模与撒哈拉以南
ATMR · 2026-05-25 · via DEV Community

此乃投献于Gemma四挑战:论Gemma四

今有慰心之谈流传,略若此:技术终至;今既开且释,故前波计算所遗之世隅,可终得追及。不复待他人之基设至己,不复乞无卡之API钥,盖智已载于机,昔感永隔之隙,今自弥合矣。

吾欲直陈其言,吾信此故事,盖因后文将添枝加叶,吾恐此枝节之繁,易为世之讥诮。此故事本真不虚。然止于某点,约一日前,吾辍读Gemma之文,实乃始筑之,方知此点所在,及其立于边缘之感。

此工具谁得使用之问,非吾新遇。四载前,吾曾予TEDx演讲论塞拉利昂青年宜早涉科技,且今年早前尝言之。忆复现 在吾手机。回观之,吾悟不再欲问彼时之问。今觉诚者,乃一更难之问:当科技之速远超其应备之制、之程、之业时,少年辈当何所向?此重塑之问,乃"Orient"之名的由也。坐思其中,吾记一语,至今未忘:地缘仍限通途,虽互联网许以开放。昔吾信此为理,与Gemma共筑,方信此为实。后当细述此变之刻。

然东方之兴,非始于论著,亦非成于器物,实乃吾心之所向。吾读甚广,文篇论说,人所转发者,览之未久,多已遗忘。故欲得一物,可伴吾读,助吾洞悉所览,持守于心。盖吾渐悟,此世之真才,非在器用或事实,而在求知之能,及由此生发之自主之觉。吾常与友辩,事无巨细,欲得一物,可真属吾有,属吾个人,存于吾器,可随吾意思辨,无需先求他人服务器之许。然,吾之性情,于此易为人所忽,即吾日得佳网,非至困之人也。然犹吾,遇网默绝,电息之时,存于他人服务器之器,竟已失矣。若吾尚能遇此于吉日,则知吾所居之地,此乃寻常日常之实矣。

俄而一日,事已非我。吾方于弗里敦之咖啡馆工作,忽见邻案有二学子,显然为温习之状,几可睹其欲于夜尽间,将一书册尽纳于心。吾与之言,示以 NotebookLM,吾恒用之。其意乃投吾笔记,则返予一播客或心智图或短视频,可与之相接,非复重读同页,至字句失其义。其一有佳手机,其一无。吾予之URL,然咖啡馆之网路乱,遂速查 fast.com,观吾等所恃者何,其报八十千比特每秒,千比特而非兆比特,速若此,则此器几不可得。终吾以己之手机wifi与之联,于案上生成其笔记之音版,彼等遂言归途当听之。

吾后与之坐,见二隙叠置。其一,彼等未尝知有此器,能真易其学之方。其二,较重焉,既知之,联接则闭门于前,是知非足,而网络为终决。此乃午后吾悟所应为谁、为何之时。吾所当建者,非为争良咖啡网之巧器,乃为若彼二生之学侣,建于开放之模,运行于器,无伺于伺,无出于机,无信号之碍,周日与周二无异。所缺者,非器之得,器既自,可下载而得。所缺者,乃知与用,而用惟器实效于人所处之境时乃生。

此非仅焦虑学子所独逐之僻习也。Andrej Karpathy,近世与诸模型构建之道相契无间者,尝言其近染一习:凡诸文籍,博客文章,乃至全书章节,皆与一语言模型并读之。。其自为初览,复命之解而撮要,终则往复诘问以通之。彼云,所得之解,较之但阅一遭即弃,其悟更深,此乃此技之至要也。吾读之,欣然曰,诚如是。盖因吾欲持此技,授于弗里敦学子,考前一夕之用也。凡此技之最效于日用者,实乃至简之事,即与己之材料共坐,得智识之助,以真解之。

吾遂倾力于此意之设备版。

为何择其最小之模

论Gemma 4 E2B之所以独选之由,盖因Gemma种类繁多,此非偶然之择也。E2B乃其中最小者,为边缘模型,二十亿参数精简,以运行于手机而非数据中心,其上更有规模更大、能力更强之版本。吾未取之,其故实乃此篇全文之缩影。Orient实际所做之事,助学子自测于笔记,自长篇中提要,伴其左右以助研习,此等非需疆场之巨模。所求者,乃于彼事足够精良,且轻便至极之模也,盖因吾用户所持之硬件,模型大小非能力之问题,实乃取舍之问题。

每增一寸,门槛便又抬高一筹,需更多内存,更长下载,耗更多电,而悄然将数款廉价之机逐出其位。故择E2B,即择最轻之物以成其事,然知若求大,则所获之能非我所需,而所失者,乃我所为之人也。其弊,即下文所论,乃纵最轻之模,犹有底限焉。

捕追之理会于地

此乃慰藉之说所略,盖开重者虽无价,然运之所需之硅则非也。

E2B此工巧之器,诚令人叹为观止,然其文件之巨,约莫二点五九吉字节。欲运行之,则须有内存一至一点七吉字节之闲,方足以容此模型及其运作之态。此乃空闲之内存,即操作系统已取其一五或二吉字节以维手机运行之余。

今试想吾所造学子所用之机,非旗舰也,乃中端安卓,内存三四吉字节,百有余元即可购得,盖此间市场所宜也。若算其数,实难相合,盖操作系统取其分,模型亦索其分,无余以分。故机惟能行其智,或拒载模型,或载之而即崩,以自全也。

开模倡包容,吾不疑其意。然地面上隐有微辞,潜于其言之下,乃微妙之排斥,非善设备者易忽。盖能自运Gemma之机,内存八吉,专芯为之者,往往属已得近物之人。得免费私用离线研习之器者,其机常不能运之。

此非奸邪所为,实乃物理之理,虽非虚妄,然若伪饰之,则无异于暗为天下最富者造器,而自欺以言包容。吾非欲为此,遂去而欲通晓此机之理.

运行于汝手机之模型,其意何在

此乃吾于彼周所历之艰,故欲为君免重蹈覆辙。

吾始之,众人之始也,乃在Google之AI Edge Gallery中。此乃其开源之应用,用以示人机设备上生成式AI所能为。吾非徒戏之,乃读之,携一代理,遍览其库,以察其下之真实脉络,察其如何载入模型,如何处理其上之技能,俾吾之代理与吾得学其架构,而适吾所建之部。吾所察,及吾于是周之参考笔记中所录者,乃其载入Gemma 4之径,经一所谓AICore之物,由Google之ML Kit GenAI Prompt API,此乃系统级、Google所管理之法,以得此模型者也。

是径之引,实有之,多在分派。非汝将二半吉字节之模,纳于己之应用,则己之应用,遂成三吉字节之下载,凡在量度之连,无人所纳,AICore则使操作系统,于系统之级,下载而持此模一,使机中诸应用,皆可共之,故己之应用,得小。如吾之市,此实为可贵,吾初解之,甚欢。

然吾尝默自揣度,有误,终得明晰之纠正,方悟之。吾曾以为,经Google之GenAI服务,则模型非实于手机中运算,重负实有所在,而学子手中之小机,不过为窥其境之窗。此非其理也。无论模型以AICore或其他路径达于手机,其推理仍于手机之硅晶上运行,或于其处理器,或于其图形芯片,或于其专设之AI核心,耗其电,暖其机,而耗其内存,方得其思。GenAI服务解存储与分布之题,即解模型如何至设备,及存于何处之题。然于计算与电池之事,全无所为,盖包裹模型,导之服务,唯变其运行之引擎,及其至之方式,未尝改其思之所处。思实于学子手中,每时每刻。

盖因谷歌深知弱处理器运行二十亿参数之模型必致手机冻结或崩溃,故此管理路径设限。当前开发者预览期间,仅限于近期之高性能设备白名单,此即抽象之论转为具体之时。吾用iPhone,而Orient乃安卓应用,自设备难测此间之实,遂借友之三星Galaxy S22,此乃旗舰之机,正为具足硬件以构建之故。然此借来之旗舰亦不在谷歌AICore白名单,致管理路径对吾封闭,非在廉价之机,而在当前昂贵、真实强大之设备,正置于吾案前。是时,吾年初所记之论——地缘仍塑权柄,虽互联网许开放——遂非巧思之念,而实感之实,因旗舰之机于弗里敦之门紧闭矣。

画廊实有二径,一通单键,乃AICore之径,吾所习读;一径则经LiteRT-LM,吾遂移于此径,此乃Google之设备运行时,亦为其所荐之途。以LiteRT,吾自束模型而运行,不待系统授之,遂出允许之列,使应用得实运行于借来之S22。然代价在于,2.5吉字节之模型复现,用户须自下载,遂引全联通之问题,此亦吾曾观之败学子于咖啡馆者。有洁然之法以授此下载,经Google Play自之资产交付,需Play Console开发者之帐户及小额一次性之费。然此亦纯然分布之问题,文件如何达手机,而计算之所在,未尝移易。吾于Orient中建模型之接入于单面,一隙也,使应用可路由至可用之引擎,余码无需知或顾,俾LiteRT可今日运行,而管理之AICore径可后继,于设备,于其允之时。设计如此,有一静而重之果,即上下文之窗,模型可一时持之量,非定常,乃所经之提供者之性,故模型所据之预算可宽可窄,视径而定,非永刻于应用。

此间诸般,唯电池之故,余思之最久。学子于此,久处无常之电,电池之寿,若货贝然。若一席研习,耗其甚巨,且使机过热,不可持握,则辍其用矣,非其不效,实以其耗己之资,非所堪也。

隐形之预算

硬件之下,复有二限待我,其一即上下文之窗,吾之误解亦深焉。

吾尝思境窗若记忆,然实非也;乃每调用之预算耳。至若Gemma 4 E2B,此预算约十二万八千符,此单一之数,须容模型一运之所有:指令、所馈之材、既往之语,尤要者,模型作答所需之隙,皆取自同池,而限于此顶。模型本无状态,谓其不忆一调用后之事,每运所知,惟汝所纳于预算者耳。

其意幽玄,直至于噬。试想学子将全册讲义PDF倾入此应用,欲自测其识,而其注竟大至几盈全窗。今几无余隙以应往复,无余地以容问答相续,此实学子启应用之本怀,盖源已吞其室,使言谈无栖身之所也。

然所资非皆同价,此实令我惊异。文辞轻若鸿毛,约四字为一符。然课本之影,非以像素计;乃经视象编码,化为此类千二百符之物。至于音声,尤重,盖Gemma之设备音工,约每分钟三百七十五符,故四十七分钟之讲录,已近一万八千符,三时之录,可吞半窗之符。三普通文PDF仅微损预算,而一长音记,直越其限。

此约束之显现,见于吾所建之事

吾详陈此者,盖因东方之形,其下所决之事,乃吾所能示之明证也,谓瓶颈未随模型之开而消,惟移层耳,观吾所迫而建者,即可知其落处焉

取窗之限。盖模型于运行间无所承,且一时所能容亦有限,故处理物过巨不能容者,自然之道乃精炼之,化小而可复用,继以小物代原物。不每将四百页之教科书复入模型,盖不能也;其大甚矣。故但将所重之章,一度要约为精简之笔记,自此以往,凡试问、更问及余事,皆据此小笔记而非巨书。大源入,小物出,自小物而建之。Orient之构,正基于此,凡所出皆可后时研习,皆链于随身之私藏于机。吾初择此设计,本为合乎人实学之道,而窗之限,复为同此架构,别出一独立之由,盖于十二万八千符之器上,实乃大物唯此法可使之可用。当所惧之限与所信之构,竟同指一途,此乃得讯最强之征,谓所建者正也。

计算之限昭然若揭。盖无裹携递送之方可移思于机外,唯云送其工为真。故东方之理,本于地先而非地独。应用欲先尽诸务于器,盖私隐与无运行之费、离线之诺,皆实存于此。然若任务诚重于手持之机,应用非但现败于学子之面。乃从容移工,且当联接优渥时,导引至云之富器,犹那咖啡馆中,我未得载之NotebookLM,若备正而指,非以淡薄之仿呈于吾应用内也。

凡此种种之下,实存一理,众论建市新兴之业者,多默而不言,此乃无中立之择也。凡所择之构,皆有所利,亦有所弃。若固守离线,则利隐私至极者,以旗舰之机奉之,而弃中端之众。若纯趋云端,则达廉价之机,而弃无数据之学子,且尽弃隐私。若如吾所行,取混合之道,则可及众最多,然则混淆“凡物不出机”之清诺,此诺或为尔初立之旗。不可脱此权衡。惟可明择,择其构使在门外者最少,而洞明其人究为谁也。

末处,产品之略乃变者

若吾于诸事中得一二之训,则知事之成败,非独在模型之优劣。模型固要,Gemma之开明且小,能行于手机,诚为此事之始,然其力未足。决事之枢,在于其外之产品策略,回视一周所授,此策基于三理,须并持之。

首在明乎模型本身,此乃知所倚仗、所当逆推或全然绕行之所在。惟亲验其真形,方得此理,非惟演示所寓之形可也。昔我尝悟窗非存钱之所,实为记忆之域;音重而文轻;托管之道,门限设于允许之列;巧饰终不能使计算离机。既识其真际,乃知模型可自任之务,孰需他处托付矣。

次者,知其用户也,此乃辨何问题实值解之由,使汝所建者,非炫于台之奇观,乃适于其所需。吾未悟此理,直至咖啡馆,睹二学子,亟需此工器所能为,然竟无由得之,于此悟得:居无常电者,电池非表册之数,实乃其须慎度之币。不识其日落于何人,则难善其权衡之计。

三者,知其所依之境与所筑之基也,此乃决其离手后何存之由。是故有八百兆比特于肆间,有电之来去无常,有储与数据之价昂,实令用者破费。且此间学苑之生活,已行于 WhatsApp 而非待人之所奉之应用。设计纵然于白板之上无懈可击,一遇此境,犹可立殁。

三者皆非可缺,亦无独存。产品之策,在于兼持三者,权衡其迫吾所易,决手机运行与云端存取,自建与他委,先服后达。此乃吾早有之信念,未得其言,其深意也:边缘之例非产品之偏,乃产品之本。及至边缘,策略即变,使此物适于何人。

尚未决者一事

盖策略者,事之要也。吾欲诚言吾未竟之策,恐饰焉若未实也。吾知其理,曰"地先云后",知其理之宜。然未决者,实之界安在,何者存于机,何者达于外,尤在器之极微,虽 LiteRT 亦困,云则非奢而实为独效。此即吾前所言之权衡,非依图而度,乃依实机而量,吾犹处其间。若似已决而书,则非诚也,故存其真,实为未定。

为来此楼者次第

若尔阅此,盖将以开源之模,筑实景之居,与吾所营者相似,而适入吾所履之阶,吾欲告尔以言。

首事者,此乃日臻其善,非缓进也。机智能于器之故,其值得关切者,盖因吾辈怀中之机,今岁所为之事,非去岁所能及,而无需购新器。境窗渐阔,而模型所求之算力日减,运行此于本地所需之旗舰,亦随数月之迁,渐移向中端。吾所言之除外,实属真实,然吾深信其暂也,故当为底处所趋而建,非唯为今日之状,盖俟汝发之,底处已移矣。

次者,若此窒塞正阻于汝,当是日,汝不能待市价下落,则开世界之中实有他途。今有他开放之模,其文境较宽,而足迹较轻,非Gemma所载者比。尤以中国之实验室,其新出者,于此等尺度上,已远迈之。故若汝之全产,本赖于本季弱机本地运行,则周览周详,实为汝计之至也。

吾尝察之,择留其所,此非误也,实有意焉。吾特押Gemma及Google之广生态,非因其初日即完美契合吾之硬件,乃为欲此应用他日能行诸事,且观其全栈之合,适吾导Orient之方。此乃吾自道之赌,非谓此乃唯一明理之答。汝之所指,或在他方,亦无不可,盖此非论汝止于何模。其旨在于,汝当明视其基,诚择其模,且围绕其下立者而设之。

追及之志,诚然不虚。技之至也,诚然开也,诚然可容于机也。惟须为世人所持之机而建,非为演示所摄之机;且须诚守之,今虽互联网许开,然地仍限之。