這是一份提交給Gemma 4挑戰的內容:寫關於Gemma 4
目前流傳著一個令人安慰的故事,大致內容如下:科技終於成熟;它現已開放且免費,因此以往在每次計算浪潮中被落下的世界部分,終於可以開始趕上。不再需要等待別人的基礎設施來到您這裡,也不必為了沒有的信用卡而懇求 API 金鑰,因為智慧現在安裝在手機上,而曾經感覺永恆的差距開始自行縮小。
我想直截了當地說我相信那個故事,因為接下來的大部份內容都會讓它變得複雜,而我很討厭這種複雜會被誤解為憤世嫉俗。這個故事是真的。它只是到達某個程度為止,大約在一週前,當我停止閱讀關於Gemma的資訊,實際開始用它來建構時,我發現了那個點位在哪里,以及站在那個邊緣感覺如何。
我實際上使用這些工具的問題並不是一個新問題。四年前我給了一個TEDx演講關於為何塞拉利昂的年輕人應該進入科技行業,今年早些時候那個演講作為一個回憶重新浮現。 在我的手機上。回看時,我意識到自己不再想問當時問的問題了。那個現在感覺誠實的問題卻更難:當科技發展的速度超過了為他們準備的機構、課程和就業市場時,年輕人應該如何定位自己?這個重新定義的問題就是「Orient」這個名字的來源。在思考這件事的中間某處,我寫下了一句話,從那時起一直無法忘懷:地理仍然影響著接觸的機會,即使互聯網承諾開放。當時我以為這是一個想法,而與Gemma一起創作則讓我將其視為事實。我將回過頭來講述那個轉折發生的具體時刻。
但 Orient 並非始於一篇論文或一個產品。它始於我自身的一個需求。我閱讀了大量文章、散文,以及人們轉發給我的資料,但幾乎在接收到後就忘記了大部分內容。所以我渴望有個工具能陪伴我閱讀,幫助我真正理解和記住眼前的事物,因為我逐漸相信,這個時代的真正技能並非任何特定工具或事實,而是學習如何學習,以及由此產生的主動性。我還經常與朋友爭論,關於各種各樣的事情,我想要個能真正擁有的東西,個性化且本地化的工具,能在我的設備上運行,讓我隨時想爭論時都能對其思考與爭論,而無需事先向任何服務器請求許可。但,關於我的一個細節,在這一切中很容易被忽略,那就是我在大多數日子裡都有良好的無線網絡,我根本不是那種困難情況。然而,即使是我,在網絡悄然斷開或電力中斷時,也會被環境困住,而那一刻,存儲在別人服務器上的工具簡直就消失了。如果我在好日子裡都會遇到這種情況,你會驚訝地發現,在我居住的地方,這種情況實際上是許多人的日常現實。
然後有一個晚上,一切都不再關於我了。我正在弗里敦的一家咖啡館工作時,注意到隔壁桌有兩個大學生,顯然正在用那種你幾乎能看見某人試圖在單一個晚上把整本教科書塞進腦袋的方式來死記硬背。我們開始聊天,我試著向他們展示 NotebookLM,我經常使用它。這個想法是,你把筆記放進去,它會回給你一個播客或一個腦圖或一段短視頻,某種你可以實際參與而不是重讀同一頁直到字詞失去任何意義的東西。他們中有一個有個不錯的手機,另一個則沒有。我給了他們網址,但咖啡館的連接很亂,所以我快速瀏覽了.com來看看我們實際上在處理什麼,結果顯示為每秒八十千位元,千位元而不是兆位元,在這種速度下,這個工具實際上無法使用。最後我把他們連接到我的手機wifi上;我們在桌邊生成了他們筆記的音頻版本,然後他們說他們會在回家的路上聽。
我後來坐著那個,看到兩個獨立的缺口疊在一起。第一個是,他們從未知道有像那樣的工具存在,一個能真正改變他們學習方式的工具。第二個,也是更嚴重的,是當他們知道後,連接性還是直接在他們臉前關上了門,所以知道並不夠,網絡最終有決定權。那是我真正明白應該為誰建立,以及為何的下午。我應該建立的不是一個為了好咖啡無線網而爭論的聰明東西,而是一個像那兩個學生一樣的學習伴侶,基於一個開放的模式,在設備本身上運行,沒有伺服器在迴路中,沒有任何東西離開手機,無論是星期天沒有信號還是星期二滿格,它都一樣運作。這裡缺少的從來不是工具的訪問,因為工具是免費的,隨下載即可獲得。缺少的是接觸和使用,而"使用"只有在東西在人们生活的條件下真正運作時才會發生。
這不是一種只有焦慮學生才會追求的偏門習慣,也不是。安德烈·卡爾帕西(Andrej Karpathy),這個人幾乎是最接近這些模型如何被建立的人,最近描述了一個習慣,他已經陷入其中,幾乎閱讀所有東西,博客和文章以及整本書的章節,而語言模型則陪伴在他身邊。。他先自己做第一次通讀,然後進行第二次通讀時要求它解釋和總結,接著是第三次通讀,透過問答往來來進行。他說他這樣做能比單純讀一次就放棄,更深入地理解內容,而且這正變得是這項技術最頂尖的用途之一。當我讀到這句話時,我認為,是的,這正是它,因為這正是我想要在星期五考試前夜,交給弗里敦學生手中的東西。所有這些最強大的日常用途中,最強大的結果竟然是最簡單的,那就是與你自己的材料一起坐著,讓某個聰明的人幫助你真正理解它。
所以我完全投入了這個想法的裝置版本
為什麼我選擇了最小的模型
關於為何特別選擇Gemma 4 E2B,因為Gemma有不同尺寸版本,這是一個有意選擇而非偶然。E2B是其中最小的一個,邊緣模型,將20億參數精簡以在手機上運行,而不是在數據中心,上面還有更大、更強大的版本。我沒有選擇那些,原因確實是這篇文章整體論點的縮影。Orient實際上所做的工作,幫助學生用自己的筆記進行測驗,從長篇文件中提取摘要,在他們學習時陪伴在他們身邊,這不需要一個邊界規模的模型。它需要一個在這些方面足夠好,同時盡可能輕巧的模型,因為在我用戶攜帶的硬體上,模型大小並不是能力問題,而是一個誰被排除在外的问题。
每次尺寸提升都會將門檻稍微提高,要求更多記憶體、更長下載時間和更多電池,並悄然將一些最便宜的電話趕出市場。因此選擇 E2B 意味著選擇能夠完成工作但最輕巧的選項,前提是如果選擇更大尺寸,我將獲得我無需的功能,而這價格是排除了我正在為之創建的目標人群。這個陷阱,也就是下一節要討論的內容,在於即使是最輕巧的型號在該系列中仍然有門檻。
強迫趕上的理論碰到了地板
這裡是令人安慰的故事往往忽略的事實,那就是開放式權重是免費的,但你運行它們所需的矽晶片不是。
E2B 是一件真正令人印象深刻的工程作品,但它仍然是一個約 2.59 億字节的檔案,要實際運行它,手機需要約 1.3 到 1.7 億字节的自由記憶空間,僅僅用於存放模型及其工作狀態。而且這是自由記憶空間,是操作系統已經佔用了 1.5 或 2 億字節以保持手機運行的空間之後剩下的。
現在你想像一下我正在為學生們建造的手機實際上所攜帶的,它不是旗舰型號,而是一款中階 Android 手機,總共擁有三或四GB的記憶體,這種手機你可以用一百多美元買到,因為這就是這裡市場的定價。當你做計算時,它簡直無法平衡,因為作業系統佔據了它的份額,而這個型號也要求它的份額,因此沒有足夠的資源來分配。所以手機做了唯一明智的事情,它要么拒絕加載這個型號,要么加載它然後就崩潰,以保護自己。
開放模型宣揚包容,我毫不懷疑它們是誠意的。但在這裡,在這個詞語之下,有一個安靜的保留條款,一種不易察覺的排他性,這從擁有更好硬體的地方來看尤其明顯,因為能夠舒適地在其上運行Gemma的電話,那些擁有八GB內存和專用芯片來處理這類工作的電話,往往屬於那些已經能夠接觸到幾乎所有資源的人。獲得免費、私人、離線學習工具最多好處的學生,往往就是那個手機無法運行它的學生。
這不是壞人的工作,只是物理學,而且它依然真實存在,所以假裝不在乎意味著為我原本要服務的最富有的一小部分人悄悄打造一款產品,同時告訴自己我正在做到包容。我不願意這麼做,所以我去嘗試真正理解這台機器。
在你的手機上運行模型的真正含義是什么
這是我那個星期必須辛苦學到的部分,所以讓我試著幫你避免重蹈覆轍的麻煩。
我從許多人開始的地方開始,那就是Google自己的AI Edge Gallery內部,他們發布的開源應用程式,用來展示在設備上的生成式AI能做什麼。我不僅是在玩它;我還在閱讀它,使用代理程式瀏覽儲存庫,以了解它背後是如何真正連接的,它是如何載入模型以及如何處理位於頂層的技能,以便我的代理程式和我可以學習架構並調整適合我所建構的部分。我所發現的,並且寫在我的那週個人參考筆記中的,是它載入Gemma 4所使用的路徑,經過了所謂的AICore,通過Google的ML Kit GenAI Prompt API,這是系統層級、由Google管理的獲取模型的方式。
那條路徑的吸引力是真實的,而且它主要關乎分發。你不需要把一個兩半吉字节的模型打包在你自己的應用程式中,這會讓你的應用程式變成一個三吉字节的下載,任何在計費連接上的人都不會接受的,AICore讓操作系統在系統層級下載並保留模型一次,這樣手機上的任何應用程式都可以共享它,使你自己的應用程式保持小巧。對於像我的市場來說,這是一件真正有價值的事,當我第一次理解它時,我感到興奮。
但我悄悄地假設了一件事,結果證明是錯的,而且需要一個明確的糾正,我才能意識到。我以為使用 Google 的 GenAI 服務意味著模型並不在手機上真正運行,重點工作發生在某個其他地方,而學生手中的小手機只是通往它的窗口。但這並不是任何事情的運作方式。無論模型是通過 AICore 還是通過任何其他路徑達到手機,推理仍然在手機自身的矽晶片上運行,在其處理器或顯卡或專用 AI 核心,汲取手機的電力,加熱手機並消耗其記憶,當它思考時。GenAI 服務解決了存儲和分發問題,換句話說,它解決了模型如何到達設備以及它存放在哪裡的問題。但它對計算和電池一點也沒有影響,因為將模型封裝並通過服務路由,只改變了它運行的引擎以及它如何到達,從來不會改變實際思考發生的地點。思考發生在學生手中,每一次都是如此。
因為Google非常清楚,要求處理能力較弱的處理器來運行一個有20億個參數的模型會導致手機凍結或崩潰,因此管理路徑被鎖定了。在目前的開發者預覽期間,它僅限於最近、功能強大的設備的白名單,這就是我對抽象論點變得具體的時刻。我使用的是iPhone,而Orient是一個Android應用程式,我完全無法在我的自己的設備上測試任何這些,所以我借了一個朋友的山泥若Galaxy S22,這是一部旗艦手機,確切地說,就是為了讓我有能力強大的硬體來進行開發。甚至那部借來的旗艦手機也不在Google的AICore白名單上,這意味著管理路徑對我來說是關閉的,不是在某部廉價手機上,而是在我桌上這部當前、昂貴、真正功能強大的設備上。那是我今年早些時候寫下的那條線條,關於地理仍然塑造著訪問權,即使互聯網承諾開放,停止成為我認為很聰明的想法,而成為我能感覺到的事實,因為在弗里敦這部旗艦手機上,門正在被關閉。
實際上,The Gallery 提供了兩條路徑在單一開關後,一條是 AICore 我一直在閱讀的,另一條是透過 LiteRT-LM 執行模型,而我就移動到了這第二條路徑,Google 的設備端執行時間,而且,碰巧的是,他們現在推薦的這條路徑。使用 LiteRT,我自行打包並執行模型,而不是等待系統交給我,這讓我擺脫了白名單,並讓應用程式實際可以在借來的 S22 上運行。交易是,2.5 億字节的模型又變得讓使用者必須下載,這將整個連接問題帶回來,同樣的問題我觀察到在咖啡館中打敗了那些學生。有一種更乾淨的方式來交付這個下載給人們,透過 Google Play 自己的資產交付,這需要一個 Play Console 開發者帳戶和隨之而來的小額一次性費用。但這同樣純粹是關於分發,關於檔案如何到達手機,而它讓計算仍然在它一直以來的位置。我已在 Orient 後方建立了模型存取單一介面,一個縫隙,讓應用程式路由到哪個引擎可用,而其他程式碼不需要知道或關心,所以 LiteRT 可以在今日運行事物,而受管理的 AICore 路徑可以在之後接管,在手機上,在允許的時刻。設計這樣的靜悄悄的重要後果是,上下文窗口,模型可以同時持有的材料量,不是一個固定的常數,而是應用程式路由透過的提供者的屬性,所以模型必須工作的預算可以擴大或縮小,取決於路徑而不是永久雕刻在應用程式中。
電池是所有這些裡讓我最難忘的部分。對於這裡已經習慣了不斷斷電的學生來說,電池續航力就像一種貨幣,如果一個學習時長消耗了可觀的一部分電量,讓手機變得過熱無法舒適握持,他們就會停止使用這個工具,不是因為它失敗了,而是因為它讓他們付出了他們無法承受的代價.
你看不到的預算
在硬體之下,還有一個第二個限制在等我,而這個限制是我同樣誤解得很嚴重,那就是上下文窗口。
我之前把上下文視窗當作一種記憶,但根本不是那樣;它是一個每次調用的預算。對於Gemma 4 E2B來說,這個預算大約是128,000個token,這個單一數字必須同時包含模型一次運行所需的所有內容,包括指令、你輸入的來源材料、到目前為止發生的任何對話,以及至關重要的模型寫出答案所需的空間,所有這些都來自同一個池子,並且被限制在相同的上限內。模型本身是無狀態的,這意味著它不記得一次調用和下一次調用之間的任何內容,而且它在任何給定運行中唯一知道的就是你成功塞進那個預算裡的所有內容。
那直到它咬人時才具體化。想像一下學生將他們所有的講義PDF檔案放入應用程式中,以便可以針對它進行測驗,想像這些筆記夠大,可以幾乎填滿他們自己的整個視窗。現在幾乎沒有預算留給實際的來回對話,給問題和答案以及追蹤回應,這正是他們打開應用程式的目的,因為來源吞噬了對話生存所需的空間。
而且來源的成本並不相同,這才是真正讓我驚訝的地方。文本輕如鵝毛,大約每個 token 約 4 個字符。但教科書的拍攝頁面不是用像素來衡量;它會通過一個視覺編碼器,轉換成類似 1000/2000 個 token 的東西。而音頻更重,因為 Gemma 的設備端音頻每分鐘大約需要 375 個 token,這意味著一個 47 分鐘的講座錄音已經大約是 18,000 個 token,而一個 3 小時的錄音可以吞噬單個文件的一半窗口。三份普通的文本 PDF 幾乎沒有在預算上留下痕跡,而一份長的聲音筆記卻能直接衝破上限。
這個限制如何在我不得不建立的東西中顯現出來
我詳細地闡述這一切,因為東方(Orient)的形態,以及它背後實際的決策,是我能提供的最明確證據,證明瓶頸並未在模型開放時消失,而只是簡單地移動到下一層,而你可以通过看我在其周圍被迫建立的東西,精確地看到它落在了哪裡。
取捨視窗限制。因為模型在每次執行之間不帶任何內容,且一次只能處理有限資訊,所以處理無法容納的大資料的自然方式是將其提煉成小而可重用的形式,然後繼續使用這個小形式而不是原來的資料。你不需要每次都將四百頁的教科書輸入模型,因為你無法做到;它太過龐大了。所以相反地,你將你關心的章節總結一次成簡潔的筆記,從那之後,你做的所有其他事情——測驗、進一步的問題和其餘的——都是基於那個小筆記,而不是背後那本龐大的書。大型來源輸入,小可重用片段輸出,並且你從小片段開始向前構建。Orient 是圍繞這一點構建的,你產生的所有內容都變成你後來可以研究的對象,所有內容都通過一個存放在手機上的個人圖書館連接起來。我最初選擇這種設計是因為人們實際學習的方式,而視窗限制為我提供了第二個完全獨立的理由來支持同樣的架構,那就是在一個有 128,000 個 token 的設備上,這是唯一讓大資料變得可用的方式。當你擔心約束和你已經相信的設計結果指向同一方向時,那就是你能得到的最強烈的信號,表明你正在構建正確的事情。
計算限制顯得非常明顯。由於沒有任何包裝或交付模型的方式能夠將思考從手機移離,唯一能真正做到的是將工作發送到雲端,因此Orient所依據的原則是先本地後而非僅本地。應用程式嘗試先在設備上完成所有工作,因為那裡才是隱私、零運行成本以及離線工作的承諾真正所在的之處,但當任務對手機來說確實過於繁重時,應用程式並不僅僅在學生面前失敗。它優雅地將工作交給雲端,包括在連接足夠好的情況下引導交給更豐富的雲端工具,就像我在那家咖啡館無法加載的NotebookLM一樣,經過妥善準備並指向,而不是在我的應用程式中提供一個稀釋的模仿版本。
在所有這一切之下,躺著一個事實,那是大多數討論為新興市場建設的寫作都靜靜地跳過了的事實,那就是這裡沒有中立的選擇。你選擇的每一種建築都為某些人服務,而拋棄了其他人。如果你堅持保持純粹離線,你用旗艦手機服務了隱私主義者,卻拋棄了中端硬體上的大多數人。如果你純粹走向雲端,你觸達了廉價手機,但你拋棄了沒有數據預算的學生,並且完全放棄了隱私。如果你選擇混合模式,就像我所做的那樣,你觸達最多的人,但你模糊了那個清晰的承諾——沒有任何東西離開手機,那正是你可能在開始時插上旗幟的承諾。你不能逃避權衡。你只能有意識地做出選擇,選擇那種讓最少人被排除在外的建築,同時保持對這些人到底是誰的清醒認知。
在邊緣,產品策略是改變的事情
如果我從所有這些經歷中學到的一個教訓是,那便是邊緣上決定你是否成功的是模型本身。模型很重要,Gemma 開放且小到可以在手機上運行,這才是這一切最初成為可能的原因,但單憑它遠遠不夠。真正決定事情的,是圍繞它的產品策略,回顧這一周教會我的一切,那個策略建立在三種必須同時維持的理解之上。
第一點是理解這個模型本身,它告訴你可以在哪裡依賴它,在哪裡必須推對其邊緣或完全繞過它。你只能通過與它的實際形狀互動來學習這一點,而不是通過演示所暗示的形狀,就像我必須學習的那樣,窗口是一個預算而不是記憶,音頻比文本更沉重,管理路徑被允許列表鎖住,而且無論多麼聰明的包裝都無法將計算從手機上移開。一旦你了解實際的邊界,你就知道哪些任務模型可以自行處理,哪些任務必須交給其他地方處理。
第二是了解你的用戶,這能告訴你哪些問題其實值得解決,以便你建構對他們有意的東西,而不是在舞台上看起來令人印象深刻的东西。我直到在咖啡館看到兩個學生需要這些工具能做的確切功能卻無法使用任何其中一項,才真正理解這一點,並在那個瞬間學到,對於生活在經常斷電環境中的人來說,電池不是規格表上的數字,而是一種他們必須謹慎花費的貨幣。在你不知道這些妥協實際影響到誰的日常生活之前,你無法設計出好的妥協方案。
第三是理解你所建立的環境和基礎設施,這就是告訴你一旦離開你的手,什麼能夠生存的東西。那就是咖啡館中的 80 Kbps,來來去去的電力,以及對於花錢的人來說花費真金白銀的存儲和數據,以及這裡的學術生活已經通過 WhatsApp 而不是通過要求人們採用的應用程序來進行的事實。一個設計可以在白板上完美無缺,但仍然會在第一次遇到任何這些時候死亡。
三個都非選擇性,且它們各自獨立。產品策略是同時掌握這三者並做出它們迫使你做出的取捨,決定什麼在手機上運行,什麼放到雲端,什麼自己建立,什麼交給他人,先為誰服務,後為誰達成。這是我早在還沒有詞語來表達它時就堅信的更深層含義,那就是邊緣情況並非產品的分心;它們就是產品。在邊緣,策略是改變這些實際適用於誰的東西。
我還沒有決定的事情
而且由於策略是最重要的部分,我想誠實地說明我還沒有完全確定的那個部分,因為我很容易就會為這件事打個結,而我實際上並沒有完成這件事。我知道這個原則,本地優先並以優雅的方式過渡到雲端,我也知道為什麼這個原則是正確的。我還沒有完全決定的是,在實際操作中,這條線應該劃在什麼地方,多少應該留在手機上,多少應該路由到外部,尤其是在設備範圍的最低端,連 LiteRT 都感到困難,而雲端開始看起來不再像奢侈,更像是目前唯一真正有效的方法。這正是我剛才描述的那種權衡,那種你根據實際硬體測量而不是圖表來做出的權衡,而我仍然在這個過程中。如果我寫作時好像已經解決了這個問題,那將是不誠實的部分,所以我會讓它保持真實的狀態,也就是開放的。
為了下一個即將踏上這個樓梯的建築師
如果你正在閱讀這段文字,因為你即將用開放式模型為一個看起來像我所建設的地方建造一些真正有價值的东西,而且你剛剛踏入了我所踏上的同一個樓梯,這裡是我想對你說的話。
第一件事是這個會變得更好,而且不是緩慢地。在設備上的人工智慧值得關心的整個原因在於,我們口袋裡的電話今年正在做他們去年無法做到的事情,而且不需要任何人購買新的硬體。上下文視窗正在擴大,而這些模型所需的計算能力正在下降,而且每過幾個月,運行這些本地所需的旗艦級設備的界線都會稍微向中端移動。我所描述的排除是現實的,但我真心相信它是暫時的,所以建設要面向地板將要前往的地方,而不僅僅是面向它今天所在的位置,因為到時候你發布的時候,它將已經移動了。
第二件事是,如果這個瓶頸現在正阻礙你,今天,而且你無法承擔等待地板下跌的代價,你確實有選擇可以在開放世界內進行。目前有其他開放模型比Gemma擁有更大的上下文窗口和更輕的足跡,特別是來自中國的一些實驗室正在這些確切維度上遠遠超越它,所以如果你的整個產品在本季度依賴在弱勢手機上本地運行,那麼在做出承諾之前,仔細地周圍看看絕對是值得的。
我確實看過,我選擇留在原地,這是一個有意識的決定,而不是疏忽。我故意押注在 Gemma 和更廣泛的 Google 生態系統上,不是因為它在第一天對我的硬體完美無缺,而是因為我想要這個應用程式在未來做更多的事情,以及整個堆疊如何契合我將來為 Orient 帶來的方向,這是一個關於我自己的路線圖的賭注,而不是一個聲稱它是唯一明智的答案。你的可能指向別處,這完全沒問題,因為從來沒有意圖是哪個模型最終會被選擇。重點在於你能在完全看清楚底層的情況下做出選擇,並且你需圍繞著站在它下方的人們誠實地進行設計。
這個趕趕上的故事是真的。技術真的已經到來了,它真的開放,而且真的可以放在手機上。你只需要為人們實際擁有的手機而不是示範影片拍攝的手機來開發,而且你必須保持誠實,雖然互聯網承諾開放,但地理仍然塑造著訪問權。
















