慣性聚合 関心のあるブログ、ニュース、テクノロジーを効率的に追跡
原文を読む 慣性聚合で開く

おすすめ購読元

Google DeepMind News
Google DeepMind News
人人都是产品经理
人人都是产品经理
M
MIT News - Artificial intelligence
博客园 - 叶小钗
MyScale Blog
MyScale Blog
V
Visual Studio Blog
月光博客
月光博客
让小产品的独立变现更简单 - ezindie.com
让小产品的独立变现更简单 - ezindie.com
量子位
I
InfoQ
有赞技术团队
有赞技术团队
阮一峰的网络日志
阮一峰的网络日志
Jina AI
Jina AI
V
V2EX
freeCodeCamp Programming Tutorials: Python, JavaScript, Git & More
Blog — PlanetScale
Blog — PlanetScale
Last Week in AI
Last Week in AI
雷峰网
雷峰网
Stack Overflow Blog
Stack Overflow Blog
博客园 - Franky

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
オープン・モデルとサハラ以南の地域
ATMR · 2026-05-25 · via DEV Community

これはGemma 4チャレンジへの提出です:Gemma 4について書く

今、心強い話が広まっています。それはこんなものです:技術がようやく到着しました。今はオープンで無料です。それで、これまでのコンピューティングの波に取り残された世界の一部が、ようやく追いつけるようになりました。他の誰かのインフラがあなたに届くのを待つ必要はありません。クレジットカードがありませんがAPIキーを要求する必要もありません。なぜなら、知性は今携帯電話に乗っていますし、一度は永遠に感じたギャップが自ら閉じ始めています。

はっきりと申し上げたいが、その話を信じている。なぜなら、これから続く内容はそれを複雑にするからで、その複雑さが皮肉だと誤解されるのを嫌うからだ。その話は本物だ。ただ、ある程度までの話であり、一週間ほど前に、私はGemmaに関する情報をやめて実際にそれを使い始めたとき、その「限界」がどこにあるのか、そしてその縁に立っているとはどんな気持ちかを理解した。

実際にこれらのツールを使うことができるのは誰なのかという問題は、私にとって新しさではない。4年前に私はTEDxでシエラレオネの若者がテクノロジーに関わるべき理由について話し、今年初めにその話が記憶として再現された。 が私のスマートフォンにあります。振り返ってみると、もう当時尋ねた質問をしたくないと気づきました。今は正直だと感じる質問はもっと難しいものです:テクノロジーが、彼らをそのテクノロジーに備えるために準備するはずの機関、カリキュラム、就職市場よりも速く進行している時に、若者はどう自分を導くべきか。この再定義された質問が、名前の「Orient」の由来です。それを抱えながら考え込んでいる中、私は以来忘れられない一文を書き留めました:地理がまだアクセスを形作っている、たとえインターネットがオープンであると約束しているとしても。当時はそれがアイデアとして信じていましたが、Gemmaと一緒に作業するうちに、それが事実であると信じるようになりました。その転換が起こった正確な瞬間に戻ってきます。

しかしオリエントは論文や製品として始まったわけではありません。私が自分自身のために始めたものです。多くを読み、記事やエッセイ、人々が私に送ってくれるものを読み、受け取ったもののほとんどをすぐに忘れてしまいます。だから、読むときにそばにいるもの、実際に目の前にあるものを理解し、覚えておるように助けてくれるものが欲しかったのです。なぜなら、この時代の本当のスキルは特定のツールや事実ではなく、学ぶ方法を学ぶこと、そしてそれから生まれる主体性だと思っているからです。また、友人たちと常に議論しています、あるいはほぼすべてのことについて、そして本当になりすまし、自分だけのデバイスで生き、いつでも思ったように考え、議論できる、誰のサーバーにも許可を求める必要がないような、個人的で地元のものが欲しかったのです。しかし、これらのすべての中で見落とされやすい私の詳細があります。それは、ほとんどの日に良いWi-Fiがあって、私は全く困難な状況ではありません。それでも、ネットワークが静かに消えるか、電力が落ちるか、そのような時には、他のサーバーで生きていたツールがただ消えてしまうのです。私が良い日にそれが起こることさえあるなら、驚くべきことに、私が住んでいるところでは多くの人にとって日常の現実なのです。

ある夜、それが全く私のことではなかった。私はフリータウンでカフェで働いていて、隣のテーブルに大学の学生の二人組がいるのに気づいた。明らかに、一晩で教科書の全部を頭の中に入れるように勉強している様子だった。私たちは話し始め、私はいつも使っているNotebookLMを紹介した。考え方は、ノートを入れるとポッドキャストやマインドマップや短い動画のようなものを返してくれ、同じページを繰り返し読むのではなく、実際に取り組めるものを与えることだ。一人はちゃんとした携帯電話を持っていて、もう一人は持っていなかった。私はURLを教えたが、カフェの接続は散らかったので、速い.comを走らせて実際に何を扱っているかを見た。それが80キロビット毎秒で、メガビットではなく、その速度ではツールが実質的に手の届かないものだった。最終的には、彼らを私のモバイルWi-Fiに繋げた。私たちはテーブルの上で彼らのノートのオーディオバージョンを生成し、それから彼らは家に帰る途中でそれを聞くと言った。

その後、私はそこに座り、上に重なった二つの隙間を見ました。最初の問題は、彼らがそのようなツールが存在することすら知らなかったこと、それは彼らの学習方法を本気で変えることができるものだったということでした。二つ目で、より重い問題は、彼らがそのことを知った瞬間、接続性がただ門を叩いてしまい、知ることだけでは不十分で、ネットワークが最終的な決定権を持つとわかったということでした。それは、私が本当におかれなければならない人々と、なぜそうであるかを理解した午後でした。私が作るべきものは、良いカフェのWi-Fiについて議論するような賢いものではなく、あの二人のような学生のための学習同伴ツールであり、オープンモデルに基づいており、デバイス上で動作し、サーバーがループに入らず、電話から何も出ない、日曜日に信号がないかのように、火曜日にフルバーかのように同じように機能するものです。ここで欠けていたのは、ツールへのアクセスではなく、ツールは無料でダウンロード可能です。欠けているのは露出と使用であり、「使用」は実際に人々が生活している状況の中で機能する場合にのみ起こります。

これは、不安な学生だけが手にするような特殊な習慣でもありません。Andrej Karpathy、これらのモデルがどのように構築されるかを最も近くで見てきた人物が、最近、言語モデルと一緒にほぼすべてを読む、ブログや記事、本の章全体を、自分が身につけた習慣を説明しましたは、自分で最初のパスを行い、次にそれを説明し要約するように依頼する二番目のパス、そして質疑応答で往復する三番目のパスを行います。彼は、一度だけ読んで進むよりも、この材料をより深く理解できると言いました。そして、これは全テクノロジーのトップな使用法の一つになっていると言いました。それを読んだとき、私は「そうだ、まさにそれだ」と思いました。なぜなら、それはまさに、金曜日の試験の前夜の日曜日の夜にフリータウンで生徒の手に持たせたいものだからです。これらの最も強力な日常的な使用法のうち最も簡単なものは、自分の材料と一緒に座って、何か知能なものが本当に理解する手伝いをするというものです。

そのアイデアのデバイス上バージョンに全力で取り組んだのです

なぜ私は最小のモデルを選んだのか

Gemma 4 E2Bの特になぜについて、簡単に触れておきたい。Gemmaは様々なサイズで提供されており、これは偶然ではなく意図的な選択だった。E2Bはそれらの中で最も小さいエッジモデルで、20億のパラメータが携帯電話で実行できるように削減され、それよりも大きくより高性能なバージョンが上に存在している。私はそれらに手を伸ばさず、その理由はこの記事全体の議論のミニチュア版だ。Orientが実際に行っている仕事、つまり生徒が自分のノートと自分自身でクイズを出題するのを助けたり、長い文書から要約を引き出したり、勉強する傍らで彼らのそばにいることは、境界を超えるようなモデルは必要ない。それだけでも十分で、できるだけ軽量である必要がある。なぜなら、私のユーザーが持っているハードウェアでは、モデルのサイズは実質的には能力の問題ではなく、どちらかが除外されるかどうかの問題だからだ。

サイズが一つ大きくなるごとに、基準が少し高くなり、より多くのメモリ、より長いダウンロード時間、そしてより多くのバッテリーが必要になり、静かに最も安価な電話を部屋から追い出している。だから、E2Bを選ぶことは、まだ仕事をこなせる最も軽量なものを選ぶことを意味し、より大きいものを選ぶことで、必要のない機能を得る代わりに、私が作っていた人々を除外することを理解した上で行った。罠、これは次のセクションで説明するものだが、家族の中で最も軽量なモデルでもまだ基準がある。

追い越し理論と床が交差する場所

ここに、心強い話が省略しがちなのが、オープンウェイトは無料だが、それを実行するために必要な硅素は無料ではないということです。

E2Bは本当に印象的なエンジニアリングの成果ですが、それでも約2.59ギガバイトのファイルであり、実際に実行するには電話がモデルとその動作状態を保持するために1.3から1.7ギガバイトの無料メモリが必要です。そしてそれは無料メモリであり、オペレーティングシステムが電話を全く動作させるために必要な1.5または2ギガバイトを確保した後に残ったメモリです。

実際に学生たちが持ち歩いている電話を想像してみてください。それはフラッグシップではなく、総メモリが3~4ギガバイトのミッドレンジAndroidで、ここで売れる100ドルちょっとのものです。計算してみると、単純に合わないのです。オペレーティングシステムが自分の分を取って、モデルも自分の分を要求するからです。回りくどいことはできず、電話は唯一賢明なことをするしかなく、モデルをロードしないか、それともロードしてすぐにクラッシュして自分を守るのです。

オープンモデルは包括性を説き明かし、それが本心であることを一瞬も疑わない。しかし、ここでの現実には、その言葉の下に静かな注意喚起がある。それは、より高性能なハードウェアを持つ場所からは見逃しやすい微妙な排除であり、Gemmaを自分で快適に動かせる電話、メモリが8ギガバイトで、この種の作業に専用チップを持つものは、ほぼ全てのものにアクセスできる人々に属している傾向があるからだ。無料でプライベートでオフラインの学習ツールから最も多くを得られる学生は、とてもよく、その学生の電話がそれを実行できない場合がある。

それは悪役の仕事ではなく、単なる物理現象であり、それが現実であるにもかかわらず、そうでないふりをすることは、私がサービスを提供することにした人々の中で最も裕福な一部の人々のために、静かに製品を構築しているつもりで自分自身を含意していることを意味していた。私はそれをしたくないので、機械を正しく理解しようと試みた。

スマートフォンでモデルを実行することの実際の意味

これはその週の間に苦労して学ばなければならなかった部分なので、繰り返さないでいただければと思って説明してみる。

私は多くの人々が始める場所から始めました。それはGoogleのAI Edge Galleryの中で、オープンソースアプリとして公開されているものです。そこではデバイス上の生成AIが何ができるかを示すために、彼らが公開しています。私はそれをただ遊んでいただけませんでした;それを読み、エージェントを使ってリポジトリを通じて、それが本当にどのように接続されているか、モデルをロードする方法、そしてトップに乗っているスキルを扱う方法を理解するために、私のエージェントと私はアーキテクチャを学び、私が構築しているものに合う部分を適応させることができます。私が発見し、その週の私の参考ノートに書き留めたのは、Gemma 4をロードするために使用するパスが、AICoreというものを通じてGoogleのML Kit GenAI Prompt APIを通ります。これはモデルにアクセスするシステムレベルのGoogle管理の方法です。

その道の魅力は本物で、主に配布に関することです。あなたが自分のアプリケーション内に2.5ギガバイトのモデルをバンドルする代わりに、それがあなたのアプリケーションを3ギガバイトのダウンロードに変えることになるが、メータリングされた接続を持つ誰もが受け入れようとはしない、AICoreはオペレーティングシステムがシステムレベルで一度モデルをダウンロードして保持することを可能にし、電話のどのアプリケーションでもそれを共有できるので、あなたのアプリケーションは小さいままになります。私のような市場にとってこれは本当に価値のあることで、最初に理解したときは興奮しました。

しかし、私は静かに誤解をしていたことがあり、その誤解を正すために明確な指摘を待たなければならなかった。私はGoogleのGenAIサービスを通じてモデルを使うことが、電話で実際に計算が行われていないと想像していた。重い作業はどこか別の場所で行われ、学生が持っている小さな電話はそれへの窓口に過ぎないと思っていた。しかし、それは全くそうとは作動しない。モデルがAICoreを通じて電話に到達するか、他のどのルートかに関わらず、推論は依然として電話の独自の硅素で実行され、そのプロセッサやグラフィックスチップ、専用のAIコア上で行われる。電話の電力を消費し、電話を温め、思考している間にメモリを消費する。GenAIサービスはストレージと配布を解決する。つまり、モデルがデバイスにどうやって乗り込むか、どこに保持されるかを解決する。しかし、計算とバッテリーに関しては何もしない。モデルをラップし、サービスを通じてルーティングするだけでは、どのエンジンが実行するか、どのように到達するかを変えるだけで、実際に思考が行われる場所は変わらない。思考は、学生の手の中で、毎回行われる。

そして、Googleは非常に弱いプロセッサーに20億パラメータのモデルを実行させると携帯電話がフリーズしたりクラッシュしたりするということを非常によく知っているので、その管理されたパスはゲートキッパーで守られている。現在の開発者プレビューでは、最近の高性能なデバイスの許可リストに限定されており、これが私にとって抽象的な議論が具体的な事実になった場所である。私はiPhoneを使用しており、OrientはAndroidアプリであるため、私のデバイスでこれをテストすることは全くできなかった。そこで、友人のSamsung Galaxy S22を借りた。これはフラグシップ電話であり、まさに高性能なハードウェアを持っていなければならなかったのである。しかし、それでも借りたフラグシップはGoogleのAICore許可リストに載っていなかった。これは、管理されたパスが私に閉ざされていることを意味し、安価な携帯電話ではなく、現在の高価で本当に高性能なデバイスが私のデスクの上に座っているにもかかわらずである。それは、今年初めに書き留めた「地理がまだアクセスを形作っているにもかかわらず、インターネットがオープンであると約束している」という考えが、賢い考えだと思っていたものから、実際に感じられる事実になった瞬間であった。なぜなら、フリータウンでフラグシップ電話のドアが閉ざされているからである。

ギャラリーは実際に単一のスイッチの後ろで2つのパスを提供しており、私が読んでいたAICoreのパスと、LiteRT-LMを通じてモデルを実行する2番目のパスがありました。私が移行したのはこの2番目のパスであり、Googleのデバイス上のランタイムであり、またこの問題に対して現在推奨されているルートでもあります。LiteRTを使うと、モデルをシステムが渡すのを待つ代わりに、自分でバンドルして実行するため、allowlistの後ろから抜け出し、借用したS22でアプリが実際に実行できるようになります。トレードオフは、2.5ギガバイトのモデルがユーザーがダウンロードするものとして再登場することであり、これにより全体の接続問題が再び引き起こされ、カフェで私が見たように、その学生たちを打ち負かした同じ問題が戻ってきます。Google Playの自体のアセット配信を通じて、ダウンロードを人々に渡すよりクリーンな方法があります。これはPlay Console開発者アカウントとそれに伴う小さな一度きりの料金が必要です。しかし、それはもっぱら配布の問題であり、ファイルが電話にどのように届くかの問題であり、計算は常に同じ場所に残ります。私はOrientのモデルアクセスを単一のインターフェースの後ろに組み込み、アプリが利用可能なエンジンにルートするための隙間を設けました。そのため、LiteRTが今日実行できるようにし、管理されたAICoreパスが後でデバイス上で許可された瞬間に引き継ぐことができます。そのように設計することの静かに重要な結果は、コンテキストウィンドウ、つまりモデルが一度に保持できる材料の量が、固定された定数ではなく、アプリがルートされるプロバイダーのプロパティであるということです。そのため、モデルが扱うための予算はパスによって広がったり狭くなったりするのではなく、アプリに永久に刻まれるものではなくなります。

バッテリーはこれらのうちで最も私に残った部分です。ここにいる学生にとって、すでに回転停电に囲まれて生活しているので、バッテリーの寿命はある種の通貨であり、一度の勉強セッションで目立ちくだけたスライスを消耗し、スマートフォンが快適に持てなくなるほど熱くなった場合、彼らはそのツールを使用をやめます。それは機能しなかったからではなく、彼らが払うことができないものを失ったからです.

見えない予算

ハードウェアの下に二つ目の制限が待っており、それは私が同じく誤解していたもので、コンテキストウィンドウでした。

コンテキストウィンドウを記憶のようなものと考えていたが、全くそのようなものではない。それは一度の呼び出しごとの予算である。Gemma 4 E2Bの場合、その予算は約128,000トークンで、この一つの数字がモデルの一度の実行に必要なすべてのものを同時に保持する必要がある。指示、あなたが入力したソースマテリアル、これまでに起こった会話、そして重要なのはモデルが答えを書くために必要なスペース、すべて同じプールから引き出され、同じ上限に制限されている。モデル自体は状態を持たない、つまり一度の呼び出しから次の呼び出しにかけても何も覚えない。そして特定の実行においてモデルが知っている唯一のことは、予算に詰め込めたものだけである。

抽象的なままであるが、実際に問題を起こすまでは。学生がすべての講義ノートのPDFをアプリにドロップして、それを自分でクイズにするため、そして、そのノートが自分だけでウィンドウのほぼ全体を埋めるほど大きいことを想像してみて。実際の往復、質問と答えとフォローアップに対する予算はほとんど残っていない。それがアプリを開いた理由なのだから、ソースが会話が生きる必要があるスペースを食べてしまったからである。

そして、すべてのソースが同じコストではありません。これが本当に驚いた部分です。テキストは非常に軽量で、約1トークンあたり4文字です。しかし、教科書の写真ページはピクセルで測定されません。それらはビジョンエンコーダーを通じて処理され、1000/2000トークンのようなものに変換されます。音声はさらに重く、Gemmaのデバイス上の音声処理は1分あたり約375トークンになるため、47分間の講義録はすでに約18,000トークンになり、3時間の録音は1つのファイルからすでに窓の半分を飲み込むことができます。3つの通常のテキストPDFは予算にほとんど影響を与えませんが、1つの長い音声メモは直ちに上限を超えます。

制約がどのように私が構築しなければならなかったものに現れているか

この詳細な説明をしているのは、Orientの形、それの下にある実際の決定が、私が提供できる最も明確な証拠であるからです。ボトルネックはモデルが開かれた時に消えたのではなく、単に一層下に移動しただけで、それがどこに着地したかは、私がそれを取り巻いて構築しなければならなかったものを見ることで正確に見ることができます。

ウィンドウの制限を取る。モデルは実行間に何も持たず、一度にあまりにも多くは持てないため、適切に収まらない素材を処理する自然な方法は、それを小さく再利用可能なものに濃縮し、その後をそのオリジナルの代わりに進めることである。あなたは毎回400ページの教科書をモデルに戻さない。それは不可能だからである。それはあまりにも大きい。したがって、あなたは気にかける章を一度コンパクトなメモに要約し、それ以降、あなたが行うすべてのこと、クイズやさらに質問やその他のものは、それらの小さなメモではなく、その巨大な本の後ろで動作する。大きなソースを入力し、小さな再利用可能なパーツを出力し、そしてあなたはその小さなパーツから前進する。Orientはまさにそれを中心に構築されており、あなたが生み出すすべてが後で学習できるものになるようになっている、すべてが個人のライブラリを通じて連鎖されている。私は最初にそのデザインを選んだのは、人々が実際に学ぶ方法に関する理由 때문だった。ウィンドウの制限は、まさに同じアーキテクチャのために、完全に独立した二番目の理由を私に与えた。それは、128,000トークンのデバイス上で、大きな素材が全く利用可能になる唯一の方法である。恐れていた制約とすでに信じていたデザインが同じ方向に指していることが明らかになったとき、それはあなたが正しいことを作っていることの最も強い信号である。

計算制限ははっきりと表示されます。ラップや配信方法でモデルを携帯電話から思考を移動させる方法がないため、本当に行うことができるのは作業をクラウドに送信することだけです。したがって、Orientが構築に基づいている原則はローカル優先ではなく、ローカルのみではありません。アプリはまずデバイス上ですべてのことを試みます。なぜなら、プライバシーとゼロの実行コストとオフラインで作業するという約束が実際に存在する場所だからです。しかし、タスクが本当に手元の電話にとって重すぎる場合、アプリは単に学生の顔に失敗しません。それに優雅に作業を引き継ぎ、接続がそれに値するほど十分である場合、より豊かなクラウドツールへのガイドド・オフサレートを含みます。同じNotebookLMをそのカフェで読み込めなかったものですが、適切に準備され、私のアプリ内で水ed-downした模倣として提供される代わりに、指し示されています。

すべてのその下には、新興市場向けの建設に関する多くの書籍が静かに飛ばしてしまう真実がある。それはここには中立的な選択肢は存在しないということである。あなたが選べるあらゆる建築は、一部の人々にサービスを提供し、他の人々を放棄する。もしあなたが完全にオフラインを維持するならば、旗艦電話でプライバシー至上主義者にサービスを提供し、中価格帯のハードウェアの大多数を放棄する。もし完全にクラウドに行くならば、安価の電話に到達するが、データ予算のない学生を放棄し、プライバシーを完全に放棄する。もしハイブリッドに行くならば、私が行った方法で、最も多くの人々に到達するが、何も電話から離れることはないという明確な約束を曇らせ、最初に旗を立てたかもしれないその約束を曇らせる。取引を逃れることはできない。あなたが意識的に、最も少ない人々を外に置きつつ、その正確な人物を明確に理解することを続けるアーキテクチャを選ぶことしかできない。

端末では、製品戦略が変わる

全てのことから導き出せる唯一の教訓は、境界でモデルが成功を決定するものではないということです。モデルは重要で、Gemmaがオープンで小さく、携帯電話で実行できるほどであることが、これらの全てが可能になった最初の理由なのですが、それだけでは十分ではありません。実際に物事を決定するのは、それを包む製品戦略で、この一週間で学んだすべてを振り返ると、その戦略は同時に保持される必要がある三つの理解に基づいています。

最初はモデルそのものを理解することです。それによって、どこに頼れるか、どこでその端を押し付けなければならないか、あるいは完全に迂回しなければならないかがわかります。そのことは、デモが示唆する形状ではなく、実際の形状と実際に取り組んで初めて学べます。私が学んだように、ウィンドウは予算であり記憶ではありません、オーディオはテキストより重く、管理されたパスはallowlistの後ろにゲートキーパーで守られている、そしてどれだけ賢いラッピングをしても計算は電話から外せないということを。実際の端を知ることで、モデルが自分で担える仕事と、どこか他に手渡さなければならない仕事がわかります。

二つ目はユーザーを理解することで、これは実際に解決すべき問題が何であるかを教えてくれます。そうすることで、ステージで印象的なものを構築するのではなく、ユーザーにとって重要なものを構築します。私はこれを本当に理解したのは、カフェで、これらのツールができることの正確に必要な学生たちが、それらのいずれにも到達できないのを見て、その瞬間に学んだときです。電力切れの周りに住んでいる人にとって、バッテリーはスペックシートの数値ではなく、慎重に使わなければならない通貨です。実際に誰の一日に影響を与えるのかを知らないと、トレードオフをうまく設計することはできません。

第三に、あなたが構築している環境とインフラを理解することです。それが、あなたの手を離れた後も何が生き残るかを教えてくれるものです。それはカフェの80 Kbps、来る来る去るする電力、実際のお金をかけている人々にとって本気でコストがかかるストレージとデータ、そしてここでの学術生活がすでにWhatsAppを通じて行われているという事実です。デザインは白板で完璧に見えても、それと最初に出会った時には失敗することがあります。

三つ全てが選択肢ではなく、どれも単独ではありません。製品戦略とは、これら三つを同時に捉え、それらが強いるトレードオフを判断し、電話で何を実行し、クラウドに何を送るか、自分で何を構築し、何を委ねるか、まず誰を対象にし、後で誰にアプローチするかを決定する行為です。これは、言葉を知る前に信じていた何かの深い意味であり、それはエッジケースが製品から逸脱するものではなく、製品そのものだということです。エッジで、戦略は実際に誰のために機能するかを変えるものです。

まだ決めていない唯一のことは

そして、戦略が最も重要な部分であるため、私がまだ完成していない自分の1つのアイデアについて正直に話したいと思います。なぜなら、実際に報酬を得ていないにも関わらず、簡単に結びを付けてしまうことが容易になるからです。原則は「ローカル優先で、クラウドへの優雅な移行」であり、その原則が正しい理由も知っています。しかし、まだ決めていないのは、実際の実践においてどの程度の線を引けばいいか、どれだけを電話に残し、どれだけを外部にルーティングすればいいか、特にデバイスの範囲の最も下位でさえLiteRTも苦労し、クラウドが高級品ではなく、実際に機能する唯一のもののように見える場所です。これは私が先ほど説明したようなトレードオフであり、実際のハードウェアから測定されたものではなく、図面から測定されたものを使って行うようなタイプのトレードオフであり、私はまだその中で決めていません。既に決定しているかのように書くのは不誠実な部分なので、それを本当にそのままにしておきます。それは開かれたままです。

次にこのフロアに足を運ぶ建設者へ

この文章を読んでいるあなたが、私が建てているような見た目の場所で実際に何かをオープンモデルで建て始めることになっていて、私が入ったのと同じフロアに入ったなら、ここに伝えたいことを教えます。

まず最初に、これが改善し、ゆっくりとはならないということです。デバイス上のAIが注目に値する唯一の理由は、すでに私たちのポケットにある携帯電話が、新しいハードウェアを買う必要 없くても、今年こそ昨年にはできなかったことをしているからです。コンテキストウィンドウは広がりつつ、これらのモデルが要求する計算能力は低下しており、ローカルでこれを実行するのに高級機が必要なラインは、数ヶ月ごとに少しずつ中級機の方向へ移動しています。私が説明した排除は本物ですが、本当に一時的なものだと信じています。だから、今日ある状態だけでなく、その基盤が向かう方向に建てるべきです。なぜなら、あなたがリリースする頃には、もう動いています。

二つ目は、もし今このボトルネックがあなたをブロックしている場合、今日、そして床が落ちるのを待つことができない場合、オープン世界の中には選択肢があるということです。Gemmaが今持っているよりもコンテキストウィンドウが大きく、フットプリントが軽い他のオープンモデルが存在し、特に中国から出てくる一部の研究所は、まさにこれらの次元でそれをはるかに超えています。したがって、あなたの製品がこの四半期中に弱いスマートフォンでローカルで実行に依存している場合、コミットする前に適切に周りを見ることは、本当にあなたにとって価値のあることになります。

私も調べ、今いる場所に留まることを選びました。これは過ちではなく、意図的な決定です。Gemmaと広範なGoogleエコシステムに賭けるのは、私のハードウェアに最初から完璧であるからではなく、将来的にこのアプリが行いたいことや、私がOrientをどこへ導くかを考慮して全体のスタックがどのように組み合わさるかのために、意図的にです。これは私自身のロードマップに関する賭けであり、それが唯一賢明な答えであるという主張ではありません。あなたの選択は別の場所を指しているかもしれませんが、それは完全に問題ありません。要点はあなたがどのモデルを選ぶかではなく、完全に見通しの良い状況で選択し、それを下に立っている人々を正直に考慮して設計することです。

追従の物語は真実です。技術は本当に到着し、本当にオープンであり、本当に携帯電話に収まるものです。あなたは実際に所有している携帯電話ではなく、デモが撮影された携帯電話のために構築する必要があります。そして、現在のところ、地理がアクセスを形作っていることを正直に認識する必要があります。インターネットがオープン性を約束する一方で。