「Satellite Embeddings」が地球を検索空間ベクトルとしてどのように変換するか

私たち探査地質学者にとって、衛星画像は金の山（遊び心のある比喩）。水熱変質の地図作成、構造線の特定、アクセス困難な地域での現地調査計画——これら全てにおいて、私たちは強くテレデテクションに依存している.
しかし、従来のパイプラインは技術的に地獄だ：

ペタオクテットの brut scene をダウンロード (Sentinel, Landsat, ASTER).
日々、大気補正と雲／植生のマスキングを行う.
複雑なバンド比率（例：粘土や酸化鉄の比率）を操作して、矿物学を際立たせる.

Google と DeepMind は、彼らの基盤モデル AlphaEarth でこれらの習慣を覆しました。生のピクセルを処理する代わりに、私たちは現在、Satellite Embeddings（衛星埋め込み）を活用できるようになりました。

私は Gérard Cubaka と申します。この記事では、この技術がどのようにして地球の地質を単なるテキストデータベースのようにクエリできるかを説明します。

🧠 コンセプト：64次元の地質的およびスペクトルの跡

LLM（GPTなど）に慣れているなら、それらが単語を数学的ベクトル（埋め込み）に変換することを知っているでしょう。AlphaEarthは、地球の表面に対しても同じことを行います。
モデルは複数のセンサーデータを数年間蓄積しています：光学イメージング（反射率）、Sentinel-1レーダーデータ（表面粗さ、地形、構造）および気象データ。これらの物理的な動きを、10メートルピクセルあたりの64次元の単一のベクトルに圧縮し、毎年更新しています。
これらの64チャンネル（A00と呼ばれます）A63 は Google Earth Engine における正確なスペクトルバンドではありません。全体の意味的サインaturesを形成します。

なぜこれが探査における革命なのか？同じ地表地質環境を示す二つの地域——たとえば、同じ熱水変質のサイン、同じタイプの風化層、または似たようなペグマタイトの露出——は、数学的に非常に近いベクトルを持つ（小さい余弦距離）ものの、二つの異なる大陸に位置している場合がある。

🛠 データセットの技術仕様

この世界のデータセットは、Google Earth Engine（GEE）のカタログで無料で利用でき、IDはGOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL.

空間解像度：ピクセルあたり10メートル（地域の認識/グリーンフィールドに最適）。
形式：64チャンネルの画像（正規化ベクトル）。
頻度 : 年次の合成（現在、2017年から2025年まで利用可能）。

💻 実際には：数行で類似検索を実行する

地質学者にとって最も強力なユースケースは「例を示して検索する（Query-by-Example）」です。想像してみてください、あなたがあなたの許可区域内で知識ある鉱物の示唆や鉱脈を特定したとします。そのベクターを抽出し、モデルに国全体の同じ数学的シグネチャを持つすべての地域を見つけるように依頼できます.
これらのデータをEarth EngineのPython APIを通じてロードする方法は以下の通りです.

import ee
# Initialiser la connexion à Earth Engine
ee.Initialize()

# Charger la collection mondiale de Satellite 
Embeddingsembeddings_collection = ee.ImageCollection("GOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL")

# Filtrer sur les données les plus récentes (ex: 2024)
embeddings_recent = embeddings_collection.filter(ee.Filter.date('2024-01-01', '2024-12-31')).first()

# Afficher les 64 dimensions disponibles (A00 à A63)
print("Bandes d'exploration disponibles :", 
embeddings_recent.bandNames().getInfo())

どのようにしてあなたの探索ワークフローに組み込むのですか？

迅速な地域的ターゲティング：GEEをBigQuery Vector Searchのようなベクター検索ベースに接続することで、あなたの関心エリア（モデルのゲイト）のベクターとあなたの研究地域の残りの部分とのユークリッド距離を計算し、数秒で有利な鉱物地図を生成することができます。
リコリスと植生の地図作成：モデルは自然に基盤による植生の変化（生物地球化学的応答）を取り込みます。これらの64バンドに対する単純な非監督アルゴリズム（K-Means）により、人間のバイアスなしで主要な地質的領域をセクタリングできます。

⚖️ 地質学における利点と限界

✅ の方：

「データ準備」のステップをスキップ : 雲のクリーンアップや複雑な時代のシーンのモザイックが終わりました。データセットは分析準備完了です。
光学＋レーダー : このベクトルはスペクトル応答（構成）とレーダー応答（テクスチャー、フラクタル、地形）を融合させ、これまでの手動での実現が非常に重かったことを行います。
グリーンフィールドに最適です : 大きなエリア（湖沼、緑の岩帯）を低コストでスキャンし、現地のチームを派遣する前に使用します。

❌の欠点：

ブラックボックス効果 : アステルの通常のバンド比率とは異なり（アステルで明確にアルミナイトまたはカオリナイトをターゲットとしている場合）、数学的にどの具体的な地質的特徴がバンドA12またはA45を反応させるのか説明するのは難しい。
植物相の限界 : 雲の影響を軽減するが、エクアトリアル熱帯雨林の密集地帯では、光学の透過はカノープに限定される（センターレルタ1の統合されたレーダーが構造的形態を支援するものの）。
年間時間解像度 : それは地理学的問題ではありません（人間のスケールではあまり変わらないからです！）、しかし、それはこのツールが、活動中の鉱山の発掘作業の毎日の進捗を追跡するのに適していないことを意味します.

🚀 結論

Les Satellite Embeddingsは、データサイエンスと地球科学の融合において画期的な転換を意味します。私たちの惑星の表面をベクトル空間に変換することで、Googleは探査地質学者に、従来にないマクロなターゲット設定ツールを提供し、画像処理の画面の前に過ごす時間を劇的に削減し、現地での作業を促進しています。
すでにAIや機械学習を地質的ターゲティングに利用していますか？どのフレームワーク（TorchGeo, Rasterio, QGIS）を使うのがお好みですか？コメントで議論しましょう！

この記事に共感しましたら、❤️か🦄を残してください！ Tech、Python、Geospatial AIを組み合わせたコンテンツは、私のDEV.toプロフィールで追跡してください。

— ジェラール・クバカ

おすすめ購読元

DEV Community