인셔셔RSS 관심 있는 블로그, 뉴스, 기술 정보를 효율적으로 추적하고 읽으세요
원문 읽기 InertiaRSS에서 열기

추천 피드

博客园 - 司徒正美
V
V2EX
T
Tailwind CSS Blog
有赞技术团队
有赞技术团队
aimingoo的专栏
aimingoo的专栏
Apple Machine Learning Research
Apple Machine Learning Research
IT之家
IT之家
Blog — PlanetScale
Blog — PlanetScale
A
About on SuperTechFans
月光博客
月光博客
T
The Blog of Author Tim Ferriss
宝玉的分享
宝玉的分享
Martin Fowler
Martin Fowler
博客园 - 聂微东
The GitHub Blog
The GitHub Blog
V
Visual Studio Blog
WordPress大学
WordPress大学
酷 壳 – CoolShell
酷 壳 – CoolShell
Engineering at Meta
Engineering at Meta
GbyAI
GbyAI

DEV Community

Authentication Security Deep Dive: From Brute Force to Salted Hashing (With Java Examples) Why AI Systems Don’t Fail — They Drift Spilling beans for how i learn for exam😁"Reinforcement Learning Cheat Sheet" I Replaced Chrome with Safari for AI Browser Automation. Here's What Broke (and What Finally Worked) How Python Borrows Other People's Work The $40 Architecture: Processing 1 Billion API Requests with 99.99% Uptime Vibe Coding: A Workflow Guide (From Zero to SaaS) Most webhook security guides protect the wrong side. The scary part is delivery. Headless CMS for TanStack Start: Build a Blog with Cosmic EU Age Verification App "Hacked in 2 Minutes" — What Actually Happened Comfy Cloud’s delete function does not actually remove files Running AI Models on GPU Cloud Servers: A Beginner Guide Event-driven media intelligence with AWS Step Functions and Bedrock I scored 500 AI prompts across 8 quality dimensions — here's what broke How to Call Google Gemini API from Next.js (Free Tier, No Backend Needed) The Portal Protocol: Reclaiming Human Connection in the Age of AI How to Fix Your Team's Scattered Knowledge Problem With a Self-Hosted Forum Intro to tc Cloud Functors: A Graph-First Mental Model for the Modern Cloud Designing Multi-Tenant Backends With Both Ownership and Team Access I Built a Neumorphic CSS Library with 77+ Components — Here's What I Learned PostgreSQL Performance Optimization: Why Connection Pooling Is Critical at Scale Cómo construí un SaaS multi-rubro para gestionar expensas en Argentina con FastAPI + Vue 3 🚀 I Built an Ethical Hacking Scanner Tool – Open Source Project I Replaced /usage and /context in Claude Code With a Single Statusline A Pythonic Way to Handle Emails (IMAP/SMTP) with Auto-Discovery and AI-Ready Design I Collected 8.9 Million Polymarket Price Points — Here's What I Found About How Markets Really Move EcoTrack AI — Carbon Footprint Tracker & Dashboard Everyone's Using AI. No One Agrees How. 5 self-hosted ebook managers worth trying in 2026 Building Your First AI Agent with LangChain: From Chatbot to Autonomous Assistant Common SOC 2 Failures (Real World) Stop Vibe-Checking Your AI App: A Practical Guide to Evals How to Use SonarQube and SonarScanner Locally to Level Up Your Code Quality Your Next To-Do App Is Dead — I Replaced Mine with an OpenClaw AI Sign a Nostr event in 60 lines of Python using coincurve — no nostr-sdk, no nbxplorer, no rust toolchain ITGC Audit Explained Like You’re in Big 4 Patch Tuesday abril 2026: Microsoft parcha 163 vulnerabilidades y un zero-day en SharePoint Stop scraping everything: a better way to track competitor price changes Listing on MCPize + the Official MCP Registry while routing payments OUTSIDE the marketplace — how I kept 100% of my x402 revenue Building an AI-Powered Risk Intelligence System Using Serverless Architecture Why We Ripped Function Overloading Out of Our AI Toolchain Testing AI-Generated Code: How to Actually Know If It Works SaaS Churn Is Killing Your Business. Here Is What to Do About It (Without a Support Team) The Speed of AI Is No Longer Linear - And Self-Improving Models Are Why How to Implement RBAC for MCP Tools: A Practical Guide for Engineering Teams From Standard Quote to Persuasive Proposal: AI Automation for Arborists I built a CLI that scaffolds complete multi-tenant SaaS apps Axios CVE-2025–62718: The Silent SSRF Bug That Could Be Hiding in Your Node.js App Right Now The dashboard that ended our friendship Data Pipelines Explained Simply (and How to Build Them with Python)
"Satellite Embeddings"이 어떻게 지구를 검색 공간 벡터 공간으로 변환하는가
Gérard Cubak · 2026-05-24 · via DEV Community

우리 탐사 지질학자들에게 위성 영상은 골드 미네랄(의도된 농담). 물리적 변화 지도 작성, 구조적 단열선 식별 또는 접근이 어려운 지역의 현장 조사 계획 수립과 관계없이, 우리는 대규모로 원격 감시 기술에 의존합니다.
하지만 표준 파이프라인은 기술적으로 지옥입니다:

  1. 페타오피트 스케일의 블러드 레이스(샐렌딜, 랜드스랫, 아스터) 다운로드.
  2. 일주일을 버티며 대기 보정 및 구름/식물 마스킹.
  3. 복잡한 밴드 비율(예: 점토 또는 철산 비율)을 조작하여 광물학적 특성을 강조.

Google와 DeepMind는 최근 AlphaEarth이라는 기반 모델로 이러한 습관을 바꾸었습니다. 우리는 이제 브루트 픽셀을 처리하는 대신 Satellite Embeddings (위성 임베딩)을 활용할 수 있습니다.

저는 Gérard Cubaka라고 합니다. 이 글에서 저는 이 기술이 우리의 행성의 지질을 단순한 텍스트 데이터베이스처럼 쿼리하는 방법을 설명합니다.


🧠 개념: 64차원 지질적 및 스펙트럼 트레이스

LLM(GPT와 같은)에 익숙하다면, 단어를 수학적 벡터(임베딩)로 변환한다는 것을 알고 있을 겁니다. AlphaEarth는 지표면에 대해서도 정확히 동일한 작업을 수행합니다.
모델은 다중 센서 데이터 여러 년을 학습했습니다: 광학 영상(반사율), Sentinel-1 레이더 데이터(표면 산호화, 지형, 구조) 및 기후 데이터입니다. 이 모든 물리적 동적을 10미터 픽셀당 64차원의 단일 벡터로 압축하고 매년 업데이트합니다.
이 64개 채널(이름은 A00A63 dans Google Earth Engine)은 정확한 스펙트럼 밴드를 나타내지 않습니다. 그들은 전반적인 의미적 서명을 형성합니다.

이것이 탐사에 대한 혁명인 이유는 무엇인가요? 두 지역이 표면 지질 환경이 동일한 경우—예를 들어 동일한 수온 변화 표식, 동일한 유형의 토양 또는 유사한 페그마타이트 노출—두 대륙에 위치하더라도 수학적으로 매우 가까운 벡터를 갖게 됩니다 (낮은 코사인 거리).


🛠 데이터셋 기술 사양

전 세계 데이터셋은 구글 지구 엔진(GEE) 카탈로그에서 GOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL.

  • 공간 해상도 : 픽셀당 10미터 (지역 인식 / Greenfield에 적합)로 무료로 접근할 수 있습니다.
  • 파일 형식 : 64개 채널 이미지 (정규화 벡터).
  • 주기 : 연간 요약 (현재 2017년부터 2025년까지 제공됨).

💻 실제로: 유사성 검색을 몇 줄로 시작하다

지질학자에게 가장 강력한 사용 사례는 예시를 통한 쿼리(목표 검색)입니다. 지질학자가 허가권에 있는 지역에서 미네랄화된 단서나 알려진 광맥을 식별했다고 상상해 보세요. 그럴 경우, 그 단서의 벡터를 추출하고 모델에게 국가 전체에서 동일한 수학적 서명을 공유하는 모든 지역을 찾아달라고 요청할 수 있습니다.
이렇게 Earth Engine의 Python API를 통해 이러한 데이터를 로드하는 방법은 다음과 같습니다.

import ee
# Initialiser la connexion à Earth Engine
ee.Initialize()

# Charger la collection mondiale de Satellite 
Embeddingsembeddings_collection = ee.ImageCollection("GOOGLE/SATELLITE_EMBEDDING/V1_ANNUAL")

# Filtrer sur les données les plus récentes (ex: 2024)
embeddings_recent = embeddings_collection.filter(ee.Filter.date('2024-01-01', '2024-12-31')).first()

# Afficher les 64 dimensions disponibles (A00 à A63)
print("Bandes d'exploration disponibles :", 
embeddings_recent.bandNames().getInfo())

Enter fullscreen mode 전체 화면 모드 종료

어떻게 탐색 워크플로우에 통합할 수 있나요?

  1. 지역 타겟팅 빠른 방법: GEE를 BigQuery Vector Search와 같은 벡터 기반 데이터베이스에 연결하면, 관심 지역의 벡터(모델 숙소)와 탐색 지역의 나머지 부분 사이의 유클리드 거리를 계산하여 몇 초 안에 광물 선호도 지도를 생성할 수 있습니다.

  2. 리굴라이트와 식생 맵핑: 모델은 자연적으로 기반암에 의한 식생 변화(생물지화학적 반응)를 통합합니다. 이 64개 대역에 대한 간단한 비지도 알고리즘(K-Means)을 사용하여 인간의 편견 없이 주요 지질 영역을 구역화할 수 있습니다.


⚖️ 지질학적 장점 대 비용

✅:

  • 데이터 준비 단계 건너뛰기 : 구름 정리나 다양한 시대의 장면의 복잡한 모자이크 작업을 완료했습니다. 데이터셋은 분석 준비 상태입니다.
  • 광학 + 레이더 : 벡터는 스펙트럼 반응(구성)과 레이더 반응(텍스처, 프랙탈, 지형)을 결합하여, 이는 일반적으로 수동으로 구현하기 매우 어렵습니다.
  • Greenfield에 이상적입니다 : 더 저렴한 컴퓨팅 비용으로 거대한 영역(호수, 녹색암대)을 스캔할 수 있도록 허용하여 현장 팀을 보내기 전에

❌ :

  • 검은 상자 효과 : 일반적인 ASTER 대역 비율과는 달리 (여기서 알루미나이트 또는 카올라이트를 명확히 타겟팅한다는 것을 알고 있음), A12 또는 A45 대역이 반응하는 정확한 지질적 특징을 수학적으로 설명하는 것은 어려움.
  • 식물 지표 : 구름의 영향을 완화하지만, 적도 우림 지역에서는 광학 장치의 침투가 여전히 캐노피에 제한됩니다 (물론 인터그레이드된 Sentinel-1 레이더가 구조적 형태학적 도움을 줍니다).
  • 연간 시간 해상도 : 지질학적인 문제는 아닙니다 (인간의 시간 척도로는 거의 변하지 않습니다!), 하지만 이는 해당 도구가 활동 중인 광산의 발굴 작업의 매일의 진행 상황을 추적하기에 적합하지 않다는 의미입니다.

🚀 결론

Les Satellite Embeddings는 데이터 과학과 지구 과학의 융합에 있어 중요한 전환점을 상징합니다. 우리 행성의 표면을 벡터 공간으로 변환하여, 구글은 탐사 지질학자들에게 전례 없는 광범위한 타겟팅 도구를 제공하며, 이미지 처리 화면 뒤에서 보내는 시간을 극적으로 줄여 실 địa 작업에 중점을 둡니다.
이미 인공지능이나 머신러닝을 지형 타겟팅에 사용하시나요? 어떤 프레임워크 (TorchGeo, Rasterio, QGIS)을 조작하는 데 선호하시나요? 댓글에서 이야기해요!


이 글이 마음에 드셨다면 ❤️나 🦄를 남겨주세요! Tech, Python과 지형 인공지능을 결합한 더 많은 콘텐츠를 위해 제 DEV.to 프로필을 따라주세요.

— 쥐라르 쿠바카