Nemotron-Personas-Japan: ソブリン AI のための合成データセット

Hugging Face - Blog

Waypoint-1.5: Higher-Fidelity Interactive Worlds for Everyday GPUs ALTK‑Evolve: On‑the‑Job Learning for AI Agents Safetensors is Joining the PyTorch Foundation Holo3: Breaking the Computer Use Frontier Any Custom Frontend with Gradio's Backend A New Framework for Evaluating Voice Agents (EVA) Bringing Robotics AI to Embedded Platforms: Dataset Recording, VLA Fine‑Tuning, and On‑Device Optimizations One-Shot Any Web App with Gradio's gr.HTML CUGA on Hugging Face: Democratizing Configurable AI Agents New in llama.cpp: Model Management Building Deep Research: How we Achieved State of the Art OVHcloud on Hugging Face Inference Providers 🔥 20x Faster TRL Fine-tuning with RapidFire AI Building for an Open Future - our new partnership with Google Cloud Aligning to What? Rethinking Agent Generalization in MiniMax M2 Building a Healthcare Robot from Simulation to Deployment with NVIDIA Isaac Sentence Transformers is joining Hugging Face! Unlock the power of images with AI Sheets Supercharge your OCR Pipelines with Open Models Google Cloud C4 Brings a 70% TCO improvement on GPT OSS with Intel and Hugging Face Get your VLM running in 3 simple steps on Intel CPUs Nemotron-Personas-India: Synthesized Data for Sovereign AI Introducing RTEB: A New Standard for Retrieval Evaluation Accelerating Qwen3-8B Agent on Intel® Core™ Ultra with Depth-Pruned Draft Models VibeGame: Exploring Vibe Coding Games Swift Transformers Reaches 1.0 – and Looks to the Future Smol2Operator: Post-Training GUI Agents for Computer Use SyGra: The One-Stop Framework for Building Data for LLMs and SLMs Gaia2 and ARE: Empowering the community to study agents Scaleway on Hugging Face Inference Providers 🔥 Democratizing AI Safety with RiskRubric.ai Public AI on Hugging Face Inference Providers 🔥 `LeRobotDataset:v3.0`: Bringing large-scale datasets to `lerobot` Visible Watermarking with Gradio Introducing the Palmyra-mini family: Powerful, lightweight, and ready to reason! Tricks from OpenAI gpt-oss YOU 🫵 can use with transformers Fine-tune Any LLM from the Hugging Face Hub with Together AI Jupyter Agents: training LLMs to reason with notebooks mmBERT: ModernBERT goes Multilingual Welcome EmbeddingGemma, Google's new efficient embedding model SAIR: Accelerating Pharma R&D with AI-Powered Structural Intelligence Make your ZeroGPU Spaces go brrr with ahead-of-time compilation NVIDIA Releases 6 Million Multi-Lingual Reasoning Dataset Generate Images with Claude and Hugging Face From Zero to GPU: A Guide to Building and Scaling Production-Ready CUDA Kernels MCP for Research: How to Connect AI to Research Tools Kimina-Prover-RL Arm & ExecuTorch 0.7: Bringing Generative AI to the masses Neural Super Sampling is here! TextQuests: How Good are LLMs at Text-Based Video Games? 🇵🇭 FilBench - Can LLMs Understand and Generate Filipino? Introducing AI Sheets: a tool to work with datasets using open AI models! Accelerate ND-Parallel: A guide to Efficient Multi-GPU Training Vision Language Model Alignment in TRL ⚡️ Welcome GPT OSS, the new open-source model family from OpenAI! Measuring Open-Source Llama Nemotron Models on DeepResearch Bench 📚 3LM: A Benchmark for Arabic LLMs in STEM and Code Implementing MCP Servers in Python: An AI Shopping Assistant with Gradio Introducing Trackio: A Lightweight Experiment Tracking Library from Hugging Face Say hello to `hf`: a faster, friendlier Hugging Face CLI ✨ Parquet Content-Defined Chunking TimeScope: How Long Can Your Video Large Multimodal Model Go? Fast LoRA inference for Flux with Diffusers and PEFT Accelerate a World of LLMs on Hugging Face with NVIDIA NIM Arc Virtual Cell Challenge: A Primer Consilium: When Multiple LLMs Collaborate Back to The Future: Evaluating AI Agents on Predicting Future Events Five Big Improvements to Gradio MCP Servers Ettin Suite: SoTA Paired Encoders and Decoders Migrating the Hub from Git LFS to Xet Kimina-Prover: Applying Test-time RL Search on Large Formal Reasoning Models Asynchronous Robot Inference: Decoupling Action Prediction and Execution ScreenEnv: Deploy your full stack Desktop Agent Building the Hugging Face MCP Server Reachy Mini - The Open-Source Robot for Today's and Tomorrow's AI Builders Creating custom kernels for the AMD MI300 Upskill your LLMs With Gradio MCP Servers SmolLM3: smol, multilingual, long-context reasoner Three Mighty Alerts Supporting Hugging Face’s Production Infrastructure Efficient MultiModal Data Pipeline Announcing NeurIPS 2025 E2LM Competition: Early Training Evaluation of Language Models Training and Finetuning Sparse Embedding Models with Sentence Transformers Welcome the NVIDIA Llama Nemotron Nano VLM to Hugging Face Hub Gemma 3n fully available in the open-source ecosystem! Transformers backend integration in SGLang (LoRA) Fine-Tuning FLUX.1-dev on Consumer Hardware Groq on Hugging Face Inference Providers 🔥 How Long Prompts Block Other Requests - Optimizing LLM Performance Learn the Hugging Face Kernel Hub in 5 Minutes Featherless AI on Hugging Face Inference Providers 🔥 Convert Transformers to ONNX with Hugging Face Optimum Intel and Hugging Face Partner to Democratize Machine Learning Hardware Acceleration Director of Machine Learning Insights [Part 3: Finance Edition] The Annotated Diffusion Model Deep Q-Learning with Space Invaders Graphcore and Hugging Face Launch New Lineup of IPU-Ready Transformers Introducing Pull Requests and Discussions 🥳 Efficient Table Pre-training without Real Data: An Introduction to TAPEX An Introduction to Q-Learning Part 2/2 How Sempre Health is leveraging the Expert Acceleration Program to accelerate their ML roadmap

Atsunori Fujita, Masaya Ogushi, Vincent Gong, Kotaro Yamamoto, Y · 2025-09-26 · via Hugging Face - Blog

Back to Articles

実世界分布に基づいた日本人ペルソナのための複合AIアプローチ

日本の AI の未来に向けたオープンデータ

高品質で多様なトレーニングデータなしに、日本文化を真に理解するAIを構築することはこれまでほぼ不可能でした。これを変えるため、NVIDIAは、日本の人口統計、地理的分布、文化的特性に沿ったペルソナを含む初のオープン合成データセット、Nemotron-Personas-Japan を公開しました。CC BY 4.0 ライセンスのもと提供される本データセットは、機微な個人データに依存することなく日本社会を反映した AI システム構築のための、プライバシー保護と規制対応を両立した基盤を提供します。

NVIDIA のエンタープライズ向け合成データ生成システム、NeMo Data Designer を用いて作成されたNemotron-Personas-Japan は、すでに広く利用されている US Personas データセットの成功を機に日本版として開発されました。本リリースは、各国・地域におけるソブリン AI 開発を支援する合成ペルソナデータセットとデータ構築方法のグローバルコレクションの第一弾です。

本データセットは、Nemotron モデルをはじめとするオープンソースの大規模言語モデル(LLM) とシームレスに連携するよう設計されており、企業向けチャットボットから各種ドメインの AI エージェントに至るまで、日本語 AI アプリケーション向けのファインチューンを容易に行えるようになっています。

データセットの内容

合計600万件（各レコードにつき6ペルソナ、100万レコード）の自然な日本語で記述されたペルソナ
1レコードあたり22項目：6つのペルソナ関連項目と、公式の人口統計・労働統計に基づいた16のコンテキスト項目
総トークン数約14億：そのうち約8億5000万がペルソナ関連トークン
約95万件の固有の名前：合成データ生成で前例のない多様性
日本の労働力を反映した 1500 以上の職種カテゴリー
人口・地域・性格特性軸を網羅的にカバー
多様なペルソナタイプ：職業、スポーツ、芸術、旅行、料理
自然言語によるペルソナ属性：文化的背景、スキルと専門性、キャリア目標・志向、趣味や関心
CC BY 4.0 ライセンスに基づき、商用・非商用を問わず利用可能

Nemotron-Personas-Japanの構築方法

データ生成パイプライン

NVIDIAの合成データ生成用マイクロサービスである NeMo Data Designer を用いて構築されています。この複合AIシステムは、複雑な Jinja テンプレート、Pydantic による検証、構造化出力、自動リトライ、および複数の生成バックエンドのサポートを可能にします。これらは、このような大規模な合成データセットの生成に必要なツール群です。さらに、以下のモデルも活用しています。

統計に基づいた生成を実現するための確率的グラフィカルモデル（Apache-2.0）
日本語文章生成のための GPT-OSS-120B（Apache-2.0）

日本の文化的背景の反映

Nemotron-Personas-Japan は、日本の公的な人口統計および労働統計に整合するよう設計されると同時に、AI トレーニングにおいて重要な以下の点を考慮して生成されました：

教育：国の統計で学位レベルが一括分類されている場合、モデルが異なる教育経路を反映できるよう、より細かい区分を導入しました。
職業：トレーニングに使用する職業の幅を広げるため、追加カテゴリー（事業主や専門職種など）を組み込みました。
ライフステージ：統計上ではあまり表に出ない学生、退職者、失業状態といったシナリオをモデル化し、より現実的なペルソナを表現できるようにしました。
文化的特性：日本の社会的・文化的特徴を組み込み、AI システムが地域固有の規範をより適切に反映できるようにしました。
デジタルデバイド：年齢層ごとのデジタルリテラシーの差を考慮し、日本における実際のテクノロジー利用状況を反映しました。

プライバシーを保護した設計

このデータセットには、個人を特定できる情報（PII）は一切含まれていません。年齢、名前、職業などは公的な統計データの分布に基づいていますが、存命・故人問わず、実在の人物と結びつくことはありません。全てのペルソナは完全に人工的に生成されているため、実際の文化的パターンを保ちながらも、個人のプライバシーを損なうことなくトレーニングに利用できます。

想定するユーザ

Nemotron-Personas-Japanは、日本のソブリン AI システムを開発する日本のモデル開発者向けに設計されています。現在、LLM開発者が使用する訓練データのほとんどは英語であり、日本やインドなど各地域の開発者は、母国語で高品質なデータを入手するのに苦労しています。

本データセットを含め、NVIDIA の Nemotron-Personas の一連の取り組みは、こうした課題を直接解決するものです。地域固有のニュアンスを捉えつつ、開発者が地域固有の言語で多様かつ複雑なデータを生成できるようサポートします。データセットは国勢調査データ、日本人の命名規則、文化的特徴など地域のコンテキストに基づき、すべて母語で生成しています。

そのため、日本で自分たちのモデルの採用を拡大し、日本の文化的コンテキストを理解したいすべての AI モデルの開発者の方々のお役に立てれば幸いです。

実用的な AI アプリケーションへの利用

本データセットに含まれる合成ペルソナを以下のようなことに活用できます：

マルチターンの会話合成：ペルソナを「シード」として活用し、人間らしい対話データセットを作成
ドメイン固有の AI アシスタントの開発：文化的配慮が可能な AI アシスタントを構築するためのデータセットを作成
バイアステストと公平性：モデルや AI エージェントシステムが、地方と都市、異なる年齢層、あるいは多様な教育水準などにわたってどのように機能するかを評価し、日本社会のあらゆる層に対して公平に働くAIを実現

合成ペルソナデータの重要性

AI 開発には、実世界の人々を反映した多様で高品質な訓練データへのアクセスが長らく課題でした。企業向け AI の開発はプライベートデータが主流となっており、研究者、スタートアップ、そして特に利用可能なデータが少ない地域のAI開発者にとって障壁となっていました。

データの多様性：日本の全人口層を反映することで、偏った学習やモデル崩壊を防ぎます。
文化的信頼性：欧米中心のデータセットへの依存を減らし、ソブリンAIシステムの開発を支援します。
プライバシーとコンプライアンス：日本の 個人情報保護法（PIPA) の要件および将来の AI ガバナンスを満たします。

Nemotron-Personas-Japan を CC BY 4.0 のもとで公開することで、企業レベルの高品質な合成データへのアクセスを可能とし、従来のコスト、プライバシーの懸念、地理的な制約といった障壁なしに、文化的背景を正確に反映した AI システムを誰でも構築できるようになりました。

今すぐ使ってください

以下のコマンドで本データセットをダウンロードできます。日本文化と言語を真に理解する AIの開発にお役立てください。

from datasets import load_dataset
ds = load_dataset("nvidia/Nemotron-Personas-Japan")

本番用アプリケーション構築のための活用例：

ペルソナを会話生成のシードとして活用する
文化的背景を反映したデータでモデルをファインチューニングする
日本の人口構成全体を反映する、パーソナライズされたエンジンを構築する
日本のコンテキストを備えたドメイン特化型 AI エージェントを開発する

日本でソブリン AI を開発するモデル開発者から、より広範な地域での利用を目指すグローバルな開発者まで、Nemotron-Personas-Japan データセットは、アプリケーションに必要な本格的かつプライバシーに配慮した基盤を提供します。

此内容由惯性聚合(RSS阅读器)自动聚合整理，仅供阅读参考。原文来自 — 版权归原作者所有。

推荐订阅源

Hugging Face - Blog

日本の AI の未来に向けたオープンデータ

データセットの内容

Nemotron-Personas-Japanの構築方法

データ生成パイプライン

想定するユーザ

実用的な AI アプリケーションへの利用

合成ペルソナデータの重要性

今すぐ使ってください