Nemotron-Personas-Brazil:为主权 AI 共同设计的数据

发布: (2026年1月28日 GMT+8 08:56)
8 分钟阅读

Source: Hugging Face Blog

为巴西的 AI 打下真实数据基础

A compound AI approach to Brazilian Portuguese personas grounded in real-world distributions

构建服务于国家人口的 AI 系统需要能够反映当地语言、人口结构和文化背景的数据。对于拥有超过 2 亿人口、地域多样的巴西来说,这仍是一个长期存在的挑战,因为当今的大量高质量训练数据以英语为中心,或不可用于商业用途。

Nemotron-Personas-Brazil 有助于弥合这一差距。它是一个开放数据集(CC BY 4.0),包含 600 万条完全合成的人格(persona),在统计上基于巴西地理统计局(IBGE)的官方人口普查和劳动数据。每个人格都与真实的人口、地理和职业分布相匹配——但不代表任何真实个人。

此发布扩展了 NVIDIA 不断壮大的 Nemotron-Personas Collection,该集合已包含美国、日本、印度和新加坡等地区。与集合中的其他数据集一样,巴西数据集涵盖年龄、性别、教育、职业和位置等属性。

该数据集面向巴西的开发者和研究人员,旨在构建主权 AI,提供本地化、文化贴合且可商业使用(CC BY 4.0)的数据。它是与 WideLabs 合作完成的,WideLabs 是 NVIDIA Inception 成员,在拉美地区支持政府和受监管行业的 AI 部署方面拥有深厚经验。

数据集包含什么?

Dataset illustration

一目了然

  • 600 万巴西人物(100 万条记录 × 每条 6 种人物)
  • 总计约 14 亿 token,其中约 4.5 亿为人物 token
  • 每条记录 20 个字段:6 个人物字段 + 14 个基于官方统计的上下文字段
  • 完整的地域覆盖:巴西全部 26 个州 + 联邦区
  • 大约 45.7 万个独特的葡萄牙语姓名
  • 超过 1500 类职业,反映巴西劳动力市场
  • 多种人物类型,包括职业、体育、艺术、旅行等

每个人物均使用自然的巴西葡萄牙语撰写,包含文化背景、技能、目标、爱好和兴趣。

How We Built It

Data Generation Pipeline

Nemotron-Personas-Brazil 是使用 NeMo Data Designer 构建的,NeMo 是 NVIDIA 用于合成数据生成的复合 AI 系统。该流水线支持结构化生成、验证以及重试机制,以生成大规模、面向人口的 数据集。

关键组件

  • Probabilistic Graphical Model (Apache‑2.0) 用于统计基础
  • GPT‑OSS‑120B (Apache‑2.0) 用于巴西葡萄牙语的叙事生成

Nemotron-Personas‑Brazil 的扩展版本将直接在 NeMo Data Designer 中提供,开发者可以在自己的合成数据流水线中生成、细化和扩展巴西葡萄牙语人物角色。

Enhanced Cultural Context

为了捕捉巴西人口的社会‑人口和地理多样性,Nemotron-Personas‑Brazil 利用了 巴西地理与统计局 (IBGE) 发布的普查和劳动力数据。

  • Geography – 人物角色定位在州和市级层面,反映巴西五大宏观区域的地区差异。
  • Occupation – 超越职位名称,涵盖技能、专长和职业轨迹,涉及微型企业家和地区性行业。
  • Life Stages – 包含学生身份、失业和退休等阶段,以体现真实的人口动态。
  • Cultural Traits – 自然语言人物角色捕捉巴西的社会规范、兴趣和生活方式维度,如艺术、体育和旅行。
  • Language Fidelity – 所有人物角色均使用自然的巴西葡萄牙语撰写,体现本地命名惯例和沟通风格。

最终得到的数据集在统计上有坚实依据,文化上具代表性,并且从设计上完全合成。

Private By Design

该数据集不包含任何可识别个人身份的信息。虽然我们使用了官方公开来源中的年龄、姓名和职业的真实分布,但这些信息并未与任何真实的在世或已故个人关联。每个角色都是完全合成的,您可以在不侵犯隐私的前提下,基于真实的文化模式进行训练。

Who This Data Is For

Nemotron-Personas‑Brazil 是专为巴西开发者和研究人员构建主权 AI 系统而设计的。通过提供高质量、具有人口代表性的巴西葡萄牙语数据集,该数据集弥补了主要以英语为主的训练语料库留下的空白。

全球开发者也可以利用该数据集提升模型在巴西文化和语言环境下的性能和对齐度。

实际 AI 应用

  • 多轮对话 – 使用角色设定作为种子,生成真实的对话数据集。
  • 特定领域训练 – 构建具备文化意识的 AI 助手。
  • 偏差测试与公平性 – 评估模型在农村与城市人口、不同年龄段和教育水平之间的表现,确保你的 AI 在巴西社会的所有群体中公平运行。

为什么重要

AI 模型构建者长期面临获取多样化、高质量训练数据的难题,这类数据需要能够真实反映现实世界的人口分布。专有数据集在企业 AI 中占据主导地位,导致研究人员、初创公司以及来自代表性不足地区的开发者面临重重障碍。

  • 数据多样性 – 通过反映巴西全体人口的光谱,防止训练过于狭窄以及模型崩溃的情况。
  • 文化真实性 – 减少对西方中心化数据集的依赖,支持主权 AI的开发。
  • 隐私保护 – 旨在满足巴西的数据保护要求以及新兴的 AI 治理标准。

通过在 CC BY 4.0 许可证下发布 Nemotron-Personas‑Brazil,我们正在实现企业级合成数据的民主化——让任何人都能在不受成本、隐私或地域限制的情况下,构建具备文化真实性的 AI。

开始使用 Nemotron-Personas-Brazil 构建

from datasets import load_dataset

dataset = load_dataset("nvidia/nemotron-personas-brazil")

想了解更多 NVIDIA 的开放数据产品,或有兴趣共同设计未来的数据集吗?加入 NVIDIA 的 Discord 讨论吧。

Back to Blog

相关文章

阅读更多 »

介绍 Codex 应用

推出 macOS 版 Codex 应用——一个用于 AI 编码和软件开发的指挥中心,具备多代理、并行工作流和长时间运行任务等功能……