Nemotron-Personas-Brazil: 공동 설계된 데이터 for Sovereign AI

발행: 3개월 전 (2026년 1월 28일 오전 09:56 GMT+9)

11 분 소요

Source: Hugging Face Blog

위에 제공된 소스 링크만 포함되어 있어 번역할 본문이 없습니다. 번역을 원하는 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.

실제 데이터로 브라질 AI 기반 다지기

A compound AI approach to Brazilian Portuguese personas grounded in real-world distributions

국가 전체 인구를 대상으로 하는 AI 시스템을 구축하려면 현지 언어, 인구통계 및 문화적 맥락을 반영한 데이터가 필요합니다. 2억 명이 넘는 인구와 다양한 지역을 가진 브라질의 경우, 오늘날 고품질 학습 데이터의 대부분이 영어 중심이거나 상업적 사용이 불가능한 상황이라 이 문제는 지속적인 도전 과제로 남아 있습니다.

Nemotron-Personas-Brazil 은 이러한 격차를 메우는 데 도움을 줍니다. 이 데이터셋은 (CC BY 4.0) 라이선스 하에 공개된 600만 개의 완전 합성 페르소나로, 브라질 지리통계연구소(IBGE)의 공식 인구·노동 통계에 기반한 통계적 근거를 가지고 있습니다. 각 페르소나는 실제 인구통계, 지리적, 직업적 분포와 일치하지만, 실제 개인을 나타내지는 않습니다.

이번 릴리스는 이미 미국, 일본, 인도, 싱가포르를 포함하고 있는 NVIDIA의 확대 중인 Nemotron-Personas Collection 에 브라질 데이터를 추가한 것입니다. 컬렉션의 다른 데이터와 마찬가지로 브라질 데이터셋은 연령, 성별, 교육 수준, 직업, 위치와 같은 속성을 포함합니다.

이 데이터셋은 현지에 기반을 둔, 문화적으로 풍부하며 상업적으로 활용 가능한(CC BY 4.0) 데이터를 필요로 하는 브라질 개발자와 연구자를 위해 설계되었습니다. 라틴아메리카 전역에서 정부 및 규제 부문 AI 배포를 지원한 풍부한 경험을 가진 NVIDIA Inception 멤버인 WideLabs 와 협업하여 구축되었습니다.

데이터셋에 무엇이 포함되어 있나요?

Dataset illustration

한눈에 보기

6 백만 명의 브라질 인물 (1 백만 레코드 × 각 6명 인물)
총 ~14 억 토큰, 그 중 ~4.5 억 토큰은 인물 토큰
레코드당 20개 필드: 인물 필드 6개 + 공식 통계에 기반한 컨텍스트 필드 14개
전 지역 커버리지: 브라질 26개 주 + 연방구역 모두 포함
약 457 천 개의 고유 포르투갈어 이름
브라질 노동력을 반영한 1 500개 이상의 직업 카테고리
전문직, 스포츠, 예술, 여행 등 다양한 인물 유형 포함

각 인물은 자연스러운 브라질 포르투갈어로 작성되었으며, 문화적 배경, 기술, 목표, 취미 및 관심사를 포함합니다.

우리가 만든 방법

데이터 생성 파이프라인

Nemotron-Personas-Brazil는 NeMo Data Designer를 사용하여 구축되었습니다. 이는 NVIDIA의 복합 AI 시스템으로, 합성 데이터 생성을 지원합니다. 이 파이프라인은 대규모 인구 인식 데이터셋을 생성하기 위해 필요한 구조화된 생성, 검증 및 재시도 메커니즘을 제공합니다.

핵심 구성 요소

확률 그래프 모델 (Apache‑2.0) – 통계적 기반 제공
GPT‑OSS‑120B (Apache‑2.0) – 브라질 포르투갈어 내러티브 생성

Nemotron-Personas‑Brazil의 확장 버전은 NeMo Data Designer 내에서 직접 제공될 예정이며, 개발자가 자체 합성 데이터 파이프라인의 일부로 브라질 포르투갈어 페르소나를 생성, 정제 및 확장할 수 있게 됩니다.

향상된 문화적 맥락

브라질 인구의 사회·인구통계적 및 지리적 다양성을 포착하기 위해 Nemotron-Personas‑Brazil는 브라질 지리통계연구소 (IBGE)에서 공개한 인구·노동 데이터를 활용했습니다.

지리 – 페르소나는 주와 지방자치단체 수준에서 고정되어, 브라질 5대 거시지역 전반에 걸친 지역 변이를 반영합니다.
직업 – 직함을 넘어 기술, 전문성, 경력 궤적을 포함하여 마이크로 기업가와 지역 직업까지 포괄합니다.
생애 단계 – 학생 신분, 실업, 은퇴 등을 포함해 실제 인구 역학을 반영합니다.
문화적 특성 – 자연어 페르소나는 예술, 스포츠, 여행 등 브라질 사회 규범·관심사·생활 양식을 포착합니다.
언어 충실도 – 모든 페르소나는 현지 명명 관습과 커뮤니케이션 스타일을 반영한 자연스러운 브라질 포르투갈어로 작성됩니다.

그 결과, 통계적으로 기반을 두고 문화적으로 대표적이며 설계상 완전 합성된 데이터셋이 만들어졌습니다.

프라이버시를 위한 설계

이 데이터셋에는 개인 식별 정보가 포함되지 않습니다. 공식 공개 소스에서 얻은 연령, 이름, 직업 등의 실제 분포를 사용하지만, 실제 사람(생존자든 사망자든)과는 연결되지 않습니다. 모든 페르소나는 완전 합성되어, 문화적 패턴을 손상시키지 않으면서도 프라이버시를 침해하지 않고 학습에 활용할 수 있습니다.

이 데이터가 대상인 사람

Nemotron-Personas‑Brazil는 주로 주권 AI 시스템을 구축하는 브라질 개발자와 연구자를 위해 설계되었습니다. 브라질 포르투갈어로 고품질이며 인구를 대표하는 데이터를 제공함으로써, 이 데이터셋은 주로 영어 기반 훈련 코퍼스가 남긴 격차를 메웁니다.

전 세계 개발자들도 이 데이터셋을 활용하여 브라질 문화 및 언어적 맥락에서 모델 성능과 정렬을 향상시킬 수 있습니다.

실용적인 AI 적용

Multi‑turn conversation – 페르소나를 시드로 사용하여 실제 대화 데이터셋을 생성합니다.
Domain‑specific training – 문화적으로 인지된 AI 어시스턴트를 구축합니다.
Bias testing & fairness – 농촌과 도시 인구, 연령대, 교육 수준을 기준으로 모델 성능을 평가하여 AI가 브라질 사회의 모든 계층에서 공정하게 작동하도록 합니다.

왜 중요한가

AI 모델 구축자들은 실제 인구를 반영하는 다양하고 고품질의 학습 데이터에 접근하는 데 오랫동안 어려움을 겪어왔습니다. 독점 데이터셋이 기업 AI를 장악하고 있어, 연구자, 스타트업, 그리고 소외된 지역의 개발자들에게 장벽이 되고 있습니다.

데이터 다양성 – 브라질 전체 인구 스펙트럼을 반영함으로써 편향된 학습과 model collapse 를 방지합니다.
문화적 진정성 – 서구 중심 데이터셋에 대한 의존도를 낮추고 sovereign AI 개발을 지원합니다.
프라이버시 보존 – 브라질의 데이터 보호 요구사항 및 신흥 AI 거버넌스 표준을 충족하도록 설계되었습니다.

Nemotron-Personas‑Brazil를 CC BY 4.0 라이선스로 공개함으로써, 우리는 기업 수준의 합성 데이터에 대한 접근을 민주화하고 있습니다—비용, 프라이버시 우려, 지리적 장벽 없이 누구나 문화적으로 진정한 AI를 구축할 수 있게 합니다.

Start Building with Nemotron-Personas-Brazil

from datasets import load_dataset

dataset = load_dataset("nvidia/nemotron-personas-brazil")

NVIDIA의 오픈 데이터 제품에 대해 더 알고 싶으시거나, 향후 데이터셋 공동 설계에 관심이 있으신가요? NVIDIA의 Discord에서 대화에 참여하세요. NVIDIA’s Discord