Granite Embedding Multilingual R2: 32K 컨텍스트를 지원하는 오픈 Apache 2.0 다국어 임베딩, 1억 미만 데이터에서 최고의 검색 품질
TL;DR: ModernBERT 기반의 Apache 2.0 다국어 임베딩 모델 2종을 공개합니다. 97M 파라미터의 소형 모델은 MTEB 다국어 검색에서 60.3점으로 100M 미만 모든 공개 모델을 앞서며, 311M 풀 사이즈 모델은 Matryoshka 지원과 함께 65.2점을 기록해 500M 파라미터 이하 공개 모델 중 2위를 차지합니다. 두 모델 모두 200개 이상의 언어를 커버하고 52개 언어에 대해 튜닝했으며, 32K 토큰(전 모델 대비 64배) 컨텍스트를 처리하고 9개 프로그래밍 언어에 대한 코드 검색도 지원합니다.
이 글에서 다루는 내용: Enterprise-Ready by Design · A Strong Sub-100M Multilingual Model · What Changed from R1 · Training the Full-Size 311M Model · Building the compact 97M Multilingual Model · Benchmark Results · Matryoshka Embeddings · Deployment Options · For Framework Integrators · Which Model Should You Use? · Try The Models
다국어 임베딩 모델은 언어 커버리지는 넓지만 모델 크기가 커지는 혹은 작은 모델은 언어 수를 포기하는 딜레마에 직면해 있습니다. 다국어 코퍼스에 대한 검색 강화 생성, 교차 언어 검색, 국제 팀의 코드 검색 등 언어를 넘나드는 작업을 한다면, 속도와 정확도 사이에서 선택해야 했을 겁니다.
Granite Embedding Multilingual R2 릴리스는 그 간극을 크게 좁혔습니다. 이번에 공개하는 두 개의 다국어 임베딩 모델은 다음과 같습니다:
- granite-embedding-311m-multilingual-r2 — 311M 파라미터, 768 차원 임베딩, Matryoshka 차원 지원, 최상위 수준의 다국어 검색 품질을 제공하는 풀 사이즈 모델.
- granite-embedding-97m-multilingual-r2 — 97M 파라미터, 384 차원 임베딩으로, 크기에 비해 강력한 검색 품질을 보여주는 소형 모델.
두 모델 모두 200개 이상의 언어를 지원하고, 52개 언어와 프로그래밍 코드에 대해 향상된 검색 품질을 제공하며, 32,768 토큰까지의 컨텍스트 길이를 처리합니다(전 모델 대비 64배 증가). Apache 2.0 라이선스로 배포되며 sentence-transformers와 transformers에서 바로 사용할 수 있습니다. 별도의 task‑specific 프롬프트가 필요 없고, LangChain, LlamaIndex, Haystack, Milvus 등에서 모델 이름만 한 줄 바꾸면 바로 적용됩니다. 즉, 영어 전용 기본 모델을 사용하던 프레임워크에서도 한 줄만 수정하면 커뮤니티 전체에 200개 이상의 언어 지원을 제공할 수 있습니다—API 변경, 새로운 의존성, 코드 수정이 전혀 필요 없습니다. 두 모델 모두 CPU 최적화 추론을 위한 ONNX와 OpenVINO 가중치를 포함합니다.
52개 향상 지원 언어 (클릭해 펼치기)
기본 인코더는 200개 이상의 언어 텍스트로 사전 학습돼 일반 목적 임베딩을 생성합니다. 그 중 다음 52개 언어는 검색‑쌍 및 교차 언어 학습을 별도로 진행해 품질을 높였습니다:
Albanian (sq), Arabic (ar), Azerbaijani (az), Bengali (bn), Bulgarian (bg), Catalan (ca), Chinese (zh), Croatian (hr), Czech (cs), Danish (da), Dutch (nl), English (en), Estonian (et), Finnish (fi), French (fr), Georgian (ka), German (de), Greek (el), Hebrew (he), Hindi (hi), Hungarian (hu), Icelandic (is), Indonesian (id), Italian (it), Japanese (ja), Kazakh (kk), Khmer (km), Korean (ko), Latvian (lv), Lithuanian (lt), Malay (ms), Marathi (mr), Norwegian (no), Persian (fa), Polish (pl), Portuguese (pt), Romanian (ro), Russian (ru), Serbian (sr), Slovak (sk), Slovenian (sl), Spanish (es), Swahili (sw), Swedish (sv), Tagalog (tl), Telugu (te), Thai (th), Turkish (tr), Ukrainian (uk), Urdu (ur), Uzbek (uz), Vietnamese (vi).
또한 모델은 프로그래밍 코드(Python, Go, Java, JavaScript, PHP, Ruby, SQL, C, C++)에 대해 학습되었으며, 교차 언어 코드 검색을 지원합니다.
Enterprise-Ready by Design
두 임베딩 모델은 IBM이 직접 선별·정제한 데이터셋, 공개 데이터, 내부에서 생성·합성한 데이터의 혼합으로 학습되었습니다. 웹에서 수집한 공개 데이터는 IBM이 개발한 품질·중복 제거·거버넌스 프로세스를 거쳐 위험을 최소화한 뒤 사용합니다. MS‑MARCO 훈련 데이터셋 및 비상업적 라이선스 제한이 명시된 데이터셋은 의도적으로 배제했습니다. 모델은 IBM이 관리하는 GneissWeb 데이터를 기반으로 사전 학습되었습니다. GneissWeb은 공개 웹 콘텐츠를 IBM의 데이터 준비·거버넌스 도구로 가공한 데이터셋이며, 추가적인 IBM‑curated 및 공개 데이터도 함께 사용했습니다. 모든 데이터셋은 라이선스·소유권·개인정보 위험을 평가하기 위해 IBM 거버넌스 검토를 거칩니다. 이러한 프로세스는 책임 있는 사용과 기업 환경 배포를 지원하도록 설계되었습니다.
A Strong Sub-100M Multilingual Model
이번 릴리스의 핵심은 granite-embedding-97m-multilingual-r2입니다. 9700만 파라미터 규모에도 불구하고 18개 언어에 대해 MTEB 다국어 검색에서 60.3점을 기록했으며, 이는 100M 이하 파라미터를 가진 모든 공개 다국어 임베딩 모델 중 최고 점수입니다. 동일 규모 모델 중 가장 근접한 multilingual-e5-small는 50.9점을 기록해 9.4점 차를 보입니다.
311M 풀 사이즈 모델 대비 약 1/3 크기이지만, 다국어·코드·장문 문서 벤치마크 전반에서 대부분의 성능을 유지합니다. 전 모델 대비 MTEB 다국어 검색에서 12.2점 상승했으며, 이는 새로운 아키텍처, 개선된 학습 데이터, 그리고 새로운 프루닝 방법론 덕분입니다(아래에서 자세히 설명). 풀 사이즈 granite-embedding-311m-multilingual-r2는 동일 벤치마크에서 65.2점을 기록해 전 버전 대비 13.0점 상승했습니다.
What Changed from R1
Granite Embedding Multilingual R1 모델은 XLM‑RoB
