[Paper] NanoKnow: 당신의 Language Model이 무엇을 알고 있는지 아는 방법
Source: arXiv - 2602.20122v1
개요
이 논문은 NanoKnow라는 새로운 벤치마크를 소개합니다. 이 벤치마크를 통해 연구자와 엔지니어는 대형 언어 모델(LLM)이 훈련 데이터에서 실제로 “알고” 있는 내용과 외부 소스에서 검색할 수 있는 내용을 구분하여 분석할 수 있습니다. 사전 훈련 코퍼스가 공개된 완전 오픈‑소스 nanochat 계열의 소형 LLM을 활용함으로써, 저자들은 각 질문을 “본 적 있음”(답이 훈련 세트에 포함됨) 또는 “본 적 없음”으로 라벨링할 수 있습니다. 이를 통해 파라메트릭 지식(모델 가중치에 저장된)과 검색된 증거 사이의 상호작용을, 폐쇄형 모델에서는 불가능했던 방식으로 연구할 수 있게 됩니다.
주요 기여
- NanoKnow 데이터셋: Natural Questions와 SQuAD 질문을 답변이 nanochat의 사전 학습 데이터에 포함되는지 여부에 따라 seen과 unseen으로 구분한 데이터셋.
- 투명한 평가 프레임워크: 검색된 컨텍스트 유무에 관계없이 질의할 수 있는 모든 모델에 대해 파라메트릭 지식과 외부 증거를 명확히 구분할 수 있게 함.
- 실증적 통찰: 8개의 nanochat 체크포인트에 대한 체계적인 실험을 통해 답변 빈도, 외부 증거, 그리고 무관한 컨텍스트가 클로즈‑북 및 오픈‑북 성능에 미치는 영향을 밝혀냄.
- 오픈‑소스 공개: 모든 데이터, 스크립트, 평가 코드를 GitHub에 공개하여 재현성을 높이고 커뮤니티의 확장을 장려함.
방법론
- 데이터 분할 – 저자들은 nanochat의 사전‑학습 코퍼스를 스캔하여 각 답변 문자열이 존재하는지 확인합니다. 답변이 발견된 질문은 Seen 분할에 포함되고, 나머지는 Unseen이 됩니다.
- 모델 체크포인트 – 크기와 학습 단계가 다른 nanochat의 8개 체크포인트를 평가합니다.
- 평가 모드
- Closed‑book: 모델이 외부 컨텍스트 없이 질문에 답합니다.
- Open‑book: 모델에 검색된 구절(관련된 것이거나 의도적으로 노이즈가 섞인 것)을 추가 입력으로 제공합니다.
- 지표 – 각 분할에 대해 Exact‑match와 F1 점수를 보고하고, 답변 빈도, 구절 관련성, 구절 위치의 영향을 분석합니다.
파이프라인은 의도적으로 단순합니다: 구절을 검색하거나(없을 경우) 프롬프트 앞에 붙이고, 모델이 답변을 생성하도록 합니다. 이 설계는 복잡한 검색이나 프롬프트 트릭이 아니라 지식 소스에 초점을 맞추게 합니다.
결과 및 발견
| Finding | What the numbers show |
|---|---|
| 답변 빈도는 중요합니다 | Closed‑book accuracy는 답변 문자열이 pre‑training data에 나타나는 빈도와 강하게 상관관계가 있습니다. 자주 등장하는 답변은 훨씬 더 신뢰성 있게 회상됩니다. |
| 외부 증거가 도움이 됩니다 | 관련된 retrieved passages를 제공하면 Unseen split에서 성능이 향상되어 Seen 질문과 Unseen 질문 사이의 격차가 줄어듭니다. |
| 파라메트릭 + 외부 지식은 보완적이다 | 완벽한 증거가 있더라도 모델은 여전히 Seen 질문에서 더 좋은 성능을 보이며, 이는 저장된 지식과 검색된 텍스트가 각각 고유하게 기여한다는 것을 나타냅니다. |
| 관련 없는 컨텍스트는 해롭다 | 관련 없는 passages를 추가하면 accuracy가 저하됩니다; 방해 요소의 수가 늘어날수록 손상이 커지고, 무관한 텍스트가 프롬프트 초반에 나타날 경우 더 악화됩니다. |
전반적으로, 실험은 LLM이 순수한 “knowledge bases”가 아니라 기억된 사실과 on‑the‑fly retrieval의 혼합에 의존하며, 두 가지 모두 잡음이 섞인 입력에 의해 방해될 수 있음을 보여줍니다.
Practical Implications
- Better debugging tools – 개발자는 NanoKnow‑style 분할을 사용하여 모델 오류가 훈련 데이터 부족 때문인지, 검색 성능 저하 때문인지 정확히 파악하고, 목표 지향적인 데이터 증강을 안내할 수 있습니다.
- Informed prompting – 초기의 관련 없는 컨텍스트가 성능을 저하시킨다는 사실을 알면, 가장 관련성 높은 증거를 프롬프트의 끝부분에 배치하거나 명시적인 구분자를 사용하는 것이 좋습니다.
- Hybrid systems design – 파라메트릭 지식과 외부 지식이 상보적인 특성을 갖기 때문에, 단일 방식에 의존하기보다 컴팩트하면서도 고용량의 LLM과 경량 검색 컴포넌트를 결합하는 아키텍처를 장려합니다.
- Data‑centric development – 도메인 특화 애플리케이션(예: 의료 또는 법률 어시스턴트)의 경우, 사전 학습 데이터셋에서 답변 빈도를 측정함으로써 추가 파인튜닝이나 선별된 데이터가 얼마나 필요한지 추정할 수 있습니다.
- Evaluation standards – NanoKnow는 “지식 인식” LLM을 위한 재현 가능한 벤치마크를 제공하며, 이는 향후 오픈‑소스 모델의 표준 테스트가 될 수 있습니다.
제한 사항 및 향후 연구
- 규모 불일치 – NanoKnow는 작은 nanochat 모델을 기반으로 구축되었으며, 메모리 동작이 다른 수십억 파라미터 LLM에 결과가 직접 적용되지 않을 수 있습니다.
- 이진 보/미보 라벨링 – 현재 분할은 답변 문자열이 나타나는 모든 경우를 “보았음”으로 처리하며, 패러프레이징이나 맥락적 이해와 같은 뉘앙스를 무시합니다.
- 검색 품질 – 실험에서는 단순한 검색 파이프라인을 사용했으며, 보다 정교한 검색기가 파라미터 기반 지식과 외부 지식 간의 균형을 바꿀 수 있습니다.
- 향후 방향으로 저자들은 벤치마크를 더 큰 모델로 확장하고, 단계적인 “지식 난이도” 점수를 도입하며, 파라미터 지식과 검색된 지식을 명시적으로 정렬하는 학습 목표를 탐구하는 것을 제안합니다.
저자
- Lingwei Gu
- Nour Jedidi
- Jimmy Lin
논문 정보
- arXiv ID: 2602.20122v1
- 분류: cs.CL, cs.AI, cs.IR, cs.LG
- 출판일: 2026년 2월 23일
- PDF: PDF 다운로드