NeurIPS 2025 베스트 페이퍼 상

발행: (2025년 12월 5일 오전 10:15 GMT+9)
11 min read

Source: Hacker News

Best Paper Award 위원회 구성원은 프로그램 의장과 데이터베이스·벤치마크 트랙 의장이 지명했으며, 이들은 머신러닝 전 분야의 선도 연구자들을 선정했습니다. 이 지명은 총괄 의장과 차세대·접근성 의장의 승인을 받았습니다.

Best Paper 위원회는 메인 트랙과 데이터셋·벤치마크 트랙에서 높은 영향력을 가진 논문 몇 편을 선정하는 임무를 맡았습니다.

올해 최우수 논문 및 준우수 논문 수상작은 7편의 획기적인 논문으로, 최우수 논문 4편(그 중 하나는 데이터셋·벤치마크 트랙)과 준우수 논문 3편을 포함합니다. 이 7편은 확산 모델 이론, 자기‑지도 강화 학습, 대형 언어 모델을 위한 어텐션 메커니즘, LLM의 추론 능력, 온라인 학습 이론, 신경 스케일링 법칙, 언어 모델 다양성 벤치마크 방법론 등에서의 진보를 강조합니다.

수상작은 제목 알파벳 순으로 아래에 제시됩니다.

인공 하이브마인드: 언어 모델(및 그 이상)의 개방형 동질성

Authors: Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi

Abstract

대형 언어 모델(LM)은 종종 다양하고 인간과 같은 창의적 콘텐츠를 생성하는 데 어려움을 겪으며, 이는 유사한 출력에 반복적으로 노출될 경우 인간 사고의 장기적인 동질화에 대한 우려를 낳습니다. 그러나 실제 작업이 아닌 무작위 숫자·이름 생성 등 좁은 과제나 단일 모델에서의 반복 샘플링을 넘어서는 LM 출력 다양성을 평가할 수 있는 확장 가능한 방법은 여전히 제한적입니다. 이러한 격차를 메우기 위해 우리는 Infinity‑Chat이라는 26 K개의 다양하고 실제 세계의 개방형 사용자 질의를 포함하는 대규모 데이터셋을 소개합니다. 이 질의들은 단일 정답이 없는 다수의 타당한 답변을 허용합니다. 우리는 개방형 프롬프트 전체 스펙트럼을 특성화하기 위한 최초의 포괄적 분류 체계를 제시하는데, 이는 6개의 최상위 카테고리(예: 창의적 콘텐츠 생성, 브레인스토밍·아이데이션)와 17개의 하위 카테고리로 구성됩니다. Infinity‑Chat을 활용해 우리는 LM에서의 모드 붕괴를 대규모로 조사했으며, 개방형 생성에서 인공 하이브마인드 현상이 두드러짐을 발견했습니다. 이는 (1) 단일 모델이 일관되게 유사한 응답을 생성하는 모델 내부 반복과, (2) 서로 다른 모델이 놀라울 정도로 유사한 출력을 내는 모델 간 동질성으로 요약됩니다. Infinity‑Chat은 또한 절대 평점과 쌍별 선호도를 포함한 31 250개의 인간 주석을 제공하며, 각 예시당 25명의 독립적인 인간 주석이 포함됩니다. 이를 통해 개방형 질의에 대한 집단 및 개인별 인간 선호도를 연구할 수 있습니다. 우리의 결과는 최첨단 LM, 보상 모델, LM 심판이 인간 평가와의 정렬에서는 전반적인 품질은 비슷하지만, 개별 주석자의 이질적인 선호를 반영하는 경우에 덜 잘 보정된다는 것을 보여줍니다. 전반적으로 INFINITY‑CHAT은 실제 세계 개방형 질의를 체계적으로 연구하기 위한 최초의 대규모 자원으로, 인공 하이브마인드가 초래할 장기 AI 안전 위험을 완화하기 위한 향후 연구 방향에 중요한 통찰을 제공합니다.

Reflections from the Selection Committee

이 논문은 현대 언어 모델의 다양성, 다원주의, 사회적 영향을 이해하는 데 있어 시기적절하고 중대한 기여를 합니다. 저자들은 26 K개의 실제 개방형 질의와 31 K개의 밀집 인간 주석으로 구성된 Infinity‑Chat이라는 엄격히 구축된 벤치마크를 소개함으로써, 창의적 생성, 아이데이션, 주관적 선호 정렬이라는 AI 평가에서 역사적으로 간과되어 온 차원을 체계적으로 평가할 수 있게 했습니다. 귀중한 데이터셋을 공개하는 것에 그치지 않고, 개방형 프롬프트에 대한 최초의 포괄적 분류 체계와 70여 개 모델에 걸친 방대한 실증 연구를 제공하여 인공 하이브마인드 현상—모델 내부·외부의 뚜렷한 동질화—을 밝혀냈으며, 이는 인간 창의성, 가치 다원성, 독립적 사고에 대한 장기적 위험을 제기합니다. 연구 결과는 현재 보상 모델, 자동 심판, 다양한 인간 선호도 간의 중대한 보정 오류를 드러내며, 정렬과 다양성 사이의 긴장을 강조하고 AI 시스템에서 이질성을 보존하기 위한 향후 연구의 토대를 마련합니다. 전반적으로 이 작업은 데이터셋과 벤치마크의 새로운 표준을 제시하며, 단순히 기술 성능을 높이는 것을 넘어 과학적 이해와 시급한 사회적 과제 해결에 기여합니다.

대형 언어 모델을 위한 게이트형 어텐션: 비선형성, 희소성, 어텐션‑싱크‑프리

Authors: Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin

Abstract

게이트 메커니즘은 LSTM, Highway Network와 같은 초기 모델부터 최신 상태‑공간 모델, 선형 어텐션, 소프트맥스 어텐션에 이르기까지 널리 활용되어 왔습니다. 그러나 기존 문헌에서는 게이트가 미치는 구체적인 효과를 거의 다루지 않았습니다. 본 연구에서는 게이트가 강화된 소프트맥스 어텐션 변형들을 체계적으로 조사하기 위해 포괄적인 실험을 수행했습니다. 구체적으로, 3.5조 토큰 데이터셋으로 학습된 15 B Mixture‑of‑Experts(MoE) 모델 30가지 변형과 1.7 B 밀집 모델을 비교했습니다. 우리의 핵심 발견은 간단한 수정—Scaled Dot‑Product Attention(SDPA) 뒤에 헤드‑별 시그모이드 게이트를 적용하는 것—이 일관되게 성능을 향상시킨다는 점입니다. 이 수정은 학습 안정성을 높이고, 더 큰 학습률을 견디며, 스케일링 특성을 개선합니다. 다양한 게이트 위치와 계산 변형을 비교한 결과, 이 효과는 두 가지 핵심 요인에 기인함을 확인했습니다: (1) 소프트맥스 어텐션의 저차원 매핑에 비선형성을 도입하고, (2) 쿼리‑의존적인 희소 게이트 스코어를 적용해 SDPA 출력을 조절합니다. 특히, 이 희소 게이트 메커니즘은 대규모 활성화와 어텐션 싱크를 완화하고 장기 컨텍스트 외삽 성능을 향상시킵니다. 관련 코드(https://github.com/qiuzh20/gated_attention)와 모델(https://huggingface.co/QwQZh/gated_attention)도 공개하여 향후 연구를 지원합니다. 또한, 가장 효과적인 SDPA 출력 게이팅은 Qwen3‑Next 모델(https://huggingface.co/collections/Qwen/qwen3-next)에 적용되었습니다.

Reflections from the Selection Committee

이 논문의 주요 발견은 소프트맥스 어텐션을 사용하는 대형 언어 모델의 성능을 일관되게 개선할 수 있다는 점입니다.

Back to Blog

관련 글

더 보기 »

UniFi 5G

번역할 텍스트를 제공해 주시겠어요?