대규모 언어 모델 추론 실패
Source: Hacker News
초록
대형 언어 모델(LLMs)은 놀라운 추론 능력을 보여주며 다양한 작업에서 인상적인 결과를 달성하고 있습니다. 이러한 진전에도 불구하고, 겉보기에 단순한 상황에서도 발생하는 상당한 추론 실패가 여전히 존재합니다. 이러한 단점을 체계적으로 이해하고 해결하기 위해, 우리는 LLM의 추론 실패에 전념한 최초의 포괄적인 조사 연구를 제시합니다.
우리는 추론을 구현형(embodied) 과 비구현형(non‑embodied) 으로 구분하는 새로운 분류 프레임워크를 도입하며, 비구현형은 다시 비공식적(직관적) 추론 과 공식적(논리적) 추론 으로 세분합니다. 동시에, 추론 실패를 보완적인 축을 따라 세 가지 유형으로 분류합니다:
- 근본적인 실패 – LLM 아키텍처에 내재된 것으로, 하위 작업 전반에 광범위하게 영향을 미칩니다.
- 응용 분야별 제한 – 특정 도메인에서 나타나는 제한 사항.
- 견고성 문제 – 사소한 변형에 따라 성능이 일관되지 않는 현상.
각 추론 실패에 대해 우리는 명확한 정의를 제공하고, 기존 연구를 분석하며, 근본 원인을 탐구하고, 완화 전략을 제시합니다. 파편화된 연구 노력을 통합함으로써, 우리의 조사는 LLM 추론의 체계적인 약점을 구조화된 관점으로 제시하고, 보다 강력하고 신뢰할 수 있으며 견고한 추론 능력을 구축하기 위한 향후 연구 방향을 안내합니다.
또한, 우리는 LLM 추론 실패에 관한 연구 작업들을 https://github.com/Peiyang-Song/Awesome-LLM-Reasoning-Failures 에 GitHub 저장소로 종합적으로 공개합니다.