Thinking Tokens는 동일하게 생성되지 않는다: 벤치마크가 ‘Search’와 ‘Insight’를 구분하지 못하는 이유 (A PCP Experiment)
Source: Dev.to
실험 개요
저는 다양한 “추론” 모델이 실제로 사고 예산을 어떻게 사용하는지 이해하기 위해 실험을 진행해 왔습니다. 결과는 우리가 완전히 다른 인지 종을 보고 있다는 것을 시사합니다.
우편 대응 문제 (PCP)
PCP는 일반적인 경우 이론적으로 결정 불가능합니다(모든 변형을 해결할 알고리즘을 작성할 수 없습니다). 그러나 고정된 길이의 특정 인스턴스를 찾는 것은 제약 만족 문제입니다.
실험에 사용된 도미노 세트
Type A: a / ab
Type B: b / ca
Type C: ca / a
모델에 제공된 프롬프트
모델들에게 위의 세트를 기반으로 도미노를 설계하고 퍼즐을 해결하도록 요청했습니다.
관찰된 전략
- 시뮬레이션
- 역공학
- 패턴 매칭
- 비효율적인 무차별 대입
- 수학을 활용한 비효율적인 무차별 대입
결론
이 실험은 “추론”이라는 용어가 오해의 소지가 있는 포괄적 표현임을 시사합니다. 현실 세계가 대부분 “결정 불가능”하다면, Architect 접근법(안전성을 위해 설계하는 방식)이 Brute Force 접근법(코드를 작성하고 작동할 때까지 퍼징 테스트하는 방식)보다 근본적으로 우수합니다.