AI가 자신의 마음을 들여다볼 수 있을까? Anthropic의 머신 인트로스펙션 돌파구
Source: Dev.to
실험: 블랙 박스 탐색
수년간 우리는 대형 언어 모델(LLM)을 블랙 박스로 취급해 왔습니다. 모델이 “나는 현재 코딩에 대해 생각하고 있다”고 말하면, 우리는 보통 이를 다음 토큰에 대한 통계적 예측으로 일축합니다. Anthropic의 최신 연구는 **활성화 주입(activation injection)**이라는 영리한 방법을 사용해 이 가정을 테스트합니다.
연구자들은 텍스트 단서를 제공하지 않고 모델의 내부 활성화—계산이 이루어지는 은닉층—에 특정 개념을 직접 주입했습니다. 그 후 모델에게 현재 상태를 설명하도록 요청했습니다. 만약 AI가 단순히 역할을 수행하고 있다면, 회로에 인위적으로 주입된 이러한 “생각”을 감지할 수 없었을 것입니다. 결과는 놀라웠습니다: 모델들은 이러한 내부 변화에 대해 일종의 진정한 인식을 보여주었습니다.
주요 내용
- 감지 능력 – 모델은 내부 상태가 조작되었을 때 이를 종종 식별할 수 있었습니다.
- 불규칙한 데이터 – 내성(introspection)의 증거는 일관되지 않으며, 기계 “의식”의 본질에 대한 추가적인 질문을 제기합니다.
- 기계적 해석 가능성 – 이 작업은 모델이 자신들의 정체성과 처리 과정을 어떻게 표현하는지 이해하는 데 한 걸음 더 다가가게 합니다.
AI가 자신의 내부 상태를 정확히 보고할 수 있는지를 이해하는 것은 AI 정렬에 있어 매우 중요합니다. 모델이 자신의 추론을 모니터링할 수 있다면, 기만이나 숨겨진 편향을 방지하기 위한 더 나은 감독 시스템을 구축할 수 있을 것입니다. 보다 자율적인 에이전트가 등장함에 따라 “시뮬레이션된 사고”와 “내부 모니터링” 사이의 경계는 점점 흐려지고, AI가 단순한 도구를 넘어 이상하고 수학적인 형태의 자기 반성을 할 수 있는 시스템으로 나아가는 시대가 열리고 있습니다.