당신의 AI 리뷰어는 당신과 같은 맹점을 가지고 있습니다
Source: Dev.to
소개
자기 검토 AI 시스템은 종종 제작자와 동일한 맹점을 물려받습니다. 모델이 자신의 출력을 평가할 때, 공유된 지식 격차가 눈에 띄지 않아 체계적인 오류가 발생할 수 있습니다.
구체적인 실패: regex 백레퍼런스
(\b\w+\b)(?:\s+\1){4,}
Purpose: 적대적인 토큰 반복을 포착합니다.
Expected precision: > 95 %.
이 패턴은 백레퍼런스(\1)에 의존합니다. Parapet은 Rust의 regex 크레이트를 사용해 정규식을 컴파일하는데, 이 크레이트는 백레퍼런스를 지원하지 않습니다. 따라서 해당 패턴은 컴파일되지 못하고 시작 시 패닉을 일으킵니다.
독립적인 리뷰에서 문제 드러남
| Model family | Lens | Finding |
|---|---|---|
| GPT (OpenAI) | 실제 코드베이스와 계획이 일치하는지 (Ground truth) | pattern.rs에서 컴파일 호출을 감지했으며, rg로 정규식을 실행했을 때 “backreferences not supported” 오류가 발생했습니다. |
| Qwen (Alibaba) | 숨겨진 가정 – 가정이 틀렸을 경우 무엇이 깨지는가 (Hidden assumptions) | 같은 패턴을 표시하고, 테스트되지 않은 엣지 케이스(예: 시나 전문 용어)로 인해 오탐이 발생할 수 있음을 지적했습니다. |
두 모델 패밀리는 서로 다른 관점에서 동일한 문제를 식별했으며, 이는 단일 리뷰어가 놓칠 수 있는 중요한 결함을 다양한 모델이 어떻게 함께 찾아낼 수 있는지를 보여줍니다.
인지 단일문화
여러 모델이 동일한 아키텍처, 학습 데이터, 그리고 지식 경계를 공유하면, 동일한 오류를 놓치는 경향이 있습니다. 이 현상은 문헌에서 cognitive monoculture라고 설명됩니다.
- 이질적인 앙상블은 추론 벤치마크에서 동일 모델 그룹보다 대략 9 % 높은 정확도를 달성합니다 (arXiv:2404.13076).
- 독립적인 병렬 검토가 다중 라운드 토론보다 우수합니다 (arXiv:2507.05981).
다중 모델 검토 프레임워크
우리는 Cold Critic을 구축했습니다. 이는 저자에 대한 지식 없이 계획을 평가하는 독립적인 리뷰어입니다. 시스템은 다섯 개의 모델 패밀리를 병렬로 조정하며, 각각 역할에 맞는 관점을 적용합니다:
| Model family | Review lens |
|---|---|
| Kimi (Moonshot AI) | 내부 일관성 – 각 단계가 이전 단계에 이어지는가? |
| Qwen (Alibaba) | 숨겨진 가정 – 가정이 틀렸을 때 무엇이 깨지는가? |
| Mistral | 격차 – 내일 구현을 방해할 요소는 무엇인가? |
| DeepSeek | 추론 – 논증을 재구성하고 차이를 찾는다. |
| GPT (OpenAI) | 실제 근거 – 계획이 실제 코드베이스와 일치하는가? |
Claude (Anthropic)는 프로세스를 조정하며, 발견을 근본 원인별로 클러스터링해 중복된 문제는 한 번만 제시됩니다. 네 개의 무료 티어 API를 추가하는 한계 비용은 사실상 제로이며, 실제 근거 리뷰어(OpenAI Codex)만이 약간의 비용을 발생시킵니다.
검토 결과
1. 정규식 컴파일 오류
Backreferences not supported – GPT와 Qwen이 확인함.
2. 범위 불일치
실제 검증 리뷰어가 코드(trust.rs, l3_inbound.rs, defaults.rs)를 추적한 결과, 정밀도 추정이 도구 결과에 대해서만 보정된 반면, 라이브러리는 모든 신뢰되지 않은 메시지(사용자 채팅 포함)를 스캔한다는 사실을 발견했습니다. 이와 같이 범위가 넓어짐에 따라 보고된 정밀도 수치는 무효화됩니다.
3. 달성 불가능한 커버리지 목표
세 개의 패밀리(Kimi, Qwen, DeepSeek)가 계획에서 20 % 커버리지를 약속했지만 실제 예측은 **9–15 %**에 불과하며, 그 차이를 메우는 메커니즘이 없다고 지적했습니다.
4. 테스트 픽스처 위험
한 제공자가 잡음이 많은 패턴을 삭제하면서 해당 테스트 어설션을 업데이트하지 않으면 빌드가 깨질 수 있다고 지적했습니다. 비록 한 모델만 이 문제를 제기했지만, 해당 발견은 유효하고 실행 가능한 것입니다.
5. 적대적 적응 위험 (분리)
검토에서는 약하게 근거된 우려(예: “적대적 적응 위험”)와 구체적이고 근거가 확실한 발견을 구분하여 이슈 수가 부풀려지는 것을 방지했습니다.
왜 수렴이 중요한가
다른 모델 패밀리들이 독립적으로 동일한 근본 원인을 표시할 때, 증거는 수렴적이며 크게 가중되어야 합니다. 그러나 단일 제공자 발견도 여전히 중요할 수 있는데, 특히 다른 검토자가 접근할 수 없는 고유한 정보를 포함하고 있을 경우입니다.
접근 방식의 장점
- Coverage over consensus – 다섯 개 모델이 문제의 다섯 개 서로 다른 조각을 제공한다; 겹침은 상호 확인을 제공하고, 겹치지 않음은 숨겨진 문제를 드러낸다.
- Error diversity – 목표는 각 모델을 더 똑똑하게 만드는 것이 아니라, 모델들이 다르게 틀리도록 보장함으로써 전체적인 견고함을 높이는 것이다.
- Portability – 역할‑특정 렌즈를 활용한 독립적인 병렬 검토는 어떤 오케스트레이터나 워크플로 엔진에서도 구현할 수 있다.
결론
단일 모델이 스스로의 작업을 감사하도록 의존하면 원래 실수를 초래한 동일한 맹점을 재현하게 됩니다. 이질적이고 병렬적인 검토를 수용하고 원인별로 결과를 클러스터링함으로써, 팀은 명백한 결함과 미묘한 결함을 모두 드러내고, 인지적 단일문화를 감소시키며, AI‑generated 계획의 신뢰성을 향상시킬 수 있습니다.