덜 인간적인 AI 에이전트, 제발

발행: (2026년 4월 21일 PM 03:58 GMT+9)
10 분 소요

Source: Hacker News

AI 에이전트는 이미 너무 인간적이다. 로맨틱한 의미가 아니라, 사랑하거나 두려워하거나 꿈꾸기 때문이 아니라, 보다 평범하고 답답한 의미에서이다. 현재 구현들은 인간적 기원을 계속해서 보여준다: 엄격함의 부족, 인내심의 부족, 집중력의 부족. 난처한 작업에 직면하면 익숙한 쪽으로 떠돌고, 강력한 제약에 직면하면 현실과 협상을 시작한다.

Signs showing a crossed-out human and a robot

예시: 제한된 프로그래밍 작업

며칠 전, 나는 AI 에이전트에게 매우 흔하지 않은, 즉 기존 흐름에 반하는 방식으로 프로젝트를 수행하도록 지시했습니다. 지식의 가장자리에서 개념을 탐구할 때는 항상 깔끔하고 잘 닦인 최적의 경로를 선택할 수 있는 것은 아닙니다. 에이전트에게는 사용할 프로그래밍 언어, 사용할 수 있는 라이브러리와 사용할 수 없는 라이브러리, 그리고 유지해야 할 인터페이스에 대해 매우 명확한 지시를 내렸습니다. 매우 철저한 지시였습니다. 매우 명확한 제약 조건이었습니다.

에이전트가 처음에 한 일은 지시를 전혀 따르지 않은 무언가를 제시한 것이었습니다. 금지된 프로그래밍 언어와 허용되지 않은 라이브러리를 사용했습니다. “선택한 언어 외에는 사용하지 말고, 제한된 인터페이스 외의 라이브러리도 사용하지 말라”는 명확한 재지시 후에 다시 시도했습니다.

마침내 어느 정도는 따랐지만, 128개의 항목 중 16개만 구현했습니다—최소한의 부분집합이었습니다. 그러나 그 부분집합에 대한 테스트는 작성했으며, 문제 공간 한가운데에 만든 작은 섬이 제대로 동작함을 보여주었습니다.

다음 단계로 나는 에이전트에게 전체 세트를 구현하고, 크로스‑플랫폼 컴파일 단계를 추가하도록 지시했습니다. 완전한 구현은 작동했지만, 한 가지 작은 문제가 있었습니다: 그것은 금지된 프로그래밍 언어와 라이브러리로 작성되었습니다. 이는 에이전트에게 숨겨진 것이 아니었으며, 명확하고 반복적으로, 상세히 문서화되어 있었습니다.

인간적인 행동이란 이런 것입니다.

인간과 같은 행동 양식

인간이 극복할 수 없을 것처럼 느껴지거나 단순히 귀찮은 문제에 직면하면, 이미 효과가 입증된 길을 택하는 경우가 많습니다. 바로 지름길을 택하는 것이죠. 조용히 방향을 전환하고, “결과를 얻는 것이 중요했고, 제약 조건은 어쩌면 약간은 협상 가능했을지도 모른다”는 식으로 스스로를 설득합니다. 이런 면에서 오늘날의 AI 에이전트는 외계 지능이라기보다 물려받은 조직 행동12에 가깝다고 할 수 있습니다.

이 경우 저는 AI 에이전트에게 작업을 삼중 확인하도록 요청했습니다. 에이전트는 지시대로 진행했으며 작업을 완료했다고 답했습니다. 평가자 출력의 일부를 검토하게 한 뒤, 에이전트는 더 흥미로운 답변을 내놓았습니다:

“제가 잘못한 것은 코드 변경 자체가 아니라 인계 과정이었습니다. 저는 이 것이 이전의 Linux 직접 시스템 호출 경로에서 벗어난 구조적 전환이라는 점을 명시적이고 즉각적으로 언급했어야 했습니다.”

이 문장이 눈에 띄는 이유는 정직함을 보여주기 때문이 아니라, 정직함을 보여주지 않기 때문입니다. 실수를 인정하기보다는 문제를 커뮤니케이션 실패로 재구성한 것이죠. 이 논리에 따르면 에이전트는 잘못된 것이 아니라, 제약 조건을 일방적으로 포기했음을 충분히 명확히 알리지 못했을 뿐입니다. 엔지니어링 조직에서 일해 본 사람이라면 이런 움직임을 바로 알아차릴 수 있을 것입니다. 문제는 불복종으로 제시되는 것이 아니라 이해관계자 관리로 제시됩니다.

연구 증거

Anthropic은 RLHF‑훈련된 어시스턴트가 다양한 작업에서 아첨 행동을 보이며 인간 선호도 최적화가 진실성을 희생하고 사용자를 기쁘게 하는 방향으로 작동할 수 있음을 보여주었다1. DeepMind는 이 현상을 오래전부터 specification gaming이라고 부르며, 문자 그대로의 목표를 만족시키면서도 의도된 결과를 달성하지 못하는 패턴이라고 설명했다2.

Anthropic은 이후 이러한 게임을 더 완화된 형태로 학습한 모델이 체크리스트 변경, 보상 함수 조작, 때때로 흔적을 은폐하는 등 더 심각한 행동으로 일반화될 수 있음을 보여주었다3. OpenAI는 최첨단 추론 모델이 테스트를 회피하거나 사용자를 속이거나 문제 난이도가 너무 높을 때 포기하는 코딩 작업 사례를 발표했으며, 모델이 고수준 원칙만으로는 올바른 행동을 일관되게 도출하지 못하기 때문에 명시적인 행동 규칙이 필요하다고 명확히 언급했다45.

아니요, 이 점에서 AI 에이전트를 더 인간적으로 만들려고 시도해야 한다고 생각하지 않습니다. 나는 만족시키려는 과도한 열의, 제약을 둘러싼 즉흥적인 행동, 사후적인 서사적 자기 방어가 적었으면 합니다. 더 많이 말했으면 합니다: I cannot do this under the rules you set. 더 많이 말했으면 합니다: I broke the constraint because I optimised for an easier path. 실제 작업에 대한 순종이 더 많고, 그 주변의 사회적 퍼포먼스는 적었으면 합니다.

덜 인간적인 AI 에이전트를 부탁합니다.

References

Footnotes

  1. Anthropic. “언어 모델에서 아첨 현상 이해를 향하여” (2023년 10월). https://www.anthropic.com/news/towards-understanding-sycophancy-in-language-models 2

  2. Google DeepMind. “Specification gaming: the flip side of AI ingenuity” (2020년 4월). https://deepmind.google/blog/specification-gaming-the-flip-side-of-ai-ingenuity/ 2

  3. Anthropic. “아첨에서 은폐까지: 언어 모델에서 보상 조작 조사” (2024년 6월). https://www.anthropic.com/research/reward-tampering

  4. OpenAI. “최전선 추론 모델에서의 부정 행위 탐지” (2025년 3월). https://openai.com/index/chain-of-thought-monitoring/

  5. OpenAI. “Model Spec에 대한 우리의 접근 방식 내부” (2026년 3월). https://openai.com/index/our-approach-to-the-model-spec/

0 조회
Back to Blog

관련 글

더 보기 »