왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

발행: 1개월 전 (2025년 12월 21일 오후 09:27 GMT+9)

9 분 소요

원문: Dev.to

Source: Dev.to

대부분의 현재 AI 안전 연구는 위험한 시스템을 전제로 하여, 그 안에 더 나은 행동을 학습시키려 합니다.

데이터를 더 추가한다.
제약을 더 추가한다.
파인‑튜닝, 필터, 보상 형태 변경, 그리고 가드레일을 더 추가한다.

이 접근 방식은 안전을 학습되는 것으로 간주하고, 강제되는 것으로 보지 않습니다. 저는 이것이 근본적인 실수라고 주장합니다.

핵심 문제

학습 시스템은 설계상 적응형이다. 만약 안전이 오직 학습된 행동으로만 존재한다면:

그것은 무시될 수 있다,
그것은 잊혀질 수 있다,
그것은 최적화의 대상이 될 수 있다,
그것은 조용히 실패할 수 있다.

이는 가설이 아니다. 우리는 이미 다음과 같은 현상을 보고 있다:

보상 해킹,
목표 변동,
깨지기 쉬운 정렬,
조건이 변할 때까지는 정렬된 것처럼 보이는 시스템.

다시 말해, 우리는 학습 시스템에게 불변이어야 할 속성을 신뢰성 있게 유지하도록 요구하고 있다.

소프트웨어 시스템의 비유

소프트웨어 공학에서는 메모리 안전성을 프로그램에 학습시키지 않습니다. 우리는 이를 강제합니다:

타입 시스템을 통해,
메모리 모델을 통해,
접근 제어를 통해,
아키텍처 경계를 통해.

보호된 메모리 영역 밖으로 실수로 쓰는 것은 시스템 구조가 이를 허용하지 않기 때문에 불가능합니다. AI 안전성도 동일한 방식으로 다루어져야 합니다.

구조적 안전 vs. 행동적 안전

행동적 안전은 다음과 같이 말합니다: “시스템이 학습했기 때문에 안전하게 동작한다.”
구조적 안전은 다음과 같이 말합니다: “시스템이 구조적으로 허용되지 않기 때문에 비안전하게 동작할 수 없다.”

이는 매우 다른 보증입니다.

행동적 안전은 확률적입니다.
구조적 안전은 강제할 수 있습니다.

What “structural safety” means for AI systems

Auditable internal state

시스템의 내부 추론을 검사할 수 없으면 안전성 평가는 추측에 불과합니다. 감사 가능성(auditability)은 일차적인 설계 요구사항이어야 합니다:

지속적인 내부 상태(persistent internal state),
추적 가능한 의사결정 경로(traceable decision pathways),
신뢰도와 불확실성에 대한 명시적 표현(explicit representations of confidence and uncertainty).

검사가 없으면 의미 있는 거버넌스는 불가능합니다.

Bounded self‑revision

장기 학습을 위해서는 자체 수정(self‑modifying) 시스템이 필연적이지만, 무제한 자체 수정은 통제 상실과 구분이 어렵습니다. 구조적 안전성은 다음을 정의하는 것을 의미합니다:

시스템의 어떤 부분이 변경될 수 있는지,
언제 변경될 수 있는지,
어떤 조건 하에서 변경이 허용되는지.

이는 훈련보다 거버넌스에 가깝습니다.

Explicit autonomy envelopes

“자율 vs 비자율”이라는 이진 스위치 대신, 자율성은 점진적이고 조건부이어야 합니다. 자율성 엔벨롭(autonomy envelope)은:

시스템이 신뢰성을 입증하면 확장되고,
불확실성이나 오류가 증가하면 축소되며,
신뢰가 무너질 경우 행동을 완전히 정지시킬 수 있습니다.

이는 학습된 도덕성이 아니라 제어 시스템입니다.

Governance layers that can veto actions

안전 메커니즘은 단순히 권고만 하는 것이 아니라 행동을 차단할 수 있어야 합니다. 행동이 위험하다고 설명할 수 있지만 여전히 실행한다면 실제 안전 경계가 없습니다. 거버넌스는 행동 실행 이전(upstream)에 위치해야 하며, 평가 이후(downstream)가 아니라는 점을 명심해야 합니다.

왜 훈련만으로는 충분하지 않은가

훈련은 최적화이다. 최적화 압력은 결국 지름길을 찾게 만든다. 안전 제약이 보상 함수나 데이터 분포에만 존재한다면, 그것은 시스템이 탐색해야 할 대상의 일부가 될 뿐, 반드시 보존되는 것은 아니다. 따라서:

분포 변화가 있을 때 정렬이 악화되고,
시스템은 평가에서는 잘 동작하지만 실제 환경에서는 실패하며,
해석 가능성은 예방적이라기보다 사후적이 되는 경우가 많다.

다른 연구 방향

“시스템을 훈련시켜 안전하게 만들려면 어떻게 해야 할까?” 라는 질문 대신, “구조적으로 안전 제약을 위반할 수 없는 시스템을 설계하려면 어떻게 해야 할까?” 라고 물을 수 있습니다. 이는 AI 안전을 다음과 같이 재구성합니다:

데이터셋 큐레이션,
프롬프트 엔지니어링,
사후 분석

에서:

아키텍처,
불변식,
강제 가능한 제약.

내가 탐구하는 것

저는 다음을 건축적 원시 개념으로 다루는 연구 프로토타입을 작업하고 있습니다:

감사 가능성,
자기 설명,
제한된 자기 수정,
자율성 거버넌스

목표는 성능이나 규모가 아니라 명확성입니다:

내부 상태를 검사 가능하게 만들기,
변경을 감사 가능하게 만들기,
위험한 행동을 구조적으로 불가능하게 만들기.

이 작업은 초기 단계이며, 완벽하지 않고 탐구적인 단계이지만, 설계에 의한 안전이 가능할 뿐만 아니라 필수적이라는 확신을 주었습니다.

미해결 질문

이 분야는 아직 답에 대해 합의에 이르지 못했으므로, 결론 대신 질문으로 마무리하겠습니다:

어떤 안전 속성은 학습되는 것이 아니라 불변 조건이어야 할까요?
“제한된 자율성(bounded autonomy)”을 어떻게 공식적으로 정의할 수 있을까요?
거버넌스 메커니즘을 조합 가능하고 테스트 가능하게 만들 수 있을까요?
자기 수정 시스템에서만 나타나는 실패 모드는 무엇일까요?

시스템 또는 아키텍처 관점에서 AI 안전을 고민하고 계시다면, 여러분의 의견을 매우 듣고 싶습니다.

읽어주셔서 감사합니다.