형언할 수 없는 지능 — RL ASI

발행: 3일 전 (2026년 6월 9일 AM 12:22 GMT+9)

11 분 소요

출처: Dev.to

https://www.youtube.com/watch?v=VD9zEKQEJxo
2026년 5월에 공동 발표된 7쪽짜리, 알고리즘도 없고 벤치마크 점수도 없는 철학적 입장 논문. 이 논문은 “행동 인지 AI”(Enactive Artificial Intelligence, 약칭 Enactive AI)라는 개념을 제시했으며, 기술계와 자본권에 큰 파장을 일으켰다(심지어 레드밴드, 엔비디아, 구글이 11억 달러를 합쳐 새로운 회사를 설립하도록 베팅했다).

영상은 핵심 개념, 철학적 맥락, 이론 내부 모순, 인지 과학의 의문, 산업계의 세 갈래 베팅이라는 다섯 축을 통해 영상의 모든 핵심 내용을 매우 상세히 되짚는다.

핵심 개념의 혼동

영상은 인터넷 곳곳에서 Enactive(행동 인지/생성 인지)와 Generative(생성형 AI, 예: GPT, Sora)를 혼동하고 있지만, 두 개념의 근본 논리는 정반대라고 강조한다 [00:50].

생성형 AI (Generative AI): 핵심은 연속과 예측이다. 기존 이미지나 텍스트를 바탕으로 다음 프레임·다음 단어가 어떻게 될지를 수동적으로 예측한다 [01:07].
행동 인지 AI (Enactive AI): 핵심은 상호작용 속에서 즉시 생성되는 인지다. 인지는 뇌가 수동적으로 신호를 받아 정적인 세계 모델을 만드는 것이 아니라 “네가 움직이면 세계가 너에게 나타난다”는 방식이다 [01:47].

예시: 사람이 컵을 잡으러 갈 때, 눈이 먼저 정적인 사진을 찍어 거리와 각도를 계산하는 것이 아니라 [01:53], 손을 앞으로 뻗는 과정에서 각도·조명·동적 변화에 따라 컵의 형태와 잡을 수 있음이 행동 안에서 조금씩 “생겨난다” [01:59]. 지각과 행동은 뗄 수 없이 얽혀 있다.

이론적 배경

이 이론은 인지 과학의 **자기생성(Autopoiesis)**과 **자율성(Autonomy)**에서 출발한다 [02:21].
스톤은 현재 대규모 모델 로드에 맞서는 마지막 철학적 카드로 이 개념을 제시한다.

2019년 《쓴 교훈》: 인간이 손으로 만든 규칙은 계산력에 밀려서 결국 기계가 스스로 배우는 일반적인 방법을 이길 수 없다고 주장 [02:47].
2024년 《대세계 가설》: 현실 세계는 정적인 내부 모델보다 훨씬 복잡하므로, 지능체는 실행 중에 실시간으로 학습해야 한다고 주장 [02:59].
2025년 《경험 시대》: 인간 데이터는 한정돼 있으니 AI는 스스로 경험을 생성해 성장해야 한다고 주장 [03:12].
2025년 9월: 전체 AI 산업이 잘못된 길을 가고 있음을 지적, 대규모 모델이 데이터만 쌓아 초지능에 도달하려는 시도는 죽음의 길이라고 선언 [03:19].

이 논문은 마지막 불씨를 지핀다: 이전 논증은 모두 연산력·데이터·복잡도라는 “기계적 회계”에 머물렀다 [03:25]. 이번에는 **강화학습(RL)**과 **인지 과학(행동 인지)**을 결합해 본체론적 차원에서 대규모 모델 로드가 통하지 않으며, 세계를 인식하는 행위 자체가 행동과 상호작용 경험을 통해서만 일어날 수 있음을 증명한다 [03:39].

이에 스톤은 2026년 초 논문 공동 저자들과 함께 Ineffable Intelligence 회사를 설립하고, “인간 데이터 없이 스스로 학습하는 AI”를 만든다며 레드밴드·엔비디아·구글으로부터 **11억 달러(평가액 51억 달러)**의 대규모 투자를 받았다 [03:55].

스톤 철학의 두 “큰 기둥”

1️⃣ 강화학습의 교리: 보상 가설 (Reward Hypothesis)

모든 목표와 의도는 “외부가 제공한 스칼라 점수의 최대화”로 표현될 수 있다 [04:53].
David Silver는 “보상만 있으면 충분하다”고 외쳤다 [05:13].

2️⃣ 행동 인지 철학의 교리: 자율성 (Autonomy)

선악·성공·실패의 기준은 지능체가 언제든지 붕괴될 수 있는 물리적 조직과 생존 위기에서 스스로 생성돼야 하며, 외부 권위에 의해 조작돼서는 안 된다 [05:27].

갈등점

표준 강화학습의 보상 함수는 인간 설계자가 코드에 강제로 삽입하는(외부 규정) [05:55].
생물이 선악을 판단하는 이유는 엔트로피 증가를 억제하고 구조 붕괴를 방지하기 위해서다(자율성) [06:11].
논문 저자조차도 강화학습의 평가 기준은 여전히 외부 보상에 의해 정의된다고 인정한다 [06:38].

내재적 동기(내적 구동)로 구제될 수 있을까?

호기심·지식 탐구 같은 내적 동기 역시 “예측 오차 최소화”와 같은 인간이 설계한 최적화 목표에 종속된다.
생존 위협이 없으면 진정한 의미 생성이 일어나지 않는다 [07:12].

스톤의 비판과 Enactiveness 이론

스톤은 연구자들이 **인간이 생각한다는 구조(문법 트리·수동 특성 검출기 등)**를 AI에 억지로 끼워넣는다고 비난한다 [08:13].
Enactiveness는 감각과 행동이 철저히 결합, 내부 세계 모델이 존재하지 않음, **생태심리학·가능성(affordance)**을 아키텍처에 융합하는 등 극히 세밀한 인지 조직 요구를 가진다 [08:48].

대규모 모델 커뮤니티의 반응

이 접근을 철학적 퇴보라 규정한다. 신경망이 행동 인지 규칙을 따르게 하는 것은 과거 수동 규칙 삽입과 본질적으로 차이가 없으며, **“계산은 자유롭게 최적 표현을 발견해야 한다”**는 스톤 자신의 핵심 전제에 위배된다고 주장한다 [09:25].

스톤을 옹호하는 입장

그는 **학습의 위상(구조·스캐폴드)**을 규정한 것이지 구체적 사고 내용을 제한한 것이 아니라고 주장한다. AI가 거대한 몸체를 통해 모든 것을 다시 학습하도록 하는 것이므로 위배되지 않는다 [10:01]. 그러나 이 변명도 비판을 완전히 잠재우지는 못한다.

인간 인지 설명에서도 드러나는 두 가지 미해결 난제 (30년째 해결되지 않음)

문제	설명
상향 확장 문제 (Scaling‑up Problem)	행동 인지 학파는 1차 감각‑운동(예: 탁구공을 받아 즉시 스매시, 아기가 걷기) 설명에 강점이 있다. 이는 연속적인 신체‑물리적 결합에 기반한다. 그러나 인간 지능은 오프라인·추상적 표상(예: 미적분 계산, 전례 없는 문장 작성, 내년 여름 여행 계획)도 필요하다. 현재 물리적 대상이 없을 때는 뇌 안의 “코드 그림자”를 활용해 추론한다. 행동 인지 학파는 아직 이런 고차원 오프라인 인지를 설명하지 못한다.
결합 오류 (Coupling‑Constitution Fallacy)	철학계는 온도조절기 예시를 든다: 내부의 이중 금속판은 주변 온도에 따라 휘어지지만, 공기 자체가 온도조절기의 일부는 아니다. 스톤 일파는 “지능체와 세계의 긴밀한 결합(인과 결합)”을 “환경과 신체가 직접 지능을 구성한다”는 식으로 전환한다. 실제로 AI는 오프라인 비디오 데이터만으로도 물리적 세계의 동역학을 대규모 모델에 내재시킬 수 있다(예: 수만 개의 공 잡기 영상으로 물리 법칙 학습). 실시간 감각‑운동 결합이 차단돼도 지능은 여전히 작동한다.

문제

설명

상향 확장 문제 (Scaling‑up Problem)

행동 인지 학파는 1차 감각‑운동(예: 탁구공을 받아 즉시 스매시, 아기가 걷기) 설명에 강점이 있다. 이는 연속적인 신체‑물리적 결합에 기반한다. 그러나 인간 지능은 오프라인·추상적 표상(예: 미적분 계산, 전례 없는 문장 작성, 내년 여름 여행 계획)도 필요하다. 현재 물리적 대상이 없을 때는 **뇌 안의 “코드 그림자”**를 활용해 추론한다. 행동 인지 학파는 아직 이런 고차원 오프라인 인지를 설명하지 못한다.

결합 오류 (Coupling‑Constitution Fallacy)

철학계는 온도조절기 예시를 든다: 내부의 이중 금속판은 주변 온도에 따라 휘어지지만, 공기 자체가 온도조절기의 일부는 아니다. 스톤 일파는 **“지능체와 세계의 긴밀한 결합(인과 결합)”**을 **“환경과 신체가 직접 지능을 구성한다”**는 식으로 전환한다. 실제로 AI는 오프라인 비디오 데이터만으로도 물리적 세계의 동역학을 대규모 모델에 내재시킬 수 있다(예: 수만 개의 공 잡기 영상으로 물리 법칙 학습). 실시간 감각‑운동 결합이 차단돼도 지능은 여전히 작동한다.

형언할 수 없는 지능 — RL ASI

핵심 개념의 혼동

이론적 배경

스톤 철학의 두 “큰 기둥”

1️⃣ 강화학습의 교리: 보상 가설 (Reward Hypothesis)

2️⃣ 행동 인지 철학의 교리: 자율성 (Autonomy)

갈등점

내재적 동기(내적 구동)로 구제될 수 있을까?

스톤의 비판과 Enactiveness 이론

대규모 모델 커뮤니티의 반응

스톤을 옹호하는 입장

인간 인지 설명에서도 드러나는 두 가지 미해결 난제 (30년째 해결되지 않음)

로봇 엔지니어들의

관련 글

Playwright를 활용한 SCORM e러닝 패키지 자동 테스트 — 단계별 가이드

AMD RCE 무시, GitHub LLM으로 비밀 스캔 강화, AUR 공급망 공격

SCORM이 사라지지 않는 이유와 AI가 결국 바꾸는 점

AI 에이전트 보안·오픈소스 코드 생성·베드락의 최첨단 모델