형언할 수 없는 지능 — RL ASI

발행: (2026년 6월 9일 AM 12:22 GMT+9)
11 분 소요
원문: Dev.to

출처: Dev.to

https://www.youtube.com/watch?v=VD9zEKQEJxo
2026년 5월에 공동 발표된 7쪽짜리, 알고리즘도 없고 벤치마크 점수도 없는 철학적 입장 논문. 이 논문은 “행동 인지 AI”(Enactive Artificial Intelligence, 약칭 Enactive AI)라는 개념을 제시했으며, 기술계와 자본권에 큰 파장을 일으켰다(심지어 레드밴드, 엔비디아, 구글이 11억 달러를 합쳐 새로운 회사를 설립하도록 베팅했다).

영상은 핵심 개념, 철학적 맥락, 이론 내부 모순, 인지 과학의 의문, 산업계의 세 갈래 베팅이라는 다섯 축을 통해 영상의 모든 핵심 내용을 매우 상세히 되짚는다.

핵심 개념의 혼동

영상은 인터넷 곳곳에서 Enactive(행동 인지/생성 인지)와 Generative(생성형 AI, 예: GPT, Sora)를 혼동하고 있지만, 두 개념의 근본 논리는 정반대라고 강조한다 [00:50].

  • 생성형 AI (Generative AI): 핵심은 연속예측이다. 기존 이미지나 텍스트를 바탕으로 다음 프레임·다음 단어가 어떻게 될지를 수동적으로 예측한다 [01:07].

  • 행동 인지 AI (Enactive AI): 핵심은 상호작용 속에서 즉시 생성되는 인지다. 인지는 뇌가 수동적으로 신호를 받아 정적인 세계 모델을 만드는 것이 아니라 “네가 움직이면 세계가 너에게 나타난다”는 방식이다 [01:47].

예시: 사람이 컵을 잡으러 갈 때, 눈이 먼저 정적인 사진을 찍어 거리와 각도를 계산하는 것이 아니라 [01:53], 손을 앞으로 뻗는 과정에서 각도·조명·동적 변화에 따라 컵의 형태와 잡을 수 있음이 행동 안에서 조금씩 “생겨난다” [01:59]. 지각과 행동은 뗄 수 없이 얽혀 있다.

이론적 배경

이 이론은 인지 과학의 **자기생성(Autopoiesis)**과 **자율성(Autonomy)**에서 출발한다 [02:21].
스톤은 현재 대규모 모델 로드에 맞서는 마지막 철학적 카드로 이 개념을 제시한다.

  • 2019년 《쓴 교훈》: 인간이 손으로 만든 규칙은 계산력에 밀려서 결국 기계가 스스로 배우는 일반적인 방법을 이길 수 없다고 주장 [02:47].
  • 2024년 《대세계 가설》: 현실 세계는 정적인 내부 모델보다 훨씬 복잡하므로, 지능체는 실행 중에 실시간으로 학습해야 한다고 주장 [02:59].
  • 2025년 《경험 시대》: 인간 데이터는 한정돼 있으니 AI는 스스로 경험을 생성해 성장해야 한다고 주장 [03:12].
  • 2025년 9월: 전체 AI 산업이 잘못된 길을 가고 있음을 지적, 대규모 모델이 데이터만 쌓아 초지능에 도달하려는 시도는 죽음의 길이라고 선언 [03:19].

이 논문은 마지막 불씨를 지핀다: 이전 논증은 모두 연산력·데이터·복잡도라는 “기계적 회계”에 머물렀다 [03:25]. 이번에는 **강화학습(RL)**과 **인지 과학(행동 인지)**을 결합해 본체론적 차원에서 대규모 모델 로드가 통하지 않으며, 세계를 인식하는 행위 자체가 행동과 상호작용 경험을 통해서만 일어날 수 있음을 증명한다 [03:39].

이에 스톤은 2026년 초 논문 공동 저자들과 함께 Ineffable Intelligence 회사를 설립하고, “인간 데이터 없이 스스로 학습하는 AI”를 만든다며 레드밴드·엔비디아·구글으로부터 **11억 달러(평가액 51억 달러)**의 대규모 투자를 받았다 [03:55].


스톤 철학의 두 “큰 기둥”

1️⃣ 강화학습의 교리: 보상 가설 (Reward Hypothesis)

모든 목표와 의도는 “외부가 제공한 스칼라 점수의 최대화”로 표현될 수 있다 [04:53].
David Silver는 “보상만 있으면 충분하다”고 외쳤다 [05:13].

2️⃣ 행동 인지 철학의 교리: 자율성 (Autonomy)

선악·성공·실패의 기준은 지능체가 언제든지 붕괴될 수 있는 물리적 조직과 생존 위기에서 스스로 생성돼야 하며, 외부 권위에 의해 조작돼서는 안 된다 [05:27].

갈등점

  • 표준 강화학습의 보상 함수는 인간 설계자가 코드에 강제로 삽입하는(외부 규정) [05:55].
  • 생물이 선악을 판단하는 이유는 엔트로피 증가를 억제하고 구조 붕괴를 방지하기 위해서다(자율성) [06:11].
  • 논문 저자조차도 강화학습의 평가 기준은 여전히 외부 보상에 의해 정의된다고 인정한다 [06:38].

내재적 동기(내적 구동)로 구제될 수 있을까?

  • 호기심·지식 탐구 같은 내적 동기 역시 “예측 오차 최소화”와 같은 인간이 설계한 최적화 목표에 종속된다.
  • 생존 위협이 없으면 진정한 의미 생성이 일어나지 않는다 [07:12].

스톤의 비판과 Enactiveness 이론

  • 스톤은 연구자들이 **인간이 생각한다는 구조(문법 트리·수동 특성 검출기 등)**를 AI에 억지로 끼워넣는다고 비난한다 [08:13].
  • Enactiveness감각과 행동이 철저히 결합, 내부 세계 모델이 존재하지 않음, **생태심리학·가능성(affordance)**을 아키텍처에 융합하는 등 극히 세밀한 인지 조직 요구를 가진다 [08:48].

대규모 모델 커뮤니티의 반응

  • 이 접근을 철학적 퇴보라 규정한다. 신경망이 행동 인지 규칙을 따르게 하는 것은 과거 수동 규칙 삽입과 본질적으로 차이가 없으며, **“계산은 자유롭게 최적 표현을 발견해야 한다”**는 스톤 자신의 핵심 전제에 위배된다고 주장한다 [09:25].

스톤을 옹호하는 입장

  • 그는 **학습의 위상(구조·스캐폴드)**을 규정한 것이지 구체적 사고 내용을 제한한 것이 아니라고 주장한다. AI가 거대한 몸체를 통해 모든 것을 다시 학습하도록 하는 것이므로 위배되지 않는다 [10:01]. 그러나 이 변명도 비판을 완전히 잠재우지는 못한다.

인간 인지 설명에서도 드러나는 두 가지 미해결 난제 (30년째 해결되지 않음)

문제설명
상향 확장 문제 (Scaling‑up Problem)행동 인지 학파는 1차 감각‑운동(예: 탁구공을 받아 즉시 스매시, 아기가 걷기) 설명에 강점이 있다. 이는 연속적인 신체‑물리적 결합에 기반한다. 그러나 인간 지능은 오프라인·추상적 표상(예: 미적분 계산, 전례 없는 문장 작성, 내년 여름 여행 계획)도 필요하다. 현재 물리적 대상이 없을 때는 **뇌 안의 “코드 그림자”**를 활용해 추론한다. 행동 인지 학파는 아직 이런 고차원 오프라인 인지를 설명하지 못한다.
결합 오류 (Coupling‑Constitution Fallacy)철학계는 온도조절기 예시를 든다: 내부의 이중 금속판은 주변 온도에 따라 휘어지지만, 공기 자체가 온도조절기의 일부는 아니다. 스톤 일파는 **“지능체와 세계의 긴밀한 결합(인과 결합)”**을 **“환경과 신체가 직접 지능을 구성한다”**는 식으로 전환한다. 실제로 AI는 오프라인 비디오 데이터만으로도 물리적 세계의 동역학을 대규모 모델에 내재시킬 수 있다(예: 수만 개의 공 잡기 영상으로 물리 법칙 학습). 실시간 감각‑운동 결합이 차단돼도 지능은 여전히 작동한다.

로봇 엔지니어들의

0 조회
Back to Blog

관련 글

더 보기 »