2025-12-07 일간 AI 뉴스

발행: (2025년 12월 8일 오전 10:41 GMT+9)
7 min read
원문: Dev.to

Source: Dev.to

모델 경쟁 및 연구 돌파구

  • OpenAI가 구글의 Gemini 3에 맞서 GPT‑5.2 출시를 서두르고 있다고 전해지며, 지속되는 모델 무기 경쟁 속에서 추론 능력, 속도, 신뢰성을 강조하고 있다.
  • ARC‑AGI 벤치마크에서 눈에 띄는 진전이 있었으며, 시스템들이 LLM 기반 코드 디버깅 및 앙상블 방법을 통해 이전에 “불가능”하다고 여겨졌던 퍼즐을 해결하고 있다.
  • ARC Prize 2025 수상작:
    • NVARC의 합성 데이터 앙상블이 ARC‑AGI‑2에서 약 **24 %**를 달성.
    • Tiny Recursive Model (TRM), 7 M 파라미터 재귀 네트워크가 ARC‑AGI‑1에서 약 45 %, ARC‑AGI‑2에서 약 **8 %**를 기록.

“모두가 LLM은 진정한 추론을 할 수 없고, 단지 패턴 매칭과 코드 환상을 일으킨다고 말한다. 그런데 왜 우리 시스템은 패턴 매칭으로는 풀 수 없도록 설계된 추상 추론 퍼즐을 해결했을까?” — @IntuitMachine

Titans Architecture (Google)

구글은 Titans라는 아키텍처를 소개했으며, 이는 테스트 시 REMEMBER(기억)하는 능력을 짧은‑시간 주의(attention), 신경 장기 기억, 추론 중 gradient 기반 가중치 업데이트를 통해 학습한다. 2 M 토큰 컨텍스트를 처리하며, 파라미터 수가 적음에도 GPT‑4와 Mamba를 장기 컨텍스트 벤치마크에서 능가하고, 검색‑증강 생성, 에이전트, 멀티모달리티에 새로운 기능을 제공한다.

“구글이 ‘Titans’를 공개했어요—테스트 시 REMEMBER를 학습하는 아키텍처. 이것이 장기 컨텍스트 AI를 완전히 바꾸는 이유 🧵⬇️” — @IntuitMachine

멀티‑에이전트 시스템을 위한 컨텍스트 엔지니어링

커뮤니티가 공유한 실용 가이드는 세 부분 프롬프트 구조를 제시한다: Working Context, Memory, Artifacts, 그리고 효율성을 위한 로그 압축. 이 프레임워크는 보다 확장 가능한 멀티‑에이전트 배포를 지원한다.

DeepMind의 SIMA 2

DeepMind는 SIMA 2를 출시했으며, Gemini‑파인튜닝된 에이전트가 이전 게임 마스터리를 두 배로 끌어올리고, 자체 개선하며, 인간 수준에 근접한 성능으로 미지의 3D 세계를 탐험한다.

Google's context engineering framework for multi‑agent systems

소셜 플랫폼 통합

Elon Musk는 Grok 기반 X’s “Enhance” 기능을 발표했으며, 이는 초안 게시물을 분석해 더 똑똑한 재작성안을 제안하고 AI‑생성 이미지와 비디오까지 제공한다. 발표 직후 13 k 이상의 좋아요를 기록했다.

인재 경제 및 산업 논평

  • 바이오 지역 AI 엔지니어 보상이 화제가 되었으며, OpenAI와 Anthropic에서는 수백만 달러 수준의 총 보상을, 스타트업에서는 $200 k 수준의 연봉이 전해졌다.
  • Jensen Huang(NVIDIA CEO)은 AI 개발이 버블이 아니며 “항상 가동되는 GPU 공장”이 필요하다고 강조했다. 그는 중국이 현재 전 세계 AI 연구자 50 %, **AI 특허 70 %**를 차지하고 있으며, 중국 데이터 센터가 미국 시설의 두 배 속도로 구축되고 있어 인프라 우위가 전환될 가능성을 경고했다.

“전 세계 AI 연구자의 50 %가 중국에 있고, 지난해 AI 특허의 70 %가 중국에서 나왔습니다.” — Jensen Huang

오픈‑소스 진전

  • DeepSeek V3.2Cortex‑AGI(기억 없이 논리만 평가하는 벤치마크)에서 **38.2 %**를 기록하며 1위를 차지했으며, 뒤에 Gemini 3.0 Pro의 45.6 %가 있다.

Cortex‑AGI leaderboard crowning DeepSeek V3.2 as open‑source leader

보안 및 안전 우려

Carnegie Mellon 벤치마크(SUSVIBES)는 AI 에이전트가 실제 코딩 작업의 **61 %**를 기능적으로 완료했지만 보안 점수는 **10.5 %**에 불과해 종종 취약점을 도입한다는 결과를 보여준다. 이는 “vibe‑coded” 출력물에 대한 철저한 검토가 필요함을 강조한다.

IntuitMachine의 Theory of Mind (ToM) 연구(600명 이상 사용자)에서는 모델 행동에 대한 공감적 예측이 LLM 성능을 크게 향상시킨다는 점을 입증했으며, 인간‑AI 상호작용 설계가 최상위 결과를 얻는 데 핵심임을 시사한다.

AI collaboration ability chart from Theory of Mind research, showing ToM's predictive power for LLM success

거시‑경제적 관점

Jensen Huang은 AI 부문의 성장이 소프트웨어 투기 거품이 아니라 하드웨어 수요에 의해 주도된다고 재차 강조했다. 연구 리더십, 인프라 구축, 그리고 특히 중국특허 지배가 결합되어 미국에 전략적 도전을 제기하고 있다.

Back to Blog

관련 글

더 보기 »