reasoning

2일 전 · ai

Google의 'internal RL'이 장기적 AI 에이전트를 열 수 있는 방법

Google 연구원들은 일반적으로 LLM이 환각을 일으키거나 실패하게 만드는 복잡한 추론 작업을 AI 모델이 더 쉽게 학습할 수 있도록 하는 기술을 개발했습니다.

#reinforcement learning #internal RL #large language models #Google AI #reasoning #hallucination mitigation #AI research
1주 전 · ai

2M 토큰 함정: ‘Context Stuffing’이 추론을 망치는 이유

죄송하지만, 제공해 주신 링크의 이미지를 확인할 수 없습니다. 번역이 필요한 텍스트를 직접 입력해 주시면 한국어로 번역해 드리겠습니다.

#LLM #context window #token limit #prompt engineering #reasoning #AI performance
2주 전 · ai

AI Agents: 3가지 필수 패턴 (ReAct) 마스터하기. Part 2 of 3

Article Part 1 이 패턴들의 코드는 GitHub에서 확인할 수 있습니다. Repo “Tool‑Using” Pattern Article 1 우리는 AI에게 외부 세계와 상호작용할 수 있는 손을 주었습니다....

#ReAct #AI agents #LLM #tool use #reasoning #prompt engineering
3주 전 · ai

강화 학습을 활용한 Vibe Proving 구현

검증 가능한 단계별 논리로 LLM이 추론하도록 만드는 방법 파트 2 ‘Implementing Vibe Proving with Reinforcement Learning’ 게시물이 처음으로 Towards Data…에 실렸습니다.

#reinforcement learning #large language models #prompt engineering #reasoning
0개월 전 · ai

Vibe Proving 이해하기

검증 가능한 단계별 논리로 LLM이 추론하도록 만드는 방법 파트 1 The post Understanding Vibe Proving appeared first on Towards Data Science....

#LLM #reasoning #verifiable logic #step-by-step reasoning #AI safety
1개월 전 · ai

나의 Google AI Agents 인텐시브 경험 — 하루하루의 회고

🗓️ 1일차 – Agentic AI 소개 첫째 날은 내가 AI를 바라보는 방식을 완전히 바꾸어 놓았다. 나는 에이전트가 단순한 모델 그 이상이라는 것을 배웠다 — 그것은 인식하고, ...

#Google AI #AI agents #agentic AI #LLM #autonomous systems #reasoning #planning #memory #tool use #AI intensive course
1개월 전 · ai

Thinking Tokens는 동일하게 생성되지 않는다: 벤치마크가 ‘Search’와 ‘Insight’를 구분하지 못하는 이유 (A PCP Experiment)

실험 개요 나는 다양한 “reasoning” 모델이 실제로 생각 예산을 어떻게 사용하는지 이해하기 위해 실험을 진행해 왔습니다. 결과는…

#LLM #reasoning #token budgeting #benchmarks #post correspondence problem #model evaluation
1개월 전 · ai

[Paper] 검증기 탈출: 시연을 통한 추론 학습

대형 언어 모델(LLMs)을 추론하도록 훈련하는 것은 종종 작업별 검증자를 이용한 강화 학습(RL)에 의존한다. 그러나 많은 실제 상황의 추론‑...

#LLM #reinforcement learning #reasoning #research paper