reinforcement learning

1일 전 · ai

왜 reinforcement learning은 representation depth 없이 정체되는가 (그리고 NeurIPS 2025의 주요 요점들)

매년 NeurIPS는 수백 편의 인상적인 논문을 발표하고, 그 중 소수는 실무자들이 scaling, evaluation 및 system design에 대해 생각하는 방식을 은근히 재설정합니다....

#reinforcement learning #representation depth #NeurIPS 2025 #scaling laws #model evaluation #system design #machine learning research
2일 전 · ai

Google의 'internal RL'이 장기적 AI 에이전트를 열 수 있는 방법

Google 연구원들은 일반적으로 LLM이 환각을 일으키거나 실패하게 만드는 복잡한 추론 작업을 AI 모델이 더 쉽게 학습할 수 있도록 하는 기술을 개발했습니다.

#reinforcement learning #internal RL #large language models #Google AI #reasoning #hallucination mitigation #AI research
5일 전 · ai

강화 학습을 통한 멀티턴 AI 에이전트 맞춤화

기존 environment simulators와 검증 가능한 ground truth를 기반으로 한 reward functions를 활용하면, 작은 모델과 작은 training에서도 작업 성공률을 높일 수 있다...

#reinforcement learning #multiturn agents #AI agents #environment simulators #reward functions #training data efficiency #Amazon Science
1주 전 · ai

신뢰할 수 있는 AI 에이전트를 구축하는 보이지 않는 작업

‘Reinforcement learning gyms’는 agents가 customer requests를 수행하기 위해 low‑level tasks를 chain together해야 하는 다양한 작업들을 훈련합니다....

#reinforcement learning #AI agents #reliability #training pipelines #Amazon Science #RL gyms #machine learning
2주 전 · ai

딥 강화 학습: 액터-크리틱 방법

로봇 친구들이 협력하여 드론을 조종하는 방법을 배웁니다. The post Deep Reinforcement Learning: The Actor-Critic Method appeared first on Towards Data Science....

#deep reinforcement learning #actor-critic #reinforcement learning #machine learning #AI #robotics
2주 전 · ai

스캐폴딩에서 초인까지: Curriculum Learning이 2048과 테트리스를 해결한 방법

번역할 텍스트를 제공해 주세요.

#curriculum learning #reinforcement learning #deep learning #game AI #2048 #Tetris #machine learning research
2주 전 · ai

곡선 아래의 에이전트 (AUC)

귀하의 에이전트 기반 솔루션이 실제로 더 나은지 이해하기 위해 Towards Data Science에 처음 게재된 “Agents Under the Curve AUC” 포스트…

#reinforcement learning #evaluation metrics #agents #AUC #machine learning
3주 전 · ai

강화 학습을 활용한 Vibe Proving 구현

검증 가능한 단계별 논리로 LLM이 추론하도록 만드는 방법 파트 2 ‘Implementing Vibe Proving with Reinforcement Learning’ 게시물이 처음으로 Towards Data…에 실렸습니다.

#reinforcement learning #large language models #prompt engineering #reasoning
3주 전 · ai

Reinforcement Learning GitHub 패키지 사용하기

소개 머신러닝에서 강화학습(RL)은 문제 정의가 알고리즘만큼이나 중요한 패러다임이다. 감독 학습과 달리…

#reinforcement learning #RL #R programming #MDPtoolbox #policy iteration #machine learning #GitHub package
3주 전 · ai

Language Agent Tree Search는 언어 모델에서 추론, 행동 및 계획을 통합한다

Language Agent Tree Search가 추론과 행동을 통합한다는 내용에 대해 자세히 읽어보세요.

#language-models #tree-search #MCTS #LLM-reasoning #planning #reinforcement-learning #AI-research #algorithm-design
0개월 전 · ai

프롬프트 인젝션에 대비해 ChatGPT Atlas를 지속적으로 강화하기

OpenAI는 강화 학습으로 훈련된 자동화된 레드 팀을 사용하여 프롬프트 인젝션 공격에 대비해 ChatGPT Atlas를 강화하고 있습니다. 이 사전적인 탐지는‑

#ChatGPT #Atlas #prompt injection #reinforcement learning #red teaming #AI safety #security
0개월 전 · ai

제가 Whot! 카드 게임을 플레이하는 AI 모델을 만든 방법

“How I built AI model that plays Whot! card game” 표지 이미지 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,form...

#AI model #game AI #Whot card game #machine learning #reinforcement learning #Python #card game AI

Newer posts

Older posts