EUNO.NEWS EUNO.NEWS
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
  • All (20038) +213
    • AI (3083) +12
    • DevOps (901) +6
    • Software (10306) +149
    • IT (5702) +46
    • Education (45)
  • Notice (1)
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 0개월 전 · ai

    왜 AI safety는 구조적으로 강제되어야 하고, 훈련으로는 안 되는가?

    대부분의 현재 AI safety 작업은 unsafe system을 가정하고 그 안에 더 나은 행동을 train하려고 합니다. - 더 많은 data를 추가한다. - 더 많은 constraints를 추가한다. - 더 많은 features를 추가한다.

    #AI safety #alignment #reinforcement learning #structural enforcement #machine learning #AI governance #reward hacking
  • 1개월 전 · ai

    LLM 연간 리뷰

    19 Dec, 2025 !unnamedhttps://bear-images.sfo2.cdn.digitaloceanspaces.com/karpathy/unnamed.webp 2025년은 LLM 분야에서 강력하고 다사다난한 진전의 해였습니다. The...

    #LLM #RLVR #reinforcement learning #AI progress 2025 #language models
  • 1개월 전 · ai

    OpenAI Gym

    개요 OpenAI Gym은 시도와 오류를 통해 컴퓨터를 교육하는 간단한 놀이터입니다. 작업을 넣으면, 프로그램이 행동을 시도하고 실수로부터 학습합니다. ...

    #openai #gym #reinforcement-learning #rl #machine-learning #ai-toolkit #benchmarks #research
  • 1개월 전 · ai

    AI 에이전트는 복잡한 작업에서 63%의 실패율을 보입니다. Patronus AI는 새로운 ‘living’ 훈련 세계가 이를 해결할 수 있다고 말합니다.

    Patronus AI는 Lightspeed Venture Partners와 Datadog를 포함한 투자자들로부터 2천만 달러의 투자를 받은 인공지능 평가 스타트업으로, ... 를 공개했습니다.

    #AI agents #reinforcement learning #training environments #synthetic worlds #Patronus AI #complex task performance #AI evaluation
  • 1개월 전 · software

    진화 알고리즘, Node.js에서 실시간 구현

    Reinforcement Learning, Evolutionary Algorithms, 그리고 Visual Computing. Reinforcement Learning, Evolutionary Algorithms, 그리고 컴퓨터가 볼 수 있게 하는 모든 것은…

    #evolutionary-algorithms #nodejs #graphics-rendering #tessera.js #real-time-visualization #algorithm-demo #reinforcement-learning
  • 1개월 전 · ai

    계층적 멀티에이전트에서의 시간적 맥락 어텐션

    Temporal Contextual Attention in Hierarchical Multi-Agent Systems with Non-Stationary Reward Functions Challenge Overview N개의 계층을 가진 시나리오를 고려해 보자.

    #multi-agent systems #reinforcement learning #non-stationary rewards #temporal contextual attention #hierarchical agents #knowledge graph
  • 1개월 전 · ai

    강화 학습 환경: AI 에이전트가 경험을 통해 학습하는 방법

    인공지능 에이전트는 상호작용과 피드백을 통해 개선되며, 이는 강화 학습(RL)이라고 알려진 과정입니다. 이 학습 패러다임에서 에이전트는 ...

    #reinforcement learning #RL environments #AI agents #machine learning #generative AI #simulation #training
  • 1개월 전 · ai

    Ai2의 새로운 Olmo 3.1이 reinforcement learning 훈련을 확장해 더 강력한 reasoning benchmarks를 달성한다

    Allen Institute for AI인 Ai2는 최근 자신들이 지금까지 만든 가장 강력한 모델 패밀리인 Olmo 3을 발표했습니다. 하지만 회사는 모델을 계속 iterating하며, exp…

    #Olmo 3.1 #reinforcement learning #reasoning benchmarks #Allen Institute for AI #large language models #model efficiency
  • 1개월 전 · ai

    [Paper] 검증기 탈출: 시연을 통한 추론 학습

    대형 언어 모델(LLMs)을 추론하도록 훈련하는 것은 종종 작업별 검증자를 이용한 강화 학습(RL)에 의존한다. 그러나 많은 실제 상황의 추론‑...

    #LLM #reinforcement learning #reasoning #research paper
  • 1개월 전 · ai

    [Paper] Iterative PPO를 활용한 다중 턴 대화 결과 지향 LLM 정렬

    대규모 언어 모델(LLMs)을 다중 턴 대화 결과에 최적화하는 것은 특히 AI 마케팅과 같은 목표 지향적 환경에서 여전히 큰 과제입니다.

    #LLM #reinforcement learning #PPO #RLHF #goal-oriented dialogue
  • 1개월 전 · ai

    [Paper] BAMAS: Budget-Aware 멀티에이전트 시스템 구조화

    대규모 언어 모델(LLM) 기반 다중 에이전트 시스템은 자율 에이전트가 복잡한 작업을 해결하도록 하는 강력한 패러다임으로 부상했습니다. 이러한 시스템은...

    #budget-aware AI #multi-agent systems #LLM cost optimization #integer linear programming #reinforcement learning

Newer posts

Older posts
EUNO.NEWS
RSS GitHub © 2026