EUNO.NEWS EUNO.NEWS
  • All (2364) +206
  • AI (546) +17
  • DevOps (142) +2
  • Software (996) +129
  • IT (675) +57
  • Education (5) +1
  • Notice
  • All (2364) +206
    • AI (546) +17
    • DevOps (142) +2
    • Software (996) +129
    • IT (675) +57
    • Education (5) +1
  • Notice
  • All (2364) +206
  • AI (546) +17
  • DevOps (142) +2
  • Software (996) +129
  • IT (675) +57
  • Education (5) +1
  • Notice
Sources Tags Search
한국어 English 中文
  • 1周前 · ai

    [Paper] 逃离验证器:通过示例学习推理

    训练大型语言模型(LLMs)进行推理通常依赖于带有任务特定验证器的强化学习(RL)。然而,许多现实世界的推理‑

    #LLM #reinforcement learning #reasoning #research paper
  • 1周前 · ai

    [Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果

    优化大型语言模型(LLMs)以实现多轮对话结果仍然是一个重大挑战,尤其是在像 AI mar... 这样的目标导向设置中。

    #LLM #reinforcement learning #PPO #RLHF #goal-oriented dialogue
  • 1周前 · ai

    [论文] BAMAS:结构化预算感知多智能体系统

    Large language model (LLM)-based multi-agent systems 已经成为一种强大的范式,使 autonomous agents 能够解决复杂任务。随着这些系统…

    #budget-aware AI #multi-agent systems #LLM cost optimization #integer linear programming #reinforcement learning
EUNO.NEWS
RSS GitHub © 2025