[Paper] MARS:Margin-Aware Reward-Modeling 与 Self-Refinement
奖励建模是现代对齐流水线的核心组成部分,包括 RLHF 和 RLAIF,支撑包括 PPO 和 TRPO 在内的策略优化方法。如何...
奖励建模是现代对齐流水线的核心组成部分,包括 RLHF 和 RLAIF,支撑包括 PPO 和 TRPO 在内的策略优化方法。如何...
我们提出了一种两阶段的 “Mine and Refine” 对比训练框架,用于语义文本嵌入,以提升多类别电子商务搜索检索。Larg...
随着人类在高风险决策中日益依赖多轮对话 AI,亟需原则性框架来确保此类交互能够可靠地实现……
Black-box 对抗攻击在大型视觉语言模型(LVLMs)上具有挑战性,因为缺少梯度且多模态边界复杂。虽然先前的研究…
学习 time series foundation models 已被证明是跨多种 time series 领域进行 zero-shot time series 预测的有前景的方法。Insof...
使用 LLM 进行推理正越来越多地在更广泛的验证循环中展开。系统在内部使用廉价检查,例如 self-consistency 或 proxy rewards,wh...
现代离线强化学习(RL)方法能够找到性能良好的actor-critics,然而,使用value-based RL algorithms对这些actor-critics进行在线微调……
强化学习(RL)被广泛用于提升大型语言模型在推理任务上的表现,而异步RL训练具有吸引力,因为它能够提升……
大型语言模型(LLMs)的激增需要有效的机制来区分机器生成的内容和人类文本。虽然统计……
当前的语音大语言模型在很大程度上执行隐式 ASR:在可以通过转录本解决的任务上,它们在行为上和机制上等同于简单的 WhispertoL……
本文介绍了 KLong,这是一款开源的 LLM 代理,经过训练以解决极长时域任务。其原理是首先通过冷启动模型,利用轨迹……
Instruction-following language models 被训练为有帮助且安全,但它们的安全行为在良性微调下可能会恶化,并且在 ad...