machine learning — Page 18

排序:

2周前 · ai · - · -

[Paper] MARS：Margin-Aware Reward-Modeling 与 Self-Refinement

奖励建模是现代对齐流水线的核心组成部分，包括 RLHF 和 RLAIF，支撑包括 PPO 和 TRPO 在内的策略优化方法。如何...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 挖掘与细化：优化电子商务搜索检索中的分级相关性

我们提出了一种两阶段的 “Mine and Refine” 对比训练框架，用于语义文本嵌入，以提升多类别电子商务搜索检索。Larg...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 多轮人机协作与用户指定需求

随着人类在高风险决策中日益依赖多轮对话 AI，亟需原则性框架来确保此类交互能够可靠地实现……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…

#research #paper #ai #machine-learning #nlp #computer-vision
2周前 · ai · - · -

[Paper] Reverso：高效时间序列基础模型用于零样本预测

学习 time series foundation models 已被证明是跨多种 time series 领域进行 zero-shot time series 预测的有前景的方法。Insof...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 何时信任廉价检查：弱验证与强验证用于推理

使用 LLM 进行推理正越来越多地在更广泛的验证循环中展开。系统在内部使用廉价检查，例如 self-consistency 或 proxy rewards，wh...

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] SMAC：Score-Matched Actor-Critics 用于稳健的离线到在线迁移

现代离线强化学习（RL）方法能够找到性能良好的actor-critics，然而，使用value-based RL algorithms对这些actor-critics进行在线微调……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 稳定异步：方差控制的离策略强化学习用于LLMs

强化学习（RL）被广泛用于提升大型语言模型在推理任务上的表现，而异步RL训练具有吸引力，因为它能够提升……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[Paper] 面向随时有效的统计水印

大型语言模型（LLMs）的激增需要有效的机制来区分机器生成的内容和人类文本。虽然统计……

#research #paper #ai #machine-learning
2周前 · ai · - · -

[论文] 级联等价假设：何时语音 LLM 的行为类似于 ASR→LLM 管道？

当前的语音大语言模型在很大程度上执行隐式 ASR：在可以通过转录本解决的任务上，它们在行为上和机制上等同于简单的 WhispertoL……

#research #paper #ai #machine-learning #nlp
2周前 · ai · - · -

[Paper] KLong：训练 LLM 代理用于极长时程任务

本文介绍了 KLong，这是一款开源的 LLM 代理，经过训练以解决极长时域任务。其原理是首先通过冷启动模型，利用轨迹……

#research #paper #ai #machine-learning #nlp
2周前 · ai · - · -

[Paper] 学会保持安全：在微调过程中针对安全退化的自适应正则化

Instruction-following language models 被训练为有帮助且安全，但它们的安全行为在良性微调下可能会恶化，并且在 ad...

#research #paper #ai #machine-learning #nlp

Newer posts

Older posts