[Paper] 生成式对抗推理器:通过对抗强化学习提升 LLM 推理能力
Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……
Large language models (LLMs) 具备显式推理能力,在数学推理方面表现出色,但仍会出现过程错误,例如计算错误……
立体显示技术的快速增长,包括 VR 头盔和 3D 影院,导致对高质量立体视频内容的需求不断增加。然而,pr...
先前研究调查大型语言模型(LLMs)的内部工作原理时,发现了稀疏子网络,通常称为 circuits,负责执行……
在本工作中,我们提出了一种全景度量深度基础模型,能够在不同场景距离上实现泛化。我们探索了一种 data‑in‑the‑loop 范式……
本文研究了在可验证奖励(RLVR)强化学习框架中探索‑利用的权衡,这一框架用于提升推理的……
在从机器人到语言等各个领域,标准做法是首先在大规模 demonstration dataset 上对 policy 进行 pretrain,然后对该 policy 进行 finetune,……
近期在多模态模型方面的进展凸显了图像标记化在高分辨率图像生成中的关键作用。通过将图像压缩成紧凑的...
先前关于3D 手部轨迹预测的工作受到数据集的限制,这些数据集将运动与语义监督解耦,并且模型在推理方面的关联较弱。
生成时文本水印将统计信号嵌入文本,以实现对 AI 生成内容的可追溯性。我们探索 *post-hoc watermarking*,其中 LLM…
我们研究当 transformer 被训练用于在序列上求解算术时出现的机制,这些序列中的 token 是其含义由…决定的变量。
AI 技术已迅速进入涉及大规模文本语料库的商业和研究应用领域,包括 computational journalism 研究和新闻……
奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。