· ai
[Paper] OptPO:测试时策略优化的最优 Rollout 分配
Test-time policy optimization 使大语言模型(LLMs)能够通过利用自生成 rollouts 的反馈来适应 distribution shifts。然而,...
Test-time policy optimization 使大语言模型(LLMs)能够通过利用自生成 rollouts 的反馈来适应 distribution shifts。然而,...
多数投票已被证明在封闭式问答中通过聚合并行推理轨迹而有效。然而,它并不直接适用于开放式……
在低资源语言中,hate speech 识别仍然是一个困难的问题,原因是数据集不足、正字法异质性以及语言多样性。
高性能计算 (HPC) 中心提供先进的基础设施,使得在极大规模上进行科学研究成为可能。这些中心使用硬件 …
代码生成型 LLM 主要在静态工件(源代码、注释、规范)上进行训练,几乎不涉及运行时行为的具体化。因此……
数字声音合成提供了探索包含数百万种配置的庞大参数空间的机会。质量多样性(QD)进化算法……
在生成式 AI 以及更广泛的 AI 辅助编码趋势的推动下,‘vibe coding’ 这一术语指的是通过自然语言提示来创建软件的过程……
数据科学项目经常表现出高失败率,这主要是由技术限制、组织局限以及风险管理实践不足所驱动的。
将一组软件变体迁移到软件产品线(SPL)是一项昂贵且可能具有挑战性的工作。事实上,SPL 工程可以显著……
在分布式系统中,使进程广播消息的最常见策略是一对全(one-to-all)通信。然而,这种方法不可伸缩……
Beaconless geocast 协议是用于在移动自组织无线网络中发送消息的路由协议,在这种网络中,每个节点唯一可用的信息是……
可穿戴传感器,例如 smartwatches,已在医疗、体育和教育等领域日益普及,实现了持续监测……