[Paper] Moonshine v2:Ergodic Streaming Encoder ASR 用于对延迟敏感的语音应用
延迟敏感的语音应用(例如实时转录、语音指令和实时翻译)需要低的 time-to-first-token (TTFT) 和高的 transc...
3122 posts from this source
延迟敏感的语音应用(例如实时转录、语音指令和实时翻译)需要低的 time-to-first-token (TTFT) 和高的 transc...
数据混合——确定来自不同领域的数据比例——是训练语言模型(LMs)的首要关注点。虽然现有的混合方法……
高效的长上下文处理仍然是当代大型语言模型(LLMs)的关键挑战,尤其在资源受限的环境中。因此……
监督微调(SFT)在计算上高效,但相比强化学习(RL)通常会导致较差的泛化能力。这一差距主要是…
当前用于图像生成和编辑的统一多模态模型通常依赖于大规模参数(例如 >10B),导致训练成本高昂……
AI模型在文本推理方面已经取得了state-of-the-art的成果;然而,它们在对空间和关系结构进行推理的能力仍然是一个关键的……
网络攻击的快速演变持续推动未知(zero-day)威胁的出现,对网络入侵检测构成了重大挑战。
高质量的3D纹理生成仍然是一个根本性的挑战,因为当前主流的 multi-view diffusion pipelines 所固有的视角不一致性。...
为大型语言模型(LLMs)提供服务可以通过在多个设备上并行化模型本身和输入请求而获得巨大的收益,但传入的工作负载……
AI coding agents 正日益为软件开发做出贡献,但它们对移动开发的影响却很少得到实证关注。在这…
现代基于容器的微服务通过快速部署周期不断演进,但 CI/CD 流水线仍很少衡量能耗,尽管已有先前的研究……
已知 Performance antipatterns 会降低 microservice-based systems 的响应性,但它们对 energy consumption 的影响仍然大多未被探索。
TLA+ 中的模型检查提供了强大的正确性保证,但从业者在解释 counterexamples 时仍然面临重大挑战,unders...
多智能体系统正日益协调多个专门的语言模型来解决复杂的现实问题,通常在共享的上下文中调用它们……
已经提出了几种基于深度学习(DL)的技术来自动化代码审查。然而,目前尚不清楚这些方法在推荐方面的有效程度……
大型语言模型(LLMs)在自动代码生成方面表现出卓越的能力。虽然在主流语言上效果显著,但在……方面可能表现不佳。
在 binary classification 系统中,decision thresholds 将 model scores 转换为 actions。选择合适的 thresholds 依赖于 t 的具体分布……
在分布式系统中,设计一个同时具备准确性、可用性和可扩展性的 rate limiter 是一个根本性的挑战,主要原因是……
边缘设备的激增迫切需要能够在严格的计算约束下实时检测恶意软件的安全解决方案。
当前对神经系统中记忆的研究方法依赖于基于相似性的检索:给定一个 query,找到最具表征相似性的存储状态。这…
两相流中的界面动力学支配动量、热和质量传递,但在实验上仍然难以测量。传统技术面临……
近期在机器人学习方面的进展引起了人们对能够最终接近人类水平能力的平台的极大兴趣。这种兴趣,c...
在 chain-of-thought 数据上进行 Supervised fine-tuning (SFT) 是推理语言模型的关键后训练步骤。标准的机器学习直觉表明…
欧氏距离在小波散射变换系数(称为路径)之间提供了用于感知质量评估的有信息的梯度……