[Paper] 上下文代数
我们研究当 transformer 被训练用于在序列上求解算术时出现的机制,这些序列中的 token 是其含义由…决定的变量。
我们研究当 transformer 被训练用于在序列上求解算术时出现的机制,这些序列中的 token 是其含义由…决定的变量。
AI 技术已迅速进入涉及大规模文本语料库的商业和研究应用领域,包括 computational journalism 研究和新闻……
奖励模型(RMs)对于训练大型语言模型(LLMs)至关重要,但在处理交错图像和文本序列的 omni models 方面仍未得到充分研究。
在嵌入式应用中正确使用硬件抽象层(HAL)接口至关重要,以防止故障、崩溃,甚至硬件损坏。S...
视频大型语言模型(VLLMs)通过在互联网规模的数据上进行预训练,解锁了具备世界知识感知的视频理解,并已显示出前景……
通过强化学习(RL)为大型语言模型(LLMs)配备搜索引擎已成为构建搜索代理的有效方法。Howe...
等变原子级机器学习模型在外推能力和预测精度方面都带来了显著提升。取决于…的基础,
机器人学习研究面临的一个重要挑战是我们能够准确衡量和比较机器人策略的性能。机器人领域的Benchmarking……
将机器学习(Machine Learning, ML)应用于罕见疾病的诊断,如胶原VI相关营养不良(COL6‑RD),在根本上受到 s 的限制。
受生物学启发,spiking neural networks (SNNs) 通过随时间的离散脉冲处理信息,提供了一种相较于经典方法的节能替代方案。
基于Transformer的语言模型在广泛任务上取得了显著的性能,但其高推理延迟带来了显著的挑战……
Prosody——语言的旋律——传递关键信息,这些信息常常未被词语或文本捕获。在本文中,我们提出了一种信息‑...
如今,大型语言模型(LLMs)是现代软件系统的基础组件。随着它们的影响力日益增长,关于公平性的担忧已经变得日益突出。
Reactive jammers 对 robotic-swarm networks 构成严重的安全威胁,因为它们有选择地破坏 inter-agent communications 并削弱 formation integrity。
在本文中,提出了 Multi-stage Edge Server Upgrade (M-ESU) 作为一种新的网络规划问题,涉及对现有多接入边缘...
虽然注释是源代码的非功能性元素,Large Language Models (LLM) 经常依赖它们来执行 Software Engineering (SE) 任务。然而,...
Mutation analysis 是一种成熟的技术,通过向传统软件开发范式中注入人工故障来评估测试质量。
我们描述了Lockchain Protocol,这是一种轻量级的Bitcoin元协议,能够在零边际区块空间成本下实现高度高效的交易发现,……
Generative art systems 通常涉及高维且复杂的 parameter spaces,其中 aesthetically compelling outputs 仅占据少量、碎片化的区域……
Large Language Models (LLMs) 在各种任务上取得了令人印象深刻的成果,但其高计算需求带来了部署挑战,尤其是 …
在本文中,我们描述了一个致力于在科学工作负载中支持Artificial Intelligence的联邦计算平台。将工作投入到可重复性…
在潜在狄利克雷分配(LDA)中选择主题数 T 是一个关键的设计决策,它会强烈影响统计拟合度和可解释性……
神经网络如何在不依赖外部优化器的情况下自行进化?我们提出了 Self-Referential Graph HyperNetworks,这类系统中机器本身……
在长上下文 LLM 推理过程中,Attention 是导致延迟的主要因素,这在使用推理模型和 RAG 的日益流行的工作负载中尤为突出。我们提出了 Kascad……