[Paper] ISD-Agent-Bench:用于评估基于LLM的教学设计代理的综合基准
大型语言模型(LLM)代理在自动化教学系统设计(ISD)方面展现出有希望的潜力,教学系统设计是一种系统化的教育开发方法……
4663 posts from this source
大型语言模型(LLM)代理在自动化教学系统设计(ISD)方面展现出有希望的潜力,教学系统设计是一种系统化的教育开发方法……
虽然大多数 brain-computer interface 研究侧重于将 neural signals 解码为 behavior 或 intent,但相反的挑战是使用 controlled stimuli 来……
层次聚合聚类(Hierarchical Agglomerative Clustering,HAC)是一种广泛使用的聚类方法,基于反复合并最近的一对簇,依据簇间距离……
Global protocols 从鸟瞰视角指定分布式、message‑passing 协议,并用作 synthesizing 本地实现的 specification。
AMD MI300A APU 将 CDNA3 GPU 与高带宽内存和先进的加速器特性集成在一起:FP8 矩阵核心、异步计算引擎(ACE),以及……
固态硬盘(SSD)对数据中心、消费平台和关键任务系统至关重要。然而,诊断它们的性能和可靠性却非常困难……
近期在 LLM 引导的进化计算,特别是 AlphaEvolve 方面的进展,已经展示了在发现新颖数学构造方面的显著成功……
大型语言模型(LLMs)经常提供看似合理的链式思考(CoT)推理轨迹,但可能隐藏内部偏见。我们将这些称为 *unverbalized* …
现实世界中为具身代理收集数据仍然成本高且不安全,这需要可扩展、逼真且可直接用于模拟器的 3D 环境。然而,现有的……
Multiple rotation averaging (MRA) 是 3D 视觉和机器人领域的一个基础优化问题,旨在恢复全局一致的绝对旋转 fr...
扩展 action‑controllable world models 受限于动作标签的稀缺。虽然 latent action learning 有望从 u… 提取 control interfaces。
从未标记的视频数据中学习可迁移的知识并将其应用于新环境,是智能体的一项基本能力。该工作预…
数据隐私和可解释人工智能(XAI)是现代机器学习系统的两个重要方面。为了增强数据隐私,最近的机器…
利用表示编码器进行生成建模提供了一条实现高效、高保真合成的路径。然而,标准的 diffusion transformers 未能…
在互联网规模的视频上进行视觉-语言-动作(VLA)策略的预训练很有吸引力,但当前的潜在动作目标往往学习错误的东西:它们……
我们研究单个训练样本如何塑造循环变换器的内部计算,其中共享块被应用于 τ 次递归迭代到 e...
语言模型已成为量子计算教育和研究的实用工具,从摘要技术论文到解释理论概念等。
我们介绍了 Forensim,这是一种基于注意力的状态空间框架,用于图像伪造检测,可同时定位被篡改(目标)区域和源区域……
Out-of-distribution (OOD) 检测对于机器学习系统的安全部署至关重要。现有的后置检测器通常依赖于模型置信度……
大型语言模型(LLMs)经常生成不必要冗长的Chain-of-Thought(CoT)推理,这会增加计算成本和延迟,却没有相应的收益……
Artifact evaluation 已成为软件工程社区的标准实践,以确保研究结果的可重复性。然而,当前的 m...
高效探索仍然是强化学习(RL)的核心挑战,尤其是在稀疏奖励环境中。我们引入 Optimistic World Mode……
RAG TREC Instrument for Multilingual Evaluation (RAGTIME) 赛道在 TREC 的主要目标是研究从多语言源文档生成报告……
验证主张的真实性通常需要对文本和视觉证据进行联合多模态推理,例如分析文本标题……
大型语言模型(LLMs)正日益用于在高风险、特定领域的环境中支持问答和决策,例如 natural ha...
越南语采用音位正字法,每个 grapheme 最多对应一个 phoneme,反之亦然。利用这种高度的 grapheme‑phoneme 透明性……
儿童如何在有限的输入下获得母语水平的句法?根据刺激贫乏假设(PoSH),儿童接收到的语言输入……
现代软件系统不断进行代码升级,以提升功能、安全性和性能,而大型语言模型(LLMs)已经展示……
随着量子算法和硬件的不断发展,确保量子软件栈(QSS)的正确性变得日益重要。然而,...
我们构建了一个基准,用于评估大型语言模型(LLMs)在源代码迁移任务中的表现,特别是将函数从 Java 8 升级到 Java 11。我们首先……
在功能和适应性需求的同时,将人类价值观进行操作化仍然具有挑战性,因为它们具有模糊性、多元性和上下文依赖性……
在现实世界的软件工程任务中实现精通,根本受限于大规模、高质量训练数据的稀缺。规模化……
组织正在研究生成式 AI 如何支持其运营工作和决策过程。本研究调查了能源…
在 spiking neural networks (SNNs) 中训练传输延迟已被证明能够显著提升其在复杂时序任务上的性能。在本工作中...
部署大规模 MoE 模型在专家激活的内存容量和带宽方面面临挑战。虽然 Attention-FFN Disaggregation (AFD) 已经出现……
脉冲神经网络(SNN)正日益被研究作为卷积神经网络(CNN)的节能替代方案,尤其适用于边缘智能。
大型语言模型代理能开发工业级移动应用吗?我们推出了 SWE‑Bench Mobile,这是一项用于在真实环境中评估编码代理的基准测试……
Rashomon 集合捕捉了那些实现几乎相同经验性能,但在决策边界上可能有显著差异的模型集合。...
可追溯性链接是软件开发人员的重要信息来源,连接软件工件(例如,将需求链接到相应的源代码……)。
生产级 state-machine replication (SMR) 实现是复杂的、多层架构,包含数据分发、排序、执行和恢复……
何时需要在分布式规范中本质上要求 coordination,而不是由特定 protocol 或 implementation strategy 强加?我们给出一个 g...
在 LLMs 推理中,主要挑战仍然是频繁的 memory bandwidth 瓶颈、computational redundancy,以及 long‑sequence processing 的低效。为了 ad...
随着芯片间硅光子技术因其带宽和能效而受到关注,其电路交换的特性为研究人员提出了一个根本性的问题……
处理大规模图数据集计算密集且耗时。以处理器为中心的 CPU 和 GPU 架构,通常用于图应用……
本工作提出了 WorldCompass,这是一种新颖的强化学习(RL)后训练框架,针对长期、交互式基于视频的世界模型,能够……
在自动驾驶中,分布外(OOD)鲁棒性常常被简化为一个单一数字,掩盖了导致策略失效的因素。我们沿着五…
从栅格化的平面图像中重建结构化的矢量图形表示通常是计算任务的一个重要前提条件,涉及……
GUI-enabled agents的快速演进已经使传统的CAPTCHA变得过时。虽然之前的基准测试如OpenCaptchaWorld为…