[Paper] SPA:一个简单但难以超越的知识注入基线
虽然大型语言模型(LLMs)在海量数据上进行预训练,但它们在专业的、数据稀缺的领域中的知识覆盖仍然不完整,m...
4646 posts from this source
虽然大型语言模型(LLMs)在海量数据上进行预训练,但它们在专业的、数据稀缺的领域中的知识覆盖仍然不完整,m...
在机器翻译领域,大型语言模型(LLMs)相较于传统的编码器-解码器系统通常表现不佳,因此其采用程度有限……
演绎验证通过提取验证条件(VCs)并为其编写形式化证明,为代码提供强大的正确性保证。实验...
随着时间的推移,使软件系统能够安全更改的共享理解会悄然削弱。这种在团队中逐渐失去的理解会增加 cognitive load……
Multi-objective re-ranking 已成为现代 multi-stage recommender systems 的关键组成部分,因为它的任务是平衡多个相互冲突的目标 su...
将自然语言描述转化为可行的代码修复仍然是软件工程中的一项根本性挑战。虽然 agentic lar...
确保研究论文与相应软件实现之间的一致性是软件可靠性和科学可重复性的基础。
StreamSampling.jl 是一个 Julia 库,旨在提供通用且高效的单遍采样方法,即使在总数未知的情况下也能从数据流中进行采样。
在实践中,验证同一大型模型的两个实现跨框架是否等价是困难的。即使它们实现了相同的计算……
准确可靠的安全度量对于汽车系统中 ASIC 的功能安全验证至关重要。传统的 FMEDA(Failure Modes, Effects,...)
随着 AI agents 从 human-supervised copilots 转变为 autonomous platform infrastructure,分析它们在不同 populations 中的 reasoning behavior 的能力变得至关重要……
Physical reservoir computing 利用物理系统的内在动力学进行信息处理,同时保持内部动力学固定并训练…
无人机(UAV)已广泛用于城市任务,合理规划无人机路径可以提高任务效率并降低风险……
尽管提供了高灵敏度、高 signal-to-noise ratio 和宽 spectral range,单像素成像(SPI)仍受限于低测量效率……
我们证明,在参数化的 symmetric unidirectional rings 中,具有 bounded domain 的 self‑disabling processes 的 livelock detection 是 decidable 的,并且可以在 polynomial time 内完成。
在过去的一年里,vLLM Semantic Router 项目发布了一系列工作,涵盖:(1) 核心路由机制——signal-driven routing、context-length …
现代 AI 服务的计算需求正日益从集中式云端转移到覆盖边缘和终端的计算连续体中……
Sketching 在 randomized linear algebra 中被广泛用于 low-rank matrix approximation、column subset selection 以及许多其他问题,并且它已经获得了显著的关注。
我们呈现了一项关于生成具有内置冗余的真实、受约束的小至中等规模道路网络的方法的比较研究。在本研究中,...
选择最相关或最具信息量的特征是实际机器学习问题中的关键问题。由于即使对于一个小规模的情况,穷举搜索也是不可行的……
近期的可解释性工作常常将特征视为在不同上下文中共享的单一全局方向、dictionary atom 或 latent coordinate。我们认为 th...
适当的参数配置是进化算法(EAs)成功的前提。虽然已经提出了各种自适应策略,但它仍然...
视频生成模型展现出新兴的推理行为。确保生成的事件在帧之间保持因果一致性对于可靠的……
现有的篡改检测基准在很大程度上依赖于 object masks,这与真实的 edit signal 严重不匹配:许多位于 mask 内的像素实际上未被修改……
近期在 diffusion models 方面的突破显著提升了 text-to-video generation,使得个性化内容创作能够实现细粒度的控制……
许多 segmentation 任务,例如 medical image segmentation 或 future state prediction,本质上是模糊的,这意味着多个预测同样……
仅在少量控制更新下引导大规模群体具有挑战性,因为真实系统以采样数据形式运行:控制输入是间歇性更新的……
在不确定的环境中预测未来状态,例如野火蔓延、医学诊断或自动驾驶,需要能够考虑多…
视频驱动的人体反应生成旨在合成直接响应观察到的视频序列的3D人体动作,这对于构建人类——
在本工作中,我们提出了 Image-to-Image Rectified Flow Reformulation (I2I‑RFR),一种实用的插件式重构方法,将标准的 I2I 回归网络重新表述为……
Video agentic models 已经推动了具有挑战性的视频‑语言任务的发展。然而,大多数 agentic 方法仍然在 densely sampled 的基础上严重依赖 greedy parsing ……
Causal generative models 为从观测数据中回答观测、干预和反事实查询提供了一个原理性的框架。然而……
在网络安全中使用 ML 长期受到泛化问题的阻碍:在受控场景中表现良好的模型在实际生产环境中往往无法保持性能。
最近关于 chain-of-thought (CoT) faithfulness 的研究报告了单一的整体数值(例如,DeepSeek‑R1 在 39% 的情况下会确认提示),暗示了 faithf...
理论心智(Theory of Mind,ToM)推理与大型语言模型(Large Language Models,LLMs)需要推断人们隐含的、不断演变的信念如何塑造他们的需求以及他们的行为……
传统的机器人社交行为生成在灵活性和自主性方面受到限制,依赖预定义的动作或人工反馈。本研究提出……
在有争议的领域,instruction-tuned language models 必须在 user-alignment 压力与对 in-context evidence 的忠实性之间取得平衡。为了评估这一点……
大型语言模型(LLMs)已经在各种任务中展示了卓越的能力。然而,它们输出的真实性并不能得到保证,且…
Hyperspace Analogue to Language (HAL) 模型依赖全局词共现矩阵来构建分布式语义表示。虽然这些…
大型语言模型(LLMs)在许多推理基准上表现出色,但这些评估通常侧重于孤立的任务,这些任务与 r...
大语言模型在多个具有挑战性的任务中取得了巨大成功,其能力还可以通过新兴的 agentic AI 技术进一步提升。
我们研究在对话中说话者和听者所表现的 verbal 和 nonverbal 语言特征如何有助于预测听者的状态……
关于软件工程中 AI 的证据仍然主要倾向于个人任务完成,而关于团队层面交付的证据仍然稀缺。我们报告了一个 …
量子近似优化算法(QAOA)及其高级变体——量子交替算子 Ansatz(QAOA),是……
[背景] 精心制定的软件工程(SE)研究问题对于弥合产业与学术之间的差距至关重要。Lean Research Inception(……)
配置调优对于提升性能在质量保证中至关重要。然而,由于黑箱性质,调优器的有效性长期以来一直是个谜。
程序理解是软件工程中的一项基本活动。它不仅经常给专业人士带来挑战,还可能阻碍新手的进步。
Serverless computing 抽象了基础设施管理,但也掩盖了可能导致安全风险的系统级行为。先前的工作已经表明,s...