[Paper] 超越表面统计:通过内部表征实现对LLMs的稳健共形预测
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
基于适配器的方法已成为对大型语言模型(LLMs)进行持续学习(CL)的成本有效方案,通过顺序学习低秩更新……
大型语言模型(LLMs)日益依赖链式思考(CoT)推理来解决复杂任务。然而,确保推理轨迹既能……
最近的工作提出了 test-time alignment 方法,依赖一个小的 aligned model 作为代理,引导更大的 base(unaligned)model 的生成。T...
我们提出了一个用于德国语手语(DGS)童话的 dataset 和 model,用于进行 sentiment analysis。首先,我们对三个层面的 val…
大型语言模型 (LLMs) 在软件开发中的快速普及,使得区分 AI 生成的代码和人工编写的代码成为一项关键挑战。
封面图片:Understanding Transformers 第8部分:Self-Attention 中的共享权重 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=...
人工智能生成内容(AIGC)工具的快速进展,使得可以按需为网页设计创建图像、视频和可视化内容。
LLM-as-judge 框架正日益用于自动 NLG 评估,但它们的单实例可靠性仍然了解不足。我们提出一种双管齐下的……
随着 LLM 代理与其他追求目标的代理之间有效且安全互动的重要性日益提升,然而,最近的研究却报告了相反的趋势:LLM …
Speculative decoding(SD)通过让轻量级草稿模型提出输出,而让更强大的目标模型进行验证,从而加速大语言模型的推理。
LLM-as-a-judge范式已经成为自动化AI评估流水线的运行核心,但它基于一个未经验证的假设:评审者评估…
幽默是为数不多的认知任务之一,在这些任务中,推理正确与答案正确同等重要。虽然最近的研究评估幽默……
在诸如医疗等高风险领域,机器学习不仅需要强大的预测性能,还需要可靠的不确定性量化(UQ)来……
模拟群体层面的用户行为能够在不进行昂贵的在线实验的情况下,实现对 merchant strategies 的可扩展的 counterfactual 评估。然而,构建一个 tr...
稀疏注意力已被提出作为缓解 transformer 二次成本的一种方式,这是长上下文训练中的核心瓶颈。一个有前景的方向是……
LLMs 正在证明其在 machine translation 方面的熟练,尽管由于其 generative nature,它们有时会以各种方式 overgenerate。这种 overgeneration……
这份 beta 技术报告探讨了如何表示可复用经验,以便它能够作为有效的 test-time control 并作为 iter... 的 substrate。
对三维场景的空间推理是具身智能的核心能力,但持续的模型改进仍受到成本的瓶颈限制。
虽然通过可验证奖励的强化学习(RLVR)通过优化条件分布 P(y|x) 显著提升了 LLM 的推理能力,但它的潜力……
评估 LLMs 具有挑战性,因为基准分数往往无法捕捉模型在真实世界中的实用性。相反,用户常常依赖 “vibe-testing”:非正式的……
修辞性问题的提出不是为了获取信息,而是为了说服或表明立场。大型语言模型内部如何表示它们仍不清楚。我们...
LLM 推理轨迹存在复杂缺陷——*Step Internal Flaws*(逻辑错误、幻觉等)和*Step-wise Flaws*(思考过度、思考不足……)。
虽然大型语言模型(LLMs)已经赋能AI研究代理执行孤立的科学任务,但自动化复杂的真实世界工作流,例如LLM……
GUI grounding,指在给定自然语言查询的情况下,从截图中定位界面元素,对于小图标和密集布局仍然具有挑战性。Test-t...
Large Language Models (LLMs) 现在能够生成高度流畅、类人文本。它们支持许多应用,但也引发了诸如大…的担忧。
后训练阶段对语言模型的适配通常通过参数更新或基于输入的方法实现,例如 fine-tuning、parameter-efficient adaptation 等。
Diffusion language models 最近作为标准语言模型的主要替代方案出现,原因是它们具备 bidirectional attention 和并行…
自动代码生成仍然是软件工程中的一个持久挑战,因为传统的 multi-agent 框架常常受到 static planning 的限制……
大型语言模型(LLMs)和视觉语言模型(VLMs)越来越多地通过布局和场景图等中间结构生成室内场景。
自主 AI 研究发展迅速,但长期视野的 ML 研究工程仍然困难:代理必须在任务理解上保持连贯的进展……
On-policy distillation (OPD) 已成为大语言模型后训练的核心技术,但其训练动态仍然了解不足。这……
Instruction-tuned 大型语言模型产生有帮助、结构化的响应,但当受到微不足道的约束时,这种帮助性有多稳健?我们展示了简…
大型语言模型(LLMs)正日益被整合到现实世界的决策中,包括公共政策领域。然而,它们的能力去理解…
光学字符识别(OCR)随着视觉语言模型的兴起而迅速发展,但评估仍然集中在少数几个……
Speech-to-speech language models 最近出现,以提升对话式 AI 的自然度。特别是,full-duplex models 通过 t...
Metonymy 和 metaphor 常常在自然语言中共现,但计算工作大多是孤立地研究它们。我们提出了一个将……转化的框架。
多语言基准指导前沿模型的开发。然而,前沿模型报告的多语言评估结构类似于流行的...
大型语言模型(LLMs)可以根据自然语言生成代码,但它们在多大程度上捕捉到预期的程序行为仍不清楚。Executable...
利用诸如大五人格等心理构念,大语言模型(LLMs)可以模仿特定的个性特征并预测用户的个性。Wh...
语言变化既反映又塑造社会过程,而基础概念的语义演变提供了历史和社会的可衡量痕迹。
视觉语言模型(VLMs)仍然在视觉感知任务(如空间理解和视点识别)上表现困难。一个可能的促成因素是...
大型视觉语言模型(LVLMs)在多模态推理方面表现出色,但常常出现幻觉并以高度确定性给出错误答案,……
近期在大型语言模型(LLMs)方面的进展使得大规模生成高度流畅且具欺骗性的类新闻内容成为可能。虽然之前的研究已经……
Norm,形式理论语言学家,和 Claudette,计算语言科学家,愉快地讨论现代语言模型是否能够……
我们提出了 RecaLLM,这是一套经过后训练的推理语言模型,旨在有效利用长上下文信息。In‑context retrieval(上下文检索),用于识别……
多模态混合专家(MoE)模型在视觉语言任务上取得了显著的性能。然而,我们发现了一种令人困惑的现象,称为 Seei…
Text-to-Audio-Video (T2AV) 生成正迅速成为媒体创作的核心接口,但其评估仍然碎片化。现有基准在很大程度上…