· ai
[Paper] Multi-RADS 合成放射学报告数据集与 41 种 Open-Weight 与专有语言模型的正面对比基准测试
背景:报告与数据系统(RADS)规范放射学风险沟通,但从叙述性报告中自动分配RADS仍具挑战性,因为……
背景:报告与数据系统(RADS)规范放射学风险沟通,但从叙述性报告中自动分配RADS仍具挑战性,因为……
Geo-localization 旨在推断给定信号的地理来源。在计算机视觉中,Geo-localization 已成为一个苛刻的 benchmark,用于 composition……
随着对话式 AI 系统日益融入日常生活,它们引发了关于用户自主性、信任以及商业利益的紧迫关注。
我们能从数据中学到比生成过程本身所包含的更多吗?仅仅通过应用确定性转换,能否构建出新的有用信息?
学生在数学中的错误往往是系统性的:学习者运用一种连贯但错误的程序,并在不同情境中重复使用。我们介绍 MalruleLib,...
文本到图像扩散模型中的机器遗忘旨在删除特定概念,同时保持整体效用。先前的扩散遗忘方法通常……
在企业搜索中,规模化构建高质量数据集仍然是一个核心挑战,因为获取标注数据非常困难。为了解决这个挑战……
虽然大型语言模型(LLMs)在自然语言处理方面展示了显著的潜力,但需要多步骤的复杂通用推理仍然是一个挑战。
LLM 代理能够推理并使用工具,但它们在长时程任务中常常因上下文无限增长和错误累积而崩溃。常见的补救措施,如...
评估机器学习(ML)模型偏差是构建可信赖且稳健的ML系统的关键。反事实公平性(CF)审计允许对b...
对机器学习模型进行表达性查询——将其视为一种 intentional data——能够使用 declarative language 对其进行验证和解释……
Diffusion language models (DLMs) 已经在带有上下文示例的一般自然语言任务中展示出强大的潜力。然而,由于双向注意力……