[Paper] 当表格泄漏时:攻击 LLM-Based Tabular Data Generation 中的字符串记忆
大型语言模型(LLMs)最近在生成高质量表格合成数据方面表现出显著的性能。实际中,主要有两种方法……
大型语言模型(LLMs)最近在生成高质量表格合成数据方面表现出显著的性能。实际中,主要有两种方法……
图像字幕(Image captioning)在许多领域至关重要,包括帮助视障人士、改进内容管理系统以及提升人机交互……
LLM agents 在复杂的交互任务中被广泛部署,但隐私约束常常阻止在动态环境中进行集中式优化和协同进化。
开发知识问答(Dev Knowledge QA)任务旨在为软件开发过程中提出的寻求知识的问题提供自然语言答案。
在训练过程中逐步增加 Transformers 的深度不仅可以降低训练成本,还能提升推理性能,正如 MIDAS 所展示的那样……
理解人类个性对于个性化推荐和心理健康评估等网络应用至关重要。现有关于个性的研究……
随着基于 AI 的代码生成变得普及,研究人员正在研究代码 LLM 的校准——确保它们的置信度分数能够忠实地表示……
尽管在安全领域的machine learning取得了进展,rule-based detection仍然在Security Operations Centers中普遍存在,因为其资源密集性……
在大规模数据上预训练的基础模型已经展示了跨领域的显著零-shot 泛化能力。基于 TabPFN 的成功……
文档阴影去除对于提升数字化文档的清晰度至关重要。保留高频细节(例如文本边缘和线条)是关键……
本文探讨了在联邦学习(FL)环境中,使大型语言模型(LLMs)与多样化的人类偏好保持一致的挑战,其中...
我们提出了一种针对低资源语言的后训练方法,即使在使用不流畅的奖励模型进行对齐时,也能保持语言模型的流畅性。Preference...
近年来,高性能计算机视觉模型在医学影像领域取得了显著成功,甚至有一些皮肤病变分类系统……
自动手语识别(ASLR)已成为弥合聋人与听人社区之间鸿沟的关键领域。然而,手势的……
多重网格方法一直是求解由偏微分方程(PDE)离散化产生的线性系统的流行方法,适用于多个维度……
在本文中,我们研究了空间和时间上的云工作负载转移以降低碳、水和土地使用足迹的潜力。具体而言,我们 p...
本文介绍了首个公开可用的巴斯克语自动作文评分(AES)和反馈生成数据集,针对CEFR C1水平……
在本文中,我们介绍了 RESTifAI,这是一种由 LLM 驱动的方法,用于生成可复用、适用于 CI/CD 的 REST API 测试,遵循 happy‑path 方法。不同于 …
正确地设计和实现分布式系统可能相当具有挑战性。虽然这些系统通常伴随形式化规范,这些规范……
临床沟通是患者结果的核心,但大规模人工标注患者-提供者对话仍然劳动密集型且不一致,...
ML-Enabled Systems (MLES) 本质上是复杂的,因为它们需要多个组件来实现业务目标。此经验报告展示了……
我们介绍 QSTN,这是一款开源的 Python 框架,用于系统地从问卷式提示生成响应,以支持 in-silico 调查和 ann…
高效的 edge caching 能降低延迟并缓解现代网络中的 backhaul 拥塞。传统的缓存策略,如 Least Recently Used (LRU) ...
预测职业篮球比赛的结果,特别是美国国家篮球协会(NBA)的比赛,已变得对教练越来越重要。