[Paper] Fly360:全向障碍规避在无人机视角下
障碍规避作为无人机(UAV)的一项基础能力,随着对空间智能的日益关注,已受到越来越多的关注。
障碍规避作为无人机(UAV)的一项基础能力,随着对空间智能的日益关注,已受到越来越多的关注。
增量少样本(IFS)分割旨在通过仅少量标注随时间学习新类别。虽然在 2D 中已被广泛研究,但仍未得到充分利用……
外科医生不仅仅是看——他们在解读。当专家观察手术现场时,他们不仅了解正在使用的器械是什么,还明白为什么选择它……
Vision Language Model (VLM) 的开发在很大程度上依赖于扩大模型规模,这阻碍了在计算受限的移动和边缘设备上的部署……
层次时间序列预测对于各行业的需求预测至关重要。虽然机器学习模型已经取得了显著的...
本文描述了 KCLarity 团队在 CLARITY 共享任务中的参与,该任务是 SemEval 2026 上关于对政治话语中歧义和规避技术进行分类的任务……
我们提出了 LiveSense —— 一个跨平台系统,它将笔记本电脑上的商业现货(COTS)Wi‑Fi 网络接口卡(NIC)转变为厘米级……
下一代自动驾驶车辆(AVs)依赖大量的多源和多模态(M^2)数据来支持实时决策。实际上,数据...
我们介绍了SurgFormer,一种用于体积网格上数据驱动软组织仿真的多分辨率门控Transformer。高保真生物力学求解器…
Conversational generative AI 正在快速进入医疗领域,在这里 general‑purpose models 必须整合 heterogeneous patient signals 并支持多样的 inter…
否定是一个基本的语言运算符,但在 diffusion-based generative systems 中仍未得到充分建模。在本工作中,我们提出了一个形式化的……
我们曾被承诺AI监管和race to the top。现在,我们却在争论killer robots……
虽然 diffusion models 已经彻底改变了视觉内容生成,但它们的快速普及凸显了迫切需要研究其漏洞,例如……
Concept learning 是一种在描述逻辑的知识库上进行的监督式机器学习。最先进的 concept learners 通常依赖于…
自动语音识别(ASR)受益于预训练语音和语言模型的进展,但大多数系统仍然局限于单语环境……
我们引入 NOBLE(Nonlinear lOw-rank Branch for Linear Enhancement),一种在 transformer 的线性层中添加非线性低秩分支的架构增强。
可解释人工智能(XAI)旨在提升机器学习系统的透明度和问责性,但大多数方法遵循一刀切的……
随着大语言模型(LLMs)在语言能力方面的提升,它们的推理能力正受到越来越多的关注。在人类中,推理往往表现为……
大型语言模型(LLMs)已成为人工智能的基石,推动了内容创作、搜索和推荐系统等多个领域的进步……
数学文本理解是一项具有挑战性的任务,因为其中存在专门实体以及它们之间的复杂关系。本研究提出……
这篇论文讨论了模糊认知图(Fuzzy Cognitive Map,FHM)的神经实现以及相应的评估。首先,设计了一个 neural net 来实现……
让 Claude Code 生成可投入生产的代码。像 Cursor 或 Claude Code 这样的工具可以让你快速生成大量代码,从而实现快速开发。
Predictive coding graphs (PCGs) 是最近提出的对预测编码网络的推广,预测编码网络是一种受神经科学启发的概率潜变量模型……
今天我们推出 Codex Security,我们的 application‑security agent。它会构建关于您项目的深层上下文,以识别其他…
Descript http://descript.com/ 是一个 AI‑native 视频编辑器,围绕一个简单的理念构建:如果你能编辑文本,你也应该能够编辑视频。由于 Descript 的 e...
集成 AI 平台 ‘Dataiku’,构建 LLMOps 框架,提出 AI 代理控制管理方案。大多数企业已在实际业务中使用人工智能 AI 代理。许多企业在核心流程中积极使用代理,但 AI 的幻觉或 …
Balyasny Asset Management https://www.bamfunds.com/ Balyasny 是一家全球性的多策略投资公司,拥有大约 180 支投资团队,遍布多元化的…
跨领域学习在数据因隐私或异质性而无法集中时具有挑战性,这限制了训练单一全面模型的能力……
发布概述:OpenAI公布了最新的前沿模型 GPT‑5.4。它已集成到 Microsoft Office 套件和 Google Workspace 中,能够执行复杂的文档任务。本次版本首次加入了直接操控用户设备的“电脑使用 computer‑use”工具。此外,Microsoft…
multi-modal generative models 的进展正在推动新应用的出现,从 storytelling 到 automated media synthesis。大多数当前的 workloads 生成简单的 …
背景:五角大楼已正式将 Anthropic 列为供应链风险,命令联邦机构和国防承包商停止使用其 AI 工具。
高质量的多摄像头3D流媒体对于许多 AR/VR 应用中的沉浸式体验至关重要。视角数量受限——通常是由于真实…
规模化模仿学习在根本上受限于数据收集的效率。虽然handheld interfaces已经成为一种可扩展的解决方案……
高效且稳定地训练大型语言模型(LLMs)仍然是现代机器学习系统的核心挑战。为了解决这一挑战,Reparamete...
我们研究 Transformer 语言模型中的两种重复出现的现象:大规模激活,其中少量 token 在少数通道中表现出极端离群值……
我们提供了在推理模型中表现性链式思考(CoT)的证据,其中模型对其最终答案非常自信,但仍继续gene...
随着 AI 模型从简单的聊天机器人发展到更复杂的工作流,我们正日益接近那条事件视界——在那之后,AI 系统将被用于……
虽然用于视频理解的数据集已经扩展到小时级时长,但它们通常由密集拼接的片段组成,这些片段与自然的、未剪辑的...
从右删失生存数据中估计异质治疗效应(HTEs)在精准医学和个体化治疗等高风险应用中至关重要。
奇异统计模型——包括混合模型、矩阵分解和神经网络——由于参数不可辨识以及 d...
高光谱图像(HSI)有许多应用,范围从环境监测到国家安全,可用于材料检测和识别……
低资源语言的阅读理解系统在处理不可回答的问题时面临重大挑战。这些系统往往会产生不可靠的……
当前的视频生成模型无法模拟3D动作的物理后果,如力和机器人操作,因为它们缺乏结构理解……
推理模型会大声思考,但它们说的大部分是噪声。我们介绍 OPSDC(On-Policy Self-Distillation for Reasoning Compression),一种方法……
AI 设计反馈背后的脚本 你可能已经听过这样的反馈: - “层次结构清晰。” - “视觉节奏一致。” 也许它甚至……
每个人都列出 2 TB 和 Gemini 访问,但那只是盒子 📦。真正的价值在于它悄悄解锁的工作流——如果你知道去哪里找的话。真正的…
概述:Google 的 NotebookLM 基于 AI 的工具现在可以将您的研究和笔记转换为完整动画的“电影化”视频——相较于其原始视频功能有了进步。
构建软件仓库通常需要大量人工工作。最近在大型语言模型(LLM)代理方面的进展加速了自动化……