[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性
Vision Language models (VLMs) 已在广泛的基准测试中展示了强大的性能,但它们常常受到模态主导的影响,即在预测…
Vision Language models (VLMs) 已在广泛的基准测试中展示了强大的性能,但它们常常受到模态主导的影响,即在预测…
最近在语言模型方面的进展显著提升了自然语言理解(NLU)。尽管广泛使用的基准测试表明,大型语言模型……
在 vision-language models (VLMs) 中的推理最近因其在各种下游任务中的广泛适用性而受到显著关注。然而,...
图像地理定位传统上通过基于检索的地点识别或基于几何的视觉定位流水线来解决。最近的进展……
我们提出 HILBERT(HIerarchical Long-sequence Balanced Embedding with Reciprocal contrastive Training),一种跨注意力的多模态框架,用于学习文档……
Reinforcement learning 已经推动了 video reasoning 在 large multi-modal models 中的发展,但主流流水线要么依赖于 on-policy self-exploration,这会导致性能停滞……
强化学习与可验证奖励(RLVR)通常优化结果奖励,而不对中间推理施加约束。这留下……
Time-to-Collision (TTC) 预测是碰撞预防中的关键任务,需要精确的时间预测并理解局部和全局的…
决策者依赖天气预报来种植作物、管理野火、分配水和能源,并为极端天气做好准备。今天,这类预报 e...
本文系统性地基准评估了通过 token pruning 适配的最先进的多语言大型语言模型(LLMs)——一种压缩技术……
大型语言模型正日益在可靠性至关重要的场景中部署,但输出层面的不确定性信号,如 token probabilities、entropy……
基于适配器的方法已成为对大型语言模型(LLMs)进行持续学习(CL)的成本有效方案,通过顺序学习低秩更新……
大型语言模型(LLMs)日益依赖链式思考(CoT)推理来解决复杂任务。然而,确保推理轨迹既能……
最近的工作提出了 test-time alignment 方法,依赖一个小的 aligned model 作为代理,引导更大的 base(unaligned)model 的生成。T...
在分布式深度学习中,准确预测训练时间对于资源分配、成本估算和作业调度至关重要。我们观察到,f...
我们提出了一个用于德国语手语(DGS)童话的 dataset 和 model,用于进行 sentiment analysis。首先,我们对三个层面的 val…
Probabilistic Synchronous Parallel(PSP)是一种用于分布式学习系统的技术,通过抽样一部分参与者来降低同步瓶颈……
Concept Bottleneck Models (CBMs) 旨在通过使用人类可理解的概念来结构化预测,以提升 Deep Learning 的可解释性,但它们…
大型语言模型 (LLMs) 在软件开发中的快速普及,使得区分 AI 生成的代码和人工编写的代码成为一项关键挑战。
Code localization 是自主软件工程的基石。最近的进展在真实世界问题基准上取得了令人印象深刻的表现。...
脉冲神经网络(SNN)正迅速获得动力,作为资源受限的边缘系统中传统人工神经网络的替代方案。我...
对心电图(ECG)信号的自动分类是诊断和监测心血管疾病的有用工具。本研究比较了三种 tr...
通用机器学习原子间势 (uMLIPs),在涵盖无机材料和有机分子的极其多样化数据集上进行预训练……
要点 - Anthropic 的 prompt cache 的 TTL 为 5 分钟。 - Orchestrator 循环如果运行时间快于 270 秒,则仅支付约 10% 的完整输入 token 成本。 What Cha...
《像开发者一样设计 ChatGPT 提示与工作流》封面图片
封面图片:Profling Claude Converstaions https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-...
在评估预算紧张的情况下设计仍然有效的optimizers至关重要,尤其是在诸如cardiac digital twinning等昂贵的black-box场景中。我们提出...
影响力最大化(IM)是复杂网络分析中的一个基础问题,具有广泛的现实应用。迄今为止,现有的方法……
始终在线的转换器健康监测需要 sub‑mW 边缘推理,这一范式对 GPU‑based physics‑informed neural networks 来说是不可及的。本文工作将……
代码搜索,被视为信息检索(IR),是现代软件工程的基石,并日益为检索增强生成(RAG)提供动力,提升……
我对所有 Manus AI 任务进行了 30 天的跟踪。以下是我关于积分使用和优化的发现。任务分类 | 类别 | 任务占比 | 平均积分 |...
我一直在工作中构建 AI 代理,并且不断遇到同一个问题:每个框架都允许代理调用任何已注册的工具,而没有任何安全检查。An ag...
大型语言模型容易出现事实不准确的幻觉式陈述。这些错误的一个关键来源是通过 sup... 接触新的事实信息。
模型调优与怀疑精神 为了解决大型语言模型(LLMs)倾向于阿谀奉承和过度热情的问题,OpenAI 表示已对模型进行调优,使其更加怀疑,进而…
封面图片:Understanding Transformers 第8部分:Self-Attention 中的共享权重 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=...
Generative AI vs Agentic AI 从内容创作到自主行动 当我们超越 AWS DeepRacer 和 “AWS AI League”,模型‑ML 设计的转变……
OpenAI的Codex改版针对Anthropic的Claude代码。目前,OpenAI和Anthropic之间正进行一场低水平的竞争,争夺谁能发布最便利的……
从实验室假设到药房货架的旅程 从实验室假设到药房货架的过程是现代最艰苦的马拉松之一……
我不确定我的父母是否会注意到电话那头的声音不是我的——或者说它算是我的,但又不是我。那声音说了声“你好”,并问……
OpenAI Codex 桌面更新 – 每周 300 万开发者 OpenAI 宣布对其 Codex 开发者环境的 Mac 与 Windows 桌面应用进行大幅更新,……
传统的基于帧的相机能够捕获丰富的上下文信息,但在动态场景中受到时间分辨率有限和运动模糊的影响。Event camera...
本文聚焦于将 flow matching models 与人类偏好对齐。一个有前景的方法是通过直接反向传播 reward gradients 来进行 fine‑tuning …
本文提出了一种图像重新照明的方法,能够在照片中对多个光照属性进行精确且连续的控制。我们……
人工智能生成内容(AIGC)工具的快速进展,使得可以按需为网页设计创建图像、视频和可视化内容。
高级自动驾驶需要能够对多模态未来不确定性进行建模且在闭环交互中保持鲁棒性的运动规划器。A...
语言模型是否能够系统性地概括仍然是一个活跃的争论。然而,经验性能(empirical performance)受包括训练(training)在内的多重因素共同影响……
LLM-as-judge 框架正日益用于自动 NLG 评估,但它们的单实例可靠性仍然了解不足。我们提出一种双管齐下的……