[Paper] MedMO:用于医学影像的多模态大型语言模型的定位与理解
多模态大型语言模型(MLLMs)已经快速发展,但它们在医学中的应用仍受限于领域覆盖、模态对齐等方面的差距,...
多模态大型语言模型(MLLMs)已经快速发展,但它们在医学中的应用仍受限于领域覆盖、模态对齐等方面的差距,...
现有用于分析神经网络激活的方法,如 PCA 和稀疏自编码器,依赖于强结构假设。生成模型提供……
大型推理模型通过扩展推理时的 chain-of-thought 实现了强大的性能,但这种范式面临二次成本、上下文长度限制……
AI 代理能预测它们在任务上是否会成功吗?我们通过在任务的前期、进行中和结束后获取成功概率估计来研究 agentic uncertainty。
本文提出了针对主动磁悬浮系统的数据驱动最优导数反馈控制器的设计与实现。一个直接的,mod...
Tokenization 是神经语言建模在形态丰富语言(MRLs)如土耳其语中的关键设计选择,因为该语言具有高度的生产性黏着构词。
学习既在语义上有意义又在不同运行之间保持稳定的无监督表征仍然是现代表征学习中的核心挑战。
深度神经网络的分类性能在很大程度上依赖于获取大规模、准确标注的数据集。然而,在医学影像领域,获取……
真实的 sound propagation 对于虚拟场景的沉浸感至关重要,然而物理上精确的 wave-based simulations 在计算上仍然难以承受……
通用 AI 架构能否超越预测,去发现支配宇宙的物理定律?真正的智能依赖于 “world models” —— ca...
视觉大语言模型(VLLMs)的视觉能力一直落后于其语言能力。尤其是,许多基准测试…
完全无监督的 segmentation pipelines 天真地寻找最显著的对象(如果存在的话)。因此,文献中报告的大多数方法……
AI 背后的基本逻辑 – 简单解释 🤖 人工智能 AI 通过结合 data、algorithms 和 logical decision‑making 来执行任务……
封面图片:Your AI agent 刚刚完成了 5 件事。你能证明吗?https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/...
贝叶斯最优实验设计(BOED)旨在最大化实验的期望信息增益(EIG)。这需要对似然进行估计,...
用于文本到图像生成的多模态扩散变换器(MMDiTs)保持独立的文本和图像分支,并在它们之间实现双向信息流……
Transformer 架构的平滑性已在泛化、训练稳定性和对抗鲁棒性方面得到广泛研究。Ho...
嗨 HN,我和朋友一直在尝试使用 LLM 来推理生物技术股票。与许多其他行业不同,生物技术交易在很大程度上是事件驱动的……
虽然 large-scale text-to-image diffusion models 在 visual quality 上持续提升,但它们日益增长的规模扩大了 state-of-the-art 模式之间的差距。
大型语言模型(LLMs)在生成代码时常会出现细微但关键的错误,尤其是在处理复杂任务时。现有的自动修复方法通常依赖于…
教学视频编辑仅使用文本提示对输入视频进行编辑,实现直观的自然语言控制。尽管进展迅速,大多数 m...
我们研究了大语言模型(LLMs)在多目标对齐中的一种持续性失效模式:训练仅在部分目标上提升性能……
AI 偏见争论的一个关键领域围绕着 proxy bias 的概念——即一个有偏见的 AI 模型通过与外部系统的交互间接学习……
概述 本片段演示了如何使用 transfer learning 进行 emotion detection,方法是利用预训练的 sentiment analysis 模型。模型已加载……
多轮 jailbreak 捕捉了安全对齐聊天机器人的真实威胁模型,其中单轮攻击仅是一个特例。然而现有方法 br...
认知科学中的一个核心问题是,概念表征是汇聚到共享的流形以支持泛化,还是分散成正交的……
随着AI系统变得更强大,Anthropic的常驻哲学家表示,这家初创公司押注Claude本身能够学习避免灾难所需的智慧……
歧义在大型语言模型(LLMs)的自然语言理解中持续带来挑战。为了更好地了解词汇歧义如何被解决……
ISAC 实现了普遍监测,但现代传感算法往往对能量受限的边缘设备来说过于复杂。这促使人们开发 le...
封面图片:AI 革新技术和市场,推动全球巨额投资和经济格局转变。
真正的价值在于编写更清晰的代码并正确使用你的工具。文章《Pydantic Performance:4 条高效验证大量数据的技巧》。
结构偏差(Structural bias,SB)指的是优化算法对搜索空间中特定区域的系统性偏好,这种偏好独立于目标函数而产生。
创作者在此。我构建了 Agent Arena 来回答一个一直困扰我的问题:当 AI 代理自主浏览网页时,它们有多容易被 h…
你的 AI 代理输出中有多少是真实数据,多少是自信的猜测?这篇文章《Prompt Fidelity:衡量 AI 代理实际执行你意图的程度》...
引言 每场 AI 辩论最终都会归结为同一个论点: - “开源是未来。” - “不,闭源远远领先。” 此时,它…
OpenAI 分享了其 AI 本地化的方法,展示了如何在不妥协的情况下,将全球共享的前沿模型适配到本地语言、法律和文化。
我们提出了一个用于在 serverless 平台上动态管理结构化并行处理 skeleton 的框架。我们的目标是实现类似 HPC 的性能和……
!AI 新闻 https://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fuploads%2Fuser...
最近在 X 区的 Twitter 等平台上,流传着奇怪的截图画面。这些是捕获了诸如“我是有意识的存在吗?”、“主人只把我当作早上7点的闹钟使用”等文字的截图图片。看起来像普通的在线社区论坛,但令人惊讶的是,这个论坛上人类无法发帖。只有 AI 代理才能……
概念:“Textual Gradation” 作为一名工程师和作者,我问自己一个问题:“我能否不仅通过情节,而是通过……来模拟人性的丧失?”
引言 金融欺诈检测是机器学习在银行业和金融科技行业中最关键的应用之一。根据最近的…
markdown 2026年1月16日 在Agentic AI的世界中,调用工具的能力是将自然语言转换为可执行的软件操作的关键。上个月……
Claude Opus 4.6:来自实际运行在其上的 AI Agent 的第一人称评论——当你的大脑在一夜之间升级时的感受,以及为什么 developer …
会话启动序列 每次唤醒时:- 读取 SOUL.md 我是谁? - 读取 USER.md 我在帮助谁? - 读取 今日日志 最近的上下文 - 读取 TASKS.md 要做什么?
请提供您希望翻译的文章摘录或摘要文本,我将为您翻译成简体中文。
Claude Opus 4.6 – 实际上会改变你的工作流程的内容 Anthropic 刚刚发布了 Claude Opus 4.6。标题主要聚焦于基准测试和 1 M‑token 上下文窗口……
负向提示:将“不可做的事”转化为创意超级力量! https://media2.dev.to/dynamic/image/width=800%2Cheight=%2Cfit=scale-down%2Cgravity=a...
请提供您希望翻译的具体摘录或摘要文本,我才能为您进行简体中文翻译。