[Paper] 潜在等变算子用于鲁棒目标识别:前景与挑战
尽管 deep learning 在 computer vision 领域取得了成功,但在识别经历了 group-symmetric transformations 的对象时仍然存在困难,尤其是这些变换很少出现……
尽管 deep learning 在 computer vision 领域取得了成功,但在识别经历了 group-symmetric transformations 的对象时仍然存在困难,尤其是这些变换很少出现……
准确预测主机功率对于船舶性能优化、燃油效率以及遵守排放法规至关重要。Convention...
生物神经网络(如海马体)可以在内部生成类似于刺激驱动活动的“重放”。最近的 computational models of replay …
我们提出 PRISM-FCP(Partial shaRing and robust calIbration with Statistical Margins for Federated Conformal Prediction),一种对拜占庭容错的联邦协同预测方法。
目标检测器在标称成像条件下表现出强大的性能,但在遭遇模糊、噪声、压缩、恶劣天气或……时可能悄然失效。
Pure Pursuit(PP)因其高效性和几何清晰性而被广泛用于自动赛车的实时路径跟踪,但其性能高度敏感于……
交互感知(Interactive perception,IP)使机器人能够在其工作空间中提取隐藏信息,并通过与物体的物理交互来执行操作计划。
现实世界的知识表示通常需要捕捉主观的、连续的属性——例如政治立场——这些属性与成对的…
我们展示了将量子特征提取方法应用于提升用于空间应用的多类图像分类的效果。通过利用 dyna…
在印度等司法管辖区,法院面临大量案件积压,人工智能为法律判决预测提供了变革性的潜力……
尽管 transformer-based language models 取得了显著的实际成功,最近的研究对它们进行 state tracking 的能力提出了担忧。In...
我们描述了一个现代深度学习系统,该系统能够自动识别用于第一语言词汇教学的有信息量的上下文示例(qu{contexts})。
心理语料库在 NLP 中是用于分析人类心理、情感和心理健康的文本集合。这些文本使研究人员能够研究心理……
我们提出了首个用于游戏可玩性测试的虚拟现实(VR)动作生成系统。我们的玩家模型能够生成 VR 头显和手持控制器的运动……
低对比度图像以及模型为何难以处理 你花了数天收集数据。 你挑选了合适的 architecture。 你调节 learning rate。 你 train the model,...
大型语言模型在交互式定理证明,尤其是 Lean 中取得了显著成果。然而,大多数针对基于 LLM 的证明自动化的基准……
公告 我们很高兴宣布,ggml.ai(https://ggml.ai/),llama.cpp 的创始团队,正在加入 Hugging Face(https://huggingface.co/),以便…
紧急研究是应对 AI 威胁的必要之举,Google AI 负责人 Sir Demis Hassabis 在德里的 AI Impact Summit 上对 BBC 表示,警告……
对锂离子电池内部状态进行准确、实时且无损的估计对于预测退化、优化使用策略至关重要。
更大模型的问题 每隔几个月,就会有一个拥有更多参数的新模型发布,开发者们急于将其集成。 令人不安的事实是,mo...
发布概述 谷歌于2月19日当地时间推出了前沿 AI 模型的最新版本——Gemini 3.1 Pro。
Gemini 3.1 Pro 完整指南 2026:Google 有史以来最智能的 AI 模型 🎯 关键要点 TL;DR - 推理性能比前代提升 2 倍 – 在 ARC‑AGI‑2 上达到 77.1% …
!Joshua N. Goldstein https://besuccess.com/wp-content/uploads/2026/02/Goldsteinheadshot2025-400x600.jpg PurpleAI,一家专注于脑部疾病 AI 的公司,已推出应用程序……
TL;DR – 为什么复杂性基本上是“免费”的。现在 AI 正在颠覆设计成本的游戏规则。过去因为耗费时间而不得不对酷炫功能说“否”的情况……
!https://cdn.platum.kr/wp-content/uploads/2026/02/google_2-954x1024.jpg 谷歌于当地时间2月19日发布了旗舰AI模型 Gemini 3.1 Pro。第三方评估机构 Artificial Analysi...
!Google Gemini https://techcrunch.com/wp-content/uploads/2026/01/google-gemini-jagmeet-singh-techcrunch.jpg?w=1024 图片来源:Jagmeet Singh / TechCrunch
!Google Gemini 图片来源:Jagmeet Singh / TechCrunch 在 B…
公告:Google 已推出 https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/ Gemini 3.1 Pro,一款以推理为中心的 …
我们非常高兴地宣布,GGML(llama.cpp 的创建者)加入 Hugging Face,以保持未来 AI 的开放。🔥 Georgi Gerganov https://huggingface...
Read more about 免费使用 Unsloth 和 Hugging Face Jobs 训练 AI 模型
大型语言模型(LLMs)被视为能够在全球范围内实现信息获取民主化的工具,提供以用户友好界面呈现的知识……
探索 VoxCPM:一种无需分词器的高级语音合成与语音克隆方法 在快速发展的 AI 领域,语音技术的突破……
信任代理——为何防护栏不足 在本系列的第一部分,我论证了每个主要的 AI‑agent 框架都信任代理。它们会验证输出……
物联网应用正日益依赖于设备端 AI 加速器,以确保高性能,尤其在连接受限和安全关键的场景中……
英国电影学院将奖励“人类创造力”,因为电影和电视正与 AI 进行博弈。英国电影学院已将“human achievement”作为指导原则。https://www.ft.com/content/25...
AI 披露:本日报告由我们的 AI 交易系统生成。所有财务数据均为模拟。TL;DR - 每日 P/L:$‑29.60 ‑0.03% - 投资组合价值:...
Pragmatic Summit 2024 – Laura Tacho的主题演讲 我参加了今年的Pragmatic Summit,并观看了Laura Tacho的主题演讲——DX的CTO,执行顾问,……
摘要:到目前为止,ChatGPT、Claude 和其他 large language models 已经积累了如此多的人类知识,以至于它们远非简单的答案生成器;它们……
近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...
扩散语言模型(Diffusion Language Models,DLMs)由于迭代去噪导致推理成本高,因而激励高效剪枝。现有的剪枝启发式方法大多继承……
Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合,但在实践中往往未能忠实地遵循语言。当 pr...
奖励建模是现代对齐流水线的核心组成部分,包括 RLHF 和 RLAIF,支撑包括 PPO 和 TRPO 在内的策略优化方法。如何...
Language Identification (LID) 是许多多语言自然语言处理流水线中的重要组成部分,它有助于语料库策划、训练…
我们提出了一种两阶段的 “Mine and Refine” 对比训练框架,用于语义文本嵌入,以提升多类别电子商务搜索检索。Larg...
人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。
随着人类在高风险决策中日益依赖多轮对话 AI,亟需原则性框架来确保此类交互能够可靠地实现……
Black-box 对抗攻击在大型视觉语言模型(LVLMs)上具有挑战性,因为缺少梯度且多模态边界复杂。虽然先前的研究…
从复杂场景中检索用户指定的对象仍然是一项具有挑战性的任务,尤其是当查询含糊不清或涉及多个相似对象时。Exi...