将两篇研究论文链接到真实 AI 应用

发布: 1个月前 (2026年3月14日 GMT+8 20:23)

8 分钟阅读

原文: Dev.to

Source: Dev.to

基于LLM的深度搜索代理调查

通过加权 A* 与启发式奖励进行自适应路径规划

当我第一次阅读这两篇论文时，我立刻想到它们与我们在人工智能课程中学习的概念——尤其是搜索算法和智能代理——有多么紧密的关联。课堂上我们通常会使用小型图示来学习 BFS、DFS、Best‑First Search 和 A* 等算法。起初，这些问题可能显得非常学术化。然而，在阅读这些论文的过程中，我意识到这些相同的思想正在被积极扩展并用于现代 AI 系统，尤其是当它们与大型语言模型（LLM）结合时。

两篇论文都在探讨智能搜索与规划的思路，但侧重点不同：

Paper 1 关注 LLM‑based 代理如何执行深度搜索。
Paper 2 提出使用加权 A* 与启发式奖励来改进经典路径规划算法。

Paper 1 – A Survey of LLM‑based Deep Search Agents

本文的目标是回顾并分析大型语言模型（LLM）如何充当推理代理，在可能的解空间上执行深度搜索。传统的搜索算法系统地遍历状态空间，而基于 LLM 的代理则引入了对搜索过程本身进行推理的能力。

这些代理并不是盲目展开节点，而是可以：

规划多步解决方案
评估中间结果
决定哪个搜索分支更有前景

这与我们在 AI 课程中学习的代理模型密切相关。我们学习了：

简单反射代理
基于模型的代理
基于目标的代理
基于效用的代理

基于 LLM 的深度搜索代理类似于 基于目标的 和 基于效用的 代理，因为它们会评估可能的行动并选择那些更接近目标的行动。

复杂推理任务的示例工作流：

将问题拆分为更小的步骤。
生成候选解。
评估哪个分支最有前景。
在该方向继续搜索。

这类似于最佳优先搜索，但指导来自语言层面的推理，而不是纯粹的数学启发式。

Source: …

论文 2 – 通过加权 A* 与启发式奖励的自适应路径规划

第二篇论文聚焦于改进路径规划算法，特别是 A* 搜索算法。

标准 A*

(g(n)) – 从起始节点到当前节点的代价
(h(n)) – 从节点到目标的启发式估计

评估函数为：

[ f(n) = g(n) + h(n) ]

加权 A*

论文建议使用权重 (w) 来强化启发式信息的影响：

[ f(n) = g(n) + w \times h(n) ]

增大 (w) 会使算法更“贪婪”，倾向于选择看起来更接近目标的节点。

启发式奖励

除了静态启发式函数，作者还引入了 启发式奖励，使算法能够根据环境动态调整其引导。这种适应性在以下情况下尤为有用：

搜索空间非常大
条件随时间变化
需要快速决策

实际示例 – 自动送货机器人

真实世界中，这些理念的应用体现在智能城市或仓库中的自动送货机器人。

使用经典 A*

方面	描述
路径选择	找到最短的几何路径。
启发式	通常是到目标的欧氏距离。
局限性	忽略移动工人、临时障碍、高流量区域以及电池限制等动态因素。

使用加权 A* 与自适应奖励

路径	距离	障碍风险	启发式奖励	结果
A	短	高	低	避免
B	中等	低	高	选择
C	长	中等	中等	备用

即使路径 A 是最短的，算法也可能选择路径 B，因为它更安全并且能实现更快的整体送货。

收益

更快的送货
降低拥堵
提升能源效率

合并两篇论文

最有趣的洞见在于这两种方法相互补充：

基于 LLM 的深度搜索代理 提供高层次的推理和战略规划。
加权 A* 提供高效的低层次路径优化。

未来的智能系统可以按以下方式运行：

LLM 代理决定 做什么（例如，选择哪条送货路线或优先处理哪个任务）。
加权 A* 计算 如何做（执行该决策的最优路径）。

潜在的应用包括：

自动驾驶车辆
机器人仓库
智能物流系统
灾害响应机器人

手动阅读与 Notebook LM 探索的洞见

在手动阅读论文时，我注意到两者都强调 混合 AI 系统 的重要性。传统算法并未被现代 AI 模型取代；相反，它们被增强了。

Notebook LM 帮助突出了关键洞见：
- 大语言模型可以通过推理引导搜索过程。
- 自适应启发式方法提升搜索效率。

将符号搜索技术与 LLM 驱动的推理相结合，似乎是构建更强大、更适应性的 AI 代理的有前景的方向。

使用神经模型的 Lic 搜索算法

使用神经模型的 Lic 搜索算法是一个不断增长的研究方向。

NotebookLM 还帮助总结了论文的复杂章节，使人们更容易了解这些算法如何在真实环境中扩展。

个人反思

阅读这些论文帮助我将 AI 课程中的概念与真实的研究进展联系起来。我们在编程作业中练习的 A* 等算法仍然是现代 AI 系统的基础。

不同之处在于，研究人员现在将这些算法与大语言模型和自适应启发式方法结合，使其更加智能和灵活。

这表明学习经典算法仍然极其有价值，因为它们构成了高级 AI 系统的基石。

Mention: @raqeeb_26

将两篇研究论文链接到真实 AI 应用

基于LLM的深度搜索代理调查

通过加权 A* 与启发式奖励进行自适应路径规划

Paper 1 – A Survey of LLM‑based Deep Search Agents

论文 2 – 通过加权 A* 与启发式奖励的自适应路径规划

标准 A*

加权 A*

启发式奖励

实际示例 – 自动送货机器人

使用经典 A*

使用加权 A* 与自适应奖励

合并两篇论文

手动阅读与 Notebook LM 探索的洞见

使用神经模型的 Lic 搜索算法

个人反思

相关文章

AI研究

如果 LLMs 需要的是脊柱，而不是更大的大脑，会怎样？

OpenAI的成人模式据称是低俗的，而非色情的

为什么 Codex Security 不包括 SAST 报告

基于LLM的深度搜索代理调查

通过加权 A* 与启发式奖励进行自适应路径规划

Paper 1 – A Survey of LLM‑based Deep Search Agents

论文 2 – 通过加权 A* 与启发式奖励的自适应路径规划

标准 A*

加权 A*

启发式奖励

实际示例 – 自动送货机器人

使用经典 A*

使用加权 A* 与自适应奖励

合并两篇论文

手动阅读与 Notebook LM 探索的洞见

使用神经模型的 Lic 搜索算法

个人反思

相关文章

AI研究

如果 LLMs 需要的是脊柱，而不是更大的大脑，会怎样？

OpenAI的成人模式据称是低俗的，而非色情的

为什么 Codex Security 不包括 SAST 报告

Paper 1 – A Survey of LLM‑based Deep Search Agents

论文 2 – 通过加权 A* 与启发式奖励的自适应路径规划

手动阅读与 Notebook LM 探索的洞见