使用 Claude Code 解决 Advent of Code 2025

发布: 4个月前 (2026年1月3日 GMT+8 16:41)

6 分钟阅读

原文: Dev.to

Source: Dev.to

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

介绍

说实话：有了大语言模型（LLM），《Advent of Code》的乐趣已经不复存在。你只需把任何谜题粘贴到 ChatGPT 或 Claude，就能在几秒钟内得到可运行的解答。于是我照做了，但这次我想用 Advent of Code 2025 做一个不同的实验：如果我不写一行代码会怎样？我只给 Claude Code 提供了一个指令文件，让它完全自主地解题。

结果是：在 22 项挑战中解决了 20 项（成功率 91%），全程没有人类编写的代码。

查看我的 repo 获取更多细节。

设置

我创建了一个名为 INSTRUCTIONS.md 的单文件，其中包含每一天的 12 步流程：

创建文件夹 ./day_xx/。
前往 Advent of Code 题目页面。
将输入保存为 ./day_xx/input.txt。
阅读 Part 1，在 ./day_xx/README.md 中写下策略。
编写 ./day_xx/part1.py。
- 用示例进行测试。
- 对实际输入运行并提交。
在 README 中写下 Part 2 的策略。
编写 ./day_xx/part2.py。
- 测试 Part 2。
- 运行 Part 2。
- 提交 Part 2 答案。

随后我运行了代理：

claude --chrome --dangerously-skip-permissions

注意： --dangerously-skip-permissions 标志会绕过所有安全检查。这在生产环境中极其危险，但在本实验中是必要的，因为代理需要自主浏览网站并提交答案。

发生了什么

Claude Code 独立执行了整个工作流：

使用 Chrome 集成浏览 Advent of Code。
自行阅读谜题描述。
制定了解决方案策略并记录下来。
编写并测试了 Python 代码。
向网站提交答案。
答案错误时自行纠正。

我没有写任何代码。 只有指令文件。

结果

已完成： 第2‑8天（两部分），第9天第1部分，第10‑11天（两部分），第12天第1部分
未完成： 第9天第2部分，第12天第2部分
总计： 20/22 个挑战 = 91% 自动完成

该仓库在第2‑12天生成了约 42 个 Python 文件，每个文件都包含完整的解决方案代码、测试文件和文档化的推理。

示例：第2天策略

以下是 Claude Code 为第2天记录的方法（摘自自动生成的 README）：

第1部分： 检测产品 ID，其中“从位置 0 开始的任何子串紧接其自身出现”（恰好出现两次重复）。
第2部分： 扩展以捕获满足“整个字符串可以通过重复该子串至少 2 次形成”的 ID。

该代理独立推理解决了该问题，确定了算法思路并实现了它——完全不需要除指令模板之外的人类指导。

限制

即使成功率达到 91%，代理仍在两个挑战中失败：

Day 9 Part 2: 复杂的磁盘碎片整理问题，可能需要代理无法产生的算法洞察。
Day 12 Part 2: 因 Day 9 Part 2 的失败而受阻（依赖问题）。

某些问题仍然需要人类的算法直觉和创造性解决方案。代理擅长执行，但在新颖的算法洞察方面可能会遇到困难。

结论

这并不是关于配对编程或 AI 辅助，而是关于 从头到尾的自主执行。

代理能够浏览网站、阅读自然语言描述、制定策略、编写代码、调试失败并提交结果——全部独立完成。唯一的人类输入是一份过程指令文件。

我们准备好完全自主的开发了吗？还没有。9% 的失败率仍然很重要，尤其是在需要复杂算法思维的情况下。但在各种编程挑战中实现了 91% 的自主完成，这表明我们比预期更接近这一目标。

未来并不是 AI 替代开发者，而是开发者去编排自主代理——提供高层次的指引，而让代理负责执行、测试和迭代。

查看完整仓库以了解所有自动生成的代码和对话记录。

使用 Claude Code 解决 Advent of Code 2025

介绍

设置

发生了什么

结果

示例：第2天策略

限制

结论

相关文章

RGB LED 支线任务 💡

Zapier vs. Custom Code：何时放弃你的‘Glue’工具

Mendex：我为何构建

为什么 Apache Ozone 是大数据的首选对象存储