使用 Claude Code 解决 Advent of Code 2025

发布: (2026年1月3日 GMT+8 16:41)
6 分钟阅读
原文: Dev.to

Source: Dev.to

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

介绍

说实话:有了大语言模型(LLM),《Advent of Code》的乐趣已经不复存在。你只需把任何谜题粘贴到 ChatGPT 或 Claude,就能在几秒钟内得到可运行的解答。于是我照做了,但这次我想用 Advent of Code 2025 做一个不同的实验:如果我不写一行代码会怎样?我只给 Claude Code 提供了一个指令文件,让它完全自主地解题。

结果是:在 22 项挑战中解决了 20 项(成功率 91%),全程没有人类编写的代码。

查看我的 repo 获取更多细节。

设置

我创建了一个名为 INSTRUCTIONS.md 的单文件,其中包含每一天的 12 步流程:

  1. 创建文件夹 ./day_xx/
  2. 前往 Advent of Code 题目页面。
  3. 将输入保存为 ./day_xx/input.txt
  4. 阅读 Part 1,在 ./day_xx/README.md 中写下策略。
  5. 编写 ./day_xx/part1.py
    • 用示例进行测试。
    • 对实际输入运行并提交。
  6. 在 README 中写下 Part 2 的策略。
  7. 编写 ./day_xx/part2.py
    • 测试 Part 2。
    • 运行 Part 2。
    • 提交 Part 2 答案。

随后我运行了代理:

claude --chrome --dangerously-skip-permissions

注意: --dangerously-skip-permissions 标志会绕过所有安全检查。这在生产环境中极其危险,但在本实验中是必要的,因为代理需要自主浏览网站并提交答案。

发生了什么

Claude Code 独立执行了整个工作流:

  • 使用 Chrome 集成浏览 Advent of Code。
  • 自行阅读谜题描述。
  • 制定了解决方案策略并记录下来。
  • 编写并测试了 Python 代码。
  • 向网站提交答案。
  • 答案错误时自行纠正。

我没有写任何代码。 只有指令文件。

结果

  • 已完成: 第2‑8天(两部分),第9天第1部分, 第10‑11天(两部分),第12天第1部分
  • 未完成: 第9天第2部分, 第12天第2部分
  • 总计: 20/22 个挑战 = 91% 自动完成

该仓库在第2‑12天生成了约 42 个 Python 文件,每个文件都包含完整的解决方案代码、测试文件和文档化的推理。

示例:第2天策略

以下是 Claude Code 为第2天记录的方法(摘自自动生成的 README):

  • 第1部分: 检测产品 ID,其中“从位置 0 开始的任何子串紧接其自身出现”(恰好出现两次重复)。
  • 第2部分: 扩展以捕获满足“整个字符串可以通过重复该子串至少 2 次形成”的 ID。

该代理独立推理解决了该问题,确定了算法思路并实现了它——完全不需要除指令模板之外的人类指导。

限制

即使成功率达到 91%,代理仍在两个挑战中失败:

  • Day 9 Part 2: 复杂的磁盘碎片整理问题,可能需要代理无法产生的算法洞察。
  • Day 12 Part 2: 因 Day 9 Part 2 的失败而受阻(依赖问题)。

某些问题仍然需要人类的算法直觉和创造性解决方案。代理擅长执行,但在新颖的算法洞察方面可能会遇到困难。

结论

这并不是关于配对编程或 AI 辅助,而是关于 从头到尾的自主执行

代理能够浏览网站、阅读自然语言描述、制定策略、编写代码、调试失败并提交结果——全部独立完成。唯一的人类输入是一份过程指令文件。

我们准备好完全自主的开发了吗?还没有。9% 的失败率仍然很重要,尤其是在需要复杂算法思维的情况下。但在各种编程挑战中实现了 91% 的自主完成,这表明我们比预期更接近这一目标。

未来并不是 AI 替代开发者,而是开发者去编排自主代理——提供高层次的指引,而让代理负责执行、测试和迭代。

查看 完整仓库 以了解所有自动生成的代码和对话记录。

Back to Blog

相关文章

阅读更多 »

RGB LED 支线任务 💡

markdown !Jennifer Davishttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%...

Mendex:我为何构建

介绍 大家好。今天我想分享一下我是谁、我在构建什么以及为什么。 早期职业生涯与倦怠 我在 17 年前开始我的 developer 生涯……