SaaS公司害怕我:为 Linux 克隆* Granola
Source: Dev.to
我最近在 Twitter 上花了很多时间,因为它似乎是获取 AI 新闻的最佳渠道之一。我常看到的一个说法是,随着低代码工具让人们能够自行构建定制的 SaaS 解决方案,SaaS(软件即服务)公司的“终结”正在逼近。我不确定我是否完全同意,但我正是那些推文里假设的那个人。曾有一款我很喜欢的 SaaS 工具在 Linux 上无法使用,于是我自己(虽然明显更差)实现了一个版本。
大约半年前,我发现了 Granola。我非常喜欢它:它可以进行转录、增强已有笔记、让我在不邀请其他记笔记者的情况下运行,并且提供了一个聊天界面来询问会议相关的问题。10/10,强烈推荐(至今仍然如此)。
一个月后,我决定把 Linux 重新设为我的主要操作系统。相比之下,Windows 在使用 Gemini CLI、OpenCode 和 Claude Code 等命令行编码工具时显得吃力(至少在当时我的体验是这样)。不幸的是,Granola 并不支持 Linux,且没有计划添加支持(我已经询问过)。
于是我创建了 Quinoa —— 一个为我量身定制的记笔记工具。
我学到的
- 这是一款 为我 设计的工具。虽然代码在 GitHub 上是公开的,但我经常告诉我的编码代理,它们是为我的系统、我的配置和我的偏好而构建的。
- 有意为单一用户设计,使我能够做出在面向公众的产品中不可接受的权衡。
- 编码代理让我们能够以几年前无法实现的方式将软件“意愿化”地带入现实。对某些事情不必过于刻意,只为自己或朋友构建,并且不必在每个项目上追求完美的工程质量,这都是可以的。
- 当出现 bug 时,我只需让代理去解决即可。
- 我几乎完全使用 Gemini CLI 和 OpenCode(利用 Google、Anthropic、OpenAI 等模型)构建了 Quinoa。我尝试不自己写任何代码,虽然导致了一些错误,但这是一次很好的学习经历。我的大部分代码审查也是完全由代理完成的。
我用 Google Gemini 构建的内容
Quinoa 依赖 Google Gemini 模型实现所有核心功能,充当实验新 Gemini 版本的沙盒。
- 会议转录 – Gemini 能识别说话者、标记他们,并生成转录文本。 音频理解文档
- 会议摘要 – 生成两到三句的摘要并提取行动项。
- 笔记增强 – 将我的笔记与音频录音和转录内容的额外上下文相结合进行丰富。
- RAG 笔记搜索 – 使用 Google 的检索增强生成(Retrieval‑Augmented Generation)服务搜索笔记并引用来源。 文件搜索文档
我还使用 Nano Banana 为项目创建了图标。
演示
Quinoa 是一个本地应用程序,所以我无法嵌入交互式演示。下面是该应用的截图(我显然不是设计师)。
Google Gemini 反馈
目前所有编码代理面临的最大问题似乎是提供正确的上下文,尤其是在构建依赖新库的工具时。Google Gemini 有时在自行实现时会遇到困难。如果您还没有尝试,强烈建议尝试 Gemini API Dev 技能。
小提示:我参加此比赛并不是为了获胜。我可能因为在 MLH 工作而不符合资格,但我想分享一下我一直在做的事情!
