为什么我仍然更偏爱 Sora 而不是 Nano Banana 用于图像生成
Source: Dev.to
我只用 AI 为博客文章生成封面图片,所以并没有太高的期待。起初我觉得 Google 比 OpenAI 更好,但我已经改变了想法:我不确定这是否与隐藏的系统提示有关,还是 LLM 模型本身的问题。不过,我注意到 Gemini 存在巨大的限制。
Sora 与 Nano Banana 的图像对比
我对生成视频不感兴趣——我只需要 用于博客文章封面的酷图。我绝对不是以专业人士的方式来使用这些工具;我只是像普通终端用户一样使用这些服务,而且经常用得很糟糕。
- 我并不会以技术意义上的“提示词”来写;我只是用高层次的描述来说明我的需求,就像和人交谈一样。
- 我使用的是这些服务的 免费版本——没有订阅,只是各平台目前提供的内置功能。
我注意到 Nano Banana 似乎受到系统提示的限制,先天性地限制了它的能力。无论我如何改变描述,它总是生成相似的图像——虽然不错,但并不理想,因为我希望图像能够真正体现我的文章内容。
Source: …
相同提示,不同结果
Sora 和 Nano Banana 使用的模型不同。我在意大利,无法使用 Sora 2。为了比较它们,我向两个服务(仅免费层)发送了完全相同的提示。我的描述故意保持高层次且通用:
A picture to represent the challenge between Sora and Nano Banana as
image generators powered by AI.
Nano Banana 结果
(本帖的封面图片)
Sora 结果
我的观点: Sora 的图像看起来要好得多,尽管我在两次生成之间没有改动任何文字。
当我在自己的 Google AI Studio 实例中尝试 Nano Banana Pro 时,标准版只输出了一张更小的方形图片。差异仍然很小,我仍然更喜欢 Sora 的结果,尽管它基于较旧的 GPT 模型。
这不是基准测试
我并不是想发布一个基准测试。我只是分享一位普通用户 作为潜在客户测试两项不同服务 的体验。我本可以从头重写提示以获得更好的结果,但这不是我的目的。(我已经在另一篇文章中写过提示优化。)
从开发者的角度来看,我同意:这不是一种专业的做法。直接比较 Sora 和 Nano Banana 并不完美,因为它们运行在不同的模型和基础设施上。
将提示适配到模型和服务才是正确的做法,但我想要 即时的结果——我把大部分细节留给了 LLM 本身,没有添加任何过滤器,只写了两行文字。
Nano Banana及其专业版
这篇文章的封面图是使用 DEV 编辑器内置的 Nano Banana 版本生成的。当我使用标准的 Nano Banana 界面时,得到的 图片截然不同,这让我怀疑 Forem 在模型和提示之间加入了额外的一层。
我没有给 LLM 任何百分比或风格指令。有趣的是,Nano Banana Pro 给它的竞争对手(Sora)打了更高的分——可能是出于策略性的偏向?图片右下角还有 Gemini 水印,这是因为我使用的是免费套餐。总体来看,我对它并不满意。
我将继续使用 Sora
不论层级如何,Gemini 仍然生成的图片不符合我的需求。GPT 目前提供了最佳结果,尽管我无法使用最新的模型。对使用合适的提示词测试 API 以更严格地评估性能会很有趣——这是我未来计划做的事。
- OpenAI 的 Responses API 现在支持图像生成,而较旧的 Completions API 则不支持。
- 我从未使用过 Google 的 Gemini 进行图像生成,所以不确定 2.5 版或 3 版在能力上有何差异。
- Google 大幅降低了免费层的限制,因此我无法再“玩”它们了。
这就是我不打算采用专业工作流的原因。对我而言,获取合适图片的最快方式是打开 Sora 的网页界面——大多数终端用户的做法。接下来,我会给 TranslateGemma 一个机会,但目前我仍会坚持使用 Sora。
It's a completely different use case, and there I will be more technical.
If you’d like, follow me on [**Bluesky**](https://bsky.app/profile/fedtti.bsky.social) and/or [**GitHub**](https://github.com/fedtti) for more content. I enjoy networking. 
