为什么我仍然更偏爱 Sora 而不是 Nano Banana 用于图像生成

发布: (2026年1月16日 GMT+8 22:02)
6 min read
原文: Dev.to

Source: Dev.to

我只用 AI 为博客文章生成封面图片,所以并没有太高的期待。起初我觉得 Google 比 OpenAI 更好,但我已经改变了想法:我不确定这是否与隐藏的系统提示有关,还是 LLM 模型本身的问题。不过,我注意到 Gemini 存在巨大的限制。

Sora 与 Nano Banana 的图像对比

我对生成视频不感兴趣——我只需要 用于博客文章封面的酷图。我绝对不是以专业人士的方式来使用这些工具;我只是像普通终端用户一样使用这些服务,而且经常用得很糟糕。

  • 我并不会以技术意义上的“提示词”来写;我只是用高层次的描述来说明我的需求,就像和人交谈一样。
  • 我使用的是这些服务的 免费版本——没有订阅,只是各平台目前提供的内置功能。

我注意到 Nano Banana 似乎受到系统提示的限制,先天性地限制了它的能力。无论我如何改变描述,它总是生成相似的图像——虽然不错,但并不理想,因为我希望图像能够真正体现我的文章内容。

Source:

相同提示,不同结果

Sora 和 Nano Banana 使用的模型不同。我在意大利,无法使用 Sora 2。为了比较它们,我向两个服务(仅免费层)发送了完全相同的提示。我的描述故意保持高层次且通用:

A picture to represent the challenge between Sora and Nano Banana as
image generators powered by AI.

Nano Banana 结果

(本帖的封面图片)

Sora 结果

我的观点: Sora 的图像看起来要好得多,尽管我在两次生成之间没有改动任何文字。

Sora vs. Nano Banana by Sora
由 Sora 生成

当我在自己的 Google AI Studio 实例中尝试 Nano Banana Pro 时,标准版只输出了一张更小的方形图片。差异仍然很小,我仍然更喜欢 Sora 的结果,尽管它基于较旧的 GPT 模型。

这不是基准测试

我并不是想发布一个基准测试。我只是分享一位普通用户 作为潜在客户测试两项不同服务 的体验。我本可以从头重写提示以获得更好的结果,但这不是我的目的。(我已经在另一篇文章中写过提示优化。)

从开发者的角度来看,我同意:这不是一种专业的做法。直接比较 Sora 和 Nano Banana 并不完美,因为它们运行在不同的模型和基础设施上。

将提示适配到模型和服务才是正确的做法,但我想要 即时的结果——我把大部分细节留给了 LLM 本身,没有添加任何过滤器,只写了两行文字。

Nano Banana及其专业版

这篇文章的封面图是使用 DEV 编辑器内置的 Nano Banana 版本生成的。当我使用标准的 Nano Banana 界面时,得到的 图片截然不同,这让我怀疑 Forem 在模型和提示之间加入了额外的一层。

Sora vs. Nano Banana by Nano Banana Pro
由 Nano Banana Pro 生成

我没有给 LLM 任何百分比或风格指令。有趣的是,Nano Banana Pro 给它的竞争对手(Sora)打了更高的分——可能是出于策略性的偏向?图片右下角还有 Gemini 水印,这是因为我使用的是免费套餐。总体来看,我对它并不满意。

我将继续使用 Sora

不论层级如何,Gemini 仍然生成的图片不符合我的需求。GPT 目前提供了最佳结果,尽管我无法使用最新的模型。对使用合适的提示词测试 API 以更严格地评估性能会很有趣——这是我未来计划做的事。

  • OpenAI 的 Responses API 现在支持图像生成,而较旧的 Completions API 则不支持。
  • 我从未使用过 Google 的 Gemini 进行图像生成,所以不确定 2.5 版或 3 版在能力上有何差异。
  • Google 大幅降低了免费层的限制,因此我无法再“玩”它们了。

这就是我不打算采用专业工作流的原因。对我而言,获取合适图片的最快方式是打开 Sora 的网页界面——大多数终端用户的做法。接下来,我会给 TranslateGemma 一个机会,但目前我仍会坚持使用 Sora。

It's a completely different use case, and there I will be more technical.

If you’d like, follow me on [**Bluesky**](https://bsky.app/profile/fedtti.bsky.social) and/or [**GitHub**](https://github.com/fedtti) for more content. I enjoy networking.
Back to Blog

相关文章

阅读更多 »

Nano Banana 是如何得名的

你已经因为它的病毒式编辑功能而熟知 https://blog.google/products/gemini/nano-banana-tips/。但是,Google DeepMind 最受欢迎的模型之一是如何…