@ 2024.08.17 , 07:02

为什么AI生成的图像总是这么光滑闪亮?

AI图像的光滑感源于默认风格、数据训练及技术限制,但可以通过调整提示词来生成不同风格的图像。

问:我经常注意到,许多AI生成的图像都带有一种光滑、闪亮的灯光效果。这背后有什么原因吗?

keiferski
这只是常见的美学模型效果,并非技术本身的固有特性。通过调整AI图像生成的艺术风格,可以轻松地让这些图像看起来像真的一样。不过,这其实是我个人的一个小烦恼——大家分享AI图像时,往往只使用这种通用的光滑风格,所以像Reddit.com/r/midjourney这样的平台上充斥着同一风格的图像。

vipshek
你看到的许多AI生成图像,都是通过像DALL-E或Llama 3.1之类的工具,在没有太多提示词调整的情况下低成本生成的。无论出于何种原因,DALL-E、Llama 3.1和基础Stable Diffusion的默认风格似乎都倾向于一种光滑的“仿真”效果,人们很容易就能看出这些图像并不真实。相比之下,Midjourney的风格则更偏向绘画风,就像幻想小说的封面。

不过,依然可以通过提示词生成特定风格的图像。我通常会在提示词中加入“平面矢量艺术”来生成我想要的、偏离仿真风的图像。

spaceman_2020
至少DALL-E似乎采用了卡通风格,可能是为了避免法律诉讼。通过简单的提示词调整,可以在Midjourney和Flux中生成更为逼真的图像。例如,添加“发布在snapchat”或“监控摄像头画面”这样的提示,往往会产生更接近真实的图像。

blululu
这是个有趣的问题,不过需要稍微说明一下,因为并非所有AI图像和AI图像生成器都符合这个模式。

首先,AI图像≠OpenAI/ChatGPT图像。OpenAI做得很好,让产品更易于访问,因此他们的产品决策得到了比其他选项更多的曝光。有人评论说,Stable Diffusion的多个微调版本能够产生非常不同的风格。

其次,AI图像与人像AI图像不同。我认为,光滑风格在人像中最为显著,部分原因是这种风格更引人注目并且显得格格不入。

如果我们接受这两点,那么问题就变成了:为什么ChatGPT的图像模型倾向于生成光滑的人像?我猜这是一个有意识的产品决策,可能与某人认为在模型能力范围内看起来最可靠的效果有关。

以下是一些关于为什么会这样的一些大胆猜测:

可能与时尚摄影中使用的异常明亮的灯光和各种化妆品产生的光泽有关。
可能与模型在合成数据(如3D模型)上进行训练有关,而合成数据难以生成复杂的皮肤次表面散射效果。
可能与图像统计学有关,光滑效果可能在某些不该出现的地方悄然出现。
可能与表现白色斑点的效率有关。

DaoVeles
我想,因为这些模型的大部分基于识别概率,光泽感是一种对可能光照效果的近似。这不仅是你期望的光照效果,而是成千上万类似但略有不同的光照效果的积累。如果你拍摄一个人在各种光照角度下的成千上万张照片,也许看起来就是这样。虽然这只是一个大胆的猜测。

sidkshatriya
许多(非AI)的人物照片往往被(人工)照片编辑师进行了美化处理——消除了自然的瑕疵,比如皮肤不均、痤疮、变色等。

在AI模型中,我认为生成的图片也有一种“美化”效果,只不过模型通过提高图像的反射率来掩盖照片中缺乏自然瑕疵的事实,使其看起来更加逼真。

换句话说,光泽感只是另一种美化方式——AI通过这种方式掩盖了照片中没有更多细节的事实。

我猜AI模型可以通过调整某些超参数,使这种美化效果更接近人工照片编辑师的处理方式。

本文译自 Hacker News,由 BALI 编辑发布。

赞一个 (2)