图像生成AI，压缩图像的效果好于JPEG或WebP

上上周，瑞士软件工程师 Matthias Bühlmann 发现，风靡技术社区的图像合成模型 Stable Diffusion可以用比JPEG或WebP更高的压缩比压缩现有的位图图像，其视觉伪影更少。

Stable Diffusion是一款AI图像合成模型，可根据文字描述生成图像。人工智能模型从互联网上提取数百万张图像来理解模式。在训练过程中，模型在图像和相关词之间建立统计关联，对每张图像的关键信息概括出一个最小表示，并赋予“权重”。

视频压缩过程中的量化噪声导致称作“伪影” 的特定视觉误差。在伪影当中有块状、环状以及飞蚊噪声,其中块状、环状是块中的竖线和横线, 飞蚊噪声看起来像图像强边缘周围的一团线虫。

当Stable Diffusion分析图像，然后把它“压缩”为权重形式时，它们位于研究人员所谓的“潜在空间”中。一旦被解码，就可显示为图像。比如说Stable Diffusion 1.4，权重文件大约为 4GB，但包含数亿张图像的信息。

虽然大多数人使用带文本提示的Stable Diffusion，但 Bühlmann 切断了文本编码器，强制通过Stable Diffusion的图像编码器来处理他的图像，该过程将低精度的 512×512 图像转换为更高精度的 64×64 潜在图像空间表示。此时，图像存在的数据量比原始图像小得多，但仍可以将其扩展(解码)回 512×512 图像，并获得相当好的结果。

在测试时，Bühlmann发现使用Stable Diffusion压缩的新图像在更高的压缩比(更小的文件大小)下，主观上看起来优于JPEG 或 WebP。Stable Diffusion图像似乎具有更多可分辨的细节和更少的压缩伪影。

然而，Bühlmann 的方法目前有很大的局限性：它不适用于面部；在某些情况下，它会向解码图像中添加不存在的细节特征。此外，解码需要4GB权重文件和额外的解码时间。

Stable Diffusion的这种用法无疑是非常规的，且比现有的压缩方法更有趣。它可能指向图像合成模型未来的新用途。Bühlmann 的代码可以在 Google Colab 上找到，您可以在他关于 Towards AI 的帖子中找到更多技术细节。

https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/

关于 Stable Diffusion，参加下面的链接
http://jandan.net/p/111282

赞一个 (11)

煎蛋

Geek, 人工智能

图像生成AI，压缩图像的效果好于JPEG或WebP

公告栏

广告

广告