Geek, 人工智能
图像生成AI,压缩图像的效果好于JPEG或WebP
上上周,瑞士软件工程师 Matthias Bühlmann 发现,风靡技术社区的图像合成模型 Stable Diffusion可以用比JPEG或WebP更高的压缩比压缩现有的位图图像,其视觉伪影更少。
Stable Diffusion是一款AI图像合成模型,可根据文字描述生成图像。人工智能模型从互联网上提取数百万张图像来理解模式。在训练过程中,模型在图像和相关词之间建立统计关联,对每张图像的关键信息概括出一个最小表示,并赋予“权重”。
视频压缩过程中的量化噪声导致称作“伪影” 的特定视觉误差。在伪影当中有块状、环状以及飞蚊噪声,其中块状、环状是块中的竖线和横线, 飞蚊噪声看起来像图像强边缘周围的一团线虫。
当Stable Diffusion分析图像,然后把它“压缩”为权重形式时,它们位于研究人员所谓的“潜在空间”中。一旦被解码,就可显示为图像。比如说Stable Diffusion 1.4,权重文件大约为 4GB,但包含数亿张图像的信息。
虽然大多数人使用带文本提示的Stable Diffusion,但 Bühlmann 切断了文本编码器,强制通过Stable Diffusion的图像编码器来处理他的图像,该过程将低精度的 512×512 图像转换为更高精度的 64×64 潜在图像空间表示。此时,图像存在的数据量比原始图像小得多,但仍可以将其扩展(解码)回 512×512 图像,并获得相当好的结果。
在测试时,Bühlmann发现使用Stable Diffusion压缩的新图像在更高的压缩比(更小的文件大小)下,主观上看起来优于JPEG 或 WebP。Stable Diffusion图像似乎具有更多可分辨的细节和更少的压缩伪影。
然而,Bühlmann 的方法目前有很大的局限性:它不适用于面部;在某些情况下,它会向解码图像中添加不存在的细节特征。此外,解码需要4GB权重文件和额外的解码时间。
Stable Diffusion的这种用法无疑是非常规的,且比现有的压缩方法更有趣。它可能指向图像合成模型未来的新用途。Bühlmann 的代码可以在 Google Colab 上找到,您可以在他关于 Towards AI 的帖子中找到更多技术细节。
https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/
关于 Stable Diffusion,参加下面的链接
http://jandan.net/p/111282