图像世界的信息熵:从噪声中雕刻艺术
更新时间:2025-08-27 13:08 浏览量:2
你面前有两张图片:
一张是桌面上的苹果;另一张是人声鼎沸的农贸市场。视觉上,我们一眼就能感知后一张画面信息更多、更复杂。
有一个数字能直接量化这两张图的信息多少,它就是信息熵 (Information Entropy)。你应该已经猜到,农贸市场图的信息熵远远高于苹果图。
在图像世界中,信息熵能衡量画面的丰富程度与分布状态,直接影响我们的感官体验,也贯穿于AI生成图像的过程,决定着AI的创作风格。
图像世界中的信息熵
要弄清这个数字的来历,得回到 1948 年。信息论之父克劳德·香农提出了这个改变通信世界的概念:信息熵(也称香农熵),它衡量一个信息源的不确定性。
从数学表达来看,这个不确定性等于所有可能结果的发生概率与该结果信息量的加权平均:
其中,单个结果的信息量为:
将两式结合,就得到信息熵的标准公式:
由此可见,信息熵由结果的数量和概率共同决定,可能性越多、分布越均匀,熵值就越大。
放到图像的世界里,道理也完全一样。
一张图像可以看作由无数个像素组成,每个像素值(亮度、颜色)就是一个结果,统计所有结果的概率分布就能计算出整张图的信息熵。像素分布不确定性越高,画面越复杂,信息熵就越高。
比如一大片蓝天,几乎没有颜色变化和细节,像素值高度一致,画面单调且可预测,熵就很低。
但在一张色彩斑斓、细节繁复的珊瑚礁照片中,像素值覆盖了大量可能性,包含不同色彩层次、形状、纹理、光影等,像素的不确定性大大飙升,熵也就更高。
在图像压缩中,信息熵的作用尤其直观。
压缩的本质就是去除冗余信息,信息熵则告诉你压缩的极限。
图像存储的常用单位是bpp(bits per pixel),表示一张图中每个像素需要多少比特来存储。对无损压缩来说,理论上它的最低值会接近图像的信息熵。
这也是为什么低熵图像更容易被压缩。比如蓝色天空,大部分像素完全相同,算法只需记录同一颜色的重复次数,文件就能压到极小;而在细节繁琐的珊瑚礁图中,像素差异极大,冗余度低,压缩空间自然有限。
美学中的黄金区间审美的底层规律,也能用信息熵来解释。
Berlyne的审美复杂度假说指出:我们对画面的喜好程度与画面复杂度呈倒 U 型关系:图像信息处在中等复杂度最受欢迎。
过于简单会显得单调乏味,过于复杂又会让大脑负荷过重。
信息熵恰好量化了这种复杂度:它衡量了画面中像素分布的不确定性。能吸引注意力的作品,往往是熵被调控得很好的结果,在单调与混乱之间找到了一个合适点。
评估AI图像质量时也会用到信息熵。比如Inception Score用相对熵来衡量图的清晰度和多样性、基于CLIP的美学模型里,研究者也会加上熵相关的指标来辅助打分。
这种「黄金熵」偏好并不仅限于视觉,还出现在音乐、建筑、文学等领域。从建筑的装饰密度风格,到流行歌曲的旋律变化,人类感官似乎一直在追寻一种信息量刚刚好的美感。
在人类的眼里,信息熵决定了画面的复杂度和观感;在AI的世界里,它同样决定着创作的节奏和风格。现在很流行的AI绘图,创作过程其实就是一场熵空间的探索。AI生图中的熵轨迹
直觉上,你可能觉得AI画画是从一张白纸开始,但事实恰好相反。
想象把一滴染料滴进水中,颜色会迅速从集中状态向四周扩散,直到均匀分布,这就是一个典型的熵增过程。AI生图的正向扩散过程与之十分类似。
当今主流的AI生图方法是一类称为扩散模型 (Diffusion Model) 的概率生成模型,它的工作思路可以总结为:先破坏再重建。
扩散模型的图像生成任务分为两个过程:正向扩散和反向扩散。
在训练阶段,模型进行正向扩散:把一张清晰的训练图像逐步加入随机噪声,直到图像完全变成随机噪声。这一步就是在模拟熵增,就像染料扩散的过程,从有序走向无序。模型能通过这个破坏的过程学明白图像在加噪的每一步会丢失哪些结构信息。
当模型搞懂了这个,也就拥有了从完全混乱的高熵状态里生成全新图像的本事。于是在生成阶段,模型就能够从随机噪声开始,进行反向扩散,一步步去掉噪声、恢复结构,直到得到清晰的成品图像。
▲ 图 / Denoising Diffusion Probabilistic Models(Ho et al., 2020)
那么,为啥要先把一张图弄成雪花噪声,再让模型慢慢复原?
其实,扩散模型「先升熵,再降熵」的策略有三个很实在的原因:
1. 让模型学会考虑全局
先升熵相当于打乱局部关系,迫使模型从全局结构入手。如果直接从空白开始画,模型很容易陷入先画局部再拼接的思路,最后拼起来各种比例失调。就好比建筑师画设计图,也是从整体蓝图入手去刻画细节。
2. 任务拆分,更容易学
让 AI一口气画出一幅高清大图就像让厨师一次做个满汉全席,容易翻车。把生图任务分成多次轻微修复,通过一步步降噪完成,成功率更高。
3. 随机起点,更多惊喜
如果每次都从同一个空白开始,结果会很容易千篇一律。但若从随机噪声开始,就像雕塑家每次都在不同形状的石头上雕刻,同一个主题能做出不同版本,更能带来意外的灵感。
在 AI绘图中,信息熵还可以理解为画面生成过程里的自由度,影响着画面是规整可控,还是天马行空。熵高时,模型在每一步都有更大发挥空间,结果更有想象力,但也更不可控;熵低时,生成会更稳定、更可预测。
常见的两个「控熵」旋钮是:以MidJourney为例,chaos参数就是在调模型发挥的自由度。中低chaos时,效果完全在预期内,高chaos时模型就开始玩抽象了。低 chaos(30):结果规整、符合想象,花朵颜色和排列都中规中矩。指令是如何引导图像熵的?
比如:当你输入“一场漫步”,到“一只穿着宇航服的猫在月球上漫步”, 提示信息的限定大大缩小了模型的搜索空间,让生成结果从无数可能性收敛到一个更明确范围。 信息论上,这种从无条件到有条件的收敛就对应熵的减少:条件熵 H(X|Y)小于无条件熵 H(X),因为提示词 Y 提供了额外信息,大大减少了不必要的随机性。不过提示词也不是越详细越好。过于严格的提示会限制发挥,可能导致画面缺乏新意,过于宽泛的提示又会让熵过高,缺乏可控性。一个好的指令既给足指导方向,又保留一定自由度。从熵到美,机器的创作本质上是一种在混乱中重建秩序的过程。信息熵就像是机器创作中寻找平衡的指南针,既能引导生成过程收敛到清晰的主题,又能保留必要的随机性,让作品拥有出人意料的生命力。或许,正是这种在无序中寻秩序的能力,让机器的创作与人类的直觉在某一瞬间产生了共鸣。end
[1] Shannon Source Coding Theorem. MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms. Cambridge University Press.
[2] MidJourney Documentation – Chaos Parameter. (2023). https://docs.midjourney.com[3] Berlyne, D. E. (1970). Novelty, complexity, and hedonic value. Perception & Psychophysics, 8, 279–286. https://doi.org/10.3758/BF03212593[4] Ho, J., Jain, A., & Abbeel, P. (2020). Denoising Diffusion Probabilistic Models. Advances in Neural Information Processing Systems (NeurIPS 2020). https://arxiv.org/abs/2006.11239[5] Inception Score. Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., & Chen, X. (2016). Improved Techniques for Training GANs. Advances in Neural Information Processing Systems, 29. https://arxiv.org/abs/1606.03498[6] Radford, A., Kim, J. W., Hallacy, C., et al. (2021). Learning Transferable Visual Models From Natural Language Supervision (CLIP). Proceedings of the 38th International Conference on Machine Learning (ICML 2021). https://arxiv.org/abs/2103.00020
编辑:小咕咕
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号