MetaX-Tech Developer Forum
  • 沐曦开发者
search
Sign in

SonicYouth

  • Members
  • Joined 2025年7月4日
  • message 帖子
  • forum 主题
  • favorite 关注者
  • favorite_border Follows
  • person_outline 详细信息

SonicYouth has posted 1 message.

  • See post chevron_right
    SonicYouth
    Members
    课程学习体会 教学相长 2025年7月4日 17:13

    202421080427 蓝晨溪
    Diffusion 模型学习体会

    最近在开源大模型课程上了解了 Diffusion 模型,感觉像是打开了一扇新世界的大门。从最开始看到那些由 智算 生成的、几乎与照片无异的图片时,除了惊叹,更多的是好奇:这背后到底是什么样的技术?通过老师的讲解,我才发现这个领域的发展比我想象的要曲折和深刻得多。

    接触 Diffusion,最让我困惑的就是它的核心思想:先主动把一张清晰的图片变模糊,再学习如何把它变回来。 这听起来有点绕,甚至有点“多此一举”。为什么要先破坏再重建呢?

    后来我慢慢理解了,这个“破坏”的过程,也就是前向过程(Forward Process),其实是在给模型提供一个学习的“路线图”。它通过一步步、可控地向图片中添加噪声,直到图片变成一个完全随机的噪声分布。这个过程的巧妙之处在于,每一步添加噪声的程度都是已知的、符合数学规律的。这就意味着,我们拥有了无数“从清晰到模糊”的样本对,模型就可以从这些样本中学习“从模糊到清晰”的逆向规律。

    而真正神奇的地方,在于逆向过程(Reverse Process)。模型需要学习的,就是在每一步都准确地预测出上一步添加的噪声是什么,然后把它减掉。这就像是在一个极其嘈杂的房间里,精准地识别出每一个噪声源并把它关掉,最终恢复房间的宁静。这个预测“噪声”的任务,正是神经网络(通常是 U-Net 架构)大显身手的地方。

    回顾 Diffusion 模型的发展,我觉得有几个节点特别关键,也让我的学习豁然开朗:

    早期萌芽(2015年左右):最早的扩散模型思想其实在 2015 年的论文《Deep Unsupervised Learning using Nonequilibrium Thermodynamics》中就提出了。那时候,这个想法还比较理论化,生成的图像质量也不高,没有引起太多关注。它就像一颗种子,静静地等待发芽。

    DDPM 的横空出世(2020年):真正的转折点是 2020 年的论文《Denoising Diffusion Probabilistic Models》(简称 DDPM)。这篇论文极大地简化了模型的训练目标,不再是去预测上一步的完整图像,而是直接预测添加的噪声。这个改动非常关键,让模型的训练变得稳定且高效,生成的图像质量也实现了质的飞跃。可以说,DDPM 为后续所有 Diffusion 模型的爆发奠定了坚实的基础。我学习的时候,也是把这篇论文当成理解 Diffusion 核心原理的基石。

    加速与引导(2021年-2022年):DDPM 虽然效果好,但生成一张图片需要模拟成百上千步的去噪过程,速度非常慢。于是,DDIM(Denoising Diffusion Implicit Models)等工作应运而生,它们提出可以跳跃式地进行去噪,大大缩短了采样时间,让 Diffusion 模型变得更加实用。与此同时,Classifier-Free Guidance(无分类器引导)技术的出现,让模型在生成图像时可以更好地遵循我们的文本指令(prompt),比如“一只正在看书的猫”,生成的图像与指令的相关性变得更强,控制力也更足了。

    潜空间扩散(Latent Diffusion Models, LDM):这是另一个里程碑,也是 Stable Diffusion 等流行模型背后的核心技术。LDM 提出,我们没有必要在像素级别上对巨大的图像进行加噪和去噪,这太消耗计算资源了。我们可以先用一个编码器(Encoder)将图像压缩到一个更小的、人眼看不懂的“潜空间”(Latent Space)里,然后在这个小小的潜空间里完成所有的扩散和去噪过程,最后再用一个解码器(Decoder)把它恢复成高分辨率的图像。这个想法简直是天才,极大地降低了计算门槛,让普通人也能在消费级显卡上跑起强大的 Diffusion 模型。

    学习到现在,我最大的感触是,一个好的想法往往不是一蹴而就的。Diffusion 的思想从提出到真正发光发热,中间经历了好几年的沉淀和无数研究者的迭代优化。从复杂的理论到简化的目标,从缓慢的采样到高效的生成,再到潜空间的革命性创新,每一步都体现了科研工作者化繁为简、追求极致的智慧。

    对我个人而言,学习 Diffusion 模型不仅是学习一种技术,更是在学习一种解决问题的思维方式:如何将一个看似不可能的“无中生有”的任务,分解成一系列可控、可学习的“逐步恢复”的步骤。这个过程,远比最终生成的那些酷炫图片更让我着迷。当然,路还很长,视频生成、3D 生成等方向还在飞速发展,我还需要继续学习。

  • 沐曦开发者论坛
powered by misago