【Paper Reading】7.DiT(VAE+ViT+DDPM) Sora的base论文

news/2024/7/20 17:36:29 标签: 扩散模型, 多模态模型, 大模型

VAE

DDPM 

分类

内容

论文题目

Scalable Diffusion Models with Transformers

作者

William Peebles (UC Berkeley), Saining Xie (New York University)

发表年份

2023

摘要

介绍了一类新的扩散模型,这些模型利用Transformer架构,专注于图像生成的潜在扩散模型。这些模型用在latent patches上操作的Transformer替换了常见的U-Net骨架。通过前向传递复杂度分析了可扩展性,显示出具有更高Gflops的模型一致地实现了更低的FID分数。最大的模型在类条件ImageNet生成任务上设定了新的基准。

引言

讨论了跨各种领域(包括NLP和视觉)由Transformer驱动的机器学习的最新进展。强调了在传统使用U-Net架构的扩散模型中,Transformer的潜力。引言为探索基于变压器的扩散模型(DiTs)的可扩展性和有效性奠定了基础。

主要内容

提出了作为扩散模型的可扩展和有效架构的Diffusion Transformers(DiTs),强调了它们的设计、训练和在图像生成任务上的性能。详细讨论了从U-Net到Transformer的过渡,为适应扩散模型而做出的设计选择,以及引入新的图像质量基准。通过改变模型大小和patches大小来探讨DiTs的可扩展性,展示了在FID分数上的显著改进。

实验

通过在256x256和512x512分辨率的类条件ImageNet生成任务上评估DiTs的性能,将它们与先前的最先进模型进行比较。证明了DiTs在图像质量上的优越性,如通过更低的FID分数所证明。还探索了不同条件策略和模型缩放对性能的影响,进一步验证了DiTs在生成高质量图像方面的可扩展性和效率。

结论

DiTs在基于扩散的图像生成任务中超越了现有的U-Net模型,受益于Transformer架构的可扩展性和效率。提出了进一步扩展DiTs和探索它们在其他生成任务中应用的潜在未来方向,如文本到图像模型。强调了在类条件ImageNet基准上取得的有希望的结果,作为DiTs潜力的证据。

阅读心得

这篇论文是Sora的基础,作者William Peebles同时也是Sora的负责人。

该论文提出了一种综合VAE+ViT+DDPM的基础架构,主要是在latent patches(可以去看VAE)空间进行操作,这样做的好处是首先计算cost会减小很多,例如如果在原始的图片上操作,例如256x256,那在latent patches空间就可以是32x32. Latent patches是指训练一个图像编码器,我们首先可以把原始图像编码为embeding, 也就是E(x), 编码后的空间就是论文中所说的latent patches空间.

另外,论文中对不同结构的DiT Block的变体进行了对比实验,如上图所示. DiT是指 Diffusion Transformer, 类似ViT(Vision Transformer). 实验证明采用adaLN-Zero的变体结构效果最好. 具体的各个变体的说明可以看论文.

亮点:

  • 使用Transformer代替U-net。

  • DiT的 adaLN-zero 这种结构

注:adaLN-zero 是 DiT (Diffusion Image Transformer) 中的一种技术,它是一种自适应层归一化(Adaptive Layer Normalization)方法。在图像生成任务中,归一化是一种重要的技术,用于帮助模型训练和稳定性。adaLN-zero 特别设计用于扩散模型,通过动态调整归一化参数以适应不同的生成阶段和条件,从而提高生成图像的质量和一致性。


http://www.niftyadmin.cn/n/5425244.html

相关文章

Java的编程之旅41——字符流

目录 1.字符流的简介 2.字符的编码与解码 3.字符流读写操作 1.字符流写入 2.字符流复制文件 4.FileWriter&FileReader 5.缓冲区高效读写 6.序列化与反序列化 1.字符流的简介 在Java中,字符流是用于处理字符数据的输入输出流。它是以字符为单位进行处理&a…

数据结构与算法题目集|7-8 哈利·波特的考试 c++满分题解

哈利波特要考试了,他需要你的帮助。这门课学的是用魔咒将一种动物变成另一种动物的本事。例如将猫变成老鼠的魔咒是haha,将老鼠变成鱼的魔咒是hehe等等。反方向变化的魔咒就是简单地将原来的魔咒倒过来念,例如ahah可以将老鼠变成猫。另外&…

linux 新增定时任务

1、创建定时任务 crontab -e 2、加入定时任务规则 0 2 * * * /usr1/local/mysql-backup/backup.sh 说明:backup.sh是sh脚本 3、重启定时任务 service crond restart 扩展 1、查看定时任务列表 crontab -l 2、需要修改定时任务 crontab -e

ChatGPT Prompt 的原理总结

ChatGPT Prompt 的原理总结 ChatGPT Prompt 是 OpenAI 开发的大型语言模型 ChatGPT 的一种使用方式。通过 Prompt,用户可以引导 ChatGPT 生成特定内容,例如回答问题、写故事、写代码等等。 Prompt 的原理 Prompt 本质上是一段文本,它告诉 C…

TS271IDT运算放大器芯片中文资料PDF数据手册引脚图图片参数价格功能

产品描述: TS271 是一款低成本、低功耗的单通道运算放大器,设计用于采用单电源或双电源供电。该运算放大器采用意法半导体硅栅CMOS工艺,具有出色的消耗-速度比。该放大器非常适合低功耗应用。 电源可通过引脚 8 和 4 之间连接的电阻器进行外…

【兔子机器人】修改GO、车轮电机ID(软件方法、硬件方法)以及修正VMC腿部初始化夹角

一、GO电机修改ID 1、硬件方法 利用上位机直接修改GO电机的id号: 打开调试助手,点击“调试”,查询电机,修改id号,即可。 但先将四个GO电机连接线拔掉,不然会将连接的电机一并修改。 利用24V电源给GO电机…

Linux下非阻塞IO实验一:测试

一. 简介 前面一篇文章实现了驱动代码,以实现应用程序非阻塞式访问设备,核心使用的Linux内核提供的非阻塞IO机制:轮询。文章地址如下: Linux下非阻塞IO实验一-CSDN博客 本文对驱动模块进行测试。测试按键功能是否正常,查看应用程序运行时CPU占用率是否接近0%,驱动是否…

8个常用数据分析方法,轻松搞定各种业务分析

对于数据分析思路的培养是一个不断练习积累的过程,刚入行的小白可以先套用一些常用的数据分析方法或模型,掌握基础的分析思路。本文给大家讲解8个常见的数据分析方法,帮助大家快速上手数据分析,解决实际工作问题。 1、杜邦分析法…