跟无神学AI之一文读尽Sora

news/2024/7/20 17:36:29 标签: 人工智能, 大模型, opanAI, sora

openAI发布视频生成模型Sora,意味着人类距离AI模拟世界又近了一步,流浪地球2中数字人女儿也是对未来科技发展的一个缩影。

作为最具有代表性的大模型公司,openAI的任何一个产品都具有一定的价值,代表着AI的前沿发展方向。

博主今天较为仔细地阅读了openAI的Sora技术报告,参考开源资料对其中的技术进行了一定的总结,将感悟与各位在此进行分享:

Video generation models as world simulators

Sora的中文为空的意思,延伸含义是无穷尽。为2.15发布的一款视频处理的通用大模型

技术报告中主要交代了训练模型的数据处理方法以及一些功能的评估和介绍。

之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。

Turning visual data into patches

Sora在互联网范围上的数据进行训练,使用了patches这个概念,博主的理解是将视频划分成每一帧的图片,然后将图片用像素点进行表示,每一个视频的所有图片组成的这样一个数据结构就叫做patches,可以理解为视频的一种机器表示,只有对训练数据进行表示,模型才能将之进一步处理。

Figure Patches

 

用上图的编码器将图片变成高维度后再解压成低维度(低维度是按照时空进行组合的)。

Video compression network

使用以上产生的训练数据进行训练,必须得再训练一个解码器将产生的视频表示再转化成视频。

Spacetime latent patches

对训练数据的归一化是通过将包的尺寸转换成合适的网来完成的

Scaling transformers for video generation

Sora是一个diffusion model,能够根据描述进行文生图。Transformer在文生图任务上有不俗的表现:

Figure Diffusion

 

当训练资源增加时,效果能变得更好。所以这也是美丽国用计算资源来限制我国科技发展的一个重要原因

Variable durations, resolutions, aspect ratios

不同于原始的一类输入数据对应一个模型,openAI团队发现将不同尺寸的视频作为训练数据能够具备一定优势:

长宽比例不同的视频能够使用一个模型输出出来

如此保持训练数据的原始能够使得模型产生的视频是完整的(构图更加符合自然)

Language understanding

使用了GPT和DALL·E去分别进行提示词扩展和图生文的描述产生,后者是该公司的另一个产品,想要详细了解可以观看另一篇论文。

Prompting with images and videos

还能用图片和视频作为输入进行其他处理,如拼接、循环等

以下就是该模型的一些具体功能,多种功能也体现其通用性:

Animating DALL·E images

能够以图片和提示词产生视频:将静态图片转换成视频

A Shiba Inu dog wearing a beret and black turtleneck.

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

An image of a realistic cloud that spells “SORA”.

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

Extending generated videos

视频拓展

Video-to-video editing

切换视频场景

Connecting videos

视频拼接

Image generation capabilities

文生图,最高2049×2048分辨率

Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field

Vibrant coral reef teeming with colorful fish and sea creatures

Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details

A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

Emerging simulation capabilities

一些新出现的模拟性能优势:

3D consistency.更加符合3D空间构图

Long-range coherence and object permanence. 长距离一致性和流畅

Interacting with the world. 表现出一些物体与世界的交互性,因此也体现了其对AI虚拟世界的重大潜力。

Simulating digital worlds. 自动控制游戏,模拟机器行为

Discussion

作为一个模拟器Sora还是存在局限性的,比如对于一些如玻璃打碎等行为不能很好地模拟,吃东西有时不能正确地表现,并且在测试中展现出一些不流畅性等,总而言之还是存在问题的。

国内阿里魔搭社区的爱好者对其模型架构做了一个猜想:

总结:该技术报告展现了数据表示、功能、优势、存在的缺陷,没有交代模型具体架构和具体的训练数据,毕竟这也是AI顶尖团队的商业机密,作为一个黑箱模型的代表,Sora对各行各业又是一个冲击。

觉得有用的话欢迎给个一键三连哦!

关注无神一起学AI!欢迎评论区留言探讨!


http://www.niftyadmin.cn/n/5382404.html

相关文章

ai图片放大老照片ai处理ps学习

老照片处理 1.bigjpg:AI人工智能图片放大 体验后评价:快速稳定 2.jpgHD:同bigjpg 另支持老照片上色 付费可用:破损修复,魔法动态照片 3.bigmp4:ai视频无损放大 4.jpgrm:ai擦除 利用2023年最先进…

《白话C++》第10章 STL和boost,Page85 std::shared_ptr常用功能

std::shared_ptr基本用法包括&#xff1a; &#xff08;1&#xff09;取裸指针 //get()成员取回裸指针 std::shared_ptr <int> pa(new int(5)); int* p pa.get(); /**< 取回裸指针 */ &#xff08;2&#xff09;判断是否为空 肯定可以这样写&#xff1a; std::s…

js设计模式:工厂模式

作用: 可以通过new关键字,批量的创建对象。 将对象的创建和具体业务逻辑进行分离,代码清晰可维护。 示例: function workFactory(workName,name){switch(workName){case jsCoder:return new jsCoder(name)breakcase javaCoder:return new javaCoder(name)break …

LeetCode刷题小记 一、【数组】

LeetCode刷题小记 一、【数组】 文章目录 LeetCode刷题小记 一、【数组】写在前面1. 数组1.1 理论基础1.2 二分查找1.3 移除元素1.4 有序数组的平方1.5 长度最小的子数组1.6 螺旋矩阵II Reference 写在前面 本系列笔记主要作为笔者刷题的题解&#xff0c;所用的语言为Python3&…

c++中浮点类型比较的理解

为什么浮点类型存在误差 带有小数的表示&#xff1a; 25.3 整数通过除2取余法表示&#xff1a; 25/2…1 12/2…0 6/2…0 3/2…1 1/2…1 倒过来&#xff1a;25&#xff08;十进制&#xff09; 11001&#xff08;二进制&#xff09; 小数部分通过乘2取整法&#xff1a; 0.3 * 2 …

分糖果问题(java实现)

一、题目 描述 一群孩子做游戏&#xff0c;现在请你根据游戏得分来发糖果&#xff0c;要求如下&#xff1a; 每个孩子不管得分多少&#xff0c;起码分到一个糖果。任意两个相邻的孩子之间&#xff0c;得分较多的孩子必须拿多一些糖果。(若相同则无此限制) 给定一个数组 arr …

2024阿里云云服务器ECS价格表出炉

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…

Codeforces Round 925 (Div. 3)F. Chat Screenshots 拓扑排序

Problem - F - Codeforces 比如 1 2 3 4 5 除去3就是 3 1 2 4 5 本题是给若干个除去某个数外的顺序&#xff0c;让判断这些顺序是否唯一。 这些顺序是确定的&#xff0c;即前后关系定好了&#xff0c;我们可以建有向图&#xff0c;然后拓扑排序。 如果唯一&#xff0c;是可…