人工智能公司OpenAI宣布推出文生视频大模型Sora

最新信息

2024-02-18 20:04:00

人工智能公司OpenAI宣布推出文生视频大模型Sora
　　北京时间2月16日凌晨，全球人工智能模型的领先者、AI时代的开创者OpenAI推出了一款能根据文字指令即时生成短视频的模型，并将之命名为Sora。Sora的出现，让科技界为之惊叹。相较于此前生成式AI所生产的动画内容，Sora展示的全新影像画面让人瞠目结舌，其所公示的影像光影、细节等，让人直呼震撼，真可谓AI版的“神笔马良”。
　　OpenAI官网
　　早在2022年11月30日，OpenAI发布名为ChatGPT的全新聊天机器人模型时，大多数人就已经预料到AI将引发一场新的技术革命。Sora的推出意味着什么，可能并不像人们想象的那么简单。多名业内专家告诉南方+记者，目前的Sora仍未完全进化，因此会存在“不可靠”的地方，但毋庸置疑，AI的步伐会越来越快。
　　从文本到影像
　　“AI的一大步，但还无法称为跨越式发展”
　　北京大深圳研究院5G课题组组长、广东省前沿科技研究院院长胡国庆认为，根据目前Sora官方所发布的样片来看，其将文本直接生成图像的能力在某种程度上确实能达到以假乱真的效果，这对艺术家、电影制作人等制作视频的人来说，算得上一个很大的进步。同时，相较于此前的AI产品，这无疑是一次巨大的飞跃。
　　然而，将文本生成60秒短视频的能力，实际上之前已有其他模型能够实现几秒钟的视频。
　　“要说这是跨越式的进步，目前来看，还为时过早。”胡国庆指出，根据OpenAI发布的视频来看，AI通过将文本逐帧生成图像，再串联组合生成视频的技术路线，为其他模型训练从文本到影像的能力提供了一个很好的思路。
　　官方所公布的原理图释。
　　同时，目前官方也公布了一些Sora的“硬伤”。腾讯机器学习平台部专家工程师姚军解释道，因为其模型不是依靠内在的物理仿真引擎，所以所生成的视频常常显得“不可靠”，会出现不符合真实物理规律的地方，这是当下这类依赖大规模数据驱动的大规模参数模型迭代的技术思路难以根除的问题。
　　在姚军看来，目前该应用所能使用的场景仍比较有限。“从原理上也不难得出，这类模型不具备世界模型，没有真正的一套知识框架内核，只是依赖数据中体现的‘大数原理’，与现实世界有一定的重合，但远达不到‘世界模型’的门槛。”
　　AGI实现可能缩短至一年？
　　“谨慎看待，但时间会大幅缩短”
　　针对此次Sora所带来的讨论，360创始人周鸿祎在社交网络上发布看法，他甚至认为，Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。
　　谈到Sora最大的优势，周鸿祎表示，以往文字视频软件都是在2D平面上对图形元素进行操作，可以把视频看成多个真实图片的组合，并没有真正掌握这个世界的知识。但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况，“一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube和TikTok的视频都看一遍，对世界的理解将远远超过文字学习。一幅图胜过千言万语，而视频传递的信息量又远远超过一张图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。”
　　然而，业内专家则向南方+记者表示，相信AI发展的速度会越来越快，但仅一年内是否可以实现AGI仍需谨慎看待。胡国庆表示，此前OpenAI的总裁确实提到过2024年会重点发展AGI，但是，能否在一年内实现，仍属于未知。“Sora问世后，相信谷歌等科技企业也会迅速跟进，预计今年各家都会推出类似的公测版本，越多厂商竞争，意味着该领域也会加速走向成熟。”
　　对于公众何时能够大规模使用此类产品，姚军则告诉记者，“预计很快。”姚军表示，在未见到严肃论文的情况下，仅凭感觉目前Sora是在吸取了很多大语言模型和文生图的迭代经验，部分解决了训练数据的约束，据说是用到了游戏引擎生成的视频数据，同时，由于传闻该模型的规模并不大，所以其成果预计可以很快进行应用落地。
　　但有一件事毋庸置疑，后续该模型的优化速度会越来越快，就像当时文生图技术所出现后一样，一个季度一次升级，一年一个大变样。
　　影视行业会因AI受冲击？
　　业内人士：AI生成成本低，但“比较假”
　　由于Sora所具备的影像能力，让人不得不联想AI产业是否会冲击到影视行业，对此，记者联系到北京一家影视公司相关负责人心一（化名），在她看来，相比与此前的AI影像，此次Sora带来的画质内容让人惊艳，但是对于直接参与到影视生产过程中，却并不看好。
　　“单纯从画质上来说，sora呈现出的大部分视频不论是清晰度或者画面细节都让人惊叹，但与当下主流影视作品却相距甚远。”心一解释道，因为当下影视作品中很少有单个镜头呈现的作品，Sora能给到观众相对真实感更强的动物、风景等画面，但涉及人物和城市的镜头还是让人感觉到一种虚拟感，这种虚拟感不是画面质量的问题，而是和实拍的画面质感有一定的差距，“简而言之，就是看起来还是比较假。”
　　OpenAI所发布的Sora所生成的影像。
　　相较于传统影视行业，AI生产成本上确实远低于传统实拍或者后期制作的特效镜头。心一表示，例如女生在街道上走路的那段视频，如果要实拍的话，场地、置景、灯光、摄影、演员及后期特效制作等都是需要考虑的问题，摄制成本规模会从几十人到几百人不等。但是这些都是针对Sora生产出的某一个画面的成本对比，具体Sora是否能完成连续性的长篇幅画面仍需验证，例如此前的Midjourney文生图产品，它会给你一些意外之喜，但无法准确呈现用户所期待的画面。
　　至于网友所热议的，是否担心影视业被AI抢饭碗？对此，心一则表示并不担心，“要用AI去拍电视剧，实操上还会面临AI产品的可控性、画面和视频版权等等问题。”
　　想要AI“拍出”人们所期待的画面，仍需让子弹再飞一会。
　　【采写】南方+记者徐勉王诗堃
　　【统筹】张志超
（文章来源：南方Plus）

免责申明： 本站部分内容转载自国内知名媒体，如有侵权请联系客服删除。