工程案例

彩立方2注册

国产Sora来了4K 60帧15秒视频刷新纪录500亿美元短剧出海市场被撬动

发布日期:2024-05-01121    已浏览 作者: 彩立方2注册

 

  【新智元导读】国产Sora来了!此公司的AI视频已经实现了15秒4K 60帧的超逼真效果。而且,它和小米、快手都已展开战略合作,瞄准了500亿美元的短剧出海市场。

  不仅Stable Video立马上线了公测,而且Pika也随即拿出了给视频对口型的Lip Sync,以及能够准确的通过内容自动生成声音的音效生成功能。

  LTX Studio则另辟蹊径,上线了电影制作平台,把视频生成、编辑、剪辑、旁白一条龙全包了。

  就在3月5日的超讯通信X七火山大会上,一段高清4K文生视频,让在场观众惊呼连连。

  而作为背后工具的Etna,不仅在视频长度上达到了破纪录的15秒,并且还实现了60 FPS的超高帧率,大幅度的提升了视频的流畅性和观看体验。

  无论是水母、鲸鱼、章鱼、螃蟹、斑马、火烈鸟,还是冲浪者、划潜艇的人、滑雪的人,都做到了细节高清、动作连贯,甚至达到了3840x2160的超高分辨率。

  这只美丽优雅的维多利亚冠鸽,头上羽冠的羽毛花边精致可见,眼睛栩栩如生,羽毛的质地和颜色都很细腻地还原出来了

  Etna的问世,意味着现有的国产文生视频技术的一次重大突破。现有的短视频创作模式,很有一定的概率会被彻底颠覆!

  Etna的这波演示,让我们大家可以充分放飞想象力,把脑海里最奇特的想象给还原出来。

  维多利亚冠鸽对着镜头展示自己的羽毛,头顶的壮丽彩冠blingbling地闪光。

  两只哈士奇开心地戴上泳镜,潜到海底打卡,它们开心地冲着镜头微笑合影,右边那位眼神还透着一股得意。

  而小熊猫们居然出现在了鱼缸上面,整个画面构成一幅令人眼前一亮的的生态奇景。

  从上图能够准确的看出,相较于市场上的现有模型,Etna在时长、高清晰度、丰富生动细节和强语义理解上,都保持着较大优势。

  2. 视觉Transformer(ViT)模型会对已经被分词的潜表征做处理,并输出去除噪声后的潜表征。

  3. 一个与CLIP模型类似的系统按照每个用户的指令(已经通过大语言模型进行了增强)和潜视觉提示,引导扩散模型生成具有特定风格或主题的视频。经过多次去噪处理之后,会得到生成视频的潜表征,然后通过相应的解码器映射回像素空间。

  在相关领域技术积累的基础上,Etna模型迅速抓住了Sora的精髓,另外还引入了几项创新。

  (2)如何将压缩潜空间转换为patches,并将其输入到Transformer中;

  为此,Etna模型在主干网络上Diffusion架构,同时,在一个更大的数据集上实验和适配与Sora相似的Diffusion+Transform架构。

  因为融合了Diffusion模型和Transformer模型的优势,通过这一种结合,Etna就形成了一种高效且先进的新型模型架构。

  其次,Etna模型在语言模型和图像模型中插入时空卷积和注意力层,可处理视频数据,即考虑图像序列中的时间连续性。

  而这也就从另一方面代表着,Etna拥有了一定的时空理解能力,从而能够理解并生成具有时间维度的视频内容。

  Etna模型支持生成视频时长达到8-15秒,且视频流畅度极高,每秒可达60帧。

  这一特性使得Etna生成的视频不仅内容丰富,而且视觉效果流畅自然,极大提升了用户观看体验。

  文本提示对于指导文本到视频模型,制作既具有视觉上的冲击力,又能精确使用户得到满足创建视频需求至关重要。

  以Sora为例,提示中,包含了人物的动作、设定、角色出场,甚至是所期望的情绪,以及场景氛围。

  而这样一个精心制作的文本提示,也确保了Sora生成的视频与预期的视觉效果很吻合。

  无独有偶,Etna模型背后的技术架构,也特别强调了对输入文本的深度理解。

  借鉴了Sora模型的成功经验,Etna能够更准确地捕捉和转化文本信息为视频内容,使得生成的视频不仅忠实于原文意图,还能丰富展现文本的细微情感和场景。

  这张维多利亚冠鸽的特写照片展示了它引人注目的蓝色羽毛和红色胸部。它的羽冠是由精致的花边羽毛制成的,而它的眼睛是醒目的红色。鸟的头微微向一侧倾斜,给人一种帝王的威严的印象。背景是模糊的,吸引人们注意到这只鸟引人注目的外表。

  可以看到,Etna生成的冠鸽不仅非常忠实于prompt,而且鸟首微颔、帝王般的威严感,也都还原得十分到位,表现出了细腻的控制能力。

  与早期的视频生成模型相比,Etna在视频清晰度以及图像细节方面取得了显著进步。

  这意味着Etna能够产生高质量的视频内容,每个场景的细节都被精细呈现,为观众带来身临其境的视觉享受。

  最后,Etna模型特别注重训练数据的质量,采用视频而非静态图片作为主要训练材料,通过高效的处理方法优化了学习效率。

  传统模型主要是采用的是静态图像作为训练数据,而Etna模型的方法,更符合其生成目标的本质。

  通过优化的patch处理方法,Etna模型在训练过程中能更有效地理解和模拟动态场景,从而提升最终视频的自然度和真实感。

  具体来说,Etna模型在一个大型视频数据集上进行了充分训练,过程采用了先进的深度学习技术策略,包括LDS大规模训练、复杂HPO超参数优化和DPO微调,确保了模型的强大性能和生成能力。

  现在大家已经切实地感受到,AI多模态大有可为,而七火山已成为头部平台的AI内容战略合作伙伴。

  它的产品形态兼具toB和toC模式,整合了AI系统能力,全面进军AI短剧制作领域。

  七火山的AI多模态布局,除了有Etna之外,还包括Lava、miniTV和Bromo。

  其中,Lava是一个短剧AI译制系统,能够实现角色换脸、对白配音、字幕翻译。

  Bromo是一个图片超分工具。它的图生图可达最高10K的超高分辨率,满足商业海报的水准。

  目前,七火山已经获得了来自上市公司超讯通信的战略投资,后者由此成为持股30%的单一大股东。

  从去年初开始,超讯通信就开始寻找AIGC垂类新锐公司进行布局,在跟一系列AI多模态、AI应用落地公司接触后,确定了投资七火山。因此,七火山在算力上也能得到充分支持。

  首先,七火山已经与小米就AI视频达成合作,发挥自己在短视频创作、短剧出海本地化、剧本创作、视频优化等方面的丰富经验优势。

  此外,七火山和快手海外SnackVideo也有合作,将通过前沿AI技术,实现内容本地化,为海外用户所带来各种琳琅满目的短剧。

  随着TikTok、Instagram Reels和Snapchat等平台的兴起,短视频近年来人气迅速飙升,成为当今的数字生态系统中最受欢迎、最重要的内容之一。

  无论是在快节奏的现代生活中,轻松吸引人们注意力的优势,还是病毒式传播的可能性,都让它的影响日渐扩大。

  许多业内人士公认,短视频就是在线内容的未来。其中短剧这一形态,更是创造了一个又一个爆款奇迹,今年的市场规模将超过500亿。

  而在去年,中国的出海短剧就已经在海外「杀疯了」,成为掘金蓝海新赛道。根据国海证券的调查,短剧出海的长期空间可达360亿美元。

  原标题:《国产Sora来了,4K 60帧15秒视频刷新纪录!500亿美元短剧出海市场被撬动》

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。