当前位置：首页 > 科技

文生视频赛道火爆，谁是下一个Sora？

时间： 2024-05-07 03:18 浏览量：502

AIGC的浪潮，在视频行业开卷。

春节期间，OpenAI的文生视频大模型Sora问世，轰动整个科技圈。自那以后，业界从业者宣称要追赶Sora的声音水涨船高，不少厂商也相继推出文生视频的模型。

4月28日，万兴科技的万兴“天幕”音视频多媒体大模型宣布正式公测。该模型将支持60秒视频一键生成，并具备视频生视频、文生音乐、文生音效等近百项原子能力。

就在前一日4月27日，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学发布视频大模型——Vidu，一键生成长达16秒、分辨率高达1080P的高清视频内容。

支持60秒一键生成，不盲目追求用户增长

从“4秒到60秒”这是Sora发布以来，业内AI视频创作者最直观的感受。然而2个多月来，据公开消息，还没有人拿到Sora的内测账号。

万兴“天幕”大模型是2024年1月底发布的，是国内首个专注于数字创意领域的音视频多媒体大模型，其依托15亿用户行为数据和百亿本土化音视频数据，采用先进的音视频生成式AI技术，为全球创作者提供全链路的创作支持。

据介绍，旗下产品如Wondershare Filmora、Wondershare Virbo中实现规模化商用，其中文生视频能力实现不同风格、丰富场景及主题的连贯性，一键生成时长率先支持60秒+，这意味着可以用一键方式将一个简短的故事转化为视频。生成的视频质量包括故事情节、角色形象、画面连贯性等方面，基本上能够按照你的故事情节完成视频制作。

万兴科技董事长吴太兵表示，相较文本和图像，音视频领域所需的技术场景多且复杂，用简单的大模型能力解决不了音视频创作成品问题，而是需要从数据上游、到原子能力及视频组装加工、到各细分市场终端应用软件推出，纵向一体化解决各场景下的音视频创作需求。

4月28日开展公测后，视频博主李先生在尝试使用文生视频功能生成一段60秒的视频片段后表示，视频是现在主流的表达方式，文生视频是从业者更为迫切想要追求的，万兴“天幕”仅通过简单的文字叙述，就能够生成充满想象力的视频画面，将一步提高创作效率、降低成本、增强创意表达力,将为创作者带来福利，也将对视频创作、电影制作、广告业等市场带来全新推动力。

财经网科技在现场体验了该能力，输入了Sora官方视频中一条视频的提示词：一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人四处走动。

输入后大约5分钟，视频生成。视频生成效果相比Sora的，仍有一段距离，比如穿着黑色皮夹克、红色长裙和黑色靴子。视频画面中并没有出现黑色靴子和该女子的全身照。

但此前据reddit社区上的网友反映，Sora生成1分钟视频的时间需要超过1个小时的渲染时间，这使得Sora在实际应用中面临了巨大的挑战。

在业内普遍的共识是，文生视频大模型，对于算力的要求更高，根据华西证券计算机研究团队的推算，Sora架构的训练与传统大语言模型（LLM) Transformer架构的训练算力需求存在近百倍差距。

文生视频模型成本高这一点在吴太兵那也得到了验证，他告诉财经网科技，在文本大模型领域，可能这是大家的共识（追求用户规模化增长），因为它的成本相对可控，而且用户越多越有利于大模型快速升级。

“但是对于视频大模型来讲，可能相对而言要慎重一点，因为它的训练成本、推理成本是巨大的。如果我们是漫无目的随便对外开放，可能会导致大模型本身的成本、ROI，成为非常大的问题，成本会Cover不住，所以我们可能对用户还是会有很强的选择。”

而且他认为，现在整个行业处于非常初级的阶段，所谓的出圈，更多是叫宣传出圈。因为他们传递的东西，更多还是他们最终实验室做出来的视频，而不是真正的产品。

据吴太兵介绍，万兴科技在大模型上的投入较大。“首先是研发的投入，数据采买的投入、算力的投入，加在一起是上亿级别的。”根据2023年年报，万兴科技在AIGC技术研发和产品升级上进行了大手笔投入，全年研发投入达到4.03亿元，以支撑万兴“天幕”大模型研发、WES5.0开发、Wondershare Filmora V13桌面端及移动端开发、万兴播爆2.0等。

商业化进程存在不确定性

实际上，在文生视频大模型领域，并非Sora一枝独秀，Runway、Pika、Stable Video Diffusion等众多AI创业公司也在此赛道上竞相角逐。

在万兴“天幕”宣布公测的前一天，在中关村论坛未来人工智能先锋论坛上，生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。

据生数科技介绍，Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。“U-ViT架构早在2022年9月就由团队提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融合的架构。”

在目标用户这一问题上，吴太兵表示To C与ToB对他们来讲没有绝对的界限，“就像一台打印机，你可以在家用，也可以在办公室用，但它大同小异。从关注用户量的角度来讲，会关注To C的需求为主，但是从来不会拒绝B端的需求，而且在中国市场，我们会特别关注B端的这块需求，通过C端与B端的需求，最终推动我们大模型的升级，然后用大模型再赋能更多的应用场景。”

他还补充道，会重点推向B端用户，“因为B端用户对付费的意愿和能力会相对更强，而且他更能感受到大模型带来的实实在在的成本降低，以及对创意的赋能和提升，所以他们会更愿意付费。”

随着视频模型越来越多地出现，在商业世界，商业化前景是大家关心的。万兴科技副总朱伟早前在一个论坛上表示，虽然大家都在做视频模型，但距离商业化还有距离。

无独有偶，福建华策品牌定位咨询创始人詹军豪在接受媒体采访时表示，随着技术的不断进步和应用场景的拓展，文生视频有望在更多领域得到应用，为投资者带来更多的市场机会。然而，目前文生视频技术仍处于发展初期，商业化进程还存在一定的不确定性。

据Gartner研究预测，到2030年，90%的数字内容都将是AI生成。此外，目前全世界有3.05亿视频创作者，43亿视频覆盖群体，每天200亿次以上的视频播放量。面向亿级用户规模，谁会是下一个Sora？

综合自万兴科技、生数科技、证券日报等。

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

欢迎光临重庆时报！

文生视频赛道火爆，谁是下一个Sora？