产品中心
产品中心 栏目
推荐 产品
联系我们
热线电话:+86-592-6228826
传真:+86-592-6228825
邮箱:INFO@SPORTSABOVE.COM
网址:http://www.goodhiye.com/
国产大模型战事升维万兴科技发布音视频多媒体大模型
来源:半岛综合    发布时间:2024-02-05 15:36:44
去询价
  • 主题名称:国产大模型战事升维万兴科技发布音视频多媒体大模型
  • 分享 :
产品描述

  近期,在长沙马栏山举办的一场关于多媒体大模型创新应用发展的论坛上,万兴科技副总裁朱伟现场演示了正式发布的万兴天幕音视频多媒体大模型 (以下简称“天幕”大模型) 文生主题视频功能。通过输入文字脚本,用时约 3 分钟便自动生成一个拥有指定风格、音乐、画面的“太空探索”主题视频。

  尽管此前已有 Pika、Runway 等 AI 工具平台问世,但主流大模型的发展在单一模态的停滞,让见证了“百模大战”的人类对于大模型的新鲜感直线消退,同质化大模型的问世似乎很难再掀起太大水花。

  此次万兴科技演示的短短 10S 的文生主题视频,从大模型发展角度,它打破了原来单一模态 AI 生成的格局,使文字、音频、图片、视频的 AI 生成有机结合,某一些程度上具有划时代的意义。

  这也意味着,国内大模型的技术重心正在转移,落地竞赛已悄然进入下一个阶段: 从图文向视频升维,加速进入以音视频多媒体为载体的 2.0 时代。

  “未来的时代,一定是人人都是设计师的时代。”万兴科技董事长吴太兵在主题演讲中提出,设计能力的民主化是大势所趋,人们最初用纸笔做设计,数月才能产出一张图纸,但在 AIGC 赋能下,几秒钟就能生成一张精美的设计图,几分钟就能制作一个特定的主题视频,人人都能成为新一代的艺术家。

  长远来看,所有数字内容生态在向着更高效、更智能、更高级的信息载体方向进化,音视频的创作门槛必然降低,创作边界也将极大拓展。但短期而言,当前大模型在音视频领域的应用仍存在不少客观挑战。

  看似简单的视频制作流程,从数字化视角而言实际上十分复杂,包含了由动画、字幕、音乐、特效、美化、转场、粒子、画中画等诸多能力和元素。同时,视频制作的链路与技术门槛非常高,需要构思内容、获取资源、生成效果,还需要算力、做编解码,每一个都包括了 600 + 个内容品类,100 + 个每帧画元素,200 项新技术融合,1s=9.7 亿次浮点运算。

  这也就解释了,为何此前国内抢先发布的大多是偏向图文的大模型,以音视频为主的多媒体大模型往往缺位。

  发布会上,万兴科技首次对外展示了“天幕”大模型所拥有的多个原子能力。除前文提到的“文生主题视频”,“天幕”大模型的“文生 3D 视频”能力还支持极高自由度的 3D 场景生成,“文生音乐”可以解析用户输入的描述词生成相关标签的音乐,“视频 AI 配乐”可以依据视频内容生成匹配的音乐,“数字人播报”仅需普通手机即可操作,不但支持全球主流语种,而且人像真实度、口型准确度等优势显著,多指标数据表现远超行业平均水平。

  实际上,此前万兴科技陆续发布的《人生四季》《迷失上海》《腊八粥里的江湖》等 AI 短片已经从侧面透露出“天幕”在角色形象转化、场景构建、情绪表达等方面的多维度生成能力。

  时至当前,“天幕”大模型正式揭开面纱,其“冰山之下”的丰富原子能力得以全面对外显露,有望在各行业释放革新势能。

  万兴科技在数字创意这片蓝海中航行已久。自 2003 年推出第一款照片 + 音乐 + 特效的 VCD 制作软件 Photo2VCD 并迅速风靡海外以来,万兴科技便深度布局数字创意软件赛道,聚焦关乎数字创意方方面面的应用开发,着力为全球视频创作者打造更高效好用的工具。20 年的力耕不辍,使该公司一步步搭建起完整的数字创意产品矩阵。

  对于万兴科技而言,推出多媒体大模型,更像是在 AIGC 时代背景下以前沿技术赋能全球创作者的必然结果。换句话说,万兴“天幕”的诞生,并非“为了大模型而大模型”,本质上是万兴科技在音视频创意需求驱动下展开的一次大模型技术升维。

  但从宏观视角出发,这次技术升维实际承担着更深刻的里程碑意义: 如同一个激荡的注脚,标志着中国正提速迈向大模型 2.0 时代。

  在吴太兵看来,大模型 1.0 时代向 2.0 时代的跨越,至少将展现出三大特征: 从多模态转向多媒体、从通用转向垂直解决方案、从全球化转向本土化。

  他提出,大模型 1.0 时代所指的“多模态”强调通用性,希望能够通过一套东西把文本、视频、音频、图片全部打通,也许有可能,但随着应用需求从文本升级为音视频,主流文本 + 跨模态生成的内容体验还远远不足。因此,从多模态大模型发展到多媒体大模型,系统性解决不同模态融合的问题,将成为大模型 2.0 时代的一个重要特征。

  吴太兵比喻,在大模型 1.0 时代,通用大模型占主流,这时通用大模型的角色就像“科学家”,主要研究前沿高端,解决基础理论性问题。来到 2.0 时代,将轮到垂直大模型唱主角,垂直大模型好比“工匠”,可以在细致划分领域专职、专业、高效地处理问题。从“横向的通用模型”到“纵向的垂类应用模型”,是大模型 2.0 时代的第二个特征。

  此外,考虑到全世界算力的争夺、数据采集的质量等问题,吴太兵判断大模型 2.0 时代还将从全球化走向本土化,“过去指望一个大模型解决全世界的问题,现在而言,应用层面大家越来越不这么认为了,需要算力本地布局,需要更本土化的数据,需要更本土化的应用。”

  基于对大模型 2.0 时代三个特征的预判,“天幕”大模型也锁定了“多媒体、应用垂类、本土化”的三大发展趋势。接下来,万兴科技将持续打造基于大模型架构的 AIGC 应用基础底座,全链路赋能全球创作者。

  “未来的方向是‘大模型 +, 还是 + 大模型’?”当大模型发展从技术积累行进到应用兑现的关键路口,类似 20 年前“互联网 + 还是 + 互联网”的议题再次重演。

  实际上,无论是大模型 + 还是 + 大模型,在行业知识经验与技术的结合下,颠覆性的数字革命总会加速酝酿,千行百业最终都将从中获益。目前可以确认的是,大模型已率先在数字创意领域落脚,通过赋能剧本创作、美术设计、特效制作、后期剪辑、海报绘制、电影修复等内容生产工作,频频碰撞出新的火花。

  Gartner 曾预测,到 2030 年,90% 的数字内容都将由 AI 生成。这一预测所指向的未来,是几秒内生成一张高质量 AI 电影海报;是曾经需要数百名工作人员配合数月才能实现的影视制作,能够在 AI 赋能下实现质变级的降本增效;更重要的是,届时数字创意产业将迈过“奇点”,全球绝大多数普通人都能轻松使用 AIGC 产品做内容创作,随时让头脑中的创意灵感更精准地落在数字化的内容载体之中。

  去年 10 月,依托“天幕”大模型能力,万兴科技在视频创意软件 Wondershare Filmora 上线了智能剪辑助手、AI 文字快剪等 AI 功能,随后用户使用量迅速出现了高幅度增长。朱伟对此感触颇深,“普通用户尤其是创作者用户,他们对大模型也许并不在意,但如果大模型解决了创作的问题,更高效高质量地实现了价值,用户就会非常在意和认可。”

  “天幕”大模型命名的背后含义是“以天为幕”,意指天有多大,施展创意的舞台就有多大。向前瞭望,数字创意产业在多媒体大模型能力的加持下,想象空间打开,下一个奇点将至。

  广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更加多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

Copyright © 2020-2021 半岛综合闽ICP备2021004711号-1 闽公网安备 35021102001203号 Privacy Policy   |   Technical Support: lnest.com