{dede:global.cfg_webname/}

当前位置: 首页 > 科技 > 软件 > 正文

一张照片驱动数字人 出门问问推出新照片数字人引擎WetaAvatar 4.0

来源:互联网    时间:2024-04-28 14:15:02

  随着AIGC时代的到来,数字人生成技术正逐渐成为焦点。出门问问自主研发的照片数字人引擎,凭借持续的技术创新,让用户仅需一张照片就能快速生成可以说话、讲故事的动态视频。目前,这一引擎已成功应用于国内产品「奇妙元」以及国际产品「DupDub」。

  出门问问不断迭代照片数字人引擎

图片10.png

  自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其易用性和生动的生成效果,迅速赢得了用户的青睐,进行了形式丰富的内容创作。为了进一步提升用户体验,我们推出了最新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本不仅优化了视频生成的清晰度和真实感,还显著加快了合成过程。同时,我们也在积极开发照片数字人实时对话引擎,不断推动技术创新的边界。

  在新一代照片数字人引擎WetaAvatar 4.0-Talking Photo中,用户可以体验到以下优化:

  合成速度翻倍:合成速度显著提升,大幅缩短等待时间。

  背景渲染优化:视频背景渲染精准,与原图色彩无缝匹配。

  人物背景分离增强:确保人物与背景之间的高度解耦,提升视频质量。

  牙齿与嘴型精准复现:细节处理更出色,确保牙齿和嘴型的真实性和自然性。

  大模型赋能 自然语音输出

图片11.png

  用户仅需提供文本内容,便可借助出门问问的MeetVoice Pro语音大模型,生成自然流畅的语音输出。之后,结合我们的数字人系统,这些语音将被转化为精确同步的嘴形动作和自然的表情变化,创造出动作流畅、表现力丰富的数字人视频,为用户提供一种全新的互动体验和内容创作方式。

图片12.png

  两大技术模块 促成高质量效果

图片13.png

  WetaAvatar 4.0-Talking Photo是一个高效的双模块引擎,专为生成逼真的照片数字人视频而设计,包含两个核心组件:运动预测模块和人脸驱动模块运动预测模块:此模块利用先进的语音分析技术,从输入的语音中提取关键参数,这些参数随后用于精确生成与之匹配的嘴型动画。这个过程涉及到复杂的算法,能够确保嘴型与语音的节奏和强度完美同步,从而创造出自然流畅的说话效果。人脸驱动模块:此模块则进一步增强了视频的真实感。它结合了预先生成的驱动视频和用户输入的静态图片,通过算法生成一个全面的运动场。这个运动场不仅包含了嘴型变化,还能够模拟出丰富的面部表情和微妙的肌肉运动。随后,这个运动场可以用来驱动输入图片,生成具有高度表现力和动态变化的数字人视频。基于以上两个模块,在新一代Talking Photo引擎中,不论是人物正脸或侧脸驱动,其表现均优于前代,技术指标Sync-C的数值普遍高于WetaAvatar 3.0-Talking Photo引擎。

  Sync-C (SyncNet Confidence):使用预训练的衡量音画同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。

  更多创作形式 尽在探索

  目前,「奇妙元」平台已经搭载WetaAvatar 4.0-Talking Photo引擎,用户能够释放创意潜力,将风格各异的人物照片驱动,生成高质量的动态视频,实现人物自然地说话、讲述,甚至唱歌的视频效果。

  「奇妙元」支持对皮克斯风格照片进行人物驱动,效果与真实人物几乎无异。

  如照片中的人物有胡子等面部遮挡物,「奇妙元」依然能够精准捕捉面部特征,保证图像生成的准确性。

  对于年代久远的老照片,「奇妙元」能够进行精准上色和高清渲染处理,进而驱动照片中的人物,让这些珍贵的记忆焕发出新的活力。

  展望未来

  出门问问技术团队致力于推动数字人技术的发展,目前正专注于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎的研发工作,预计不久将投入使用。我们不仅注重技术的创新,更着眼于提升用户体验,旨在通过生成更真实的表情和丰富的动作,打造出具有高度情感表现力的照片数字人。随着大模型时代的到来,出门问问数字人团队也将持续深入探索基于大模型的数字人生成技术,以Sora模型的问世为里程碑,期待在大模型的加持下,创造出更加生动、真实的数字人,为用户提供更加丰富和深入的交互体验。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
一张照片驱动数字人 出门问问推出新照片数字人引擎WetaAvatar 4.0

一张照片驱动数字人 出门问问推出新照片数字人引擎WetaAvatar 4.0

  随着AIGC时代的到来,数字人生成技术正逐渐成为焦点。出门问问自主研发的照片数字人引擎,凭借持续的技术创新,让用户仅需一张照片就能
2024-04-28
Beats Solo Buds耳机渲染图和视频曝光 将于6月发售

Beats Solo Buds耳机渲染图和视频曝光 将于6月发售

  原标题:Beats Solo Buds 耳机渲染图和视频曝光:79 99 美元  4 月 28 日消息,国外科技媒体 Android Headline 近日发布博
2024-04-28
新款捷尼赛思GV70发布 换装19英寸轮毂

新款捷尼赛思GV70发布 换装19英寸轮毂

  原标题:换装双联屏,新款捷尼赛思 GV70 发布  4 月 28 日消息,自 2020 年底上市以来,捷尼赛斯 GV70 已经取得了超过 20
2024-04-28
中国首个长时长、高一致性、高动态性视频大模型Vidu

中国首个长时长、高一致性、高动态性视频大模型Vidu

  原标题:国际顶尖水平!首个Sora级国产自研视频大模型Vidu发布  4月28日消息,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技
2024-04-28
信号升格 中国电信湖南公司携手华为打造全国首批5G-A 3CC精品示范区

信号升格 中国电信湖南公司携手华为打造全国首批5G-A 3CC精品示范区

  5G-A来了,中国电信湖南郴州分公司携手华为在郴州打造全国首批5G-A 3CC精品示范区,目前已完成步步高超市、瓦窑坪古村等点位建设,五
2024-04-28
首钢园获中关村特色产业园正式授牌

首钢园获中关村特色产业园正式授牌

  2024中关村论坛年会——世界领先科技园区发展论坛在北京中关村国家自主创新示范区展示中心举行。作为建设世界领先科技园区的重要成果和
2024-04-28
“星火”相传 AI续写华佗故里新故事

“星火”相传 AI续写华佗故里新故事

  据中国卫生健康统计年鉴2022数据显示,中医医疗服务市场规模持续扩大,预计到2026年可突破7000亿元大关。中国中医医疗服务行业市场规模
2024-04-28
克洛托光电获江苏省“高新技术企业”认定 科研实力再受肯定

克洛托光电获江苏省“高新技术企业”认定 科研实力再受肯定

  高新技术企业认定管理工作网发布了《对江苏省认定机构2023年认定报备的第二批高新技术企业拟进行备案的公示》,苏州东方克洛托光电技术
2024-04-28
浪潮商用机器2024 Power Start精彩上演 乘AI东风再绘生态新蓝图

浪潮商用机器2024 Power Start精彩上演 乘AI东风再绘生态新蓝图

  2024年4月17~18日,以智能元启 创见·共行为主题的IPF2024浪潮信息生态伙伴大会在北京举办,IPF2024吸引了2000多家分销商、ISV、SI等合
2024-04-28
极端气候致能源危机! 勤业众信:AI为致胜关键 全球76%业者用AI提升供应链

极端气候致能源危机! 勤业众信:AI为致胜关键 全球76%业者用AI提升供应链

  勤业众信联合会计师事务所日前发布《2024能源、资源与工业产业趋势展望系列报告》并指出,极端气候持续影响全球能源市场,且数字科技、
2024-04-28

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com