微软发布名为Visa-1的音频驱动说话面孔技术。只需输入一张..._AI工具_HowFile

首页圈子详情

AI工匠
0

2024-04-20 11:05:52 · 来自 PC端

举报

微软发布名为Visa-1的音频驱动说话面孔技术。只需输入一张图像和一段音频，即可生成对应视频。算法利用音频本身携带的感情信息，使生成的视频具有与音频情绪相符的表情和头部动作。视频展示了实时合成技术，通过滑块可实时调整合成人物头部的角度、位置、眼睛视线等细节。该技术能在消费级GPU（如4090）上实现，具有显著实用价值。 Visa1算法允许用户对生成效果进行控制，如调整眼睛看向（左右、上下）、头部大小、情绪表达（快乐、愤怒、惊讶等）。该算法具备良好的“分布外泛化性”，即能有效处理训练集以外的情况，如使用非英语语音（如中文）和非写实风格（如蒙娜丽莎）的图像。算法仅需单张照片作为输入，无需多张照片或视频素材，大大简化了AI数字人视频制作流程。演示中的所有人物形象均为AI绘画算法基于单张图片生成。 Visa-1音频驱动说话面孔技术实现了基于单张图像和音频的实时、情绪同步、高度可控的视频生成，并展现出优秀的跨语言和跨风格泛化能力，为AI数字人视频制作提供了高效便捷的解决方案。

95次观看 24秒

AI工具 95 0 0 0
分享

微博

QQ

QQ空间

微信

链接地址

登陆后发表评论

今天已有0人完成打卡

2024-09-08

推荐话题

AI视频生成工具 AI工具 Stable Diffusion ComfyUI AIGC AI图像工具 AI文字工具 AI音频工具 OpenRouter OpenAI

展开更多

圈子正在发生...

AI视频生成工具

HowFile 04月08日加入话题
AIGC

许树 12月14日加入话题
ComfyUI

HowFile 04月08日加入话题
Stable Diffusion

HowFile 04月08日加入话题

没有我的兴趣圈子？