AI工匠
0

2024-04-20 11:05:52 · 来自 PC端

举报
  • 微软发布名为Visa-1的音频驱动说话面孔技术。只需输入一张图像和一段音频,即可生成对应视频。算法利用音频本身携带的感情信息,使生成的视频具有与音频情绪相符的表情和头部动作。 视频展示了实时合成技术,通过滑块可实时调整合成人物头部的角度、位置、眼睛视线等细节。该技术能在消费级GPU(如4090)上实现,具有显著实用价值。 Visa1算法允许用户对生成效果进行控制,如调整眼睛看向(左右、上下)、头部大小、情绪表达(快乐、愤怒、惊讶等)。该算法具备良好的“分布外泛化性”,即能有效处理训练集以外的情况,如使用非英语语音(如中文)和非写实风格(如蒙娜丽莎)的图像。 算法仅需单张照片作为输入,无需多张照片或视频素材,大大简化了AI数字人视频制作流程。演示中的所有人物形象均为AI绘画算法基于单张图片生成。 Visa-1音频驱动说话面孔技术实现了基于单张图像和音频的实时、情绪同步、高度可控的视频生成,并展现出优秀的跨语言和跨风格泛化能力,为AI数字人视频制作提供了高效便捷的解决方案。
    95次观看
    AI工具 95 0 0 0
    分享

    链接地址

登陆后发表评论

今天已有0人完成打卡

圈子正在发生...

没有我的兴趣圈子?