SadTalker
西安交通大学开源了人工智能SadTaker模型,通过从音频中学习生成3D运动系数,使用全新的3D面部渲染器来生成头部运动,可以实现图片+音频就能生成高质量的视频。内含多个踩坑的解决办法,值得玩一玩。
功能
可以根据一张图片、一段音频,合成面部说这段语音的视频。图片需要真人或者接近真人。目前项目已经支持stable diffusion webui,可以SD出图后,结合一段音频合成面部说话的视频(抖音常见的数字人)
环境准备
SadTalker相关软件和程序
- 安装Python3.8
- 配置ffmpeg环境
- 切换阿里pip源
- 解压SadTalker.zip启动webui.bat
TAGS
SadTalker让图片说话
SadTalker让图片说话