数字人SyncTalk解压即用N卡整合版240607-霖哥电商

数字人SyncTalk解压即用N卡整合版240607 (GITHUB版本为：240528)

fig:
fig:

● 介绍（这些都不需要打开，只是介绍。整合包解压即用）
开源地址：https://github.com/ZiqiaoPeng/SyncTalk
下载地址：https://51qpm.cn/synctalk/

● 亮点
○ 支持视频的真3D数字人
○ 支持训练
○ 在素材优秀训练得当前提下，是目前论坛上限最高的数字人。

● 使用条件
○ 操作系统：Win10、Win11
○ 最低显卡：英伟达显卡（N卡）1050 4G
○ VS、CUDA：不需要、整合包解压即用。
○ CUDA版本：虽然不需要额外安装CUDA，但要确保你的显卡驱动正常，且驱动版本不能太旧，要求驱动里CUDA版本>=11.8。

● 更新
[2023-11-30] 更新arXiv论文。
[2024-03-04] 代码和预训练模型发布。
[2024-03-22] Google Colab 笔记本发布。
[2024-04-14] 添加 Windows 支持。
[2024-04-28] 预处理代码发布。
[2024-04-29] 修复音频编码器、混合形状捕获和人脸跟踪器的 bug。
[2024-05-03] 尝试将 NeRF 替换为高斯 Splatting。代码： GS-SyncTalk
[2024-05-24] 引入躯干训练修复双下巴。

● 免责声明

此软件仅供娱乐、不可用于视频欺骗、人脸识别等一切违反法律的欺诈行为。若有此行为是用户个人行为。与资源发布者无关。

● 使用声明

此程序为开源项目，本程序由圈圈AI吧(ooai8.com)整合修改升级，【解压即用】、【无需授权】、【不限机器】、【不限次数】、【离线运行】。软件只要下载到您手上，就可以永久使用。
注册成功后可直接获得论坛积分。若积分不够，可以通过登录、签到、发帖等日常操作免费获取。通常发几个帖子签到等，就可以获得足够积分下载。此外打赏作者可快速获得积分。

● 数据集制作

○ 首先准备一个MP4格式的视频，要求视频必须为 25FPS，所有帧都包含说话的人脸。分辨率应约为 512×512，持续时间约为 4-5 分钟。
以上要求为官网作者提供，UP尝试使用40秒的视频作为素材依旧可以成功训练并推理，但是效果欠佳。建议以官方要求为主。
想了解更多可查看官方主页：https://github.com/ZiqiaoPeng/SyncTalk
○ 修改视频文件名，必须是英文数字下划线组合，禁止使用特殊符合或中文，例如：May、Jack、Tom、Tina等，后缀名为mp4
○ 将视频放在整合包内/data/文件名/文件名.mp4。假设你取名为：Trump 并假设你整合包放在D盘根目录，那么视频的完整地址是：
整合包根目录/data/Trump/Trump.mp4 （整合包目录不要带有任何中文或空格，不要套层级太多，推荐放到磁盘根目录）
○ 打开【数据集生成器.exe】在下边的请输入冒号后输入你想要生成的数据集，比如您想为【/data/Trump/Trump.mp4】生成数据集，那么只需输入：Trump
○ 输入好以后不要关闭窗口，请耐心等待数据集生成，若想看到文件变化可进入/data/Trump/目录下进行观察。
○ 当程序出现 [INFO] ===== finished saving transforms ===== 代表数据集生成完毕
○ 以上为默认的数据集生成方式，假若你想生成deepspeech方式的数据集，需要在上述步骤完成后把里边的aud.wav转换成成NPY文件。
具体操作方法是打开【音频转NPY工具.exe】，输入您的数据集里aud.wav路径，例如：/data/Trump/Trump.mp4

● 训练 ○ 假定您第一步在制作数据集的时候，启用的名称是【May】下文以此为例详细介绍训练命令 ○ 打开【命令行调试器.exe】输入以下命令：

python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model ave

注意：若您的名称不是May请替换命令中的May，一共两处。前边的 data/May 是您在第一步生成好的数据集目录。后边的 model/trial_may 是训练后的生成目录，训练完成模型保存到这里。例子：假设您第一步数据集名称为May，那么训练的命令就是：（以下三种方式任选其一）

○ ave方式：（适用于具有准确口型同步和大嘴唇运动的角色）

# python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model ave# python main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model ave

○ deepspeech方式：（如果您的训练结果显示嘴唇抖动，请尝试使用 deepspeech 或 hubert 模型作为音频特征编码器。）

python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model deepspeech

python main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model deepspeech

○ hubert方式：（如果您的训练结果显示嘴唇抖动，请尝试使用 deepspeech 或 hubert 模型作为音频特征编码器。）

python main.py data/May --workspace model/trial_may -O --iters 60000 --asr_model hubertpython main.py data/May --workspace model/trial_may -O --iters 100000 --finetune_lips --patch_size 64 --asr_model hubert

○ 训练时间比较长，请耐心等待，提供一个参考，UP用案例视频4分多钟长，大约不到3个小时，不同机器配置有差异仅供参考。

● 推理 ○ 整合包自带训练好的May模型，若未经过上边两步，可直接用训练好的May模型进行推理，注意：一个模型对应一个视频，以此推理效果也只是案例视频的数字人。 ○ 推理自己的数字人，首选确保完成了上边的两步：【数据集制作】、【训练】。 ○ 假定您训练好的模型为：May，那么您的推理代码为： ○ ave方式：

# python main.py data/May --workspace model/trial_may -O --test --test_train --asr_model ave --portrait --aud ./inputs/audio.wav

○ deepspeech方式：注意，此种方式需要将你的音频文件转换为NPY格式，可以使用整合版内的【音频转NPY工具.exe】工具。

# python main.py data/May --workspace model/trial_may -O --test --test_train --asr_model ave --portrait --aud ./inputs/audio_ds.npy

命令解释： python main.py data/May 这是您第一步生成数据集的位置。 –workspace model/trial_jack 这是您第二步训练好模型的位置。 –aud ./inputs/audio.wav 这是您自己的音频路径，可以是相对路径，也可以是绝对路径，使用时可以自定义文件名，路径对应正确即可，注意音频不能用中文命名。

○ 同样打开【命令行调试器.exe】输入您的推理命令。

配套教学视频：1、推理：https://www.bilibili.com/video/BV1Un4y1Q7YW

配套教学视频：2、数据集：https://www.bilibili.com/video/BV1Ni421e7JU

配套教学视频：3、训练：https://www.bilibili.com/video/BV1ks421u74m

配套教学视频：4、训练2：https://www.bilibili.com/video/BV13s421M7mp

配套教学视频：5、DS方式：https://www.bilibili.com/video/BV1Dw4m1e7fP

配套教学视频：6、DS效果展示：https://www.bilibili.com/video/BV181421C7DF

配套教学视频：7、Hubert效果展示：**https://www.bilibili.com/video/BV1Fx4y187pg

● 常见错误：
○ 整合包一定要放在非中文目录，且不能有空格和特殊字符，推荐放在磁盘根目录以避免路径过长导致识别障碍。

● 下载必读：若您有意下载，请务必阅读本段内容

○ 此软件为论坛目前第一款可训练的数字人项目
○ 此软件为真3D数字人
○ 此软件为视频制作数字人，不支持图片
○ 此软件为高清数字人，脸部区域分辨率为512×512，
○ 官方案例不包含身体。若有贴回身体需求请自行解决，务必须知。
○ 若需要贴回身体也可以尝试将身体一同训练，但视频依旧要保持512X512，动手能力强的可自行尝试。
○ 软件为开源软件，UP所做的是将复杂的依赖关系和模型等资源进行整合。做到了解压即用。离线使用。UP未做任何功能性改动。所以在使用中可参考官方文档进行操作。
○ UP做了些非功能性改动：1、修复BUG若干。2、增加命令行调试器、数据集生成器、NPY生成工具、音频16K工具。
○ UP用案例视频训练和推理效果惊艳，但是在使用自己的素材时效果不佳。在经过反复尝试后，严格安装官网的要求和案例视频做参考，终于达到了和官网案例一样的效果。

以下经验供参考：

素材视频时长建议4-5分钟，最好是连贯的，不够可剪辑拼凑。

素材视频脸部区域占中，比例可以参考案例视频。

推荐使用原生25FPS的，如果是30FPS硬性转换为25FPS效果不好。

如果是50FPS以上的视频，强行转换为25FPS效果还可以。

视频务必使用512X512分辨率，不可自作聪明。

如果以非AVE方式训练推理，需要将音频采样率转换为16000.

○ UP能保证的是，软件可以正常使用、真解压即用、离线使用、整合包完整、数据集生成成功。训练成功，推理成功。
○ 此软件上限极高，但对素材要求也高，需要您有足够的训练和推理经验。UP对软件素材选择，训练技巧，推理技巧还在体验和摸索中，UP可以和用户一起探讨交流，但不代表UP对训练很精通。UP能做到的是视频演示的效果，若您实力足够强大，可训练出比UP更优秀的数字人。UP保证整合包正常使用，并包含官方版本中所带的功能。并为您进行指导。

数字人SyncTalk项目完整整合包下载地址

隐藏内容

本内容需权限查看

普通用户: 15.8金币
VIP会员: 15.8金币
永久会员: 15.8金币

已有5人解锁查看

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

数字人SyncTalk解压即用N卡整合版240607

以下经验供参考：

分类文章

排行榜展示

蓝猫工具箱–高效查蓝海词软件

蓝猫查词工具箱–查询蓝海词软件

淘宝店群刷单的一拖五、一拖六是什么意思？介绍一个补单资源

霖哥店群无货源课程众筹交流圈VIP会员–全网最顶级的无货源交流社群

拼多多订单不能淘宝发货解决办法

淘宝店铺上货必须知道这6款软件

小浣熊助手采集软件：拼多多采集，淘宝爆款采集，蓝海同行店铺采集，蓝海监控上新，查首尾销词软件

店群蓝海工具箱–蓝海词淘宝单类目选品软件

你实际控制的淘宝账号被淘宝识别存在严重违规，不满足开店条件解决办法

点点淘宝助手：无需授权，纯链接复制上货，每天稳定上传300件，可类目错放，可多开，速度杠杠的

小草莓采集-拼多多、淘宝整店采集软件，淘宝爆款采集，速度超快（广招代理）

老K下单使用教程，推荐一个好用的下单软件

淘宝不允许使用拼多多运单号的三个解决办法

二月最新拼多多店铺布局是怎样的？跟我这样做获取10W+精准访客！

一品工具箱：原发发淘客神器淘客助手采集软件

叮咚蓝海词猫头鹰蓝海词软件-免生意参谋挖掘蓝海词蓝海选品工具

抖小鸭采集软件，超强过滤功能，集成拼多多飞速采集，抖音图片过滤,拼多多图片筛选、违规词过滤软件

硬核采集（原小二采集软件）–集成淘宝天猫，1688，京东，拼多多，抖音，淘宝卡位等功能

33个比1688便宜的拿货网

鲸吞代发：无货源全自动拍单软件，解决拼多多下单自动退款和不能改地址问题

数字人SyncTalk解压即用N卡整合版240607

以下经验供参考：

相关文章

分类文章

排行榜展示