Skip to content

Commit d7c2210

Browse files
authored
Update Documentation (#2436)
* docs(Changelog_CN): Reformat the Changlog_CN before 2024.08 * docs(README): Update Multi-Language README * docs(Changelog_CN): Separate links and content * docs(Changelog_CN): fix missing issue. * docs(Changelog_EN): Update Changelog_EN to date * docs(Changelog_EN): fix typo * docs(Changelog_JA): Update Changelog_JA to date * docs(Changelog_KO): Update Changelog_KO to date * docs(Changelog_TR): Update Changelog_TR to date * docs(i18n): Update Multi-Language i18n JSON
1 parent ab53062 commit d7c2210

24 files changed

+2493
-1136
lines changed

GPT_SoVITS/inference_webui.py

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -222,7 +222,7 @@ def change_sovits_weights(sovits_path, prompt_language=None, text_language=None)
222222
is_exist = is_exist_s2gv3 if model_version == "v3" else is_exist_s2gv4
223223
path_sovits = path_sovits_v3 if model_version == "v3" else path_sovits_v4
224224
if if_lora_v3 == True and is_exist == False:
225-
info = path_sovits + i18n("SoVITS %s 底模缺失,无法加载相应 LoRA 权重" % model_version)
225+
info = path_sovits + "SoVITS %s" % model_version + i18n("底模缺失,无法加载相应 LoRA 权重")
226226
gr.Warning(info)
227227
raise FileExistsError(info)
228228
dict_language = dict_language_v1 if version == "v1" else dict_language_v2

GPT_SoVITS/inference_webui_fast.py

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -225,7 +225,7 @@ def change_sovits_weights(sovits_path, prompt_language=None, text_language=None)
225225
is_exist = is_exist_s2gv3 if model_version == "v3" else is_exist_s2gv4
226226
path_sovits = path_sovits_v3 if model_version == "v3" else path_sovits_v4
227227
if if_lora_v3 == True and is_exist == False:
228-
info = path_sovits + i18n("SoVITS %s 底模缺失,无法加载相应 LoRA 权重" % model_version)
228+
info = path_sovits + "SoVITS %s" % model_version + i18n("底模缺失,无法加载相应 LoRA 权重")
229229
gr.Warning(info)
230230
raise FileExistsError(info)
231231
dict_language = dict_language_v1 if version == "v1" else dict_language_v2

docs/cn/Changelog_CN.md

Lines changed: 439 additions & 255 deletions
Large diffs are not rendered by default.

docs/cn/README.md

Lines changed: 33 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -309,6 +309,38 @@ python webui.py
309309

310310
如果想用音频超分功能缓解 v3 模型生成 24k 音频觉得闷的问题, 需要下载额外的模型参数, 参考[how to download](../../tools/AP_BWE_main/24kto48k/readme.txt)
311311

312+
## V4 更新说明
313+
314+
新特性:
315+
316+
1. **V4 版本修复了 V3 版本中由于非整数倍上采样导致的金属音问题, 并原生输出 48kHz 音频以避免声音闷糊 (而 V3 版本仅原生输出 24kHz 音频)**. 作者认为 V4 是对 V3 的直接替代, 但仍需进一步测试.
317+
[更多详情](<https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7)>)
318+
319+
从 V1/V2/V3 环境迁移至 V4:
320+
321+
1. 执行 `pip install -r requirements.txt` 更新部分依赖包.
322+
323+
2. 从 GitHub 克隆最新代码.
324+
325+
3.[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V4 预训练模型 (`gsv-v4-pretrained/s2v4.ckpt``gsv-v4-pretrained/vocoder.pth`), 并放入 `GPT_SoVITS/pretrained_models` 目录.
326+
327+
## V2Pro 更新说明
328+
329+
新特性:
330+
331+
1. **相比 V2 占用稍高显存, 性能超过 V4, 在保留 V2 硬件成本和推理速度优势的同时实现更高音质.**
332+
[更多详情](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7))
333+
334+
2. V1/V2 与 V2Pro 系列具有相同特性, V3/V4 则具备相近功能. 对于平均音频质量较低的训练集, V1/V2/V2Pro 可以取得较好的效果, 但 V3/V4 无法做到. 此外, V3/V4 合成的声音更偏向参考音频, 而不是整体训练集的风格.
335+
336+
从 V1/V2/V3/V4 环境迁移至 V2Pro:
337+
338+
1. 执行 `pip install -r requirements.txt` 更新部分依赖包.
339+
340+
2. 从 GitHub 克隆最新代码.
341+
342+
3.[huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) 下载 V2Pro 预训练模型 (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, 和 `sv/pretrained_eres2netv2w24s4ep4.ckpt`), 并放入 `GPT_SoVITS/pretrained_models` 目录.
343+
312344
## 待办事项清单
313345

314346
- [x] **高优先级:**
@@ -391,6 +423,7 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
391423
- [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain)
392424
- [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large)
393425
- [BigVGAN](https://github.com/NVIDIA/BigVGAN)
426+
- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common)
394427

395428
### 推理用文本前端
396429

docs/en/Changelog_EN.md

Lines changed: 457 additions & 210 deletions
Large diffs are not rendered by default.

docs/ja/Changelog_JA.md

Lines changed: 444 additions & 196 deletions
Large diffs are not rendered by default.

docs/ja/README.md

Lines changed: 33 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -299,6 +299,38 @@ v2 環境から v3 を使用する方法:
299299

300300
追加: 音声超解像モデルについては、[ダウンロード方法](../../tools/AP_BWE_main/24kto48k/readme.txt)を参照してください.
301301

302+
## V4 リリースノート
303+
304+
新機能:
305+
306+
1. **V4 は、V3 で発生していた非整数倍アップサンプリングによる金属音の問題を修正し、音声がこもる問題を防ぐためにネイティブに 48kHz 音声を出力します(V3 はネイティブに 24kHz 音声のみ出力)**. 作者は V4 を V3 の直接的な置き換えとして推奨していますが、さらなるテストが必要です.
307+
[詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90v3v4%E2%80%90features-(%E6%96%B0%E7%89%B9%E6%80%A7))
308+
309+
V1/V2/V3 環境から V4 への移行方法:
310+
311+
1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください.
312+
313+
2. GitHub から最新のコードをクローンします.
314+
315+
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V4 の事前学習済みモデル (`gsv-v4-pretrained/s2v4.ckpt` および `gsv-v4-pretrained/vocoder.pth`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください.
316+
317+
## V2Pro リリースノート
318+
319+
新機能:
320+
321+
1. **V2 と比較してやや高いメモリ使用量ですが、ハードウェアコストと推論速度は維持しつつ、V4 よりも高い性能と音質を実現します. **
322+
[詳細はこちら](https://github.com/RVC-Boss/GPT-SoVITS/wiki/GPT%E2%80%90SoVITS%E2%80%90features-(%E5%90%84%E7%89%88%E6%9C%AC%E7%89%B9%E6%80%A7))
323+
324+
2. V1/V2 と V2Pro シリーズは類似した特徴を持ち、V3/V4 も同様の機能を持っています. 平均音質が低いトレーニングセットの場合、V1/V2/V2Pro は良好な結果を出すことができますが、V3/V4 では対応できません. また、V3/V4 の合成音声はトレーニング全体ではなく、より参考音声に寄った音質になります.
325+
326+
V1/V2/V3/V4 環境から V2Pro への移行方法:
327+
328+
1. `pip install -r requirements.txt` を実行して一部の依存パッケージを更新してください.
329+
330+
2. GitHub から最新のコードをクローンします.
331+
332+
3. [huggingface](https://huggingface.co/lj1995/GPT-SoVITS/tree/main) から V2Pro の事前学習済みモデル (`v2Pro/s2Dv2Pro.pth`, `v2Pro/s2Gv2Pro.pth`, `v2Pro/s2Dv2ProPlus.pth`, `v2Pro/s2Gv2ProPlus.pth`, および `sv/pretrained_eres2netv2w24s4ep4.ckpt`) をダウンロードし、`GPT_SoVITS/pretrained_models` ディレクトリへ配置してください.
333+
302334
## Todo リスト
303335

304336
- [x] **優先度 高:**
@@ -381,6 +413,7 @@ python ./tools/asr/fasterwhisper_asr.py -i <input> -o <output> -l <language> -p
381413
- [Chinese Speech Pretrain](https://github.com/TencentGameMate/chinese_speech_pretrain)
382414
- [Chinese-Roberta-WWM-Ext-Large](https://huggingface.co/hfl/chinese-roberta-wwm-ext-large)
383415
- [BigVGAN](https://github.com/NVIDIA/BigVGAN)
416+
- [eresnetv2](https://modelscope.cn/models/iic/speech_eres2netv2w24s4ep4_sv_zh-cn_16k-common)
384417

385418
### 推論用テキストフロントエンド
386419

0 commit comments

Comments
 (0)