Miuzarte commited on
Commit
2779331
·
1 Parent(s): 6f36ec1

Upload app.py

Browse files
Files changed (1) hide show
  1. app.py +97 -10
app.py CHANGED
@@ -61,28 +61,115 @@ with app:
61
 
62
  Todo:
63
 
64
- 1. 导出onnx
65
 
66
- 2. 本地一键包
67
 
68
- 3. TTS,vits 或 emotional-vits
69
  """)
70
  vc_input3 = gr.Audio(label="输入音频(长度请控制在30s左右,过长可能会爆内存)")
71
  vc_transform = gr.Number(label="变调(整数,可以正负,半音数量,升高八度就是12)", value=0)
72
  vc_submit = gr.Button("转换", variant="primary")
73
  vc_output2 = gr.Audio(label="输出音频(最右侧三个点可以下载)")
74
  vc_submit.click(vc_fn, [vc_input3, vc_transform], [vc_output2])
75
- with gr.TabItem("仓库说明➕保姆级本地部署教程"):
76
  gr.Markdown(value="""
77
- ## 仓库内模型所用于训练的数据:
78
 
79
- |模型|G_1000000.pth|G_1M111000_sing.pth(现任)|G_1M100000_sing.pth(待产)| G_1M100000_sing1.pth(待产)|
80
- |-:|:-:|:-:|:-:|:-:|
81
- |训练集|12月录播(除电台)、出道至今22条歌投、10条歌切、圣诞音声(27.5小时)|G_1000000.pth作为底模_2022年所有唱歌投稿、唱歌切片、圣诞音声(3.9小时)|G_1000000.pth作为底模_(使用效果更好的UVR5模型去除BGM)出道至今所有唱歌投稿、唱歌切片、圣诞音声|先用1月录播(除电台)训练一个底模,再用出道至今所有唱歌投稿、唱歌切片、圣诞音声进行训练|
82
 
83
- #### 仓库内G.pth、D.pth都有,欢迎作为底模用于进一步训练
84
 
85
- #### 如果要训练自己的数据请访问:[项目Github仓库](https://github.com/innnky/so-vits-svc/tree/main)、[教程《svc相关》](https://www.yuque.com/jiuwei-nui3d/qng6eg)(里面的群小白慎入)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
86
 
87
  ### 本地推理可调用GPU(NVIDIA),3060Ti 8G可推理一条20(建议) - 30s的音频,过长音频可分割后批量处理,就算用CPU推理也比 Hugging Face 快不少
88
 
 
61
 
62
  Todo:
63
 
64
+ 1. 导出onnx(✔)
65
 
66
+ 2. 本地一键包(没必要)
67
 
68
+ 3. TTS,vits(working)
69
  """)
70
  vc_input3 = gr.Audio(label="输入音频(长度请控制在30s左右,过长可能会爆内存)")
71
  vc_transform = gr.Number(label="变调(整数,可以正负,半音数量,升高八度就是12)", value=0)
72
  vc_submit = gr.Button("转换", variant="primary")
73
  vc_output2 = gr.Audio(label="输出音频(最右侧三个点可以下载)")
74
  vc_submit.click(vc_fn, [vc_input3, vc_transform], [vc_output2])
75
+ with gr.TabItem("仓库说明➕本地使用MoeSS高速推理的教程"):
76
  gr.Markdown(value="""
77
+ ## [仓库](https://huggingface.co/Miuzarte/SUImodels)内模型所用于训练的数据:
78
 
79
+ |变声器|G_1000000.pth|G_1M111000_sing.pth(suiji_1M111000_SoVits.onnx)| G_100K100000_sing.pth(待产)|
80
+ |-:|:-:|:-:|:-:|
81
+ |训练集|12月录播(除电台)、出道至今22条歌投、10条歌切、圣诞音声(27.5小时)|G_1000000.pth作为底模_2022年所有唱歌投稿、唱歌切片、圣诞音声(3.9小时)|先用12月、1月录播(除电台)训练一个步数较少的底模,再用出道至今所有唱歌投稿、唱歌切片、圣诞音声继续训练|
82
 
83
+ #### [仓库](https://huggingface.co/Miuzarte/SUImodels)内G.pth、D.pth都有,欢迎作为底模用于进一步训练
84
 
85
+ #### 如果要训练自己的数据请访问:[[项目Github仓库]](https://github.com/innnky/so-vits-svc)(32k分支少绕路,48k没什么人管)
86
+
87
+ # 在本地使用 [MoeSS](https://github.com/NaruseMioShirakana/MoeSS) 推理:
88
+
89
+ #### 因为该程序每次更新都会有较大的变化,下面的下载链接都将指向[[MoeSS 3.0.0]](https://github.com/NaruseMioShirakana/MoeSS/releases/tag/3.0.0)
90
+
91
+ ### 0. 下载[[MoeSS本体]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/MoeSS.zip)、[[bins]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/bins.7z)、[[hifigan]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/hifigan.7z)、[[hubert]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/hubert.7z),并解压成以下的文件结构
92
+
93
+ ```
94
+ MoeSS
95
+ ├── Mods
96
+ ├── MoeSS.exe
97
+ ├── ShirakanaUI.dmres
98
+ ├── bins
99
+ │   └── ffmpeg.exe
100
+ ├── cleaners
101
+ ├── hifigan
102
+ │   └── hifigan.onnx
103
+ ├── hubert
104
+ │   └── hubert.onnx
105
+ ├── onnxruntime.dll
106
+ ├── onnxruntime_providers_shared.dll
107
+ └── onnxruntime_providers_tensorrt.dll
108
+ ```
109
+
110
+ ### 1. 下载[[转换好的onnx模型]](https://huggingface.co/Miuzarte/SUImodels/blob/main/onnx/suiji_1M111000_SoVits.onnx)
111
+
112
+ ### 2. 在 MoeSS\\Mods 新建一个 MoeSS.json 并写入以下文本,保存时请确保编码为UTF-8,保存时请确保编码为UTF-8,保存时请确保编码为UTF-8
113
+
114
+ ```json
115
+ {
116
+ "Folder" : "suiji_1M111000",
117
+ "Name" : "岁己SUI",
118
+ "Type" : "SoVits",
119
+ "Symbol" : "",
120
+ "Cleaner" : "",
121
+ "Rate" : 48000,
122
+ "Hop" : 320,
123
+ "Hifigan": "",
124
+ "Hubert": "hubert",
125
+ "SoVits3": true,
126
+ "Characters" : ["岁己SUI"]
127
+ }
128
+ ```
129
+
130
+ #### 以上步骤完成之后的文件结构应该长这样
131
+
132
+ ```
133
+ MoeSS
134
+ ├── Mods
135
+ │   ├── MoeSS.json
136
+ │   └── suiji_1M111000
137
+ │   └── suiji_1M111000_SoVits.onnx
138
+ ├── MoeSS.exe
139
+ ├── ShirakanaUI.dmres
140
+ ├── bins
141
+ │   └── ffmpeg.exe
142
+ ├── cleaners
143
+ ├── hifigan
144
+ │   ├── hifigan.onnx
145
+ │   └── nsf_hifigan.onnx
146
+ ├── hubert
147
+ │   └── hubert.onnx
148
+ ├── onnxruntime.dll
149
+ ├── onnxruntime_providers_shared.dll
150
+ └── onnxruntime_providers_tensorrt.dll
151
+ ```
152
+
153
+ ### 3. 运行 MoeSS.exe
154
+
155
+ 1. 在左上角选择模型 “SoVits:岁己SUI” 并等待加载,完成后右边会显示 “当前模型: 岁己SUI”
156
+
157
+ 2. 在左下角输入框中写入音频文件路径,如:
158
+
159
+ ```
160
+ A:\SUI\so-vits-svc\\raw\wavs\\2044.flac
161
+ A:\SUI\so-vits-svc\\raw\wavs\\2044.wav
162
+ ```
163
+
164
+ 程序会调用ffmpeg转换,无需确保音频是否为wav格式
165
+
166
+ 纳鲁塞-缪-希娜卡纳:下个版本增加拖入文件自动输入路径的功能
167
+
168
+ 3. 点击开始转换语音,弹出的参数框可以调整对输入音频的升降调,确定后等待最下方进度条走完
169
+
170
+ |下面的弃用|
171
+ |:-:|
172
+ |下面的弃用|
173
 
174
  ### 本地推理可调用GPU(NVIDIA),3060Ti 8G可推理一条20(建议) - 30s的音频,过长音频可分割后批量处理,就算用CPU推理也比 Hugging Face 快不少
175