Spaces:
Runtime error
Runtime error
Upload app.py
Browse files
app.py
CHANGED
@@ -61,28 +61,115 @@ with app:
|
|
61 |
|
62 |
Todo:
|
63 |
|
64 |
-
1. 导出onnx
|
65 |
|
66 |
-
2.
|
67 |
|
68 |
-
3. TTS,vits
|
69 |
""")
|
70 |
vc_input3 = gr.Audio(label="输入音频(长度请控制在30s左右,过长可能会爆内存)")
|
71 |
vc_transform = gr.Number(label="变调(整数,可以正负,半音数量,升高八度就是12)", value=0)
|
72 |
vc_submit = gr.Button("转换", variant="primary")
|
73 |
vc_output2 = gr.Audio(label="输出音频(最右侧三个点可以下载)")
|
74 |
vc_submit.click(vc_fn, [vc_input3, vc_transform], [vc_output2])
|
75 |
-
with gr.TabItem("
|
76 |
gr.Markdown(value="""
|
77 |
-
##
|
78 |
|
79 |
-
|
80 |
-
|
81 |
-
|训练集|12月录播(除电台)、出道至今22条歌投、10条歌切、圣诞音声(27.5小时)|G_1000000.pth作为底模_2022年所有唱歌投稿、唱歌切片、圣诞音声(3.9
|
82 |
|
83 |
-
####
|
84 |
|
85 |
-
#### 如果要训练自己的数据请访问:[项目Github仓库](https://github.com/innnky/so-vits-svc
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
86 |
|
87 |
### 本地推理可调用GPU(NVIDIA),3060Ti 8G可推理一条20(建议) - 30s的音频,过长音频可分割后批量处理,就算用CPU推理也比 Hugging Face 快不少
|
88 |
|
|
|
61 |
|
62 |
Todo:
|
63 |
|
64 |
+
1. 导出onnx(✔)
|
65 |
|
66 |
+
2. 本地一键包(没必要)
|
67 |
|
68 |
+
3. TTS,vits(working)
|
69 |
""")
|
70 |
vc_input3 = gr.Audio(label="输入音频(长度请控制在30s左右,过长可能会爆内存)")
|
71 |
vc_transform = gr.Number(label="变调(整数,可以正负,半音数量,升高八度就是12)", value=0)
|
72 |
vc_submit = gr.Button("转换", variant="primary")
|
73 |
vc_output2 = gr.Audio(label="输出音频(最右侧三个点可以下载)")
|
74 |
vc_submit.click(vc_fn, [vc_input3, vc_transform], [vc_output2])
|
75 |
+
with gr.TabItem("仓库说明➕本地使用MoeSS高速推理的教程"):
|
76 |
gr.Markdown(value="""
|
77 |
+
## [仓库](https://huggingface.co/Miuzarte/SUImodels)内模型所用于训练的数据:
|
78 |
|
79 |
+
|变声器|G_1000000.pth|G_1M111000_sing.pth(suiji_1M111000_SoVits.onnx)| G_100K100000_sing.pth(待产)|
|
80 |
+
|-:|:-:|:-:|:-:|
|
81 |
+
|训练集|12月录播(除电台)、出道至今22条歌投、10条歌切、圣诞音声(27.5小时)|G_1000000.pth作为底模_2022年所有唱歌投稿、唱歌切片、圣诞音声(3.9小时)|先用12月、1月录播(除电台)训练一个步数较少的底模,再用出道至今所有唱歌投稿、唱歌切片、圣诞音声继续训练|
|
82 |
|
83 |
+
#### [仓库](https://huggingface.co/Miuzarte/SUImodels)内G.pth、D.pth都有,欢迎作为底模用于进一步训练
|
84 |
|
85 |
+
#### 如果要训练自己的数据请访问:[[项目Github仓库]](https://github.com/innnky/so-vits-svc)(32k分支少绕路,48k没什么人管)
|
86 |
+
|
87 |
+
# 在本地使用 [MoeSS](https://github.com/NaruseMioShirakana/MoeSS) 推理:
|
88 |
+
|
89 |
+
#### 因为该程序每次更新都会有较大的变化,下面的下载链接都将指向[[MoeSS 3.0.0]](https://github.com/NaruseMioShirakana/MoeSS/releases/tag/3.0.0)
|
90 |
+
|
91 |
+
### 0. 下载[[MoeSS本体]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/MoeSS.zip)、[[bins]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/bins.7z)、[[hifigan]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/hifigan.7z)、[[hubert]](https://github.com/NaruseMioShirakana/MoeSS/releases/download/3.0.0/hubert.7z),并解压成以下的文件结构
|
92 |
+
|
93 |
+
```
|
94 |
+
MoeSS
|
95 |
+
├── Mods
|
96 |
+
├── MoeSS.exe
|
97 |
+
├── ShirakanaUI.dmres
|
98 |
+
├── bins
|
99 |
+
│ └── ffmpeg.exe
|
100 |
+
├── cleaners
|
101 |
+
├── hifigan
|
102 |
+
│ └── hifigan.onnx
|
103 |
+
├── hubert
|
104 |
+
│ └── hubert.onnx
|
105 |
+
├── onnxruntime.dll
|
106 |
+
├── onnxruntime_providers_shared.dll
|
107 |
+
└── onnxruntime_providers_tensorrt.dll
|
108 |
+
```
|
109 |
+
|
110 |
+
### 1. 下载[[转换好的onnx模型]](https://huggingface.co/Miuzarte/SUImodels/blob/main/onnx/suiji_1M111000_SoVits.onnx)
|
111 |
+
|
112 |
+
### 2. 在 MoeSS\\Mods 新建一个 MoeSS.json 并写入以下文本,保存时请确保编码为UTF-8,保存时请确保编码为UTF-8,保存时请确保编码为UTF-8
|
113 |
+
|
114 |
+
```json
|
115 |
+
{
|
116 |
+
"Folder" : "suiji_1M111000",
|
117 |
+
"Name" : "岁己SUI",
|
118 |
+
"Type" : "SoVits",
|
119 |
+
"Symbol" : "",
|
120 |
+
"Cleaner" : "",
|
121 |
+
"Rate" : 48000,
|
122 |
+
"Hop" : 320,
|
123 |
+
"Hifigan": "",
|
124 |
+
"Hubert": "hubert",
|
125 |
+
"SoVits3": true,
|
126 |
+
"Characters" : ["岁己SUI"]
|
127 |
+
}
|
128 |
+
```
|
129 |
+
|
130 |
+
#### 以上步骤完成之后的文件结构应该长这样
|
131 |
+
|
132 |
+
```
|
133 |
+
MoeSS
|
134 |
+
├── Mods
|
135 |
+
│ ├── MoeSS.json
|
136 |
+
│ └── suiji_1M111000
|
137 |
+
│ └── suiji_1M111000_SoVits.onnx
|
138 |
+
├── MoeSS.exe
|
139 |
+
├── ShirakanaUI.dmres
|
140 |
+
├── bins
|
141 |
+
│ └── ffmpeg.exe
|
142 |
+
├── cleaners
|
143 |
+
├── hifigan
|
144 |
+
│ ├── hifigan.onnx
|
145 |
+
│ └── nsf_hifigan.onnx
|
146 |
+
├── hubert
|
147 |
+
│ └── hubert.onnx
|
148 |
+
├── onnxruntime.dll
|
149 |
+
├── onnxruntime_providers_shared.dll
|
150 |
+
└── onnxruntime_providers_tensorrt.dll
|
151 |
+
```
|
152 |
+
|
153 |
+
### 3. 运行 MoeSS.exe
|
154 |
+
|
155 |
+
1. 在左上角选择模型 “SoVits:岁己SUI” 并等待加载,完成后右边会显示 “当前模型: 岁己SUI”
|
156 |
+
|
157 |
+
2. 在左下角输入框中写入音频文件路径,如:
|
158 |
+
|
159 |
+
```
|
160 |
+
A:\SUI\so-vits-svc\\raw\wavs\\2044.flac
|
161 |
+
A:\SUI\so-vits-svc\\raw\wavs\\2044.wav
|
162 |
+
```
|
163 |
+
|
164 |
+
程序会调用ffmpeg转换,无需确保音频是否为wav格式
|
165 |
+
|
166 |
+
纳鲁塞-缪-希娜卡纳:下个版本增加拖入文件自动输入路径的功能
|
167 |
+
|
168 |
+
3. 点击开始转换语音,弹出的参数框可以调整对输入音频的升降调,确定后等待最下方进度条走完
|
169 |
+
|
170 |
+
|下面的弃用|
|
171 |
+
|:-:|
|
172 |
+
|下面的弃用|
|
173 |
|
174 |
### 本地推理可调用GPU(NVIDIA),3060Ti 8G可推理一条20(建议) - 30s的音频,过长音频可分割后批量处理,就算用CPU推理也比 Hugging Face 快不少
|
175 |
|