bert-vits2-multi-voice

Running

App Files Files Community

Ailyth commited on Oct 2, 2023

Commit

db45ded

•

1 Parent(s): 714116a

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -43

app.py CHANGED Viewed

@@ -1,19 +1,4 @@
 import sys, os
-if sys.platform == "darwin":
-    os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"
-import logging
-logging.getLogger("numba").setLevel(logging.WARNING)
-logging.getLogger("markdown_it").setLevel(logging.WARNING)
-logging.getLogger("urllib3").setLevel(logging.WARNING)
-logging.getLogger("matplotlib").setLevel(logging.WARNING)
-logging.basicConfig(level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s")
-logger = logging.getLogger(__name__)
 import torch
 import argparse
 import commons
@@ -27,7 +12,13 @@ import webbrowser
 import soundfile as sf
 from datetime import datetime
 import pytz
 net_g = None
 models = {
@@ -94,24 +85,17 @@ def tts_generator(text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_s
     global net_g
     model_path = models[model]
     net_g, _, _, _ = utils.load_checkpoint(model_path, net_g, None, skip_optimizer=True)
-    with torch.no_grad():
-        audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker,model_dir=model)
-    with open('tmp.wav', 'rb') as wav_file:
-        mp3 = convert_wav_to_mp3(wav_file)
-    return "生成语音成功", (hps.data.sampling_rate, audio), mp3
 if __name__ == "__main__":
-    parser = argparse.ArgumentParser()
-    parser.add_argument("--model_dir", default="", help="path of your model")
-    parser.add_argument("--config_dir", default="./configs/config.json", help="path of your config file")
-    parser.add_argument("--share", default=False, help="make link public")
-    parser.add_argument("-d", "--debug", action="store_true", help="enable DEBUG-LEVEL log")
-    args = parser.parse_args()
-    if args.debug:
-        logger.info("Enable DEBUG-LEVEL log")
-        logging.basicConfig(level=logging.DEBUG)
-    hps = utils.get_hparams_from_file(args.config_dir)
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     net_g = SynthesizerTrn(
@@ -122,7 +106,6 @@ if __name__ == "__main__":
         **hps.model).to(device)
     _ = net_g.eval()
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
@@ -130,12 +113,10 @@ if __name__ == "__main__":
         with gr.Row():
             with gr.Column():
-                gr.Markdown(value="""
-              测试用
-                """)
                 text = gr.TextArea(label="Text", placeholder="Input Text Here",
-                                      value="在不在？能不能借给我三百块钱买可乐",info="使用huggingface的免费CPU进行推理，因此速度不快，一次性不要输入超过500汉字")
                 model = gr.Radio(choices=list(models.keys()), value=list(models.keys())[0], label='音声模型')
                 #model = gr.Dropdown(choices=models,value=models[0], label='音声模型')
@@ -150,12 +131,13 @@ if __name__ == "__main__":
                 text_output = gr.Textbox(label="Message")
                 audio_output = gr.Audio(label="试听")
                 MP3_output = gr.File(label="下载")
-                gr.Markdown(value="""
                 """)
-        btn.click(tts_generator,
                 inputs=[text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, model],
-                outputs=[text_output, audio_output,MP3_output])
     app.launch(show_error=True)

 import sys, os
 import torch
 import argparse
 import commons
 import soundfile as sf
 from datetime import datetime
 import pytz
+import logging
+logging.getLogger("numba").setLevel(logging.WARNING)
+logging.getLogger("markdown_it").setLevel(logging.WARNING)
+logging.getLogger("urllib3").setLevel(logging.WARNING)
+logging.getLogger("matplotlib").setLevel(logging.WARNING)
+logging.basicConfig(level=logging.INFO, format="| %(name)s | %(levelname)s | %(message)s")
+logger = logging.getLogger(__name__)
 net_g = None
 models = {
     global net_g
     model_path = models[model]
     net_g, _, _, _ = utils.load_checkpoint(model_path, net_g, None, skip_optimizer=True)
+    try:
+        with torch.no_grad():
+            audio = infer(text, sdp_ratio=sdp_ratio, noise_scale=noise_scale, noise_scale_w=noise_scale_w, length_scale=length_scale, sid=speaker,model_dir=model)
+        with open('tmp.wav', 'rb') as wav_file:
+            mp3 = convert_wav_to_mp3(wav_file)
+        return "生成语音成功", (hps.data.sampling_rate, audio), mp3
+    except Exception as e:
+        return "生成语音失败：" + str(e), None, None
 if __name__ == "__main__":
+    hps = utils.get_hparams_from_file("./configs/config.json")
     device = "cuda:0" if torch.cuda.is_available() else "cpu"
     net_g = SynthesizerTrn(
         **hps.model).to(device)
     _ = net_g.eval()
     speaker_ids = hps.data.spk2id
     speakers = list(speaker_ids.keys())
         with gr.Row():
             with gr.Column():
+                gr.Markdown("测试用")
                 text = gr.TextArea(label="Text", placeholder="Input Text Here",
+                                value="在不在？能不能借给我三百块钱买可乐",
+                                info="使用huggingface的免费CPU进行推理，因此速度不快，一次性不要输入超过500汉字")
                 model = gr.Radio(choices=list(models.keys()), value=list(models.keys())[0], label='音声模型')
                 #model = gr.Dropdown(choices=models,value=models[0], label='音声模型')
                 text_output = gr.Textbox(label="Message")
                 audio_output = gr.Audio(label="试听")
                 MP3_output = gr.File(label="下载")
+                gr.Markdown("""
                 """)
+        btn.click(
+                tts_generator,
                 inputs=[text, speaker, sdp_ratio, noise_scale, noise_scale_w, length_scale, model],
+                outputs=[text_output, audio_output,MP3_output]
+                )
     app.launch(show_error=True)