Spaces:

amphion
/

Text-to-Speech

Running

App Files Files Community

zyingt commited on Mar 29, 2024

Commit

b07c30e

verified ·

1 Parent(s): 8f90878

support timbre confusion

Browse files

Files changed (1) hide show

app.py +118 -28

app.py CHANGED Viewed

@@ -6,13 +6,7 @@
 import subprocess
 command_to_run = "cd ./modules/monotonic_align;mkdir -p monotonic_align;python setup.py build_ext --inplace;cd /home/user/app"
-try:
-    result = subprocess.check_output(command_to_run, shell=True, text=True)
-    print("Command output:")
-    print(result)
-except subprocess.CalledProcessError as e:
-    print(f"Command failed with return code {e.returncode}")
 import gradio as gr
 import os
@@ -28,22 +22,25 @@ SUPPORTED_SPEAKERS = {
     "Helen Taylor":"hifitts_9136",
     "Sylviamb":"hifitts_11614",
     "Celine Major":"hifitts_11697",
-    "LikeManyWaters":"hifitts_12787"
 }
 def tts_inference(
     input_text,
-    target_speaker
 ):
     ### Target Speaker ###
     target_speaker = SUPPORTED_SPEAKERS[target_speaker]
     args_list = ["--config", "./egs/tts/vits_hifitts/exp_config.json"]
     args_list += ["--checkpoint_path", "./expdir/checkpoint/latest-checkpoint"]
-    args_list += ["--speaker_name", target_speaker]
     args_list += ["--text", input_text]
     args_list += ["--mode","single"]
     args_list += ["--output_dir", "result"]
     args_list += ["--log_level", "debug"]
@@ -56,17 +53,49 @@ def tts_inference(
     )
     return result_file
-gr.Markdown(
-    """
-    # Amphion Text to Speech (TTS)
-    [![Open in OpenXLab](https://cdn-static.openxlab.org.cn/app-center/openxlab_app.svg)](https://openxlab.org.cn/usercenter/Amphion)
-    This demo provides an Amphion TTS pretrained model (VITS) for you to play.
-    """
-)
-demo_inputs = [
     gr.Textbox(
-        label="Input text",
         type="text",
         placeholder="Type something here.."
     ),
@@ -74,19 +103,80 @@ demo_inputs = [
         choices=list(SUPPORTED_SPEAKERS.keys()),
         label="Target Speaker",
         value="Cori Samuel"
     )
 ]
-demo_output = gr.Audio(label="")
-demo = gr.Interface(
-    fn=tts_inference,
-    inputs=demo_inputs,
-    outputs=demo_output,
-    title="Amphion Text-to-Speech",
-)
-if __name__ == "__main__":
-    demo.launch(share=True)

 import subprocess
 command_to_run = "cd ./modules/monotonic_align;mkdir -p monotonic_align;python setup.py build_ext --inplace;cd /home/user/app"
+subprocess.check_output(command_to_run, shell=True, text=True)
 import gradio as gr
 import os
     "Helen Taylor":"hifitts_9136",
     "Sylviamb":"hifitts_11614",
     "Celine Major":"hifitts_11697",
+    "LikeManyWaters":"hifitts_12787"
 }
 def tts_inference(
     input_text,
+    target_speaker,
+    duration
 ):
     ### Target Speaker ###
     target_speaker = SUPPORTED_SPEAKERS[target_speaker]
     args_list = ["--config", "./egs/tts/vits_hifitts/exp_config.json"]
     args_list += ["--checkpoint_path", "./expdir/checkpoint/latest-checkpoint"]
+    args_list += ["--speaker_name_1", target_speaker]
+    args_list += ["--speaker_name_2", None]
     args_list += ["--text", input_text]
     args_list += ["--mode","single"]
+    args_list += ["--duration_control",str(float(duration))]
     args_list += ["--output_dir", "result"]
     args_list += ["--log_level", "debug"]
     )
     return result_file
+def tc_inference(
+    input_text,
+    target_speaker_1,
+    target_speaker_2,
+    confusion_degree,
+    duration
+):
+    ### Target Speaker ###
+    target_speaker_1 = SUPPORTED_SPEAKERS[target_speaker_1]
+    if target_speaker_2 is not None:
+        target_speaker_2 = SUPPORTED_SPEAKERS[target_speaker_2]
+    args_list = ["--config", "./egs/tts/vits_hifitts/exp_config.json"]
+    args_list += ["--checkpoint_path", "./expdir/checkpoint/latest-checkpoint"]
+    args_list += ["--speaker_name_1", target_speaker_1]
+    args_list += ["--speaker_name_2", target_speaker_2]
+    args_list += ["--alpha", str(float(confusion_degree))]
+    args_list += ["--text", input_text]
+    args_list += ["--mode","single"]
+    args_list += ["--duration_control",str(float(duration))]
+    args_list += ["--output_dir", "result"]
+    args_list += ["--log_level", "debug"]
+    os.environ["WORK_DIR"] = "./"
+    inference.main(args_list)
+    ### Display ###
+    source_speaker_1 = os.path.join(
+        "result/single/s1.wav"
+    )
+    source_speaker_2 = os.path.join(
+        "result/single/s2.wav"
+    )
+    result_file = os.path.join(
+        "result/single/test_pred.wav"
+    )
+    return source_speaker_1, source_speaker_2, result_file
+# Section 1: TTS
+tts_demo_inputs = [
     gr.Textbox(
+        label="Input Text",
         type="text",
         placeholder="Type something here.."
     ),
         choices=list(SUPPORTED_SPEAKERS.keys()),
         label="Target Speaker",
         value="Cori Samuel"
+    ),
+    gr.Slider(
+        1,
+        5,
+        value=1,
+        step=0.25,
+        label="Speaking Rate",
+        info="As the step number increases, the speaking rate will be slower.",
     )
 ]
+tts_demo_output = gr.Audio(label="Generated Speech")
+# Section 2: Timbre confusion
+tc_demo_inputs = [
+    gr.Textbox(
+        label="Input Text",
+        type="text",
+        placeholder="Type something here.."
+    ),
+    gr.Radio(
+        choices=list(SUPPORTED_SPEAKERS.keys()),
+        label="Target Speaker 1",
+        value="Cori Samuel"
+    ),
+    gr.Radio(
+        choices=list(SUPPORTED_SPEAKERS.keys()),
+        label="Target Speaker 2",
+        value="Phil Benson"
+    ),
+    gr.Slider(
+        0,
+        1,
+        value=0.5,
+        step=0.1,
+        label="Confusion Degree",
+        info="As the step number increases, the generated voice will be more similar to speaker 2.",
+    ),
+    gr.Slider(
+        1,
+        5,
+        value=1,
+        step=0.25,
+        label="Speaking Rate",
+        info="As the step number increases, the speaking rate will be slower.",
+    )
+]
+tc_demo_outputs = [
+    gr.Audio(label="Target Speaker 1"),
+    gr.Audio(label="Target Speaker 2"),
+    gr.Audio(label="Interpolated Speech")
+]
+with gr.Blocks() as demo:
+    gr.Interface(
+        fn=tts_inference,
+        inputs=tts_demo_inputs,
+        outputs=tts_demo_output,
+        title="Amphion Text-to-Speech",
+    )
+    gr.Interface(
+        fn=tc_inference,
+        inputs=tc_demo_inputs,
+        outputs=tc_demo_outputs,
+        title="Timbre Confusion",
+    )
+    demo.queue()
+    demo.launch()
+# if __name__ == "__main__":
+#     demo.launch(share=True)