parler-tts-streaming-webrtc

Running on Zero

App Files Files Community

sanchit-gandhi commited on Apr 24, 2024

Commit

8104036

1 Parent(s): 290deb7

fix args

Browse files

Files changed (1) hide show

app.py +7 -6

app.py CHANGED Viewed

@@ -22,7 +22,7 @@ model = ParlerTTSForConditionalGeneration.from_pretrained(
     repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
 jenny_model = ParlerTTSForConditionalGeneration.from_pretrained(
-    jenny_repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
@@ -329,7 +329,7 @@ with gr.Blocks(css=css) as block:
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
-                play_seconds = gr.Slider(2.5, 5.0, value=2.5, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps"),
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
                 audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
@@ -338,19 +338,20 @@ with gr.Blocks(css=css) as block:
         outputs = [audio_out]
         gr.Examples(examples=examples, fn=generate_base, inputs=inputs, outputs=outputs, cache_examples=False)
         run_button.click(fn=generate_base, inputs=inputs, outputs=outputs, queue=True)
     with gr.Tab("Jenny"):
         with gr.Row():
             with gr.Column():
-                input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
-                description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
-                play_seconds = gr.Slider(2.5, 5.0, value=2.5, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps"),
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
                 audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]
-        gr.Examples(examples=examples, fn=generate_jenny, inputs=inputs, outputs=outputs, cache_examples=False)
         run_button.click(fn=generate_jenny, inputs=inputs, outputs=outputs, queue=True)
     gr.HTML(

     repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
 jenny_model = ParlerTTSForConditionalGeneration.from_pretrained(
+    repo_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
 ).to(device)
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
             with gr.Column():
                 input_text = gr.Textbox(label="Input Text", lines=2, value=default_text, elem_id="input_text")
                 description = gr.Textbox(label="Description", lines=2, value="", elem_id="input_description")
+                play_seconds = gr.Slider(2.5, 5.0, value=2.5, step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
                 audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
         outputs = [audio_out]
         gr.Examples(examples=examples, fn=generate_base, inputs=inputs, outputs=outputs, cache_examples=False)
         run_button.click(fn=generate_base, inputs=inputs, outputs=outputs, queue=True)
     with gr.Tab("Jenny"):
         with gr.Row():
             with gr.Column():
+                input_text = gr.Textbox(label="Input Text", lines=2, value=jenny_examples[0][0], elem_id="input_text")
+                description = gr.Textbox(label="Description", lines=2, value=jenny_examples[0][1], elem_id="input_description")
+                play_seconds = gr.Slider(2.5, 5.0, value=jenny_examples[0][2], step=0.5, label="Streaming interval in seconds", info="Lower = shorter chunks, lower latency, more codec steps")
                 run_button = gr.Button("Generate Audio", variant="primary")
             with gr.Column():
                 audio_out = gr.Audio(label="Parler-TTS generation", type="numpy", elem_id="audio_out", streaming=True, autoplay=True)
         inputs = [input_text, description, play_seconds]
         outputs = [audio_out]
+        gr.Examples(examples=jenny_examples, fn=generate_jenny, inputs=inputs, outputs=outputs, cache_examples=False)
         run_button.click(fn=generate_jenny, inputs=inputs, outputs=outputs, queue=True)
     gr.HTML(