Pedro_Lab_XTTS_demo

Sleeping

App Files Files

Blakus commited on Sep 30, 2024

Commit

1ced4b5

verified ·

1 Parent(s): e98bc63

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -29

app.py CHANGED Viewed

@@ -7,8 +7,6 @@ import scipy.io.wavfile as wavfile
 import torch
 import torchaudio
 import gradio as gr
-import numpy as np
-import parselmouth
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
@@ -25,9 +23,6 @@ def check_and_install(package):
         print(f"{package} no está instalado. Instalando...")
         subprocess.check_call([sys.executable, "-m", "pip", "install", package])
-# Check and install parselmouth
-check_and_install("parselmouth")
 print("Descargando y configurando el modelo...")
 repo_id = "Blakus/Pedro_Lab_XTTS"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
@@ -52,22 +47,7 @@ model.cuda()
 print("Modelo cargado en GPU")
-def adjust_pitch(audio_path, pitch_factor):
-    sound = parselmouth.Sound(audio_path)
-    manipulation = parselmouth.praat.call(sound, "To Manipulation", 0.01, 75, 600)
-    pitch_tier = parselmouth.praat.call(manipulation, "Extract pitch tier")
-    parselmouth.praat.call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, pitch_factor)
-    parselmouth.praat.call([pitch_tier, manipulation], "Replace pitch tier")
-    new_sound = parselmouth.praat.call(manipulation, "Get resynthesis (overlap-add)")
-    output_path = "pitch_adjusted_output.wav"
-    new_sound.save(output_path, parselmouth.SoundFileFormat.WAV)
-    return output_path
-def predict(prompt, language, reference_audio, speed, pitch_factor):
     try:
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
@@ -104,12 +84,9 @@ def predict(prompt, language, reference_audio, speed, pitch_factor):
         output_path = "pedro_labattaglia_TTS.wav"
         # Guardar el audio directamente desde el output del modelo
         wavfile.write(output_path, config.audio["output_sample_rate"], out["wav"])
-        # Adjust pitch
-        if pitch_factor != 1.0:
-            output_path = adjust_pitch(output_path, pitch_factor)
         audio_length = len(out["wav"]) / config.audio["output_sample_rate"]  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
@@ -146,7 +123,6 @@ Sintetizador de voz con la voz del locutor argentino Pedro Labattaglia.
 - Elija el idioma (Español o Inglés)
 - Elija un audio de referencia de la lista
 - Ajuste la velocidad del habla si lo desea
-- Ajuste el pitch de la voz si lo desea
 - Escriba el texto que desea sintetizar
 - Presione generar voz
 """
@@ -166,13 +142,12 @@ with gr.Blocks(theme=theme) as demo:
                 elem_id="image-container"
             )
-    # Fila para seleccionar idioma, referencia, velocidad, pitch y generar voz
     with gr.Row():
         with gr.Column(scale=2):
             language_selector = gr.Dropdown(label="Idioma", choices=supported_languages)
             reference_audio = gr.Dropdown(label="Audio de referencia", choices=reference_audios)
             speed_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Velocidad del habla")
-            pitch_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Ajuste de pitch")
             input_text = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
             generate_button = gr.Button("Generar voz", variant="primary")
@@ -183,7 +158,7 @@ with gr.Blocks(theme=theme) as demo:
     # Configuración del botón para generar voz
     generate_button.click(
         predict,
-        inputs=[input_text, language_selector, reference_audio, speed_slider, pitch_slider],
         outputs=[generated_audio, metrics_output]
     )

 import torch
 import torchaudio
 import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
         print(f"{package} no está instalado. Instalando...")
         subprocess.check_call([sys.executable, "-m", "pip", "install", package])
 print("Descargando y configurando el modelo...")
 repo_id = "Blakus/Pedro_Lab_XTTS"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
 print("Modelo cargado en GPU")
+def predict(prompt, language, reference_audio, speed):
     try:
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
         output_path = "pedro_labattaglia_TTS.wav"
         # Guardar el audio directamente desde el output del modelo
+        import scipy.io.wavfile as wavfile
         wavfile.write(output_path, config.audio["output_sample_rate"], out["wav"])
         audio_length = len(out["wav"]) / config.audio["output_sample_rate"]  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
 - Elija el idioma (Español o Inglés)
 - Elija un audio de referencia de la lista
 - Ajuste la velocidad del habla si lo desea
 - Escriba el texto que desea sintetizar
 - Presione generar voz
 """
                 elem_id="image-container"
             )
+    # Fila para seleccionar idioma, referencia, velocidad y generar voz
     with gr.Row():
         with gr.Column(scale=2):
             language_selector = gr.Dropdown(label="Idioma", choices=supported_languages)
             reference_audio = gr.Dropdown(label="Audio de referencia", choices=reference_audios)
             speed_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Velocidad del habla")
             input_text = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
             generate_button = gr.Button("Generar voz", variant="primary")
     # Configuración del botón para generar voz
     generate_button.click(
         predict,
+        inputs=[input_text, language_selector, reference_audio, speed_slider],
         outputs=[generated_audio, metrics_output]
     )