Pedro_Lab_XTTS_demo

Sleeping

App Files Files

Blakus commited on Sep 30, 2024

Commit

f0b296c

verified ·

1 Parent(s): d2819b7

Update app.py

Browse files

Files changed (1) hide show

app.py +29 -4

app.py CHANGED Viewed

@@ -7,6 +7,8 @@ import scipy.io.wavfile as wavfile
 import torch
 import torchaudio
 import gradio as gr
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
@@ -23,6 +25,9 @@ def check_and_install(package):
         print(f"{package} no está instalado. Instalando...")
         subprocess.check_call([sys.executable, "-m", "pip", "install", package])
 print("Descargando y configurando el modelo...")
 repo_id = "Blakus/Pedro_Lab_XTTS"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
@@ -47,7 +52,22 @@ model.cuda()
 print("Modelo cargado en GPU")
-def predict(prompt, language, reference_audio, speed):
     try:
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
@@ -84,9 +104,12 @@ def predict(prompt, language, reference_audio, speed):
         output_path = "pedro_labattaglia_TTS.wav"
         # Guardar el audio directamente desde el output del modelo
-        import scipy.io.wavfile as wavfile
         wavfile.write(output_path, config.audio["output_sample_rate"], out["wav"])
         audio_length = len(out["wav"]) / config.audio["output_sample_rate"]  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
@@ -123,6 +146,7 @@ Sintetizador de voz con la voz del locutor argentino Pedro Labattaglia.
 - Elija el idioma (Español o Inglés)
 - Elija un audio de referencia de la lista
 - Ajuste la velocidad del habla si lo desea
 - Escriba el texto que desea sintetizar
 - Presione generar voz
 """
@@ -142,12 +166,13 @@ with gr.Blocks(theme=theme) as demo:
                 elem_id="image-container"
             )
-    # Fila para seleccionar idioma, referencia, velocidad y generar voz
     with gr.Row():
         with gr.Column(scale=2):
             language_selector = gr.Dropdown(label="Idioma", choices=supported_languages)
             reference_audio = gr.Dropdown(label="Audio de referencia", choices=reference_audios)
             speed_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Velocidad del habla")
             input_text = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
             generate_button = gr.Button("Generar voz", variant="primary")
@@ -158,7 +183,7 @@ with gr.Blocks(theme=theme) as demo:
     # Configuración del botón para generar voz
     generate_button.click(
         predict,
-        inputs=[input_text, language_selector, reference_audio, speed_slider],
         outputs=[generated_audio, metrics_output]
     )

 import torch
 import torchaudio
 import gradio as gr
+import numpy as np
+import parselmouth
 from TTS.api import TTS
 from TTS.tts.configs.xtts_config import XttsConfig
 from TTS.tts.models.xtts import Xtts
         print(f"{package} no está instalado. Instalando...")
         subprocess.check_call([sys.executable, "-m", "pip", "install", package])
+# Check and install parselmouth
+check_and_install("parselmouth")
 print("Descargando y configurando el modelo...")
 repo_id = "Blakus/Pedro_Lab_XTTS"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
 print("Modelo cargado en GPU")
+def adjust_pitch(audio_path, pitch_factor):
+    sound = parselmouth.Sound(audio_path)
+    manipulation = parselmouth.praat.call(sound, "To Manipulation", 0.01, 75, 600)
+    pitch_tier = parselmouth.praat.call(manipulation, "Extract pitch tier")
+    parselmouth.praat.call(pitch_tier, "Multiply frequencies", sound.xmin, sound.xmax, pitch_factor)
+    parselmouth.praat.call([pitch_tier, manipulation], "Replace pitch tier")
+    new_sound = parselmouth.praat.call(manipulation, "Get resynthesis (overlap-add)")
+    output_path = "pitch_adjusted_output.wav"
+    new_sound.save(output_path, parselmouth.SoundFileFormat.WAV)
+    return output_path
+def predict(prompt, language, reference_audio, speed, pitch_factor):
     try:
         if len(prompt) < 2 or len(prompt) > 600:
             return None, "El texto debe tener entre 2 y 600 caracteres."
         output_path = "pedro_labattaglia_TTS.wav"
         # Guardar el audio directamente desde el output del modelo
         wavfile.write(output_path, config.audio["output_sample_rate"], out["wav"])
+        # Adjust pitch
+        if pitch_factor != 1.0:
+            output_path = adjust_pitch(output_path, pitch_factor)
         audio_length = len(out["wav"]) / config.audio["output_sample_rate"]  # duración del audio en segundos
         real_time_factor = inference_time / audio_length
 - Elija el idioma (Español o Inglés)
 - Elija un audio de referencia de la lista
 - Ajuste la velocidad del habla si lo desea
+- Ajuste el pitch de la voz si lo desea
 - Escriba el texto que desea sintetizar
 - Presione generar voz
 """
                 elem_id="image-container"
             )
+    # Fila para seleccionar idioma, referencia, velocidad, pitch y generar voz
     with gr.Row():
         with gr.Column(scale=2):
             language_selector = gr.Dropdown(label="Idioma", choices=supported_languages)
             reference_audio = gr.Dropdown(label="Audio de referencia", choices=reference_audios)
             speed_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Velocidad del habla")
+            pitch_slider = gr.Slider(minimum=0.5, maximum=2.0, value=1.0, step=0.1, label="Ajuste de pitch")
             input_text = gr.Textbox(label="Texto a sintetizar", placeholder="Escribe aquí el texto que quieres convertir a voz...")
             generate_button = gr.Button("Generar voz", variant="primary")
     # Configuración del botón para generar voz
     generate_button.click(
         predict,
+        inputs=[input_text, language_selector, reference_audio, speed_slider, pitch_slider],
         outputs=[generated_audio, metrics_output]
     )