Pedro_Lab_XTTS_demo

Sleeping

App Files Files

Blakus commited on Sep 18, 2024

Commit

78c733c

verified ·

1 Parent(s): d59fc80

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -1

app.py CHANGED Viewed

@@ -39,7 +39,7 @@ import os
 from TTS.utils.manage import get_user_data_dir
 # Autenticación con la API de Hugging Face
-repo_id = "Blakus/Pedro_Lab_XTTS"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
 # Crear el directorio si no existe
@@ -288,6 +288,7 @@ def predict(
                 repetition_penalty=7.0,
                 temperature=0.85,
             )
             first_chunk = True
             for i, chunk in enumerate(chunks):
                 if first_chunk:
@@ -303,11 +304,13 @@ def predict(
             #metrics_text += (
             #    f"Time to generate audio: {round(inference_time*1000)} milliseconds\n"
             #)
             wav = torch.cat(wav_chunks, dim=0)
             print(wav.shape)
             real_time_factor = (time.time() - t0) / wav.shape[0] * 24000
             print(f"Real-time factor (RTF): {real_time_factor}")
             metrics_text += f"Real-time factor (RTF): {real_time_factor:.2f}\n"
             torchaudio.save("output.wav", wav.squeeze().unsqueeze(0).cpu(), 24000)
             """
@@ -412,21 +415,29 @@ def predict(
 title = "Coqui🐸 XTTS"
 description = """
 <br/>
 This demo is currently running **XTTS v2.0.3** <a href="https://huggingface.co/coqui/XTTS-v2">XTTS</a> is a multilingual text-to-speech and voice-cloning model. This demo features zero-shot voice cloning, however, you can fine-tune XTTS for better results. Leave a star 🌟 on Github <a href="https://github.com/coqui-ai/TTS">🐸TTS</a>, where our open-source inference and training code lives.
 <br/>
 Supported languages: Arabic: ar, Brazilian Portuguese: pt , Mandarin Chinese: zh-cn, Czech: cs, Dutch: nl, English: en, French: fr, German: de, Italian: it, Polish: pl, Russian: ru, Spanish: es, Turkish: tr, Japanese: ja, Korean: ko, Hungarian: hu, Hindi: hi
 <br/>
 """
 links = """
 <img referrerpolicy="no-referrer-when-downgrade" src="https://static.scarf.sh/a.png?x-pxid=0d00920c-8cc9-4bf3-90f2-a615797e5f59" />
 |                                 |                                         |
 | ------------------------------- | --------------------------------------- |
 | 🐸💬 **CoquiTTS**                | <a style="display:inline-block" href='https://github.com/coqui-ai/TTS'><img src='https://img.shields.io/github/stars/coqui-ai/TTS?style=social' /></a>|
 | 💼 **Documentation**            | [ReadTheDocs](https://tts.readthedocs.io/en/latest/)
 | 👩‍💻 **Questions**                | [GitHub Discussions](https://github.com/coqui-ai/TTS/discussions) |
 | 🗯 **Community**         | [![Dicord](https://img.shields.io/discord/1037326658807533628?color=%239B59B6&label=chat%20on%20discord)](https://discord.gg/5eXr5seRrv)  |
 """
 article = """

 from TTS.utils.manage import get_user_data_dir
 # Autenticación con la API de Hugging Face
+repo_id = "Blakus/XTTS_custom"
 local_dir = os.path.join(get_user_data_dir("tts"), "tts_models--multilingual--multi-dataset--xtts_v2")
 # Crear el directorio si no existe
                 repetition_penalty=7.0,
                 temperature=0.85,
             )
             first_chunk = True
             for i, chunk in enumerate(chunks):
                 if first_chunk:
             #metrics_text += (
             #    f"Time to generate audio: {round(inference_time*1000)} milliseconds\n"
             #)
             wav = torch.cat(wav_chunks, dim=0)
             print(wav.shape)
             real_time_factor = (time.time() - t0) / wav.shape[0] * 24000
             print(f"Real-time factor (RTF): {real_time_factor}")
             metrics_text += f"Real-time factor (RTF): {real_time_factor:.2f}\n"
             torchaudio.save("output.wav", wav.squeeze().unsqueeze(0).cpu(), 24000)
             """
 title = "Coqui🐸 XTTS"
 description = """
 <br/>
 This demo is currently running **XTTS v2.0.3** <a href="https://huggingface.co/coqui/XTTS-v2">XTTS</a> is a multilingual text-to-speech and voice-cloning model. This demo features zero-shot voice cloning, however, you can fine-tune XTTS for better results. Leave a star 🌟 on Github <a href="https://github.com/coqui-ai/TTS">🐸TTS</a>, where our open-source inference and training code lives.
 <br/>
 Supported languages: Arabic: ar, Brazilian Portuguese: pt , Mandarin Chinese: zh-cn, Czech: cs, Dutch: nl, English: en, French: fr, German: de, Italian: it, Polish: pl, Russian: ru, Spanish: es, Turkish: tr, Japanese: ja, Korean: ko, Hungarian: hu, Hindi: hi
 <br/>
 """
 links = """
 <img referrerpolicy="no-referrer-when-downgrade" src="https://static.scarf.sh/a.png?x-pxid=0d00920c-8cc9-4bf3-90f2-a615797e5f59" />
 |                                 |                                         |
 | ------------------------------- | --------------------------------------- |
 | 🐸💬 **CoquiTTS**                | <a style="display:inline-block" href='https://github.com/coqui-ai/TTS'><img src='https://img.shields.io/github/stars/coqui-ai/TTS?style=social' /></a>|
 | 💼 **Documentation**            | [ReadTheDocs](https://tts.readthedocs.io/en/latest/)
 | 👩‍💻 **Questions**                | [GitHub Discussions](https://github.com/coqui-ai/TTS/discussions) |
 | 🗯 **Community**         | [![Dicord](https://img.shields.io/discord/1037326658807533628?color=%239B59B6&label=chat%20on%20discord)](https://discord.gg/5eXr5seRrv)  |
 """
 article = """