Spaces:

emirhanbilgic
/

Text-to-speech-Turkish

Running

App Files Files Community

emirhanbilgic commited on Aug 29, 2024

Commit

c7fbbca

verified ·

1 Parent(s): 2301825

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -75

app.py CHANGED Viewed

@@ -1,12 +1,10 @@
 import gradio as gr
 import torch
-from datasets import load_dataset
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import soundfile as sf
 import spaces
 import os
 from speechbrain.pretrained import EncoderClassifier
-import re
 device = "cuda" if torch.cuda.is_available() else "cpu"
@@ -31,90 +29,32 @@ def create_speaker_embedding(waveform):
     with torch.no_grad():
         speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform).unsqueeze(0).to(device))
         speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
-        speaker_embeddings = speaker_embeddings.squeeze()
     return speaker_embeddings
-replacements = [
-    ("â", "a"), ("ç", "ch"), ("ğ", "gh"), ("ı", "i"), ("î", "i"),
-    ("ö", "oe"), ("ş", "sh"), ("ü", "ue"), ("û", "u"),
-]
-number_words = {
-    0: "sıfır", 1: "bir", 2: "iki", 3: "üç", 4: "dört", 5: "beş", 6: "altı", 7: "yedi", 8: "sekiz", 9: "dokuz",
-    10: "on", 11: "on bir", 12: "on iki", 13: "on üç", 14: "on dört", 15: "on beş", 16: "on altı", 17: "on yedi",
-    18: "on sekiz", 19: "on dokuz", 20: "yirmi", 30: "otuz", 40: "kırk", 50: "elli", 60: "altmış", 70: "yetmiş",
-    80: "seksen", 90: "doksan", 100: "yüz", 1000: "bin"
-}
-def number_to_words(number):
-    if number < 20:
-        return number_words[number]
-    elif number < 100:
-        tens, unit = divmod(number, 10)
-        return number_words[tens * 10] + (" " + number_words[unit] if unit else "")
-    elif number < 1000:
-        hundreds, remainder = divmod(number, 100)
-        return (number_words[hundreds] + " yüz" if hundreds > 1 else "yüz") + (" " + number_to_words(remainder) if remainder else "")
-    elif number < 1000000:
-        thousands, remainder = divmod(number, 1000)
-        return (number_to_words(thousands) + " bin" if thousands > 1 else "bin") + (" " + number_to_words(remainder) if remainder else "")
-    elif number < 1000000000:
-        millions, remainder = divmod(number, 1000000)
-        return number_to_words(millions) + " milyon" + (" " + number_to_words(remainder) if remainder else "")
-    elif number < 1000000000000:
-        billions, remainder = divmod(number, 1000000000)
-        return number_to_words(billions) + " milyar" + (" " + number_to_words(remainder) if remainder else "")
-    else:
-        return str(number)
-def replace_numbers_with_words(text):
-    def replace(match):
-        number = int(match.group())
-        return number_to_words(number)
-    return re.sub(r'\b\d+\b', replace, text)
-def normalize_text(text):
-    text = text.lower()
-    text = replace_numbers_with_words(text)
-    for old, new in replacements:
-        text = text.replace(old, new)
-    return text
 @spaces.GPU(duration = 60)
-def text_to_speech(text, audio_file=None):
-    normalized_text = normalize_text(text)
-    inputs = processor(text=normalized_text, return_tensors="pt").to(device)
-    if audio_file is not None:
-        waveform, sample_rate = sf.read(audio_file)
-        if len(waveform.shape) > 1:
-            waveform = waveform[:, 0]  # Take the first channel if stereo
-        if sample_rate != 16000:
-            print("Warning: The model expects 16kHz sampling rate")
-        speaker_embeddings = create_speaker_embedding(waveform)
-    else:
-        # Use a default speaker embedding when no audio file is provided
-        embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
-        speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0).to(device)
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     sf.write("output.wav", speech.cpu().numpy(), samplerate=16000)
-    return "output.wav", normalized_text
-# Update the Gradio interface
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
         gr.Textbox(label="Enter Turkish text to convert to speech"),
-        gr.Audio(label="Upload a short audio file of the target speaker (optional)", type="filepath")
-    ],
-    outputs=[
-        gr.Audio(label="Generated Speech"),
-        gr.Textbox(label="Normalized Text")
     ],
-    title="Turkish SpeechT5 Text-to-Speech Demo with Custom Speaker",
-    description="Enter Turkish text, optionally upload a short audio file of the target speaker, and listen to the generated speech using the fine-tuned SpeechT5 model. The text will be normalized for better pronunciation."
 )
-iface.launch(share=True)

 import gradio as gr
 import torch
 import soundfile as sf
 import spaces
 import os
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from speechbrain.pretrained import EncoderClassifier
 device = "cuda" if torch.cuda.is_available() else "cpu"
     with torch.no_grad():
         speaker_embeddings = speaker_model.encode_batch(torch.tensor(waveform).unsqueeze(0).to(device))
         speaker_embeddings = torch.nn.functional.normalize(speaker_embeddings, dim=2)
+        speaker_embeddings = speaker_embeddings.squeeze().to(device)
     return speaker_embeddings
 @spaces.GPU(duration = 60)
+def text_to_speech(text, audio_file):
+    inputs = processor(text=text, return_tensors="pt").to(device)
+    # Load the audio file and create speaker embedding
+    waveform, sample_rate = sf.read(audio_file)
+    if len(waveform.shape) > 1:
+        waveform = waveform[:, 0]  # Take the first channel if stereo
+    speaker_embeddings = create_speaker_embedding(waveform)
     speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     sf.write("output.wav", speech.cpu().numpy(), samplerate=16000)
+    return "output.wav"
 iface = gr.Interface(
     fn=text_to_speech,
     inputs=[
         gr.Textbox(label="Enter Turkish text to convert to speech"),
+        gr.Audio(label="Upload a short audio sample of the target speaker", type="filepath")
     ],
+    outputs=gr.Audio(label="Generated Speech"),
+    title="Turkish SpeechT5 Text-to-Speech Demo with Custom Voice",
+    description="Enter Turkish text, upload a short audio sample of the target speaker, and listen to the generated speech using the fine-tuned SpeechT5 model."
 )
+iface.launch()