Spaces:

litagin
/

japanese-parler-tts-mini-demo

Running on Zero

App Files Files Community

litagin commited on Nov 19, 2024

Commit

0554880

1 Parent(s): 4af6bb4

update

Browse files

Files changed (3) hide show

README.md +1 -1
app.py +19 -2
requirements.txt +2 -1

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: Parler Tts Japanese
 emoji: 🌖
 colorFrom: gray
 colorTo: purple

 ---
+title: Japanese Parler-TTS Mini Demo
 emoji: 🌖
 colorFrom: gray
 colorTo: purple

app.py CHANGED Viewed

@@ -1,24 +1,32 @@
 import gradio as gr
 import spaces
 import torch
 from parler_tts import ParlerTTSForConditionalGeneration
 from rubyinserter import add_ruby
 from transformers import AutoTokenizer
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 repo_id = "2121-8/japanese-parler-tts-mini-bate"
 model = ParlerTTSForConditionalGeneration.from_pretrained(repo_id).to(device)
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 @spaces.GPU
 def parler_tts(prompt: str, description: str):
-    print(f"Prompt: {prompt}, Description: {description}")
     if len(prompt) > 150:
         return "Text is too long. Please keep it under 150 characters.", None
     prompt = add_ruby(prompt)
-    print(f"Prompt with ruby: {prompt}")
     input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
     prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
     with torch.no_grad():
@@ -29,6 +37,15 @@ def parler_tts(prompt: str, description: str):
     return "Success", (model.config.sampling_rate, audio_arr)
 with gr.Blocks() as app:
     prompt = gr.Textbox(label="入力文章")
     description = gr.Textbox(

 import gradio as gr
 import spaces
 import torch
+from loguru import logger
 from parler_tts import ParlerTTSForConditionalGeneration
 from rubyinserter import add_ruby
 from transformers import AutoTokenizer
 device = "cuda:0" if torch.cuda.is_available() else "cpu"
 repo_id = "2121-8/japanese-parler-tts-mini-bate"
+logger.info(f"Using device: {device}")
+logger.info(f"Loading model from: {repo_id}")
 model = ParlerTTSForConditionalGeneration.from_pretrained(repo_id).to(device)
+logger.success("Model loaded successfully")
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(repo_id)
 @spaces.GPU
 def parler_tts(prompt: str, description: str):
+    logger.info(f"Prompt: {prompt}")
+    logger.info(f"Description: {description}")
     if len(prompt) > 150:
         return "Text is too long. Please keep it under 150 characters.", None
+    if len(description) > 300:
+        return "Description is too long. Please keep it under 300 characters.", None
     prompt = add_ruby(prompt)
+    logger.info(f"Prompt with ruby: {prompt}")
     input_ids = tokenizer(description, return_tensors="pt").input_ids.to(device)
     prompt_input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(device)
     with torch.no_grad():
     return "Success", (model.config.sampling_rate, audio_arr)
+md = """
+# Japanese Parler-TTS Mini (β版) デモ
+第三者による [Japanese Parler-TTS Mini (β版)](https://huggingface.co/2121-8/japanese-parler-tts-mini-bate) の音声合成デモです。
+- 入力文章: 150文字以内の文章を入力してください。
+- 説明文章: 300文字以内の文章を入力してください。音声の特徴を説明する文章を入力します（多分）。
+"""
 with gr.Blocks() as app:
     prompt = gr.Textbox(label="入力文章")
     description = gr.Textbox(

requirements.txt CHANGED Viewed

@@ -1,2 +1,3 @@
 git+https://github.com/huggingface/parler-tts.git
-git+https://github.com/getuka/RubyInserter.git

 git+https://github.com/huggingface/parler-tts.git
+git+https://github.com/getuka/RubyInserter.git
+loguru