Spaces:

kotoba-speech
/

kotoba-whisper-demo

Running on Zero

asahi417 commited on Apr 28, 2024

Commit

9151f3b

1 Parent(s): 11553ea

add stability ts

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import time
 import tempfile
 from math import floor
 from typing import Optional, List, Dict, Any
@@ -161,12 +162,11 @@ def get_prediction(inputs, prompt: Optional[str], punctuate_text: bool = True, s
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
     if prompt:
         generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
-    prediction = pipe(inputs, return_timestamps=True, generate_kwargs=generate_kwargs)
     if stabilize_timestamp:
         prediction['chunks'] = fix_timestamp(pipeline_output=prediction['chunks'],
                                              audio=inputs["array"],
-                                             sample_rate=inputs["sampling_rate"]
-        )
     if punctuate_text:
         prediction['chunks'] = PUNCTUATOR.punctuate(prediction['chunks'])
     text = "".join([c['text'] for c in prediction['chunks']])

 import os
 import time
 import tempfile
+from copy import deepcopy
 from math import floor
 from typing import Optional, List, Dict, Any
     generate_kwargs = {"language": "japanese", "task": "transcribe"}
     if prompt:
         generate_kwargs['prompt_ids'] = pipe.tokenizer.get_prompt_ids(prompt, return_tensors='pt').to(device)
+    prediction = pipe(deepcopy(inputs), return_timestamps=True, generate_kwargs=generate_kwargs)
     if stabilize_timestamp:
         prediction['chunks'] = fix_timestamp(pipeline_output=prediction['chunks'],
                                              audio=inputs["array"],
+                                             sample_rate=inputs["sampling_rate"])
     if punctuate_text:
         prediction['chunks'] = PUNCTUATOR.punctuate(prediction['chunks'])
     text = "".join([c['text'] for c in prediction['chunks']])