Spaces:

ayaanzaveri
/

faster-whisper-api

Build error

App Files Files Community

ayaanzaveri commited on Apr 4, 2023

Commit

56811cc

1 Parent(s): 5ae2523

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -11

app.py CHANGED Viewed

@@ -4,7 +4,7 @@ import yt_dlp
 import uuid
 import os
 import gradio as gr
 # List of all supported video sites here https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md
 def download_convert_video_to_audio(
@@ -21,7 +21,6 @@ def download_convert_video_to_audio(
             }
         ],
         "outtmpl": f"{destination_path}.%(ext)s",
-        "concurrent-fragments": 128
     }
     try:
         print(f"Downloading video from {video_url}")
@@ -38,23 +37,28 @@ def segment_to_dict(segment):
     return segment
 def download_video(video_url: str):
-    download_convert_video_to_audio(yt_dlp, video_url, f"{uuid.uuid4().hex}")
-def transcribe_video(video_url: str, beam_size: int = 5, model_size: str = "tiny", word_timestamps: bool = True):
     print("loading model")
     model = WhisperModel(model_size, device="cpu", compute_type="int8")
     print("getting hex")
     rand_id = uuid.uuid4().hex
     print("doing download")
-    download_convert_video_to_audio(yt_dlp, video_url, f"{rand_id}")
-    print("done download")
-    print("doing transcribe")
-    segments, info = model.transcribe(f"{rand_id}.mp3", beam_size=beam_size, word_timestamps=word_timestamps)
-    print(info)
     segments = [segment_to_dict(segment) for segment in segments]
     total_duration = round(info.duration, 2)  # Same precision as the Whisper timestamps.
     print(info)
-    os.remove(f"{rand_id}.mp3")
     print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
     print(segments)
     return segments
@@ -64,6 +68,10 @@ def transcribe_video(video_url: str, beam_size: int = 5, model_size: str = "tiny
 # for segment in segments:
 #     print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
-demo = gr.Interface(fn=transcribe_video, inputs="text", outputs="json")
 demo.launch()

 import uuid
 import os
 import gradio as gr
+from tqdm import tqdm
 # List of all supported video sites here https://github.com/yt-dlp/yt-dlp/blob/master/supportedsites.md
 def download_convert_video_to_audio(
             }
         ],
         "outtmpl": f"{destination_path}.%(ext)s",
     }
     try:
         print(f"Downloading video from {video_url}")
     return segment
 def download_video(video_url: str):
+    download_convert_video_to_audio(yt_dlp, video_url, f"/content/{uuid.uuid4().hex}")
+def transcribe_video(video_url: str, word_timestamps: bool = True, model_size: str = "tiny"):
+    print(word_timestamps)
     print("loading model")
     model = WhisperModel(model_size, device="cpu", compute_type="int8")
+    # model = WhisperModel(model_size, device="cuda", compute_type="float16")
     print("getting hex")
     rand_id = uuid.uuid4().hex
     print("doing download")
+    download_convert_video_to_audio(yt_dlp, video_url, f"/content/{rand_id}")
+    segments, info = model.transcribe(f"/content/{rand_id}.mp3", beam_size=5, word_timestamps=word_timestamps)
     segments = [segment_to_dict(segment) for segment in segments]
     total_duration = round(info.duration, 2)  # Same precision as the Whisper timestamps.
+    with tqdm(total=total_duration, unit=" seconds") as pbar:
+      for segment in segments:
+          segment_duration = segment.end - segment.start
+          pbar.update(segment_duration)
+    print(pbar)
     print(info)
+    os.remove(f"/content/{rand_id}.mp3")
     print("Detected language '%s' with probability %f" % (info.language, info.language_probability))
     print(segments)
     return segments
 # for segment in segments:
 #     print("[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))
+demo = gr.Interface(fn=transcribe_video, inputs=[
+    gr.Textbox(label="Video URL"),
+    gr.Checkbox(label="Word Timestamps", info="Do you want word timestamps in the response?"),
+    gr.Dropdown(label="Model", value="tiny", choices=["tiny", "base", "small"])
+  ], outputs="text")
 demo.launch()