Spaces:

ashhadahsan
/

whisperX

Running

App Files Files Community

ashhadahsan commited on Mar 14, 2023

Commit

eeb50b0

1 Parent(s): a526070

update to handle m3p

Browse files

Files changed (1) hide show

app.py +19 -11

app.py CHANGED Viewed

@@ -164,12 +164,20 @@ with output:
         if audio_uploaded is not None:
             if audio_uploaded.name.endswith(".wav"):
                 temp = AudioSegment.from_wav(audio_uploaded)
-                temp.export(f"{name}.wav")
         if audio_uploaded.name.endswith(".mp3"):
-            subprocess.call(['ffmpeg', '-i', audio_uploaded.name,
-                   f'{name}.wav'])
             # try:
             #     temp = AudioSegment.from_file(audio_uploaded, format="mp3")
@@ -182,7 +190,7 @@ with output:
         if language == "":
             model = whisper.load_model(model_name)
             with st.spinner("Detecting language..."):
-                detection = detect_language(f"{name}.wav", model)
                 language = detection.get("detected_language")
                 del model
         if len(language) > 2:
@@ -196,7 +204,7 @@ with output:
                 with st.container():
                     with st.spinner(f"Running with {model_name} model"):
                         result = model.transcribe(
-                            f"{name}.wav",
                             language=language,
                             patience=patience,
                             initial_prompt=initial_prompt,
@@ -220,15 +228,15 @@ with output:
                         result["segments"],
                         model_a,
                         metadata,
-                        f"{name}.wav",
                         device=device,
                     )
                 write(
-                    f"{name}.wav",
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
-                trans_text = read(f"{name}.wav", transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
@@ -311,16 +319,16 @@ with output:
                         cont,
                         model_a,
                         metadata,
-                        f"{name}.wav",
                         device=device,
                     )
                 words_segments = result_aligned["word_segments"]
                 write(
-                    f"{name}.wav",
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
-                trans_text = read(f"{name}.wav", transcription)
                 char_segments = []
                 word_segments = []

         if audio_uploaded is not None:
             if audio_uploaded.name.endswith(".wav"):
                 temp = AudioSegment.from_wav(audio_uploaded)
+                input=f"{name}.wav"
+                temp.export(input)
         if audio_uploaded.name.endswith(".mp3"):
+            input=f"{name}.mp3"
+            with open(input, "wb") as f:
+                f.write(audio_uploaded.getbuffer())
+            # subprocess.call(['ffmpeg', '-i', audio_uploaded.name,
+            #        f'{name}.wav'])
             # try:
             #     temp = AudioSegment.from_file(audio_uploaded, format="mp3")
         if language == "":
             model = whisper.load_model(model_name)
             with st.spinner("Detecting language..."):
+                detection = detect_language(input, model)
                 language = detection.get("detected_language")
                 del model
         if len(language) > 2:
                 with st.container():
                     with st.spinner(f"Running with {model_name} model"):
                         result = model.transcribe(
+                            input,
                             language=language,
                             patience=patience,
                             initial_prompt=initial_prompt,
                         result["segments"],
                         model_a,
                         metadata,
+                        input,
                         device=device,
                     )
                 write(
+                    input,
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
+                trans_text = read(input, transcription)
                 trans.text_area(
                     "transcription", trans_text, height=None, max_chars=None, key=None
                 )
                         cont,
                         model_a,
                         metadata,
+                        input,
                         device=device,
                     )
                 words_segments = result_aligned["word_segments"]
                 write(
+                    input,
                     dtype=transcription,
                     result_aligned=result_aligned,
                 )
+                trans_text = read(input, transcription)
                 char_segments = []
                 word_segments = []