Spaces:

tomekstor9
/

openai-whisper-large-v3-turbo

Sleeping

tomekstor9 commited on Dec 17, 2024

Commit

9da5321

verified ·

1 Parent(s): 42295c8

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,27 +1,34 @@
 import gradio as gr
 from transformers import pipeline
-# Załadowanie modelu Whisper
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
-# Funkcja do transkrypcji audio
 def transcribe(audio):
     try:
-        print(f"Przetwarzanie pliku audio: {audio}")  # Logowanie
-        result = transcriber(audio)
         return result['text']
     except Exception as e:
-        print(f"Błąd transkrypcji: {e}")
-        return f"Wystąpił błąd: {e}"
-# Tworzenie interfejsu Gradio
 iface = gr.Interface(
-    fn=transcribe,  # Funkcja przetwarzająca plik audio
-    inputs=gr.Audio(sources=["upload"], type="filepath"),  # Wejście: plik audio
-    outputs="text",  # Wyjście: transkrypcja tekstowa
-    title="Whisper Large V3 - Transkrypcja Audio"
 )
 iface.launch()

 import gradio as gr
 from transformers import pipeline
+from pydub import AudioSegment
+# Załaduj mniejszy model Whisper
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
+# Funkcja konwersji audio do 16 kHz
+def convert_audio(audio):
+    sound = AudioSegment.from_file(audio)
+    sound = sound.set_frame_rate(16000).set_channels(1)
+    temp_file = "converted.wav"
+    sound.export(temp_file, format="wav")
+    return temp_file
+# Funkcja transkrypcji
 def transcribe(audio):
     try:
+        print(f"Konwersja pliku audio: {audio}")
+        converted_audio = convert_audio(audio)  # Konwersja
+        result = transcriber(converted_audio)
         return result['text']
     except Exception as e:
+        return f"Błąd: {e}"
+# Interfejs Gradio
 iface = gr.Interface(
+    fn=transcribe,
+    inputs=gr.Audio(sources=["upload"], type="filepath"),
+    outputs="text",
+    title="Whisper Small - Transkrypcja Audio"
 )
 iface.launch()