Spaces:

tomekstor9
/

openai-whisper-large-v3-turbo

Sleeping

App Files Files Community

tomekstor9 commited on Dec 17, 2024

Commit

2ff7a4a

verified ·

1 Parent(s): 7854666

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -10

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import gradio as gr
 from transformers import pipeline
 from pydub import AudioSegment
 # Załaduj mniejszy model Whisper do transkrypcji
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
@@ -8,23 +9,39 @@ transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-sma
 # Załaduj model do tłumaczenia na angielski
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-pl-en")
-# Funkcja konwersji audio do 16 kHz
 def convert_audio(audio):
-    sound = AudioSegment.from_file(audio)
-    sound = sound.set_frame_rate(16000).set_channels(1)
-    temp_file = "converted.wav"
-    sound.export(temp_file, format="wav")
-    return temp_file
 # Funkcja transkrypcji i tłumaczenia
 def transcribe_and_translate(audio):
     try:
-        # Transkrypcja pliku audio
         converted_audio = convert_audio(audio)
         result = transcriber(converted_audio)
         transcription = result['text']
         # Tłumaczenie na angielski
         translation = translator(transcription)[0]['translation_text']
@@ -40,7 +57,8 @@ iface = gr.Interface(
         gr.Textbox(label="Transkrypcja tekstowa"),   # Pierwsze okienko - tekst oryginalny
         gr.Textbox(label="Tłumaczenie na angielski") # Drugie okienko - tekst przetłumaczony
     ],
-    title="Whisper Small - Transkrypcja i Tłumaczenie"
 )
 iface.launch()

 import gradio as gr
 from transformers import pipeline
 from pydub import AudioSegment
+import os
 # Załaduj mniejszy model Whisper do transkrypcji
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
 # Załaduj model do tłumaczenia na angielski
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-pl-en")
+# Funkcja konwersji audio do 16 kHz, obsługuje MOV, MP4 i inne formaty
 def convert_audio(audio):
+    try:
+        # Sprawdź format pliku na podstawie rozszerzenia
+        extension = os.path.splitext(audio)[1].lower()
+        # Wczytaj plik w zależności od formatu
+        if extension in [".mov", ".mp4", ".m4a"]:
+            sound = AudioSegment.from_file(audio, format="mov" if extension == ".mov" else "mp4")
+        else:
+            sound = AudioSegment.from_file(audio)
+        # Konwersja do formatu WAV (16 kHz, mono)
+        sound = sound.set_frame_rate(16000).set_channels(1)
+        temp_file = "converted.wav"
+        sound.export(temp_file, format="wav")
+        return temp_file
+    except Exception as e:
+        print(f"Błąd konwersji pliku: {e}")
+        return None
 # Funkcja transkrypcji i tłumaczenia
 def transcribe_and_translate(audio):
     try:
+        # Konwersja audio do odpowiedniego formatu
         converted_audio = convert_audio(audio)
+        if not converted_audio:
+            return "Nie udało się przetworzyć pliku audio.", ""
+        # Transkrypcja pliku audio
         result = transcriber(converted_audio)
         transcription = result['text']
         # Tłumaczenie na angielski
         translation = translator(transcription)[0]['translation_text']
         gr.Textbox(label="Transkrypcja tekstowa"),   # Pierwsze okienko - tekst oryginalny
         gr.Textbox(label="Tłumaczenie na angielski") # Drugie okienko - tekst przetłumaczony
     ],
+    title="Whisper Small - Transkrypcja i Tłumaczenie",
+    description="Aplikacja obsługująca pliki MOV, MP4 i inne formaty audio/wideo."
 )
 iface.launch()