Spaces:

tomekstor9
/

openai-whisper-large-v3-turbo

Sleeping

App Files Files Community

tomekstor9 commited on Dec 18, 2024

Commit

b26b92f

verified ·

1 Parent(s): 5e09f88

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -30

app.py CHANGED Viewed

@@ -2,7 +2,6 @@ import gradio as gr
 from transformers import pipeline
 from pydub import AudioSegment
 import os
-import language_tool_python
 # Załaduj mniejszy model Whisper do transkrypcji
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
@@ -10,9 +9,6 @@ transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-sma
 # Załaduj model do tłumaczenia na angielski
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-pl-en")
-# Konfiguracja LanguageTool (używając zewnętrznego serwera)
-tool = language_tool_python.LanguageToolPublicAPI('pl')
 # Funkcja zmniejszenia jakości audio i konwersji do WAV
 def reduce_audio_quality(input_path):
     try:
@@ -35,36 +31,28 @@ def split_audio_to_segments(input_path, segment_length=30):
         segments.append(segment_path)
     return segments
-# Funkcja poprawy tekstu za pomocą LanguageTool
-def correct_text_with_languagetool(text):
-    matches = tool.check(text)
-    corrected_text = language_tool_python.utils.correct(text, matches)
-    return corrected_text
-# Funkcja transkrypcji pliku audio z poprawkami
-def transcribe_audio(file):
     try:
         reduced_audio = reduce_audio_quality(file.name)
         if not reduced_audio:
-            return "Nie udało się zmniejszyć rozmiaru pliku."
         segments = split_audio_to_segments(reduced_audio, segment_length=30)
         full_transcription = ""
         for segment in segments:
             result = transcriber(segment)
             full_transcription += result['text'] + " "
             os.remove(segment)
         os.remove(reduced_audio)
-        # Poprawienie tekstu za pomocą LanguageTool
-        corrected_transcription = correct_text_with_languagetool(full_transcription.strip())
-        return corrected_transcription
     except Exception as e:
-        return f"Błąd: {e}"
-# Funkcja tłumaczenia tekstu
 def translate_text(text):
     try:
         translation = translator(text)[0]['translation_text']
@@ -75,27 +63,24 @@ def translate_text(text):
 # Interfejs Gradio
 with gr.Blocks() as app:
     gr.Markdown("## Whisper Small - Transkrypcja i Tłumaczenie")
-    gr.Markdown(
-        "Aplikacja wykonuje transkrypcję plików audio/wideo za pomocą Whisper Small i automatycznie poprawia błędy literowe. "
-        "Użytkownik może poprawić wygenerowany tekst przed jego tłumaczeniem na angielski."
-    )
     with gr.Row():
         file_input = gr.File(label="Prześlij plik audio lub wideo (MOV, MP4, WAV, MP3)")
         transcribe_button = gr.Button("Wykonaj transkrypcję")
     transcription_output = gr.Textbox(label="Transkrypcja tekstowa (edytowalna)", lines=10)
     translate_button = gr.Button("Przetłumacz na angielski")
     translation_output = gr.Textbox(label="Tłumaczenie na angielski", lines=10)
-    # Logika transkrypcji
     transcribe_button.click(
-        transcribe_audio,
         inputs=file_input,
         outputs=transcription_output
     )
-    # Logika tłumaczenia
     translate_button.click(
         translate_text,
         inputs=transcription_output,

 from transformers import pipeline
 from pydub import AudioSegment
 import os
 # Załaduj mniejszy model Whisper do transkrypcji
 transcriber = pipeline("automatic-speech-recognition", model="openai/whisper-small")
 # Załaduj model do tłumaczenia na angielski
 translator = pipeline("translation", model="Helsinki-NLP/opus-mt-pl-en")
 # Funkcja zmniejszenia jakości audio i konwersji do WAV
 def reduce_audio_quality(input_path):
     try:
         segments.append(segment_path)
     return segments
+# Funkcja przetwarzania pliku z użyciem streaming
+def transcribe_audio_stream(file):
     try:
         reduced_audio = reduce_audio_quality(file.name)
         if not reduced_audio:
+            yield "Nie udało się zmniejszyć rozmiaru pliku."
+            return
         segments = split_audio_to_segments(reduced_audio, segment_length=30)
         full_transcription = ""
         for segment in segments:
             result = transcriber(segment)
             full_transcription += result['text'] + " "
             os.remove(segment)
+            yield full_transcription.strip()  # Stream częściowej transkrypcji
         os.remove(reduced_audio)
     except Exception as e:
+        yield f"Błąd: {e}"
+# Funkcja tłumaczenia poprawionego tekstu
 def translate_text(text):
     try:
         translation = translator(text)[0]['translation_text']
 # Interfejs Gradio
 with gr.Blocks() as app:
     gr.Markdown("## Whisper Small - Transkrypcja i Tłumaczenie")
+    gr.Markdown("Prześlij plik audio/wideo, wygeneruj transkrypcję, popraw ją ręcznie i przetłumacz na angielski.")
     with gr.Row():
         file_input = gr.File(label="Prześlij plik audio lub wideo (MOV, MP4, WAV, MP3)")
         transcribe_button = gr.Button("Wykonaj transkrypcję")
     transcription_output = gr.Textbox(label="Transkrypcja tekstowa (edytowalna)", lines=10)
     translate_button = gr.Button("Przetłumacz na angielski")
     translation_output = gr.Textbox(label="Tłumaczenie na angielski", lines=10)
+    # Streaming transkrypcji
     transcribe_button.click(
+        transcribe_audio_stream,
         inputs=file_input,
         outputs=transcription_output
     )
+    # Tłumaczenie tekstu po poprawkach
     translate_button.click(
         translate_text,
         inputs=transcription_output,