Spaces:

therealcyberlord
/

whisper-diarization

Runtime error

App Files Files Community

Xingyu Bian commited on Dec 31, 2023

Commit

6cd5da8

•

1 Parent(s): 9437579

updated diarization pipeline and UI changes

Browse files

Files changed (2) hide show

app.py +30 -10
sample1.wav +0 -0

app.py CHANGED Viewed

@@ -33,25 +33,26 @@ pipe = pipeline(
     device=device,
 )
-# diarization pipeline (renamed to avoid conflict)
 diarization_pipeline = Pipeline.from_pretrained(
-    "pyannote/speaker-diarization-3.0", use_auth_token=os.getenv("HF_KEY")
 )
 def diarization_info(res):
     starts = []
     ends = []
     speakers = []
-    for segment, track, _ in res.itertracks(yield_label=True):
         starts.append(segment.start)
         ends.append(segment.end)
-        speakers.append(track)
     return starts, ends, speakers
 def plot_diarization(starts, ends, speakers):
     fig = go.Figure()
@@ -83,13 +84,23 @@ def plot_diarization(starts, ends, speakers):
     return fig
 def transcribe_diarize(audio):
     sr, data = audio
     processed_data = np.array(data).astype(np.float32) / 32767.0
     waveform_tensor = torch.tensor(processed_data[np.newaxis, :])
-    # results from the pipeline
-    transcription_res = pipe({"sampling_rate": sr, "raw": processed_data})["text"]
     diarization_res = diarization_pipeline(
         {"waveform": waveform_tensor, "sample_rate": sr}
     )
@@ -97,10 +108,18 @@ def transcribe_diarize(audio):
     # Get diarization information
     starts, ends, speakers = diarization_info(diarization_res)
     # Plot diarization
     diarization_plot = plot_diarization(starts, ends, speakers)
-    return transcription_res, diarization_res, diarization_plot
 # creating the gradio interface
@@ -109,11 +128,12 @@ demo = gr.Interface(
     inputs=gr.Audio(sources=["upload", "microphone"]),
     outputs=[
         gr.Textbox(lines=3, label="Text Transcription"),
-        gr.Textbox(label="Speaker Diarization"),
-        gr.Plot(),
     ],
     title="Automatic Speech Recognition with Diarization 🗣️",
-    description="Transcribe your speech to text with distilled whisper and diarization with pyannote. Get started by recording from your mic or uploading an audio file 🎙️",
 )

     device=device,
 )
 diarization_pipeline = Pipeline.from_pretrained(
+    "pyannote/speaker-diarization-3.1", use_auth_token=os.getenv("HF_KEY")
 )
+# returns diarization info such as segment start and end times, and speaker id
 def diarization_info(res):
     starts = []
     ends = []
     speakers = []
+    for segment, _, speaker in res.itertracks(yield_label=True):
         starts.append(segment.start)
         ends.append(segment.end)
+        speakers.append(speaker)
     return starts, ends, speakers
+# plot diarization results on a graph
 def plot_diarization(starts, ends, speakers):
     fig = go.Figure()
     return fig
+def transcribe(sr, data):
+    processed_data = np.array(data).astype(np.float32) / 32767.0
+    # results from the pipeline
+    transcription_res = pipe({"sampling_rate": sr, "raw": processed_data})["text"]
+    return transcription_res
 def transcribe_diarize(audio):
     sr, data = audio
     processed_data = np.array(data).astype(np.float32) / 32767.0
     waveform_tensor = torch.tensor(processed_data[np.newaxis, :])
+    transcription_res = transcribe(sr, data)
+    # results from the diarization pipeline
     diarization_res = diarization_pipeline(
         {"waveform": waveform_tensor, "sample_rate": sr}
     )
     # Get diarization information
     starts, ends, speakers = diarization_info(diarization_res)
+    # results from the transcription pipeline
+    diarized_transcription = ""
+    # Get transcription results for each speaker segment
+    for start_time, end_time, speaker_id in zip(starts, ends, speakers):
+        segment = data[int(start_time * sr) : int(end_time * sr)]
+        diarized_transcription += f"{speaker_id} {round(start_time, 2)}:{round(end_time, 2)} \t {transcribe(sr, segment)}\n"
     # Plot diarization
     diarization_plot = plot_diarization(starts, ends, speakers)
+    return transcription_res, diarized_transcription, diarization_plot
 # creating the gradio interface
     inputs=gr.Audio(sources=["upload", "microphone"]),
     outputs=[
         gr.Textbox(lines=3, label="Text Transcription"),
+        gr.Textbox(label="Diarized Transcription"),
+        gr.Plot(label="Visualization"),
     ],
+    examples=["sample1.wav"],
     title="Automatic Speech Recognition with Diarization 🗣️",
+    description="Transcribe your speech to text with distilled whisper and diarization with pyannote. Get started by recording from your mic or uploading an audio file (.wav) 🎙️",
 )

sample1.wav ADDED Viewed

Binary file (438 kB). View file