Spaces:

yonas
/

ASR_Demo_Kinyarwanda

Build error

App Files Files Community

yonas commited on Nov 27, 2023

Commit

a009c84

1 Parent(s): 2b32664

Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

.gitattributes +1 -0
README.md +2 -8
gradio_demo.py +53 -0
model/Kinyarwanda_nemo_stt_conformer_model.nemo +3 -0
requirements.txt +7 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model/Kinyarwanda_nemo_stt_conformer_model.nemo filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
 ---
-title: ASR Demo Kinyarwanda
-emoji: 📈
-colorFrom: indigo
-colorTo: purple
 sdk: gradio
 sdk_version: 4.7.1
-app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: ASR_Demo_Kinyarwanda
+app_file: gradio_demo.py
 sdk: gradio
 sdk_version: 4.7.1
 ---

gradio_demo.py ADDED Viewed

	@@ -0,0 +1,53 @@

+import gradio as gr
+import pyaudioconvert as pac
+from pydub import AudioSegment
+import nemo
+import nemo.collections.asr as nemo_asr
+# Load the pre-trained model
+model = nemo_asr.models.EncDecCTCModelBPE.restore_from(
+    restore_path="/home/yonas/stt/demo/model/Kinyarwanda_nemo_stt_conformer_model.nemo"
+)
+assert isinstance(model, nemo.collections.asr.models.EncDecCTCModel)
+def convert(file_name):
+    if file_name.endswith(("mp3", "wav", "ogg")):
+        if file_name.endswith("mp3"):
+            sound = AudioSegment.from_mp3(file_name)
+            sound.export(file_name, format="wav")
+        elif file_name.endswith("ogg"):
+            sound = AudioSegment.from_ogg(file_name)
+            sound.export(file_name, format="wav")
+    else:
+        return False
+    pac.convert_wav_to_16bit_mono(file_name, file_name)
+    return True
+def transcribe(audio):
+    if not audio:
+        return "No audio provided"
+    if not convert(audio):
+        return "The format must be mp3, wav, or ogg"
+    result = model.transcribe([audio])
+    return result[0]
+gradio_ui = gr.Interface(
+    fn=transcribe,
+    title="Kinyarwanda Speech Recognition",
+    description="Upload an audio clip or record from browser using microphone.",
+    inputs=[
+        gr.Audio(label="Upload Audio File or Record from microphone", sources=["upload", "microphone"], type="filepath", format="wav"),
+    ],
+    outputs=gr.Text(label="Recognized speech")
+)
+# Launch the Gradio app
+gradio_ui.launch(share=True, debug=True)

model/Kinyarwanda_nemo_stt_conformer_model.nemo ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b96caae115055a37013539d5cc109f40b8994b8e323368b1116e543c9d7c0708
+size 488570880

requirements.txt ADDED Viewed

	@@ -0,0 +1,7 @@

+cython<3.0.0
+pyyaml==5.4.1
+wheel
+gradio
+nemo_toolkit[asr]
+pydub
+pyaudioconvert