Spaces:

morkovka1337
/

tg_voice_to_text

Build error

App Files Files Community

morkovka1337 commited on Oct 8, 2022

Commit

12a5951

1 Parent(s): cda5020

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -5

app.py CHANGED Viewed

@@ -15,7 +15,8 @@ logging.basicConfig(
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
-CACHED_MODEL = AutoModelForCTC.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-russian")
 def run(input_file, history, model_size="300M"):
     language = "Russian"
@@ -26,14 +27,14 @@ def run(input_file, history, model_size="300M"):
     # the history seems to be not by session anymore, so I'll deactivate this for now
     history = []
     if decoding_type == "LM":
         processor = Wav2Vec2ProcessorWithLM.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-russian")
-        asr = pipeline("automatic-speech-recognition", model=CACHED_MODEL , tokenizer=processor.tokenizer,
                        feature_extractor=processor.feature_extractor, decoder=processor.decoder)
     else:
         processor = Wav2Vec2Processor.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-russian")
-        asr = pipeline("automatic-speech-recognition", model=CACHED_MODEL , tokenizer=processor.tokenizer,
                        feature_extractor=processor.feature_extractor, decoder=None)
     transcription = asr(input_file.name, chunk_length_s=5, stride_length_s=1)["text"]
@@ -41,7 +42,7 @@ def run(input_file, history, model_size="300M"):
     logger.info(f"Transcription for {language}-{model_size}-{decoding_type} for {input_file}: {transcription}")
     history.append({
-        "model_id": model["model_id"],
         "language": language,
         "model_size": model_size,
         "decoding_type": decoding_type,

 logger = logging.getLogger(__name__)
 logger.setLevel(logging.DEBUG)
+model_ID = "jonatasgrosman/wav2vec2-large-xlsr-53-russian"
+CACHED_MODEL = {"rus": AutoModelForCTC.from_pretrained(model_ID)}
 def run(input_file, history, model_size="300M"):
     language = "Russian"
     # the history seems to be not by session anymore, so I'll deactivate this for now
     history = []
+    model_instance = CACHED_MODEL.get("rus")
     if decoding_type == "LM":
         processor = Wav2Vec2ProcessorWithLM.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-russian")
+        asr = pipeline("automatic-speech-recognition", model=model_instance, tokenizer=processor.tokenizer,
                        feature_extractor=processor.feature_extractor, decoder=processor.decoder)
     else:
         processor = Wav2Vec2Processor.from_pretrained("jonatasgrosman/wav2vec2-large-xlsr-53-russian")
+        asr = pipeline("automatic-speech-recognition", model=model_instance, tokenizer=processor.tokenizer,
                        feature_extractor=processor.feature_extractor, decoder=None)
     transcription = asr(input_file.name, chunk_length_s=5, stride_length_s=1)["text"]
     logger.info(f"Transcription for {language}-{model_size}-{decoding_type} for {input_file}: {transcription}")
     history.append({
+        "model_id": model_ID,
         "language": language,
         "model_size": model_size,
         "decoding_type": decoding_type,