vasista22/whisper-hindi-large-v2 · Giving only first few words of transcription

Tried the model on 30 sec audio.

Full transcription of the audio was - 'बता बता बता चल ये देख difference between interference and diffraction पे बहुत सारे सवाल पूछते हैं interference and diffraction पे difference क्या होता देखो interference it is a phenomena interference interference ये देख interference interference it is the phenomena of superposition of two wave coming from two different current source'

But model gave output - 'बता बता बता'

from transformers import pipeline

transcribe = pipeline(task="automatic-speech-recognition",
model="vasista22/whisper-hindi-large-v2",
chunk_length_s=100,
batch_size=128,
device="cpu")

transcribe.model.config.forced_decoder_ids = transcribe.tokenizer.get_decoder_prompt_ids(language="hi", task="transcribe")
print('Transcription: ', transcribe("../data/mr_sir_speak_char/wavs/segment_205.wav",
generate_kwargs={"suppress_tokens": None})["text"])