--- library_name: transformers tags: [] --- ### Model Description OpenAI의 whisper-base 모델을 아래 세가지 데이터셋으로 학습한 모델입니다. - 한국어 음성 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123) - 주소 음성 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71556) - 주요 영역별 회의 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=464) ``` train_steps: 20000 warmup_steps: 2000 lr scheduler: linear warmup cosine decay max learning rate: 1e-4 batch size: 256 max_grad_norm: 1.0 adamw_beta1: 0.9 adamw_beta2: 0.98 ``` ### Evaluation https://github.com/rtzr/Awesome-Korean-Speech-Recognition 위 레포지토리에서 주요 영역별 회의 음성을 제외한 테스트셋 결과입니다. 아래 테이블에서 whisper_base_komix가 본 모델 성능입니다. | Model | cv_15_ko | fleurs_ko | kcall_testset | kconf_test | kcounsel_test | klec_testset | kspon_clean | kspon_other | |-----------------------|----------|-----------|---------------|------------|---------------|--------------|-------------|-------------| | whisper_base | 21.16 | 11.89 | 42.56 | 27.62 | 22.24 | 28.65 | 30.41 | 27.02 | | whisper_base_komix | 15.42 | 7.16 | 20.86 | 14.24 | 12.64 | 13.44 | 12.26 | 12.12 | | whisper_large_v3 | 5.11 | 3.72 | 5.45 | 9.35 | 3.83 | 8.46 | 15.08 | 12.89 | | whisper_large_v3_turbo | 5.38 | 3.95 | 5.89 | 9.77 | 4.21 | 9.27 | 16.49 | 13.54 |