thomas0104 commited on Mar 1, 2023

Commit

f4f3f57

1 Parent(s): 9e2403f

Upload 19 files

Browse files

Files changed (19) hide show

added_tokens.json +108 -0
all_results.json +13 -0
config.json +41 -0
eval_results.json +9 -0
label.txt +1 -0
merges.txt +0 -0
normalizer.json +1742 -0
pred.txt +1 -0
preprocessor_config.json +0 -0
pytorch_model.bin +3 -0
run.sh +34 -0
run_speech_recognition_seq2seq_streaming.py +617 -0
ryNormText.py +81 -0
special_tokens_map.json +133 -0
tokenizer_config.json +36 -0
train_results.json +7 -0
trainer_state.json +1275 -0
training_args.bin +3 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,108 @@

+{
+  "<|af|>": 50327,
+  "<|am|>": 50334,
+  "<|ar|>": 50272,
+  "<|as|>": 50350,
+  "<|az|>": 50304,
+  "<|ba|>": 50355,
+  "<|be|>": 50330,
+  "<|bg|>": 50292,
+  "<|bn|>": 50302,
+  "<|bo|>": 50347,
+  "<|br|>": 50309,
+  "<|bs|>": 50315,
+  "<|ca|>": 50270,
+  "<|cs|>": 50283,
+  "<|cy|>": 50297,
+  "<|da|>": 50285,
+  "<|de|>": 50261,
+  "<|el|>": 50281,
+  "<|en|>": 50259,
+  "<|es|>": 50262,
+  "<|et|>": 50307,
+  "<|eu|>": 50310,
+  "<|fa|>": 50300,
+  "<|fi|>": 50277,
+  "<|fo|>": 50338,
+  "<|fr|>": 50265,
+  "<|gl|>": 50319,
+  "<|gu|>": 50333,
+  "<|haw|>": 50352,
+  "<|ha|>": 50354,
+  "<|he|>": 50279,
+  "<|hi|>": 50276,
+  "<|hr|>": 50291,
+  "<|ht|>": 50339,
+  "<|hu|>": 50286,
+  "<|hy|>": 50312,
+  "<|id|>": 50275,
+  "<|is|>": 50311,
+  "<|it|>": 50274,
+  "<|ja|>": 50266,
+  "<|jw|>": 50356,
+  "<|ka|>": 50329,
+  "<|kk|>": 50316,
+  "<|km|>": 50323,
+  "<|kn|>": 50306,
+  "<|ko|>": 50264,
+  "<|la|>": 50294,
+  "<|lb|>": 50345,
+  "<|ln|>": 50353,
+  "<|lo|>": 50336,
+  "<|lt|>": 50293,
+  "<|lv|>": 50301,
+  "<|mg|>": 50349,
+  "<|mi|>": 50295,
+  "<|mk|>": 50308,
+  "<|ml|>": 50296,
+  "<|mn|>": 50314,
+  "<|mr|>": 50320,
+  "<|ms|>": 50282,
+  "<|mt|>": 50343,
+  "<|my|>": 50346,
+  "<|ne|>": 50313,
+  "<|nl|>": 50271,
+  "<|nn|>": 50342,
+  "<|nocaptions|>": 50362,
+  "<|notimestamps|>": 50363,
+  "<|no|>": 50288,
+  "<|oc|>": 50328,
+  "<|pa|>": 50321,
+  "<|pl|>": 50269,
+  "<|ps|>": 50340,
+  "<|pt|>": 50267,
+  "<|ro|>": 50284,
+  "<|ru|>": 50263,
+  "<|sa|>": 50344,
+  "<|sd|>": 50332,
+  "<|si|>": 50322,
+  "<|sk|>": 50298,
+  "<|sl|>": 50305,
+  "<|sn|>": 50324,
+  "<|so|>": 50326,
+  "<|sq|>": 50317,
+  "<|sr|>": 50303,
+  "<|startoflm|>": 50360,
+  "<|startofprev|>": 50361,
+  "<|startoftranscript|>": 50258,
+  "<|su|>": 50357,
+  "<|sv|>": 50273,
+  "<|sw|>": 50318,
+  "<|ta|>": 50287,
+  "<|te|>": 50299,
+  "<|tg|>": 50331,
+  "<|th|>": 50289,
+  "<|tk|>": 50341,
+  "<|tl|>": 50348,
+  "<|transcribe|>": 50359,
+  "<|translate|>": 50358,
+  "<|tr|>": 50268,
+  "<|tt|>": 50351,
+  "<|uk|>": 50280,
+  "<|ur|>": 50290,
+  "<|uz|>": 50337,
+  "<|vi|>": 50278,
+  "<|yi|>": 50335,
+  "<|yo|>": 50325,
+  "<|zh|>": 50260
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 6.05,
+    "eval_cer": 123.45306368849984,
+    "eval_loss": 3.212874174118042,
+    "eval_runtime": 303.2793,
+    "eval_samples_per_second": 3.251,
+    "eval_steps_per_second": 1.626,
+    "eval_wer": 118.50381679389312,
+    "train_loss": 3.0522214595794677,
+    "train_runtime": 5458.8622,
+    "train_samples_per_second": 1.832,
+    "train_steps_per_second": 0.916
+}

config.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+  "_name_or_path": "openai/whisper-large-v2",
+  "activation_dropout": 0.0,
+  "activation_function": "gelu",
+  "architectures": [
+    "WhisperForConditionalGeneration"
+  ],
+  "attention_dropout": 0.0,
+  "begin_suppress_tokens": [
+    220,
+    50257
+  ],
+  "bos_token_id": 50257,
+  "d_model": 1280,
+  "decoder_attention_heads": 20,
+  "decoder_ffn_dim": 5120,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 32,
+  "decoder_start_token_id": 50258,
+  "dropout": 0.0,
+  "encoder_attention_heads": 20,
+  "encoder_ffn_dim": 5120,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 32,
+  "eos_token_id": 50257,
+  "forced_decoder_ids": null,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 448,
+  "max_source_positions": 1500,
+  "max_target_positions": 448,
+  "model_type": "whisper",
+  "num_hidden_layers": 32,
+  "num_mel_bins": 80,
+  "pad_token_id": 50257,
+  "scale_embedding": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.25.1",
+  "use_cache": true,
+  "vocab_size": 51865
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 6.05,
+    "eval_cer": 123.45306368849984,
+    "eval_loss": 3.212874174118042,
+    "eval_runtime": 303.2793,
+    "eval_samples_per_second": 3.251,
+    "eval_steps_per_second": 1.626,
+    "eval_wer": 118.50381679389312
+}

label.txt ADDED Viewed

	@@ -0,0 +1 @@

+ label_str=['心理性別 ', '火燒尻川 ', '草仔色 ', '十三行 ', '水里鄉 ', '這搭有一个大商場 ', '聯合國 ', '菜頭籠仔 ', '辣椒 ', '肉筋 ', '新興區 ', '癩疒哥病 ', '覕冬 ', '摧仔 ', '西藥房 ', '心碎 ', '燒包仔 ', '通敨 ', '皇軍 ', '濁水溪出代誌 ', '粗細 ', '哀哼 ', '九年一貫 ', '精靈 ', '三寶 ', '速速 ', '坐疶咧等 ', '儑目袂曉看懸低 ', '圳後 ', '兩个人已經講和矣 ', '足媠 ', '細空喙 ', '掠著根頭 ', '茨城縣 ', '概率 ', '草人坑 ', '祝你生日快樂 ', '坑崁 ', '出水 ', '咇怦喘 ', '夯枷 ', '外勞 ', '臺灣人 ', '落湳 ', '苑裡坑 ', '坑仔內 ', '起慼到地 ', '雨晴 ', '紅蟲 ', '大湖 ', '誻誻叫 ', '柴球 ', '大胃王 ', '大稻埕 ', '偷壘 ', '鬆餅 ', '喙罨囊 ', '龍文 ', '時局 ', '摔死 ', '煞尾 ', '無話講茭荖 ', '下暗飯 ', '一籠 ', '一定考袂牢 ', '看一个影生一个囝 ', '倒踅 ', '筆型 ', '歸正修善 ', '滯到 ', '變天 ', '一工到暗 ', '雲吞 ', '有幾項菜 ', '炎舞 ', '鹿角龜 ', '過路線 ', '惡馬惡人騎 ', '粗俗 ', '這个偌濟錢 ', '七仔 ', '看甲凊凊楚楚 ', '戇神 ', '發生 ', '病囡仔 ', '心花當開 ', '番鼎仔 ', '老硞硞 ', '大傢伙 ', '名聲真敨 ', '攕烘肉 ', '滑 ', '龜蛇 ', '水雞皮仔 ', '攑硬篙 ', '抾無三門墓著想欲做土公 ', '紅圓仔 ', '臺北橋 ', '雲林縣 ', '臺中港 ', '水里 ', '臺南市 ', '七堵 ', '做功德 ', '大村鄉 ', '小喇叭 ', '紹 ', '漢草真好 ', '田嬰 ', '按呢生 ', '海尾 ', '無米閣拄著閏月 ', '枝香小細 ', '噗 ', '頭尾 ', '五短生張 ', '正常 ', '套牢咧 ', '動物性膠質 ', '雪文精 ', '悠遊卡 ', '你攏無歇睏喔 ', '埤頭鄉 ', '信義大安路口 ', '三三八八 ', '你話毋通烏白講 ', '麥寮鄉 ', '你莫定定挖肚臍 ', '新安路 ', '金錢毋是萬能的 ', '菠菱仔菜 ', '富寮里 ', '你是啥人 ', '反烏 ', '新街 ', '合銅 ', '疼疼 ', '番麥殼 ', '天氣冷矣你就愛加疊一領衫 ', '我到底看著啥物 ', '手扞仔 ', '姑不二三將 ', '品格 ', '透種仔 ', '漚腳數 ', '隔音壁 ', '拍通透 ', '開花滿天芳結子才驚人 ', '東北季風 ', '無人機 ', '做牛無惜力 ', '淨空排放 ', '這藥仔抹落去真緊就會退癀矣 ', '毛蓑仔 ', '抉喙䫌 ', '陽明山 ', '咖啡館 ', '囡仔色 ', '佇墜樓前一點鐘 ', '伊規心欲考大學 ', '東湖國中 ', '中原公園 ', '半路店 ', '檳榔坑 ', '東石鄉 ', '摒掃的 ', '無中心化 ', '肉粽角 ', '編譯器 ', '厝邊頭尾 ', '桃源街 ', '仁愛杭州路口 ', '千葉 ', '七色圖 ', '大吉大利 ', '尪仔頭鏡 ', '徐 ', '咱做代誌的時陣 ', '包水餃 ', '歹鳥毋知飛歹柴破袂開 ', '分裝場 ', '健康中心 ', '印度尼西亞 ', '新里族 ', '獅仔頭 ', '大度路 ', '市仔 ', '露營區 ', '學姐 ', '枋南線 ', '虎尾鎮 ', '瀉腹肚 ', '恆春鎮 ', '小血球 ', '破格 ', '我衫攏穿上大領 ', '溜落來 ', '半條命 ', '生活習慣 ', '電影間 ', '菜脯卵 ', '塗塗塗 ', '鐵甲牛 ', '風火頭 ', '現流仔 ', '白了工 ', '空港 ', '較大 ', '公正橋 ', '巴結 ', '果汁 ', '有䆀無一好 ', '這時 ', '竹北 ', '下早 ', '較早睏 ', '六六大順 ', '公視 ', '趕趕緊緊 ', '帕仔 ', '藍瘦香菇 ', '山貓 ', '大頭狗母 ', '土板仁豆 ', '咧 ', '內緣 ', '阮會曉唸 ', '茶末 ', '真有喙水 ', '魔導士 ', '先承認你就是恁朋友 ', '青山王 ', '奧克蘭 ', '金東 ', '便若 ', '陳奕齊 ', '九尾金 ', '貓空 ', '過 tang跤 ', '頭汴坑溪 ', '無定著 ', '控機仔 ', '趨湧 ', '中洲 ', '青田街 ', '同房 ', '鼢底的 ', '多元性別 ', '舊厝 ', '貓潲 ', '福連國小 ', '點撇 ', '玜玳 ', '欲起鼓矣 ', '納豆 ', '中環 ', '你死我活 ', '踏著歹地步 ', '曲去 ', '怙喙講个無準算 ', '交力坪 ', '愈來愈嚴重 ', '一个一个 ', '淡江大橋 ', '上大代死煞 ', '檨仔葉公 ', '胳胴跤 ', '郁永河 ', '講啥物芋仔番薯 ', '霓 ', '青盲雞啄著蟲 ', '搣屎毋知臭 ', '斗南 ', '孤笑無嗣 ', '水鬼仔 ', '門將 ', '手控 ', '心胞膜炎 ', '敢食汽油 ', '阿卜蛇 ', '機動戰士 ', '便當 ', '敧一爿 ', '敲仙古 ', '所羅門群島 ', '終界 ', '我愛台語 ', '溝頂 ', '墊定 ', '詳解 ', '火燒 ', '絡繹不 �� ', '尻川門 ', '甌仔疊碟仔 ', '黃巾甕仔 ', '汕 ', '生甲袂䆀 ', '狗母酥 ', '倚桌仔 ', '中央大學 ', '石門水庫 ', '亂使想 ', '百貨店 ', '酸素矸 ', '蛤 kai', '洗衫仔枋 ', '天台 ', '數位 pay', '漚缺 ', '鈍市貨 ', '偷走壘 ', '夭壽鬼 ', '好所在 ', '軟市 ', '徹理 ', '現挽 ', '叫電話 ', '伊生做遮爾臭老 ', '魔神仔咒讖 ', '一點點仔 ', '兩光 ', '契查某囝 ', '提著 ', '傷心酒店 ', '過失致死 ', '較拚咧 ', '透身大汗 ', '碌硞馬仔 ', '兄弟姊妹著愛仝心 ', '家伙仔 ', '垃圾物仔 ', '狐狸貂 ', '石斑 ', '虎魚 ', '落雨了後塗跤變甲澹漉漉 ', '較慘 ', '基隆市 ', '你欲行對佗位去 ', '敦化和平路口 ', '港仔喙 ', '阮囝今年二十出頭矣 ', '新港飴 ', '哀父叫母 ', '一份 ', '毛毛仔雨 ', '磐安 ', '牛籠 ', '袂看得 ', '立功立德 ', '龜山島 ', '過晝 ', '捒做堆 ', '梅仔跤 ', '包帶 ', '番地 ', '三重 ', '林子口 ', '筆電 ', '操刀 ', '揣轉來 ', '指中指 ', '珠仔台 ', '新廍 ', '相帶 ', '頂塊廖 ', '竹南 ', '你共包仔提去熁燒一下 ', '平方根 ', '頂公館 ', '散仙 ', '演藝界 ', '繪本 ', '毋情毋願 ', '較緊 ', '有也好無也好 ', '操心 ', '摃槌仔龍 ', '怪奇古 ', '國破家亡 ', '新羅 ', '貴氣 ', '沓沓仔 ', '拍薄 ', '物件若予伊提過手 ', '輾仔鞋 ', '異界 ', '鼠尾風 ', '湖內 ', '提走 ', '無打無啥 ', '我欲準備落山矣 ', '盜用 ', '聽無 ', '彼个頭家娘對人客誠好禮 ', '大細輦 ', '無歇 ', '無疑悟你會出國讀冊 ', '石園 ', '嘉義 ', '後寮 ', '我攏有看著 ', '劍南路 ', '歹天 ', '三跤步一坎店 ', '臘肉 ', '舊里族 ', '下晡點心 ', '冷管 ', '無及格 ', '公允 ', '十喙九尻川 ', '投影片 ', '納錢 ', '墓坑鳥 ', '活餌桶仔 ', '激屎面 ', '袂對同 ', '紡織機 ', '木質部 ', '落口講出來 ', '投丁 ', '棚頂做甲流汗棚跤嫌甲流瀾 ', '僫鬥陣 ', '拍死板 ', '捅鼻 ', '搭峇 ', '簡述 ', '一个接一个 ', '緊來旋 ', '閒仔話 ', '拍爽 ', '德拉瓦 ', '總舖 ', '三日不見久溜溜 ', '合掛 ', '手神重 ', '電子 ', '暗空 ', '瘦食 ', '塑膠車 ', '要意 ', '燒雞胿 ', '吊猴 ', '掠猴 ', '暗頭仔 ', '濟囝濟擘腹濟新婦濟體剔 ', '交球 ', '無拄好 ', '搶頭標 ', '金環失日 ', '觀音大士 ', '在準 ', '欲暗矣 ', '嘔落 ', '蛣蛚 ', '一目仔 ', '提款片 ', '無你个代 ', '天公祖 ', '串講 ', '離題 ', '馬鈴薯條 ', '做塗水的 ', '人情味 ', '劉銘傳 ', '肝包油 ', '糖醋 ', '二戰 ', '拍鐵師 ', '慢一跤步 ', '提批的 ', '下禮拜 ', '死亡之握 ', '你毋通囥佇心肝內 ', '臭龜仔 ', '趁一空食三冬 ', '我欲學臺語 ', '埋 ', '馬卡道 ', '箍喙罨 ', '貴州省 ', '敦化北路 ', '你看起來是遮爾仔媠 ', '精个食戇戇个食天公 ', '轉去 ', '下晡市 ', '幾个 ', '邦長 ', '港墘 ', '字條仔 ', '無去矣 ', '言行錄 ', '買空 ', '六點 ', '死忠 ', '石母奶 ', '耳仔機 ', '貢寮區 ', '含血噴天 ', '大好額人 ', '行政院 ', '食市 ', '九塊厝 ', '冷清 ', '月光 ', '種喙齒 ', '街友 ', '天公星 ', '縣 ', '愛臺語 ', '我強欲袂赴矣 ', '添飯 ', '有連線 ', '昶 ', '中國話 ', '攑香綴拜 ', '四跤草 ', '疼風 ', '觀覽 ', '吉祥卵 ', '擲掉 ', '打狗山 ', '西瓜倚大爿 ', '有這款的代誌我攏毋知 ', '磨豆仔機 ', '國姓爺 ', '林口區 ', '潘 ', '可算名詞 ', '代誌大碗 ', '半信半疑 ', '恬稚恬稚討客兄唯是 ', '遛光光 ', '扲糖無洗手的朋友 ', '烏日 ', '魏風 ', '膵臟 ', '犯險 ', '連半个人影嘛無 ', '吊褲 ', '塗水工 ', '霧嗄嗄 ', '飛行船 ', '欲完矣 ', '運將 ', '恁老母拄咧念你 ', '伊有誠濟內孫 ', '港仔喙國小 ', '橐個束個 ', '落尾 ', '平枋電腦 ', '毛毛仔雨落久塗塗嘛會澹 ', '冷滾水 ', '一个紅龜按一个位 ', '鹹酥雞 ', '雞卵糕仔 ', '溼汗 ', '諸島 ', '聖誕老阿公 ', '天頂白茫茫 ', '飯煎 ', '男權 ', '毋認輸 ', '餘溫 ', '包山包海 ', '踮空龜 ', '洗衫精 ', '迒境電商 ', '開喙蚶粒粒臭 ', '焦水期 ', '老龜精 ', '塑膠橐仔 ', '蘇維埃聯盟 ', '臭水 ', '束頷頸仔 ', '飛行機 ', '平溪 ', '唯恐天下不亂 ', '錢票 ', '瓜仔鬚 ', '羊角三劍 ', '半腰 ', '辭彙 ', '衝湧 ', '敢有問題 ', '食涼 ', '畫蛇添足 ', '做塗水 ', '怪奇 ', '板金 ', '交關 ', '海牙 ', '中山路 ', '番仔狗 ', '粉圓仔 ', '龜龜毛毛 ', '毋捌字看告示 ', '表單 ', '莒光號 ', '海豬仔 ', '猴頭果 ', '翕新娘相 ', '面書 ', '茶葉蛋 ', '花枝招展 ', '食人一口還人一斗 ', '鐵彈 ', '東白仔 ', '年兜 ', '佛心投資者 ', '人講綴人講 ', '金剛戰士 ', '做肉餅 ', '相駁喙 ', '鸚哥魚 ', '扁桃泉 ', '一筆錢 ', '果菜 ', '柑仔蜜醬 ', '一枝草一點露 ', '早時 ', '大頭母人 ', '包的 ', '頂禮拜 ', '尿苴仔 ', '人驚鬼鬼驚人 ', '無記持症 ', '日落山 ', '偏鄉 ', '拭塗跤 ', '袂死心 ', '蓋濟 ', '左右鄰 ', '有聽著無 ', '大圓埕 ', '斗籠仔本 ', '摃寇 ', '野蓮 ', '勥查某 ', '暗頓食啥 ', '草其略仔 ', '暢快 ', '小包 ', '薄餅 ', '趒 ', '暖帽 ', '無精彩 ', '內家 ', '鬍鬚 ', '燒仙草 ', '痀崙 ', '吳剛剉桂 ', '沙灘 ', '人聲喊喝 ', '天公無帶著 ', '望安鄉 ', '食風 ', '分子 ', '批車 ', '大舌 ', '公館路 ', '碧潭路 ', '臺北歐洲學校小學部 ', '充耳不聞 ', '四份仔 ', '頭崁的 ', '南機場 ', '永綏街 ', '朴子溪 ', '池上 ', '跤車 ', '管待 ', '苦袂當 ', '陳滄江 ', '缺囝化 ', '硨磲 ', '共人唌 ', '頂塊黃 ', '潮州街口 ', '社群 ', '鄉長厝 ', '豐樂公園 ', '金湖鎮 ', '忠孝復興 ', '民族區運路口 ', '松信路 ', '糋麭粉 ', '鄞州 ', '台北聯絡線 ', '又閣咧咳嗽 ', '伊加我一輩 ', '霜仔 ', '魚池鄉 ', '囝甘仔囝 ', '四跤水仙 ', '暖暖區 ', '用齒抿仔洗喙時愛先捋齒膏 ', '新社 ', '母身若顧予伊好 ', '實喉 ', '埔尾 ', '步路 ', '冰糖 ', '復興橋 ', '阿拉 ', '繏絚 ', '員林市 ', '蝦糋 ', '戇代誌 ', '年拄年 ', '景興路 ', '海結仔頭 ', '一過半過 ', '實聯制 ', '後擴 ', '瑞芳 ', '蘭嶼貓頭鳥 ', '貓羅溪 ', '子宮喙癌 ', '果子宅 ', '假說 ', '不在 ', '燕巢區 ', '上海毛蟹 ', '意式麵 ', '捲風 ', '話語之中 ', '皮蛋精肉糜 ', '紅豆仔麭 ', '頂回 ', '相見 ', '三兩人講四斤話 ', '梘尾 ', '質子 ', '兩箍 ', '真珠看做鳥鼠屎 ', '天晴 ', '角運動量 ', '莫問足恐怖 ', '鼻隔間 ', '叨撚 ', '止疼藥 ', '恙蟲病 ', '火成岩 ', '許崑源 ', '土象 ', '豬頭癀 ', '禁喙 ', '昨昏 ', '卡通 ', '番薯片 ', '砰去 ', '卵珠 ', '歡喜甘願 ', '大海毋驚大水 ', '橫的 ', '跤手賤 ', '旭 ', '仙巴掌 ', '徛桌櫃 ', '查畝營 ', '番薯球 ', '芳料草 ', '大火 ', '夥計某 ', '英國話 ', '明知故問 ', '老街 ', '看有 ', '燃柴添火著 ', '藝文活動 ', '臺羅字 ', '利 ', '金煌檨 ', '死袂見笑 ', '嚇止 ', '加法 ', '馬鈴薯片 ', '日頭曝尻川矣閣毋起來 ', '英語課本 ', '凍水機 ', '大肚胿仔 ', '卑南 ', '袂當干焦我看著 ', '牛睏山 ', '代誌好勢矣未 ', '媠氣 ', '景文街 ', '咒天咒地 ', '今年是一个好年冬 ', '事假 ', '烏山頭 ', '三講四毋著 ', '語素文字 ', '反差 ', '大日本帝國 ', '迒界網商 ', '嚨喉 ', '褪躘 ', '莫假 ', '緊去做代誌較要緊 ', '你講啥 ', '頸椎 ', '違扴 ', '身體健康 ', '跤手十足 ', '電磁學 ', '繫年 ', '大鑼大鼓 ', '伊是一个大美人 ', '解溶 ', '磅去 ', '你陪我去彼爿好無 ', '網路用甲牢咧 ', '酒駛 ', '孤單一身 ', '家治 ', '死忠迷眾 ', '浮洲仔 ', '孤行獨市 ', '日冕 ', '注目 ', '擉仔 ', '燒狗 ', '名喙 ', '創辦人 ', '水燦林 ', '飼奶動物 ', '目睭擘金 ', '抾囡仔 ', '我予滾水燙一下膨疱足疼的 ', '象桮 ', '有的人 ', '瓜月 ', '三字經 ', '飯焦 ', '天車 ', '梅毒 ', '目仔久 ', '耙形 ', '便物 ', '鹽酸草 ', '番仔番薯 ', '每一擺來你攏煮好料的 ', '來喔緊來看喔 ', '番界 ', '總書記 ', '破柴 ', '列位 ', '鳳山 ', '劉厝 ', '凱旋武昌 ', '金美國小 ', '竹北市 ', '橋頭區 ', '南州 ', '和美鎮 ', '中壢 ', '西區 ', '國泰 ', '水長流 ', '中央路 ', '南福德 ', '金華大廈 ', '獅甲 ', '士林區 ', '紙票變厚 ', '中山橋 ', '彰化銀行 ', '黃國昌 ', '翠峰橋 ', '花仔菜 ', '中正國小 ', '按呢就好 ', '老去矣 ', '車埕 ', '南陽街 ', '匈奴 ', '松壽路口 ', '中坑 ', '不速之客 ', '瑞源 ', '後驛 ', '大稻埕 ', '鳥仔弓 ', '再敗 ', '新營區 ', '正義郵局 ', '寧夏路 ', '動漫 ', '大和園 ', '仁愛鄉 ', '快龍 ', '範 ', '西面 ', '食鹼 ', '吊懸低 ', '先生娘 ', '拍鐵寮 ', '露營區 ', '韻尾 ', '外雙溪 ', '信義區 ', '恁阿母敢知影你佇遮發廢文 ', '敢按呢 ', '厚操煩 ', '望星橋 ', '姊夫 ', '十二甲 ', '文昌橋 ', '有要緊無 ', '林內鄉 ', '紅目石獅 ', '囡仔人嘛看有 ', '聽帶 ', '歕鼓吹 ', '歹喙斗 ', '查某營 ', '滷菜頭 ', '跳過 ', '鴨母拖秤錘 ', '不貪不取 ', '契兄 ', '白墨粉 ', '天安門廣場 ', '投文 ', '隱名化 ', '粗花 ', '雞籠蜂 ', '暗眠摸山貓 ', '袂曉講話 ', '搖床 ', '順序 ', '捎攏無 ', '企業家 ', '梯度 ', '足久無看見 ', '起雞母皮 ', '台東 ', '不見天 ', '內華達 ', '釣蝦仔場 ', '罟寮仔 ', '五支指頭仔咬起來逐支嘛疼 ', '羊毛揻 ', '厝尾頂 ', '扞事人 ', '大箍 ', '較低 ', '客服 ', '鴨母泅 ', '蚵仔菇 ', '海口 ', '阿里不達 ', '反桌 ', '截 ', '屎啦 ', '臭屎星 ', '摸王爺尻川 ', '切腹 ', '雄三飛彈 ', '一切攏是假的 ', '小山崙仔 ', '剪仔龜 ', '青盲仔目鏡 ', '親愛的 ', '在地大漢 ', '欲去佗位 ', '崁頭鴨 ', '冕旒 ', '跩著 ', '雞仔腸鳥仔肚 ', '門擋仔 ', '菱角龍 ', '狗頭芙蓉 ', '癱瘓 ', '我欲去便所 ', '彼當時 ', '鼻淚管 ', '代誌毋好 ', '浸透 ', '瓦斯彈 ', '材料科學 ', '甕底水雞 ', '匯錢 ', '睏袂去 ']

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

normalizer.json ADDED Viewed

	@@ -0,0 +1,1742 @@

+{
+  "accessorise": "accessorize",
+  "accessorised": "accessorized",
+  "accessorises": "accessorizes",
+  "accessorising": "accessorizing",
+  "acclimatisation": "acclimatization",
+  "acclimatise": "acclimatize",
+  "acclimatised": "acclimatized",
+  "acclimatises": "acclimatizes",
+  "acclimatising": "acclimatizing",
+  "accoutrements": "accouterments",
+  "aeon": "eon",
+  "aeons": "eons",
+  "aerogramme": "aerogram",
+  "aerogrammes": "aerograms",
+  "aeroplane": "airplane",
+  "aeroplanes": "airplanes",
+  "aesthete": "esthete",
+  "aesthetes": "esthetes",
+  "aesthetic": "esthetic",
+  "aesthetically": "esthetically",
+  "aesthetics": "esthetics",
+  "aetiology": "etiology",
+  "ageing": "aging",
+  "aggrandisement": "aggrandizement",
+  "agonise": "agonize",
+  "agonised": "agonized",
+  "agonises": "agonizes",
+  "agonising": "agonizing",
+  "agonisingly": "agonizingly",
+  "almanack": "almanac",
+  "almanacks": "almanacs",
+  "aluminium": "aluminum",
+  "amortisable": "amortizable",
+  "amortisation": "amortization",
+  "amortisations": "amortizations",
+  "amortise": "amortize",
+  "amortised": "amortized",
+  "amortises": "amortizes",
+  "amortising": "amortizing",
+  "amphitheatre": "amphitheater",
+  "amphitheatres": "amphitheaters",
+  "anaemia": "anemia",
+  "anaemic": "anemic",
+  "anaesthesia": "anesthesia",
+  "anaesthetic": "anesthetic",
+  "anaesthetics": "anesthetics",
+  "anaesthetise": "anesthetize",
+  "anaesthetised": "anesthetized",
+  "anaesthetises": "anesthetizes",
+  "anaesthetising": "anesthetizing",
+  "anaesthetist": "anesthetist",
+  "anaesthetists": "anesthetists",
+  "anaesthetize": "anesthetize",
+  "anaesthetized": "anesthetized",
+  "anaesthetizes": "anesthetizes",
+  "anaesthetizing": "anesthetizing",
+  "analogue": "analog",
+  "analogues": "analogs",
+  "analyse": "analyze",
+  "analysed": "analyzed",
+  "analyses": "analyzes",
+  "analysing": "analyzing",
+  "anglicise": "anglicize",
+  "anglicised": "anglicized",
+  "anglicises": "anglicizes",
+  "anglicising": "anglicizing",
+  "annualised": "annualized",
+  "antagonise": "antagonize",
+  "antagonised": "antagonized",
+  "antagonises": "antagonizes",
+  "antagonising": "antagonizing",
+  "apologise": "apologize",
+  "apologised": "apologized",
+  "apologises": "apologizes",
+  "apologising": "apologizing",
+  "appal": "appall",
+  "appals": "appalls",
+  "appetiser": "appetizer",
+  "appetisers": "appetizers",
+  "appetising": "appetizing",
+  "appetisingly": "appetizingly",
+  "arbour": "arbor",
+  "arbours": "arbors",
+  "archaeologically": "archeologically",
+  "archaeologist": "archeologist",
+  "archaeologists": "archeologists",
+  "archaeology": "archeology</span>",
+  "archeological": "archaeological",
+  "ardour": "ardor",
+  "armour": "armor",
+  "armoured": "armored",
+  "armourer": "armorer",
+  "armourers": "armorers",
+  "armouries": "armories",
+  "armoury": "armory",
+  "artefact": "artifact",
+  "artefacts": "artifacts",
+  "authorise": "authorize",
+  "authorised": "authorized",
+  "authorises": "authorizes",
+  "authorising": "authorizing",
+  "axe": "ax",
+  "backpedalled": "backpedaled",
+  "backpedalling": "backpedaling",
+  "bannister": "banister",
+  "bannisters": "banisters",
+  "baptise": "baptize",
+  "baptised": "baptized",
+  "baptises": "baptizes",
+  "baptising": "baptizing",
+  "bastardise": "bastardize",
+  "bastardised": "bastardized",
+  "bastardises": "bastardizes",
+  "bastardising": "bastardizing",
+  "battleax": "battleaxe",
+  "baulk": "balk",
+  "baulked": "balked",
+  "baulking": "balking",
+  "baulks": "balks",
+  "bedevilled": "bedeviled",
+  "bedevilling": "bedeviling",
+  "behaviour": "behavior",
+  "behavioural": "behavioral",
+  "behaviourism": "behaviorism",
+  "behaviourist": "behaviorist",
+  "behaviourists": "behaviorists",
+  "behaviours": "behaviors",
+  "behove": "behoove",
+  "behoved": "behooved",
+  "behoves": "behooves",
+  "bejewelled": "bejeweled",
+  "belabour": "belabor",
+  "belaboured": "belabored",
+  "belabouring": "belaboring",
+  "belabours": "belabors",
+  "bevelled": "beveled",
+  "bevvies": "bevies",
+  "bevvy": "bevy",
+  "biassed": "biased",
+  "biassing": "biasing",
+  "bingeing": "binging",
+  "bougainvillaea": "bougainvillea",
+  "bougainvillaeas": "bougainvilleas",
+  "bowdlerise": "bowdlerize",
+  "bowdlerised": "bowdlerized",
+  "bowdlerises": "bowdlerizes",
+  "bowdlerising": "bowdlerizing",
+  "breathalyse": "breathalyze",
+  "breathalysed": "breathalyzed",
+  "breathalyser": "breathalyzer",
+  "breathalysers": "breathalyzers",
+  "breathalyses": "breathalyzes",
+  "breathalysing": "breathalyzing",
+  "brutalise": "brutalize",
+  "brutalised": "brutalized",
+  "brutalises": "brutalizes",
+  "brutalising": "brutalizing",
+  "busses": "buses",
+  "bussing": "busing",
+  "caesarean": "cesarean",
+  "caesareans": "cesareans",
+  "calibre": "caliber",
+  "calibres": "calibers",
+  "calliper": "caliper",
+  "callipers": "calipers",
+  "callisthenics": "calisthenics",
+  "canalise": "canalize",
+  "canalised": "canalized",
+  "canalises": "canalizes",
+  "canalising": "canalizing",
+  "cancelation": "cancellation",
+  "cancelations": "cancellations",
+  "cancelled": "canceled",
+  "cancelling": "canceling",
+  "candour": "candor",
+  "cannibalise": "cannibalize",
+  "cannibalised": "cannibalized",
+  "cannibalises": "cannibalizes",
+  "cannibalising": "cannibalizing",
+  "canonise": "canonize",
+  "canonised": "canonized",
+  "canonises": "canonizes",
+  "canonising": "canonizing",
+  "capitalise": "capitalize",
+  "capitalised": "capitalized",
+  "capitalises": "capitalizes",
+  "capitalising": "capitalizing",
+  "caramelise": "caramelize",
+  "caramelised": "caramelized",
+  "caramelises": "caramelizes",
+  "caramelising": "caramelizing",
+  "carbonise": "carbonize",
+  "carbonised": "carbonized",
+  "carbonises": "carbonizes",
+  "carbonising": "carbonizing",
+  "carolled": "caroled",
+  "carolling": "caroling",
+  "catalogue": "catalog",
+  "catalogued": "cataloged",
+  "catalogues": "catalogs",
+  "cataloguing": "cataloging",
+  "catalyse": "catalyze",
+  "catalysed": "catalyzed",
+  "catalyses": "catalyzes",
+  "catalysing": "catalyzing",
+  "categorise": "categorize",
+  "categorised": "categorized",
+  "categorises": "categorizes",
+  "categorising": "categorizing",
+  "cauterise": "cauterize",
+  "cauterised": "cauterized",
+  "cauterises": "cauterizes",
+  "cauterising": "cauterizing",
+  "cavilled": "caviled",
+  "cavilling": "caviling",
+  "centigramme": "centigram",
+  "centigrammes": "centigrams",
+  "centilitre": "centiliter",
+  "centilitres": "centiliters",
+  "centimetre": "centimeter",
+  "centimetres": "centimeters",
+  "centralise": "centralize",
+  "centralised": "centralized",
+  "centralises": "centralizes",
+  "centralising": "centralizing",
+  "centre": "center",
+  "centred": "centered",
+  "centrefold": "centerfold",
+  "centrefolds": "centerfolds",
+  "centrepiece": "centerpiece",
+  "centrepieces": "centerpieces",
+  "centres": "centers",
+  "channelled": "channeled",
+  "channelling": "channeling",
+  "characterise": "characterize",
+  "characterised": "characterized",
+  "characterises": "characterizes",
+  "characterising": "characterizing",
+  "cheque": "check",
+  "chequebook": "checkbook",
+  "chequebooks": "checkbooks",
+  "chequered": "checkered",
+  "cheques": "checks",
+  "chilli": "chili",
+  "chimaera": "chimera",
+  "chimaeras": "chimeras",
+  "chiselled": "chiseled",
+  "chiselling": "chiseling",
+  "circularise": "circularize",
+  "circularised": "circularized",
+  "circularises": "circularizes",
+  "circularising": "circularizing",
+  "civilise": "civilize",
+  "civilised": "civilized",
+  "civilises": "civilizes",
+  "civilising": "civilizing",
+  "clamour": "clamor",
+  "clamoured": "clamored",
+  "clamouring": "clamoring",
+  "clamours": "clamors",
+  "clangour": "clangor",
+  "clarinettist": "clarinetist",
+  "clarinettists": "clarinetists",
+  "collectivise": "collectivize",
+  "collectivised": "collectivized",
+  "collectivises": "collectivizes",
+  "collectivising": "collectivizing",
+  "colonisation": "colonization",
+  "colonise": "colonize",
+  "colonised": "colonized",
+  "coloniser": "colonizer",
+  "colonisers": "colonizers",
+  "colonises": "colonizes",
+  "colonising": "colonizing",
+  "colour": "color",
+  "colourant": "colorant",
+  "colourants": "colorants",
+  "coloured": "colored",
+  "coloureds": "coloreds",
+  "colourful": "colorful",
+  "colourfully": "colorfully",
+  "colouring": "coloring",
+  "colourize": "colorize",
+  "colourized": "colorized",
+  "colourizes": "colorizes",
+  "colourizing": "colorizing",
+  "colourless": "colorless",
+  "colours": "colors",
+  "commercialise": "commercialize",
+  "commercialised": "commercialized",
+  "commercialises": "commercializes",
+  "commercialising": "commercializing",
+  "compartmentalise": "compartmentalize",
+  "compartmentalised": "compartmentalized",
+  "compartmentalises": "compartmentalizes",
+  "compartmentalising": "compartmentalizing",
+  "computerise": "computerize",
+  "computerised": "computerized",
+  "computerises": "computerizes",
+  "computerising": "computerizing",
+  "conceptualise": "conceptualize",
+  "conceptualised": "conceptualized",
+  "conceptualises": "conceptualizes",
+  "conceptualising": "conceptualizing",
+  "connexion": "connection",
+  "connexions": "connections",
+  "contextualise": "contextualize",
+  "contextualised": "contextualized",
+  "contextualises": "contextualizes",
+  "contextualising": "contextualizing",
+  "cosier": "cozier",
+  "cosies": "cozies",
+  "cosiest": "coziest",
+  "cosily": "cozily",
+  "cosiness": "coziness",
+  "cosy": "cozy",
+  "councillor": "councilor",
+  "councillors": "councilors",
+  "counselled": "counseled",
+  "counselling": "counseling",
+  "counsellor": "counselor",
+  "counsellors": "counselors",
+  "crenelated": "crenellated",
+  "criminalise": "criminalize",
+  "criminalised": "criminalized",
+  "criminalises": "criminalizes",
+  "criminalising": "criminalizing",
+  "criticise": "criticize",
+  "criticised": "criticized",
+  "criticises": "criticizes",
+  "criticising": "criticizing",
+  "crueller": "crueler",
+  "cruellest": "cruelest",
+  "crystallisation": "crystallization",
+  "crystallise": "crystallize",
+  "crystallised": "crystallized",
+  "crystallises": "crystallizes",
+  "crystallising": "crystallizing",
+  "cudgelled": "cudgeled",
+  "cudgelling": "cudgeling",
+  "customise": "customize",
+  "customised": "customized",
+  "customises": "customizes",
+  "customising": "customizing",
+  "cypher": "cipher",
+  "cyphers": "ciphers",
+  "decentralisation": "decentralization",
+  "decentralise": "decentralize",
+  "decentralised": "decentralized",
+  "decentralises": "decentralizes",
+  "decentralising": "decentralizing",
+  "decriminalisation": "decriminalization",
+  "decriminalise": "decriminalize",
+  "decriminalised": "decriminalized",
+  "decriminalises": "decriminalizes",
+  "decriminalising": "decriminalizing",
+  "defence": "defense",
+  "defenceless": "defenseless",
+  "defences": "defenses",
+  "dehumanisation": "dehumanization",
+  "dehumanise": "dehumanize",
+  "dehumanised": "dehumanized",
+  "dehumanises": "dehumanizes",
+  "dehumanising": "dehumanizing",
+  "demeanour": "demeanor",
+  "demilitarisation": "demilitarization",
+  "demilitarise": "demilitarize",
+  "demilitarised": "demilitarized",
+  "demilitarises": "demilitarizes",
+  "demilitarising": "demilitarizing",
+  "demobilisation": "demobilization",
+  "demobilise": "demobilize",
+  "demobilised": "demobilized",
+  "demobilises": "demobilizes",
+  "demobilising": "demobilizing",
+  "democratisation": "democratization",
+  "democratise": "democratize",
+  "democratised": "democratized",
+  "democratises": "democratizes",
+  "democratising": "democratizing",
+  "demonise": "demonize",
+  "demonised": "demonized",
+  "demonises": "demonizes",
+  "demonising": "demonizing",
+  "demoralisation": "demoralization",
+  "demoralise": "demoralize",
+  "demoralised": "demoralized",
+  "demoralises": "demoralizes",
+  "demoralising": "demoralizing",
+  "denationalisation": "denationalization",
+  "denationalise": "denationalize",
+  "denationalised": "denationalized",
+  "denationalises": "denationalizes",
+  "denationalising": "denationalizing",
+  "deodorise": "deodorize",
+  "deodorised": "deodorized",
+  "deodorises": "deodorizes",
+  "deodorising": "deodorizing",
+  "depersonalise": "depersonalize",
+  "depersonalised": "depersonalized",
+  "depersonalises": "depersonalizes",
+  "depersonalising": "depersonalizing",
+  "deputise": "deputize",
+  "deputised": "deputized",
+  "deputises": "deputizes",
+  "deputising": "deputizing",
+  "desensitisation": "desensitization",
+  "desensitise": "desensitize",
+  "desensitised": "desensitized",
+  "desensitises": "desensitizes",
+  "desensitising": "desensitizing",
+  "destabilisation": "destabilization",
+  "destabilise": "destabilize",
+  "destabilised": "destabilized",
+  "destabilises": "destabilizes",
+  "destabilising": "destabilizing",
+  "dialled": "dialed",
+  "dialling": "dialing",
+  "dialogue": "dialog",
+  "dialogues": "dialogs",
+  "diarrhoea": "diarrhea",
+  "digitise": "digitize",
+  "digitised": "digitized",
+  "digitises": "digitizes",
+  "digitising": "digitizing",
+  "disc": "disk",
+  "discolour": "discolor",
+  "discoloured": "discolored",
+  "discolouring": "discoloring",
+  "discolours": "discolors",
+  "discs": "disks",
+  "disembowelled": "disemboweled",
+  "disembowelling": "disemboweling",
+  "disfavour": "disfavor",
+  "dishevelled": "disheveled",
+  "dishonour": "dishonor",
+  "dishonourable": "dishonorable",
+  "dishonourably": "dishonorably",
+  "dishonoured": "dishonored",
+  "dishonouring": "dishonoring",
+  "dishonours": "dishonors",
+  "disorganisation": "disorganization",
+  "disorganised": "disorganized",
+  "distil": "distill",
+  "distils": "distills",
+  "dramatisation": "dramatization",
+  "dramatisations": "dramatizations",
+  "dramatise": "dramatize",
+  "dramatised": "dramatized",
+  "dramatises": "dramatizes",
+  "dramatising": "dramatizing",
+  "draught": "draft",
+  "draughtboard": "draftboard",
+  "draughtboards": "draftboards",
+  "draughtier": "draftier",
+  "draughtiest": "draftiest",
+  "draughts": "drafts",
+  "draughtsman": "draftsman",
+  "draughtsmanship": "draftsmanship",
+  "draughtsmen": "draftsmen",
+  "draughtswoman": "draftswoman",
+  "draughtswomen": "draftswomen",
+  "draughty": "drafty",
+  "drivelled": "driveled",
+  "drivelling": "driveling",
+  "duelled": "dueled",
+  "duelling": "dueling",
+  "economise": "economize",
+  "economised": "economized",
+  "economises": "economizes",
+  "economising": "economizing",
+  "editorialise": "editorialize",
+  "editorialised": "editorialized",
+  "editorialises": "editorializes",
+  "editorialising": "editorializing",
+  "edoema": "edema",
+  "empathise": "empathize",
+  "empathised": "empathized",
+  "empathises": "empathizes",
+  "empathising": "empathizing",
+  "emphasise": "emphasize",
+  "emphasised": "emphasized",
+  "emphasises": "emphasizes",
+  "emphasising": "emphasizing",
+  "enamelled": "enameled",
+  "enamelling": "enameling",
+  "enamoured": "enamored",
+  "encyclopaedia": "encyclopedia",
+  "encyclopaedias": "encyclopedias",
+  "encyclopaedic": "encyclopedic",
+  "endeavour": "endeavor",
+  "endeavoured": "endeavored",
+  "endeavouring": "endeavoring",
+  "endeavours": "endeavors",
+  "energise": "energize",
+  "energised": "energized",
+  "energises": "energizes",
+  "energising": "energizing",
+  "enrol": "enroll",
+  "enrols": "enrolls",
+  "enthral": "enthrall",
+  "enthrals": "enthralls",
+  "epaulette": "epaulet",
+  "epaulettes": "epaulets",
+  "epicentre": "epicenter",
+  "epicentres": "epicenters",
+  "epilogue": "epilog",
+  "epilogues": "epilogs",
+  "epitomise": "epitomize",
+  "epitomised": "epitomized",
+  "epitomises": "epitomizes",
+  "epitomising": "epitomizing",
+  "equalisation": "equalization",
+  "equalise": "equalize",
+  "equalised": "equalized",
+  "equaliser": "equalizer",
+  "equalisers": "equalizers",
+  "equalises": "equalizes",
+  "equalising": "equalizing",
+  "eulogise": "eulogize",
+  "eulogised": "eulogized",
+  "eulogises": "eulogizes",
+  "eulogising": "eulogizing",
+  "evangelise": "evangelize",
+  "evangelised": "evangelized",
+  "evangelises": "evangelizes",
+  "evangelising": "evangelizing",
+  "exorcise": "exorcize",
+  "exorcised": "exorcized",
+  "exorcises": "exorcizes",
+  "exorcising": "exorcizing",
+  "extemporisation": "extemporization",
+  "extemporise": "extemporize",
+  "extemporised": "extemporized",
+  "extemporises": "extemporizes",
+  "extemporising": "extemporizing",
+  "externalisation": "externalization",
+  "externalisations": "externalizations",
+  "externalise": "externalize",
+  "externalised": "externalized",
+  "externalises": "externalizes",
+  "externalising": "externalizing",
+  "factorise": "factorize",
+  "factorised": "factorized",
+  "factorises": "factorizes",
+  "factorising": "factorizing",
+  "faecal": "fecal",
+  "faeces": "feces",
+  "familiarisation": "familiarization",
+  "familiarise": "familiarize",
+  "familiarised": "familiarized",
+  "familiarises": "familiarizes",
+  "familiarising": "familiarizing",
+  "fantasise": "fantasize",
+  "fantasised": "fantasized",
+  "fantasises": "fantasizes",
+  "fantasising": "fantasizing",
+  "favour": "favor",
+  "favourable": "favorable",
+  "favourably": "favorably",
+  "favoured": "favored",
+  "favouring": "favoring",
+  "favourite": "favorite",
+  "favourites": "favorites",
+  "favouritism": "favoritism",
+  "favours": "favors",
+  "feminise": "feminize",
+  "feminised": "feminized",
+  "feminises": "feminizes",
+  "feminising": "feminizing",
+  "fertilisation": "fertilization",
+  "fertilise": "fertilize",
+  "fertilised": "fertilized",
+  "fertiliser": "fertilizer",
+  "fertilisers": "fertilizers",
+  "fertilises": "fertilizes",
+  "fertilising": "fertilizing",
+  "fervour": "fervor",
+  "fibre": "fiber",
+  "fibreglass": "fiberglass",
+  "fibres": "fibers",
+  "fictionalisation": "fictionalization",
+  "fictionalisations": "fictionalizations",
+  "fictionalise": "fictionalize",
+  "fictionalised": "fictionalized",
+  "fictionalises": "fictionalizes",
+  "fictionalising": "fictionalizing",
+  "fillet": "filet",
+  "filleted": "fileted",
+  "filleting": "fileting",
+  "fillets": "filets",
+  "finalisation": "finalization",
+  "finalise": "finalize",
+  "finalised": "finalized",
+  "finalises": "finalizes",
+  "finalising": "finalizing",
+  "flautist": "flutist",
+  "flautists": "flutists",
+  "flavour": "flavor",
+  "flavoured": "flavored",
+  "flavouring": "flavoring",
+  "flavourings": "flavorings",
+  "flavourless": "flavorless",
+  "flavours": "flavors",
+  "flavoursome": "flavorsome",
+  "flyer / flier": "flier / flyer",
+  "foetal": "fetal",
+  "foetid": "fetid",
+  "foetus": "fetus",
+  "foetuses": "fetuses",
+  "formalisation": "formalization",
+  "formalise": "formalize",
+  "formalised": "formalized",
+  "formalises": "formalizes",
+  "formalising": "formalizing",
+  "fossilisation": "fossilization",
+  "fossilise": "fossilize",
+  "fossilised": "fossilized",
+  "fossilises": "fossilizes",
+  "fossilising": "fossilizing",
+  "fraternisation": "fraternization",
+  "fraternise": "fraternize",
+  "fraternised": "fraternized",
+  "fraternises": "fraternizes",
+  "fraternising": "fraternizing",
+  "fulfil": "fulfill",
+  "fulfilment": "fulfillment",
+  "fulfils": "fulfills",
+  "funnelled": "funneled",
+  "funnelling": "funneling",
+  "gage": "gauge",
+  "gaged": "gauged",
+  "gages": "gauges",
+  "gaging": "gauging",
+  "galvanise": "galvanize",
+  "galvanised": "galvanized",
+  "galvanises": "galvanizes",
+  "galvanising": "galvanizing",
+  "gambolled": "gamboled",
+  "gambolling": "gamboling",
+  "gaol": "jail",
+  "gaolbird": "jailbird",
+  "gaolbirds": "jailbirds",
+  "gaolbreak": "jailbreak",
+  "gaolbreaks": "jailbreaks",
+  "gaoled": "jailed",
+  "gaoler": "jailer",
+  "gaolers": "jailers",
+  "gaoling": "jailing",
+  "gaols": "jails",
+  "gasses": "gases",
+  "generalisation": "generalization",
+  "generalisations": "generalizations",
+  "generalise": "generalize",
+  "generalised": "generalized",
+  "generalises": "generalizes",
+  "generalising": "generalizing",
+  "ghettoise": "ghettoize",
+  "ghettoised": "ghettoized",
+  "ghettoises": "ghettoizes",
+  "ghettoising": "ghettoizing",
+  "gipsies": "gypsies",
+  "glamor": "glamour",
+  "glamorise": "glamorize",
+  "glamorised": "glamorized",
+  "glamorises": "glamorizes",
+  "glamorising": "glamorizing",
+  "globalisation": "globalization",
+  "globalise": "globalize",
+  "globalised": "globalized",
+  "globalises": "globalizes",
+  "globalising": "globalizing",
+  "glueing": "gluing",
+  "goitre": "goiter",
+  "goitres": "goiters",
+  "gonorrhoea": "gonorrhea",
+  "gramme": "gram",
+  "grammes": "grams",
+  "gravelled": "graveled",
+  "grey": "gray",
+  "greyed": "grayed",
+  "greying": "graying",
+  "greyish": "grayish",
+  "greyness": "grayness",
+  "greys": "grays",
+  "grovelled": "groveled",
+  "grovelling": "groveling",
+  "groyne": "groin",
+  "groynes": "groins",
+  "gruelling": "grueling",
+  "gruellingly": "gruelingly",
+  "gryphon": "griffin",
+  "gryphons": "griffins",
+  "gynaecological": "gynecological",
+  "gynaecologist": "gynecologist",
+  "gynaecologists": "gynecologists",
+  "gynaecology": "gynecology",
+  "haematological": "hematological",
+  "haematologist": "hematologist",
+  "haematologists": "hematologists",
+  "haematology": "hematology",
+  "haemoglobin": "hemoglobin",
+  "haemophilia": "hemophilia",
+  "haemophiliac": "hemophiliac",
+  "haemophiliacs": "hemophiliacs",
+  "haemorrhage": "hemorrhage",
+  "haemorrhaged": "hemorrhaged",
+  "haemorrhages": "hemorrhages",
+  "haemorrhaging": "hemorrhaging",
+  "haemorrhoids": "hemorrhoids",
+  "harbour": "harbor",
+  "harboured": "harbored",
+  "harbouring": "harboring",
+  "harbours": "harbors",
+  "harmonisation": "harmonization",
+  "harmonise": "harmonize",
+  "harmonised": "harmonized",
+  "harmonises": "harmonizes",
+  "harmonising": "harmonizing",
+  "homoeopath": "homeopath",
+  "homoeopathic": "homeopathic",
+  "homoeopaths": "homeopaths",
+  "homoeopathy": "homeopathy",
+  "homogenise": "homogenize",
+  "homogenised": "homogenized",
+  "homogenises": "homogenizes",
+  "homogenising": "homogenizing",
+  "honour": "honor",
+  "honourable": "honorable",
+  "honourably": "honorably",
+  "honoured": "honored",
+  "honouring": "honoring",
+  "honours": "honors",
+  "hospitalisation": "hospitalization",
+  "hospitalise": "hospitalize",
+  "hospitalised": "hospitalized",
+  "hospitalises": "hospitalizes",
+  "hospitalising": "hospitalizing",
+  "humanise": "humanize",
+  "humanised": "humanized",
+  "humanises": "humanizes",
+  "humanising": "humanizing",
+  "humour": "humor",
+  "humoured": "humored",
+  "humouring": "humoring",
+  "humourless": "humorless",
+  "humours": "humors",
+  "hybridise": "hybridize",
+  "hybridised": "hybridized",
+  "hybridises": "hybridizes",
+  "hybridising": "hybridizing",
+  "hypnotise": "hypnotize",
+  "hypnotised": "hypnotized",
+  "hypnotises": "hypnotizes",
+  "hypnotising": "hypnotizing",
+  "hypothesise": "hypothesize",
+  "hypothesised": "hypothesized",
+  "hypothesises": "hypothesizes",
+  "hypothesising": "hypothesizing",
+  "idealisation": "idealization",
+  "idealise": "idealize",
+  "idealised": "idealized",
+  "idealises": "idealizes",
+  "idealising": "idealizing",
+  "idolise": "idolize",
+  "idolised": "idolized",
+  "idolises": "idolizes",
+  "idolising": "idolizing",
+  "immobilisation": "immobilization",
+  "immobilise": "immobilize",
+  "immobilised": "immobilized",
+  "immobiliser": "immobilizer",
+  "immobilisers": "immobilizers",
+  "immobilises": "immobilizes",
+  "immobilising": "immobilizing",
+  "immortalise": "immortalize",
+  "immortalised": "immortalized",
+  "immortalises": "immortalizes",
+  "immortalising": "immortalizing",
+  "immunisation": "immunization",
+  "immunise": "immunize",
+  "immunised": "immunized",
+  "immunises": "immunizes",
+  "immunising": "immunizing",
+  "impanelled": "impaneled",
+  "impanelling": "impaneling",
+  "imperilled": "imperiled",
+  "imperilling": "imperiling",
+  "individualise": "individualize",
+  "individualised": "individualized",
+  "individualises": "individualizes",
+  "individualising": "individualizing",
+  "industrialise": "industrialize",
+  "industrialised": "industrialized",
+  "industrialises": "industrializes",
+  "industrialising": "industrializing",
+  "inflexion": "inflection",
+  "inflexions": "inflections",
+  "initialise": "initialize",
+  "initialised": "initialized",
+  "initialises": "initializes",
+  "initialising": "initializing",
+  "initialled": "initialed",
+  "initialling": "initialing",
+  "instal": "install",
+  "instalment": "installment",
+  "instalments": "installments",
+  "instals": "installs",
+  "instil": "instill",
+  "instils": "instills",
+  "institutionalisation": "institutionalization",
+  "institutionalise": "institutionalize",
+  "institutionalised": "institutionalized",
+  "institutionalises": "institutionalizes",
+  "institutionalising": "institutionalizing",
+  "intellectualise": "intellectualize",
+  "intellectualised": "intellectualized",
+  "intellectualises": "intellectualizes",
+  "intellectualising": "intellectualizing",
+  "internalisation": "internalization",
+  "internalise": "internalize",
+  "internalised": "internalized",
+  "internalises": "internalizes",
+  "internalising": "internalizing",
+  "internationalisation": "internationalization",
+  "internationalise": "internationalize",
+  "internationalised": "internationalized",
+  "internationalises": "internationalizes",
+  "internationalising": "internationalizing",
+  "ionisation": "ionization",
+  "ionise": "ionize",
+  "ionised": "ionized",
+  "ioniser": "ionizer",
+  "ionisers": "ionizers",
+  "ionises": "ionizes",
+  "ionising": "ionizing",
+  "italicise": "italicize",
+  "italicised": "italicized",
+  "italicises": "italicizes",
+  "italicising": "italicizing",
+  "itemise": "itemize",
+  "itemised": "itemized",
+  "itemises": "itemizes",
+  "itemising": "itemizing",
+  "jeopardise": "jeopardize",
+  "jeopardised": "jeopardized",
+  "jeopardises": "jeopardizes",
+  "jeopardising": "jeopardizing",
+  "jewelled": "jeweled",
+  "jeweller": "jeweler",
+  "jewellers": "jewelers",
+  "jewellery": "jewelry",
+  "judgement": "judgment",
+  "kilogramme": "kilogram",
+  "kilogrammes": "kilograms",
+  "kilometre": "kilometer",
+  "kilometres": "kilometers",
+  "labelled": "labeled",
+  "labelling": "labeling",
+  "labour": "labor",
+  "laboured": "labored",
+  "labourer": "laborer",
+  "labourers": "laborers",
+  "labouring": "laboring",
+  "labours": "labors",
+  "lacklustre": "lackluster",
+  "legalisation": "legalization",
+  "legalise": "legalize",
+  "legalised": "legalized",
+  "legalises": "legalizes",
+  "legalising": "legalizing",
+  "legitimise": "legitimize",
+  "legitimised": "legitimized",
+  "legitimises": "legitimizes",
+  "legitimising": "legitimizing",
+  "leukaemia": "leukemia",
+  "levelled": "leveled",
+  "leveller": "leveler",
+  "levellers": "levelers",
+  "levelling": "leveling",
+  "libelled": "libeled",
+  "libelling": "libeling",
+  "libellous": "libelous",
+  "liberalisation": "liberalization",
+  "liberalise": "liberalize",
+  "liberalised": "liberalized",
+  "liberalises": "liberalizes",
+  "liberalising": "liberalizing",
+  "licence": "license",
+  "licenced": "licensed",
+  "licences": "licenses",
+  "licencing": "licensing",
+  "likeable": "likable",
+  "lionisation": "lionization",
+  "lionise": "lionize",
+  "lionised": "lionized",
+  "lionises": "lionizes",
+  "lionising": "lionizing",
+  "liquidise": "liquidize",
+  "liquidised": "liquidized",
+  "liquidiser": "liquidizer",
+  "liquidisers": "liquidizers",
+  "liquidises": "liquidizes",
+  "liquidising": "liquidizing",
+  "litre": "liter",
+  "litres": "liters",
+  "localise": "localize",
+  "localised": "localized",
+  "localises": "localizes",
+  "localising": "localizing",
+  "louvre": "louver",
+  "louvred": "louvered",
+  "louvres": "louvers",
+  "lustre": "luster",
+  "magnetise": "magnetize",
+  "magnetised": "magnetized",
+  "magnetises": "magnetizes",
+  "magnetising": "magnetizing",
+  "manoeuvrability": "maneuverability",
+  "manoeuvrable": "maneuverable",
+  "manoeuvre": "maneuver",
+  "manoeuvred": "maneuvered",
+  "manoeuvres": "maneuvers",
+  "manoeuvring": "maneuvering",
+  "manoeuvrings": "maneuverings",
+  "marginalisation": "marginalization",
+  "marginalise": "marginalize",
+  "marginalised": "marginalized",
+  "marginalises": "marginalizes",
+  "marginalising": "marginalizing",
+  "marshalled": "marshaled",
+  "marshalling": "marshaling",
+  "marvelled": "marveled",
+  "marvelling": "marveling",
+  "marvellous": "marvelous",
+  "marvellously": "marvelously",
+  "materialisation": "materialization",
+  "materialise": "materialize",
+  "materialised": "materialized",
+  "materialises": "materializes",
+  "materialising": "materializing",
+  "maximisation": "maximization",
+  "maximise": "maximize",
+  "maximised": "maximized",
+  "maximises": "maximizes",
+  "maximising": "maximizing",
+  "meagre": "meager",
+  "mechanisation": "mechanization",
+  "mechanise": "mechanize",
+  "mechanised": "mechanized",
+  "mechanises": "mechanizes",
+  "mechanising": "mechanizing",
+  "mediaeval": "medieval",
+  "memorialise": "memorialize",
+  "memorialised": "memorialized",
+  "memorialises": "memorializes",
+  "memorialising": "memorializing",
+  "memorise": "memorize",
+  "memorised": "memorized",
+  "memorises": "memorizes",
+  "memorising": "memorizing",
+  "mesmerise": "mesmerize",
+  "mesmerised": "mesmerized",
+  "mesmerises": "mesmerizes",
+  "mesmerising": "mesmerizing",
+  "metabolise": "metabolize",
+  "metabolised": "metabolized",
+  "metabolises": "metabolizes",
+  "metabolising": "metabolizing",
+  "metre": "meter",
+  "metres": "meters",
+  "mhm": "hmm",
+  "micrometre": "micrometer",
+  "micrometres": "micrometers",
+  "militarise": "militarize",
+  "militarised": "militarized",
+  "militarises": "militarizes",
+  "militarising": "militarizing",
+  "milligramme": "milligram",
+  "milligrammes": "milligrams",
+  "millilitre": "milliliter",
+  "millilitres": "milliliters",
+  "millimetre": "millimeter",
+  "millimetres": "millimeters",
+  "miniaturisation": "miniaturization",
+  "miniaturise": "miniaturize",
+  "miniaturised": "miniaturized",
+  "miniaturises": "miniaturizes",
+  "miniaturising": "miniaturizing",
+  "minibusses": "minibuses",
+  "minimise": "minimize",
+  "minimised": "minimized",
+  "minimises": "minimizes",
+  "minimising": "minimizing",
+  "misbehaviour": "misbehavior",
+  "misdemeanour": "misdemeanor",
+  "misdemeanours": "misdemeanors",
+  "misspelt": "misspelled",
+  "mitre": "miter",
+  "mitres": "miters",
+  "mm": "hmm",
+  "mmm": "hmm",
+  "mobilisation": "mobilization",
+  "mobilise": "mobilize",
+  "mobilised": "mobilized",
+  "mobilises": "mobilizes",
+  "mobilising": "mobilizing",
+  "modelled": "modeled",
+  "modeller": "modeler",
+  "modellers": "modelers",
+  "modelling": "modeling",
+  "modernise": "modernize",
+  "modernised": "modernized",
+  "modernises": "modernizes",
+  "modernising": "modernizing",
+  "moisturise": "moisturize",
+  "moisturised": "moisturized",
+  "moisturiser": "moisturizer",
+  "moisturisers": "moisturizers",
+  "moisturises": "moisturizes",
+  "moisturising": "moisturizing",
+  "monologue": "monolog",
+  "monologues": "monologs",
+  "monopolisation": "monopolization",
+  "monopolise": "monopolize",
+  "monopolised": "monopolized",
+  "monopolises": "monopolizes",
+  "monopolising": "monopolizing",
+  "moralise": "moralize",
+  "moralised": "moralized",
+  "moralises": "moralizes",
+  "moralising": "moralizing",
+  "motorised": "motorized",
+  "mould": "mold",
+  "moulded": "molded",
+  "moulder": "molder",
+  "mouldered": "moldered",
+  "mouldering": "moldering",
+  "moulders": "molders",
+  "mouldier": "moldier",
+  "mouldiest": "moldiest",
+  "moulding": "molding",
+  "mouldings": "moldings",
+  "moulds": "molds",
+  "mouldy": "moldy",
+  "moult": "molt",
+  "moulted": "molted",
+  "moulting": "molting",
+  "moults": "molts",
+  "moustache": "mustache",
+  "moustached": "mustached",
+  "moustaches": "mustaches",
+  "moustachioed": "mustachioed",
+  "multicoloured": "multicolored",
+  "nationalisation": "nationalization",
+  "nationalisations": "nationalizations",
+  "nationalise": "nationalize",
+  "nationalised": "nationalized",
+  "nationalises": "nationalizes",
+  "nationalising": "nationalizing",
+  "naturalisation": "naturalization",
+  "naturalise": "naturalize",
+  "naturalised": "naturalized",
+  "naturalises": "naturalizes",
+  "naturalising": "naturalizing",
+  "neighbour": "neighbor",
+  "neighbourhood": "neighborhood",
+  "neighbourhoods": "neighborhoods",
+  "neighbouring": "neighboring",
+  "neighbourliness": "neighborliness",
+  "neighbourly": "neighborly",
+  "neighbours": "neighbors",
+  "neutralisation": "neutralization",
+  "neutralise": "neutralize",
+  "neutralised": "neutralized",
+  "neutralises": "neutralizes",
+  "neutralising": "neutralizing",
+  "normalisation": "normalization",
+  "normalise": "normalize",
+  "normalised": "normalized",
+  "normalises": "normalizes",
+  "normalising": "normalizing",
+  "odour": "odor",
+  "odourless": "odorless",
+  "odours": "odors",
+  "oesophagus": "esophagus",
+  "oesophaguses": "esophaguses",
+  "oestrogen": "estrogen",
+  "offence": "offense",
+  "offences": "offenses",
+  "omelette": "omelet",
+  "omelettes": "omelets",
+  "optimise": "optimize",
+  "optimised": "optimized",
+  "optimises": "optimizes",
+  "optimising": "optimizing",
+  "organisation": "organization",
+  "organisational": "organizational",
+  "organisations": "organizations",
+  "organise": "organize",
+  "organised": "organized",
+  "organiser": "organizer",
+  "organisers": "organizers",
+  "organises": "organizes",
+  "organising": "organizing",
+  "orthopaedic": "orthopedic",
+  "orthopaedics": "orthopedics",
+  "ostracise": "ostracize",
+  "ostracised": "ostracized",
+  "ostracises": "ostracizes",
+  "ostracising": "ostracizing",
+  "outmanoeuvre": "outmaneuver",
+  "outmanoeuvred": "outmaneuvered",
+  "outmanoeuvres": "outmaneuvers",
+  "outmanoeuvring": "outmaneuvering",
+  "overemphasise": "overemphasize",
+  "overemphasised": "overemphasized",
+  "overemphasises": "overemphasizes",
+  "overemphasising": "overemphasizing",
+  "oxidisation": "oxidization",
+  "oxidise": "oxidize",
+  "oxidised": "oxidized",
+  "oxidises": "oxidizes",
+  "oxidising": "oxidizing",
+  "paederast": "pederast",
+  "paederasts": "pederasts",
+  "paediatric": "pediatric",
+  "paediatrician": "pediatrician",
+  "paediatricians": "pediatricians",
+  "paediatrics": "pediatrics",
+  "paedophile": "pedophile",
+  "paedophiles": "pedophiles",
+  "paedophilia": "pedophilia",
+  "palaeolithic": "paleolithic",
+  "palaeontologist": "paleontologist",
+  "palaeontologists": "paleontologists",
+  "palaeontology": "paleontology",
+  "panelled": "paneled",
+  "panelling": "paneling",
+  "panellist": "panelist",
+  "panellists": "panelists",
+  "paralyse": "paralyze",
+  "paralysed": "paralyzed",
+  "paralyses": "paralyzes",
+  "paralysing": "paralyzing",
+  "parcelled": "parceled",
+  "parcelling": "parceling",
+  "parlour": "parlor",
+  "parlours": "parlors",
+  "particularise": "particularize",
+  "particularised": "particularized",
+  "particularises": "particularizes",
+  "particularising": "particularizing",
+  "passivisation": "passivization",
+  "passivise": "passivize",
+  "passivised": "passivized",
+  "passivises": "passivizes",
+  "passivising": "passivizing",
+  "pasteurisation": "pasteurization",
+  "pasteurise": "pasteurize",
+  "pasteurised": "pasteurized",
+  "pasteurises": "pasteurizes",
+  "pasteurising": "pasteurizing",
+  "patronise": "patronize",
+  "patronised": "patronized",
+  "patronises": "patronizes",
+  "patronising": "patronizing",
+  "patronisingly": "patronizingly",
+  "pedalled": "pedaled",
+  "pedalling": "pedaling",
+  "pedestrianisation": "pedestrianization",
+  "pedestrianise": "pedestrianize",
+  "pedestrianised": "pedestrianized",
+  "pedestrianises": "pedestrianizes",
+  "pedestrianising": "pedestrianizing",
+  "penalise": "penalize",
+  "penalised": "penalized",
+  "penalises": "penalizes",
+  "penalising": "penalizing",
+  "pencilled": "penciled",
+  "pencilling": "penciling",
+  "personalise": "personalize",
+  "personalised": "personalized",
+  "personalises": "personalizes",
+  "personalising": "personalizing",
+  "pharmacopoeia": "pharmacopeia",
+  "pharmacopoeias": "pharmacopeias",
+  "philosophise": "philosophize",
+  "philosophised": "philosophized",
+  "philosophises": "philosophizes",
+  "philosophising": "philosophizing",
+  "philtre": "filter",
+  "philtres": "filters",
+  "phoney": "phony",
+  "plagiarise": "plagiarize",
+  "plagiarised": "plagiarized",
+  "plagiarises": "plagiarizes",
+  "plagiarising": "plagiarizing",
+  "plough": "plow",
+  "ploughed": "plowed",
+  "ploughing": "plowing",
+  "ploughman": "plowman",
+  "ploughmen": "plowmen",
+  "ploughs": "plows",
+  "ploughshare": "plowshare",
+  "ploughshares": "plowshares",
+  "polarisation": "polarization",
+  "polarise": "polarize",
+  "polarised": "polarized",
+  "polarises": "polarizes",
+  "polarising": "polarizing",
+  "politicisation": "politicization",
+  "politicise": "politicize",
+  "politicised": "politicized",
+  "politicises": "politicizes",
+  "politicising": "politicizing",
+  "popularisation": "popularization",
+  "popularise": "popularize",
+  "popularised": "popularized",
+  "popularises": "popularizes",
+  "popularising": "popularizing",
+  "pouffe": "pouf",
+  "pouffes": "poufs",
+  "practise": "practice",
+  "practised": "practiced",
+  "practises": "practices",
+  "practising": "practicing",
+  "praesidium": "presidium",
+  "praesidiums": "presidiums",
+  "pressurisation": "pressurization",
+  "pressurise": "pressurize",
+  "pressurised": "pressurized",
+  "pressurises": "pressurizes",
+  "pressurising": "pressurizing",
+  "pretence": "pretense",
+  "pretences": "pretenses",
+  "primaeval": "primeval",
+  "prioritisation": "prioritization",
+  "prioritise": "prioritize",
+  "prioritised": "prioritized",
+  "prioritises": "prioritizes",
+  "prioritising": "prioritizing",
+  "privatisation": "privatization",
+  "privatisations": "privatizations",
+  "privatise": "privatize",
+  "privatised": "privatized",
+  "privatises": "privatizes",
+  "privatising": "privatizing",
+  "professionalisation": "professionalization",
+  "professionalise": "professionalize",
+  "professionalised": "professionalized",
+  "professionalises": "professionalizes",
+  "professionalising": "professionalizing",
+  "programme": "program",
+  "programmes": "programs",
+  "prologue": "prolog",
+  "prologues": "prologs",
+  "propagandise": "propagandize",
+  "propagandised": "propagandized",
+  "propagandises": "propagandizes",
+  "propagandising": "propagandizing",
+  "proselytise": "proselytize",
+  "proselytised": "proselytized",
+  "proselytiser": "proselytizer",
+  "proselytisers": "proselytizers",
+  "proselytises": "proselytizes",
+  "proselytising": "proselytizing",
+  "psychoanalyse": "psychoanalyze",
+  "psychoanalysed": "psychoanalyzed",
+  "psychoanalyses": "psychoanalyzes",
+  "psychoanalysing": "psychoanalyzing",
+  "publicise": "publicize",
+  "publicised": "publicized",
+  "publicises": "publicizes",
+  "publicising": "publicizing",
+  "pulverisation": "pulverization",
+  "pulverise": "pulverize",
+  "pulverised": "pulverized",
+  "pulverises": "pulverizes",
+  "pulverising": "pulverizing",
+  "pummelled": "pummel",
+  "pummelling": "pummeled",
+  "pyjama": "pajama",
+  "pyjamas": "pajamas",
+  "pzazz": "pizzazz",
+  "quarrelled": "quarreled",
+  "quarrelling": "quarreling",
+  "radicalise": "radicalize",
+  "radicalised": "radicalized",
+  "radicalises": "radicalizes",
+  "radicalising": "radicalizing",
+  "rancour": "rancor",
+  "randomise": "randomize",
+  "randomised": "randomized",
+  "randomises": "randomizes",
+  "randomising": "randomizing",
+  "rationalisation": "rationalization",
+  "rationalisations": "rationalizations",
+  "rationalise": "rationalize",
+  "rationalised": "rationalized",
+  "rationalises": "rationalizes",
+  "rationalising": "rationalizing",
+  "ravelled": "raveled",
+  "ravelling": "raveling",
+  "realisable": "realizable",
+  "realisation": "realization",
+  "realisations": "realizations",
+  "realise": "realize",
+  "realised": "realized",
+  "realises": "realizes",
+  "realising": "realizing",
+  "recognisable": "recognizable",
+  "recognisably": "recognizably",
+  "recognisance": "recognizance",
+  "recognise": "recognize",
+  "recognised": "recognized",
+  "recognises": "recognizes",
+  "recognising": "recognizing",
+  "reconnoitre": "reconnoiter",
+  "reconnoitred": "reconnoitered",
+  "reconnoitres": "reconnoiters",
+  "reconnoitring": "reconnoitering",
+  "refuelled": "refueled",
+  "refuelling": "refueling",
+  "regularisation": "regularization",
+  "regularise": "regularize",
+  "regularised": "regularized",
+  "regularises": "regularizes",
+  "regularising": "regularizing",
+  "remodelled": "remodeled",
+  "remodelling": "remodeling",
+  "remould": "remold",
+  "remoulded": "remolded",
+  "remoulding": "remolding",
+  "remoulds": "remolds",
+  "reorganisation": "reorganization",
+  "reorganisations": "reorganizations",
+  "reorganise": "reorganize",
+  "reorganised": "reorganized",
+  "reorganises": "reorganizes",
+  "reorganising": "reorganizing",
+  "revelled": "reveled",
+  "reveller": "reveler",
+  "revellers": "revelers",
+  "revelling": "reveling",
+  "revitalise": "revitalize",
+  "revitalised": "revitalized",
+  "revitalises": "revitalizes",
+  "revitalising": "revitalizing",
+  "revolutionise": "revolutionize",
+  "revolutionised": "revolutionized",
+  "revolutionises": "revolutionizes",
+  "revolutionising": "revolutionizing",
+  "rhapsodise": "rhapsodize",
+  "rhapsodised": "rhapsodized",
+  "rhapsodises": "rhapsodizes",
+  "rhapsodising": "rhapsodizing",
+  "rigour": "rigor",
+  "rigours": "rigors",
+  "ritualised": "ritualized",
+  "rivalled": "rivaled",
+  "rivalling": "rivaling",
+  "romanticise": "romanticize",
+  "romanticised": "romanticized",
+  "romanticises": "romanticizes",
+  "romanticising": "romanticizing",
+  "rumour": "rumor",
+  "rumoured": "rumored",
+  "rumours": "rumors",
+  "sabre": "saber",
+  "sabres": "sabers",
+  "saltpetre": "saltpeter",
+  "sanitise": "sanitize",
+  "sanitised": "sanitized",
+  "sanitises": "sanitizes",
+  "sanitising": "sanitizing",
+  "satirise": "satirize",
+  "satirised": "satirized",
+  "satirises": "satirizes",
+  "satirising": "satirizing",
+  "saviour": "savior",
+  "saviours": "saviors",
+  "savour": "savor",
+  "savoured": "savored",
+  "savouries": "savories",
+  "savouring": "savoring",
+  "savours": "savors",
+  "savoury": "savory",
+  "scandalise": "scandalize",
+  "scandalised": "scandalized",
+  "scandalises": "scandalizes",
+  "scandalising": "scandalizing",
+  "sceptic": "skeptic",
+  "sceptical": "skeptical",
+  "sceptically": "skeptically",
+  "scepticism": "skepticism",
+  "sceptics": "skeptics",
+  "sceptre": "scepter",
+  "sceptres": "scepters",
+  "scrutinise": "scrutinize",
+  "scrutinised": "scrutinized",
+  "scrutinises": "scrutinizes",
+  "scrutinising": "scrutinizing",
+  "secularisation": "secularization",
+  "secularise": "secularize",
+  "secularised": "secularized",
+  "secularises": "secularizes",
+  "secularising": "secularizing",
+  "sensationalise": "sensationalize",
+  "sensationalised": "sensationalized",
+  "sensationalises": "sensationalizes",
+  "sensationalising": "sensationalizing",
+  "sensitise": "sensitize",
+  "sensitised": "sensitized",
+  "sensitises": "sensitizes",
+  "sensitising": "sensitizing",
+  "sentimentalise": "sentimentalize",
+  "sentimentalised": "sentimentalized",
+  "sentimentalises": "sentimentalizes",
+  "sentimentalising": "sentimentalizing",
+  "sepulchre": "sepulcher",
+  "sepulchres": "sepulchers",
+  "serialisation": "serialization",
+  "serialisations": "serializations",
+  "serialise": "serialize",
+  "serialised": "serialized",
+  "serialises": "serializes",
+  "serialising": "serializing",
+  "sermonise": "sermonize",
+  "sermonised": "sermonized",
+  "sermonises": "sermonizes",
+  "sermonising": "sermonizing",
+  "sheikh": "sheik",
+  "shovelled": "shoveled",
+  "shovelling": "shoveling",
+  "shrivelled": "shriveled",
+  "shrivelling": "shriveling",
+  "signalise": "signalize",
+  "signalised": "signalized",
+  "signalises": "signalizes",
+  "signalising": "signalizing",
+  "signalled": "signaled",
+  "signalling": "signaling",
+  "smoulder": "smolder",
+  "smouldered": "smoldered",
+  "smouldering": "smoldering",
+  "smoulders": "smolders",
+  "snivelled": "sniveled",
+  "snivelling": "sniveling",
+  "snorkelled": "snorkeled",
+  "snorkelling": "snorkeling",
+  "snowplough": "snowplow",
+  "snowploughs": "snowplow",
+  "socialisation": "socialization",
+  "socialise": "socialize",
+  "socialised": "socialized",
+  "socialises": "socializes",
+  "socialising": "socializing",
+  "sodomise": "sodomize",
+  "sodomised": "sodomized",
+  "sodomises": "sodomizes",
+  "sodomising": "sodomizing",
+  "solemnise": "solemnize",
+  "solemnised": "solemnized",
+  "solemnises": "solemnizes",
+  "solemnising": "solemnizing",
+  "sombre": "somber",
+  "specialisation": "specialization",
+  "specialisations": "specializations",
+  "specialise": "specialize",
+  "specialised": "specialized",
+  "specialises": "specializes",
+  "specialising": "specializing",
+  "spectre": "specter",
+  "spectres": "specters",
+  "spiralled": "spiraled",
+  "spiralling": "spiraling",
+  "splendour": "splendor",
+  "splendours": "splendors",
+  "squirrelled": "squirreled",
+  "squirrelling": "squirreling",
+  "stabilisation": "stabilization",
+  "stabilise": "stabilize",
+  "stabilised": "stabilized",
+  "stabiliser": "stabilizer",
+  "stabilisers": "stabilizers",
+  "stabilises": "stabilizes",
+  "stabilising": "stabilizing",
+  "standardisation": "standardization",
+  "standardise": "standardize",
+  "standardised": "standardized",
+  "standardises": "standardizes",
+  "standardising": "standardizing",
+  "stencilled": "stenciled",
+  "stencilling": "stenciling",
+  "sterilisation": "sterilization",
+  "sterilisations": "sterilizations",
+  "sterilise": "sterilize",
+  "sterilised": "sterilized",
+  "steriliser": "sterilizer",
+  "sterilisers": "sterilizers",
+  "sterilises": "sterilizes",
+  "sterilising": "sterilizing",
+  "stigmatisation": "stigmatization",
+  "stigmatise": "stigmatize",
+  "stigmatised": "stigmatized",
+  "stigmatises": "stigmatizes",
+  "stigmatising": "stigmatizing",
+  "storey": "story",
+  "storeys": "stories",
+  "subsidisation": "subsidization",
+  "subsidise": "subsidize",
+  "subsidised": "subsidized",
+  "subsidiser": "subsidizer",
+  "subsidisers": "subsidizers",
+  "subsidises": "subsidizes",
+  "subsidising": "subsidizing",
+  "succour": "succor",
+  "succoured": "succored",
+  "succouring": "succoring",
+  "succours": "succors",
+  "sulphate": "sulfate",
+  "sulphates": "sulfates",
+  "sulphide": "sulfide",
+  "sulphides": "sulfides",
+  "sulphur": "sulfur",
+  "sulphurous": "sulfurous",
+  "summarise": "summarize",
+  "summarised": "summarized",
+  "summarises": "summarizes",
+  "summarising": "summarizing",
+  "swivelled": "swiveled",
+  "swivelling": "swiveling",
+  "symbolise": "symbolize",
+  "symbolised": "symbolized",
+  "symbolises": "symbolizes",
+  "symbolising": "symbolizing",
+  "sympathise": "sympathize",
+  "sympathised": "sympathized",
+  "sympathiser": "sympathizer",
+  "sympathisers": "sympathizers",
+  "sympathises": "sympathizes",
+  "sympathising": "sympathizing",
+  "synchronisation": "synchronization",
+  "synchronise": "synchronize",
+  "synchronised": "synchronized",
+  "synchronises": "synchronizes",
+  "synchronising": "synchronizing",
+  "synthesise": "synthesize",
+  "synthesised": "synthesized",
+  "synthesiser": "synthesizer",
+  "synthesisers": "synthesizers",
+  "synthesises": "synthesizes",
+  "synthesising": "synthesizing",
+  "syphon": "siphon",
+  "syphoned": "siphoned",
+  "syphoning": "siphoning",
+  "syphons": "siphons",
+  "systematisation": "systematization",
+  "systematise": "systematize",
+  "systematised": "systematized",
+  "systematises": "systematizes",
+  "systematising": "systematizing",
+  "tantalise": "tantalize",
+  "tantalised": "tantalized",
+  "tantalises": "tantalizes",
+  "tantalising": "tantalizing",
+  "tantalisingly": "tantalizingly",
+  "tasselled": "tasseled",
+  "technicolour": "technicolor",
+  "temporise": "temporize",
+  "temporised": "temporized",
+  "temporises": "temporizes",
+  "temporising": "temporizing",
+  "tenderise": "tenderize",
+  "tenderised": "tenderized",
+  "tenderises": "tenderizes",
+  "tenderising": "tenderizing",
+  "terrorise": "terrorize",
+  "terrorised": "terrorized",
+  "terrorises": "terrorizes",
+  "terrorising": "terrorizing",
+  "theatre": "theater",
+  "theatregoer": "theatergoer",
+  "theatregoers": "theatergoers",
+  "theatres": "theaters",
+  "theorise": "theorize",
+  "theorised": "theorized",
+  "theorises": "theorizes",
+  "theorising": "theorizing",
+  "tonne": "ton",
+  "tonnes": "tons",
+  "towelled": "toweled",
+  "towelling": "toweling",
+  "toxaemia": "toxemia",
+  "tranquillise": "tranquilize",
+  "tranquillised": "tranquilized",
+  "tranquilliser": "tranquilizer",
+  "tranquillisers": "tranquilizers",
+  "tranquillises": "tranquilizes",
+  "tranquillising": "tranquilizing",
+  "tranquillity": "tranquility",
+  "tranquillize": "tranquilize",
+  "tranquillized": "tranquilized",
+  "tranquillizer": "tranquilizer",
+  "tranquillizers": "tranquilizers",
+  "tranquillizes": "tranquilizes",
+  "tranquillizing": "tranquilizing",
+  "tranquilly": "tranquility",
+  "transistorised": "transistorized",
+  "traumatise": "traumatize",
+  "traumatised": "traumatized",
+  "traumatises": "traumatizes",
+  "traumatising": "traumatizing",
+  "travelled": "traveled",
+  "traveller": "traveler",
+  "travellers": "travelers",
+  "travelling": "traveling",
+  "travelog": "travelogue",
+  "travelogs": "travelogues",
+  "trialled": "trialed",
+  "trialling": "trialing",
+  "tricolour": "tricolor",
+  "tricolours": "tricolors",
+  "trivialise": "trivialize",
+  "trivialised": "trivialized",
+  "trivialises": "trivializes",
+  "trivialising": "trivializing",
+  "tumour": "tumor",
+  "tumours": "tumors",
+  "tunnelled": "tunneled",
+  "tunnelling": "tunneling",
+  "tyrannise": "tyrannize",
+  "tyrannised": "tyrannized",
+  "tyrannises": "tyrannizes",
+  "tyrannising": "tyrannizing",
+  "tyre": "tire",
+  "tyres": "tires",
+  "unauthorised": "unauthorized",
+  "uncivilised": "uncivilized",
+  "underutilised": "underutilized",
+  "unequalled": "unequaled",
+  "unfavourable": "unfavorable",
+  "unfavourably": "unfavorably",
+  "unionisation": "unionization",
+  "unionise": "unionize",
+  "unionised": "unionized",
+  "unionises": "unionizes",
+  "unionising": "unionizing",
+  "unorganised": "unorganized",
+  "unravelled": "unraveled",
+  "unravelling": "unraveling",
+  "unrecognisable": "unrecognizable",
+  "unrecognised": "unrecognized",
+  "unrivalled": "unrivaled",
+  "unsavoury": "unsavory",
+  "untrammelled": "untrammeled",
+  "urbanisation": "urbanization",
+  "urbanise": "urbanize",
+  "urbanised": "urbanized",
+  "urbanises": "urbanizes",
+  "urbanising": "urbanizing",
+  "utilisable": "utilizable",
+  "utilisation": "utilization",
+  "utilise": "utilize",
+  "utilised": "utilized",
+  "utilises": "utilizes",
+  "utilising": "utilizing",
+  "valour": "valor",
+  "vandalise": "vandalize",
+  "vandalised": "vandalized",
+  "vandalises": "vandalizes",
+  "vandalising": "vandalizing",
+  "vaporisation": "vaporization",
+  "vaporise": "vaporize",
+  "vaporised": "vaporized",
+  "vaporises": "vaporizes",
+  "vaporising": "vaporizing",
+  "vapour": "vapor",
+  "vapours": "vapors",
+  "verbalise": "verbalize",
+  "verbalised": "verbalized",
+  "verbalises": "verbalizes",
+  "verbalising": "verbalizing",
+  "victimisation": "victimization",
+  "victimise": "victimize",
+  "victimised": "victimized",
+  "victimises": "victimizes",
+  "victimising": "victimizing",
+  "videodisc": "videodisk",
+  "videodiscs": "videodisks",
+  "vigour": "vigor",
+  "visualisation": "visualization",
+  "visualisations": "visualizations",
+  "visualise": "visualize",
+  "visualised": "visualized",
+  "visualises": "visualizes",
+  "visualising": "visualizing",
+  "vocalisation": "vocalization",
+  "vocalisations": "vocalizations",
+  "vocalise": "vocalize",
+  "vocalised": "vocalized",
+  "vocalises": "vocalizes",
+  "vocalising": "vocalizing",
+  "vulcanised": "vulcanized",
+  "vulgarisation": "vulgarization",
+  "vulgarise": "vulgarize",
+  "vulgarised": "vulgarized",
+  "vulgarises": "vulgarizes",
+  "vulgarising": "vulgarizing",
+  "waggon": "wagon",
+  "waggons": "wagons",
+  "watercolour": "watercolor",
+  "watercolours": "watercolors",
+  "weaselled": "weaseled",
+  "weaselling": "weaseling",
+  "westernisation": "westernization",
+  "westernise": "westernize",
+  "westernised": "westernized",
+  "westernises": "westernizes",
+  "westernising": "westernizing",
+  "womanise": "womanize",
+  "womanised": "womanized",
+  "womaniser": "womanizer",
+  "womanisers": "womanizers",
+  "womanises": "womanizes",
+  "womanising": "womanizing",
+  "woollen": "woolen",
+  "woollens": "woolens",
+  "woollies": "woolies",
+  "woolly": "wooly",
+  "worshipped": "worshiped",
+  "worshipper": "worshiper",
+  "worshipping": "worshiping",
+  "yodelled": "yodeled",
+  "yodelling": "yodeling",
+  "yoghourt": "yogurt",
+  "yoghourts": "yogurts",
+  "yoghurt": "yogurt",
+  "yoghurts": "yogurts"
+}

pred.txt ADDED Viewed

	@@ -0,0 +1 @@

+ pred_str=['三頭無小 ', '三頭無無 ', '三頭無 ', '三頭人無人 ', '大人無 ', '三頭一人 ', '跤頭 ', '三頭無小 ', '大坑 ', '大湯 ', '三頭無 ', '跤頭 ', '三頭仔 ', '烏頭 ', '大人無 ', '跤頭 ', '大頭仔 ', '三頭仔 ', '大湲 ', '三人無無 ', '大人人人人人 ', '跤仔 ', '大人無無 ', '大坑 ', '三頭仔 ', '跤仔 ', '跤頭 ', '三頭人人人人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大頭 ', '大人無無 ', '大湲 ', '大頭仔 ', '徘 ', '大坑 ', '大角 ', '三頭無 ', '大人人人人人 ', '大湯 ', '大湲 ', '三頭頭 ', '大人無 ', '大大路 ', '大大路 ', '大坑 ', '三頭仔 ', '跤仔 ', '三頭無小 ', '大角仔 ', '跤頭 ', '大坵 ', '雞仔仔 ', '鵾仔 ', '大大路 ', '大人人人人 ', '三頭頭 ', '三頭仔 ', '三頭無 ', '大人無 ', '大磾 ', '跤仔 ', '跤頭 ', '三人無無人 ', '三頭仔 ', '跤仔 ', '大人無無 ', '大人人人人 ', '大火 ', '大磾 ', '大頭仔 ', '大磾 ', '大坑 ', '大湲 ', '大坵 ', '大人無 ', '大大路 ', '大湲 ', '大人無 ', '大人人人 ', '三頭仔 ', '大人無 ', '跤 ', '三頭無無 ', '大頭仔 ', '跤仔 ', '跤頭 ', '三頭無人 ', '鵭仔 ', '大頭仔 ', '烏頭 ', '三頭頭 ', '跤仔 ', '大磾 ', '三頭無無 ', '三頭無無 ', '三頭人人人 ', '三人人人一人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大頭仔 ', '跤頭 ', '大大路 ', '大頭 ', '跤仔 ', '跤頭 ', '跤仔 ', '鵭仔 ', '跤頭 ', '雞頭 ', '跤仔 ', '三頭頭 ', '跤仔 ', '大湯 ', '跤仔 ', '三頭人人一生一生 ', '三頭無小 ', '大爯 ', '大湲 ', '大人人人人 ', '三頭頭 ', '大人無 ', '三頭無無 ', '三頭頭 ', '大人無 ', '三人無人 ', '大大路 ', '三頭無無 ', '大頭仔 ', '大人無 ', '大坵 ', '大人無人 ', '大人無 ', '大人人人人 ', '大頭仔 ', '大湯 ', '跤頭 ', '大湯 ', '大坵 ', '跤仔 ', '大坑 ', '三頭人人生生一生 ', '三人人人人人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人人人 ', '大大路 ', '三頭無無 ', '大坑 ', '大頭仔 ', '大人無 ', '大大路 ', '三頭無小 ', '三頭人一人一生一頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人無 ', '大人無 ', '大人人人人 ', '大人無無 ', '大人人人人人 ', '大坵 ', '大坑 ', '大人無 ', '大大路 ', '大坵 ', '大人無無 ', '大人無無 ', '大人人人 ', '大人人人 ', '大坵 ', '大大路 ', '大湯 ', '三頭無小 ', '大人無無 ', '跤仔 ', '大坵仔 ', '三頭無人 ', '大人無 ', '三頭人一人生生 ', '大坵 ', '大人無 ', '三頭無無 ', '三頭頭 ', '跤仔 ', '三頭人人生生生 ', '三頭無小 ', '這人人人人人人人人伊人伊人伊人伊人伊人伊人 ', '大湯 ', '大人無 ', '大人無 ', '大火 ', '跤仔 ', '大湲 ', '跤仔 ', '大湲 ', '鵭仔 ', '徘 ', '大坑 ', '大坑 ', '大磾 ', '大湯 ', '大人無 ', '大人人人人 ', '大火 ', '三人無無 ', '三人人人人人人人人頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭人人一人 ', '三頭人人一人 ', '三頭人人一人 ', '三頭人人一生生 ', '三人無無 ', '三頭人人生生一生 ', '大人無無 ', '大人無無 ', '大人人人 ', '大人人人人 ', '三頭無人 ', '大頭無 ', '三頭人人人人 ', '大人無無 ', '三頭無 ', '三頭無無 ', '跤仔 ', '三頭無小 ', '跤頭 ', '三頭無小 ', '跤仔 ', '三頭無小 ', '跤頭 ', '三頭無小 ', '三頭無小 ', '跤仔 ', '跤仔 ', '三頭無小 ', '跤仔 ', '三頭無小 ', '三頭頭生 ', '三頭人一人生生生 ', '跤頭 ', '跤頭 ', '跤頭 ', '鵬 ', '雞頭 ', '大坵 ', '鵭 ', '跤仔 ', '跤頭 ', '大湲 ', '鵾仔 ', '跤仔 ', '大坑 ', '跤頭 ', '大坑 ', '大磾 ', '三頭無 ', '跤仔 ', '三頭無 ', '跤頭 ', '鵭 ', '大角仔 ', '大頭仔 ', '大角 ', '大火 ', '三頭無 ', '三頭頭 ', '跤仔 ', '三頭無小 ', '雞頭 ', '大人無 ', '大火仔 ', '大人無 ', '三頭仔 ', '大頭仔 ', '大頭仔 ', '大人無 ', '大人無無 ', '大坵 ', '三頭無無 ', '三頭無 ', '跤仔 ', '三頭人一人生生一生頂頂頂頂頂頂頂 �� 頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭頭 ', '大人無 ', '三頭頭 ', '三頭人人一生一生 ', '三頭人人 ', '大人無無 ', '三頭人一人生生生 ', '大人無無 ', '大頭無無 ', '三頭頭 ', '三頭一人生生生 ', '鵭仔 ', '三頭無無 ', '大湲 ', '大頭無無 ', '跤頭 ', '大頭 ', '大人無無 ', '三頭頭 ', '跤頭 ', '三頭仔 ', '跤仔 ', '三頭頭 ', '三頭頭 ', '大湲 ', '跤頭 ', '三頭頭 ', '三頭頭 ', '大大路 ', '跤頭 ', '跤仔 ', '三頭頭 ', '跤仔 ', '跤仔 ', '大角 ', '三頭仔 ', '跤頭 ', '跤頭 ', '跤頭 ', '跤仔 ', '鵬 ', '大湯 ', '大人無 ', '三頭人人生生生 ', '三頭無無 ', '三頭無小 ', '大人無 ', '大人無 ', '大角仔 ', '三頭無無 ', '三頭仔 ', '大頭 ', '三頭無無 ', '大湯 ', '這人人人人人人人人人人 ', '大湯 ', '大人無無 ', '大大路 ', '大大路 ', '大湲 ', '這人人人人人人人人人伊人 ', '跤仔 ', '大人無 ', '大人人人人 ', '三頭人人一人生頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人無 ', '這人人人人人人人人人人 ', '大人無 ', '大人無無 ', '大湲 ', '大人無 ', '大頭仔 ', '大人無 ', '大坵 ', '大人無 ', '大人無 ', '大角 ', '大大路 ', '大大路 ', '大大路 ', '大湲 ', '大人人人人 ', '跤頭 ', '大人無 ', '大人無 ', '大人無 ', '大人人人 ', '大大路 ', '大大路 ', '大大路 ', '大人無 ', '大角仔 ', '三頭人人人人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人人人人 ', '大人無 ', '大人無 ', '大人無 ', '大湯 ', '大人無無 ', '跤仔 ', '三頭無人 ', '三頭無小 ', '三頭無無 ', '大頭無無 ', '三頭無 ', '大人無 ', '大坑 ', '烏頭仔 ', '跤仔 ', '三頭人一人生生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭仔 ', '跤頭 ', '大人無無 ', '雞頭 ', '跤頭 ', '三頭無小 ', '大人人人人人 ', '大人無 ', '大頭仔 ', '三頭人一人生生生一頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人無 ', '跤仔 ', '三頭人一人生生生 ', '跤頭 ', '大角 ', '鵭仔 ', '大人無 ', '大人無 ', '跤仔 ', '大人無 ', '鵬 ', '大磾 ', '大大路 ', '大磾 ', '大坑 ', '大磾 ', '大人無 ', '大湯 ', '大坵 ', '大大路 ', '大大路 ', '大湯 ', '大湲 ', '大坵 ', '大火 ', '大大路 ', '大坑 ', '這人人人人人人人人人人 ', '大磾 ', '鵭仔 ', '大坑 ', '鵬 ', '大坑 ', '大人無 ', '大火 ', '大坑 ', '大坵 ', '大磾 ', '大磾 ', '大人無 ', '鵭 ', '大頭仔 ', '鵾仔 ', '跤仔 ', '大角 ', '三頭仔 ', '大湯 ', '三頭仔 ', '大人無 ', '大角 ', '大角 ', '三人人人人人頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大角仔 ', '大大路 ', '大大路 ', '三頭仔 ', '大人無無 ', '大角 ', '大角 ', '大角 ', '大坑 ', '大坵仔 ', '大人無 ', '大頭仔 ', '大湯 ', '大角 ', '大湲 ', '大人無 ', '大人無 ', '大人無 ', '大人無 ', '大大路 ', '大坵 ', '大湲 ', '大頭仔 ', '大頭仔 ', '大坵 ', '大頭 ', '大頭仔 ', '三人人人一人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大大路 ', '大人人人人 ', '大人無 ', '鵬 ', '大坑 ', '大人無 ', '大大路 ', '大大路 ', '大人人人人 ', '這人人人人人人人人人人伊人 ', '大火 ', '大坑 ', '大磾 ', '大坑 ', '大湯 ', '大湲 ', '大坵 ', '大湯 ', '大湲 ', '大磾 ', '大磾 ', '大磾 ', '大大路 ', '大坑 ', '大人無無 ', '大人無 ', '大坑 ', '大湲 ', '大湯 ', '大磾 ', '大坑 ', '大坑 ', '大大路 ', '大湯 ', '大磾 ', '大頭 ', '大湯 ', '大磾 ', '大磾 ', '大頭仔 ', '大人無 ', '大人人人人 ', '三頭無無 ', '大頭仔 ', '大頭仔 ', '三頭無小 ', '大頭 ', '大人無無 ', '三頭一人 ', '這人人人人人人人人人 ', '大頭仔 ', '三頭無無 ', '三頭無小 ', '大火 ', '三頭人人生生生 ', '三頭無人 ', '大人人人人 ', '三人人人人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭無無 ', '三頭一人生一生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大坵 ', '大人無 ', '大人無 ', '大人人人人 ', '這人人人人人人人人人人人人伊人伊人伊人 ', '大人無 ', '三人無無 ', '三頭無小 ', '大人無無 ', '大火 ', '三頭仔 ', '三頭人人一人 ', '三頭一人生生頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭無人 ', '跤頭 ', '三頭仔 ', '大人無無 ', '這人人人人人人人人人人伊人 ', '三頭無 ', '大人無 ', '跤頭 ', '三頭仔 ', '大坵 ', '大坑 ', '大人無無 ', '大坵 ', '徘 ', '大坵 ', '大湲 ', '大湯 ', '大人無 ', '跤仔 ', '大大路 ', '大坵仔 ', '三頭人無人 ', '大坵 ', '大大路 ', '大人無 ', '大坵仔 ', '徘 ', '大大路 ', '大坑 ', '大坑 ', '大人無 ', '大湯 ', '大大路 ', '三頭無無 ', '大大路 ', '大湲 ', '大坑 ', '大人無 ', '大坑 ', '大大路 ', '大湲 ', '大坑 ', '大坵 ', '大坑 ', '大坵 ', '大大路 ', '大坵 ', '大火 ', '大人無 ', '大人人人人 ', '大湯 ', '大人無 ', '大大路 ', '大坵仔 ', '三頭無小 ', '跤仔 ', '大人無 ', '三頭無小 ', '三頭人人人生生一生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大坑 ', '鵬 ', '大坑 ', '三頭無小 ', '大人無無 ', '三頭無 ', '跤仔 ', '跤頭 ', '大湲 ', '三頭仔 ', '跤仔 ', '跤仔 ', '跤頭 ', '三頭無無 ', '跤仔 ', '大人無 ', '大爯 ', '大湲 ', '大坑 ', '大人人人人 ', '三頭無小 ', '三頭無 ', '大坑 ', '跤頭 ', '三頭無 ', '大角 ', '大湯 ', '大人無 ', '大人無無 ', '大人無 ', '大坑 ', '大坵 ', '大人無 ', '三頭無 ', '三頭無 ', '大坑 ', '跤仔 ', '跤頭 ', '跤仔 ', '大頭仔 ', '三頭頭 ', '大頭 ', '跤仔 ', '三頭頭 ', '大火 ', '三頭無小 ', '跤頭 ', '三人無無無 ', '大人無人 ', '大人無 ', '鵬 ', '跤仔 ', '大火 ', '鵭仔 ', '大頭仔 ', '跤頭 ', '三頭人人一生一生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大人無無 ', '大頭仔 ', '鵭仔 ', '大人無 ', '大人無無 ', '雞頭 ', '鵾仔 ', '大角 ', '大磾 ', '三頭仔 ', '跤頭 ', '三頭仔 ', '大角仔 ', '三頭仔 ', '大人無 ', '大人無 ', '鵭仔 ', '跤仔 ', '三頭無 ', '烏頭 ', '三頭仔 ', '三頭人人一人 ', '三頭仔 ', '跤頭 ', '跤仔 ', '三頭無無 ', '三頭人無人 ', '大人無 ', '跤仔 ', '三頭無小 ', '大頭仔 ', '三頭無 ', '大頭仔 ', '三頭人一人生生生生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大頭仔 ', '三頭無無 ', '跤仔 ', '大火 ', '大磾 ', '大磾 ', '大人無 ', '鵬 ', '跤仔 ', '跤頭 ', '鵭仔 ', '跤仔 ', '大人無 ', '大人無 ', '大頭路 ', '大人無 ', '雞頭 ', '大坑 ', '大坑 ', '大人無無 ', '大人無 ', '三頭無小 ', '徘 ', '大坑 ', '大磾 ', '鵭仔 ', '大人無無 ', '大湲 ', '大火 ', '大人無 ', '大人人人 ', '大大路 ', '大坑 ', '大角仔 ', '大人人人 ', '大磾 ', '大爯 ', '大磾 ', '大人人人人 ', '大磾 ', '大人無 ', '大人無無 ', '大湯 ', '大磾 ', '大火 ', '大湲 ', '大湲 ', '大湲 ', '大爯 ', '大坑 ', '徘 ', '徘 ', '大坑 ', '大坑 ', '大磾 ', '徘 ', '大人無 ', '大人無 ', '大坑 ', '大坵 ', '徘 ', '大坑 ', '大坵 ', '大大路 ', '鵬 ', '跤仔 ', '徘 ', '大大路 ', '大大路 ', '大人無 ', '大坑 ', '大坑 ', '大人無 ', '大人無 ', '大湲 ', '大大路 ', '三頭無無 ', '三頭無小 ', '跤仔 ', '大坑 ', '大人無 ', '三頭人一人生生生 ', '大人無無 ', '三頭無 ', '大頭仔 ', '大湲 ', '大人無無 ', '大人無 ', '大人無 ', '三頭無 ', '大人人人人 ', '三頭一人 ', '三頭人一人生生 ', '跤仔 ', '大人無 ', '三頭一人 ', '三人無人 ', '跤仔 ', '大人無無 ', '三頭人人一生生生 ', '大頭仔 ', '三頭頭 ', '大頭 ', '大人人人人 ', '大湲 ', '大人無 ', '大角 ', '大人人人 ', '三頭無小 ', '三頭頭生 ', '大人無 ', '大人無 ', '大人人人人 ', '大人人人 ', '三頭仔 ', '大人人人 ', '三頭人人一人 ', '三頭仔 ', '三頭無小 ', '大頭 ', '大人無無 ', '大坵 ', '三頭無人 ', '大磾 ', '大火仔 ', '大湲 ', '跤頭 ', '跤頭 ', '三頭頭 ', '三頭無無 ', '三頭無無 ', '三頭無生 ', '三頭仔 ', '三頭人一人生生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三頭仔 ', '大人無 ', '大大路 ', '大人無 ', '烏頭仔 ', '大人無無 ', '大人無 ', '大人無 ', '大人無 ', '大湯 ', '跤頭 ', '大頭無 ', '三人人人人人人人人人人一頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '三人無人 ', '大頭 ', '大火 ', '跤頭 ', '大人無 ', '鵾仔 ', '跤仔 ', '三頭無無 ', '大人無無 ', '大大路 ', '三頭仔 ', '大湲 ', '大湯 ', '大湲 ', '大磾 ', '跤仔 ', '大人無 ', '大火仔 ', '大頭仔 ', '三頭頭 ', '鵬 ', '大人無 ', '大人無 ', '大人無 ', '大人無 ', '大湲 ', '跤頭 ', '跤頭 ', '三頭無無 ', '大大路 ', '大坵 ', '鵭仔 ', '大人無無 ', '大人無 ', '三頭無小 ', '大火 ', '大大路 ', '大頭 ', '鵭 ', '大大路 ', '大磾 ', '跤仔 ', '大大路 ', '大人無 ', '大人無 ', '大火 ', '大人無 ', '大頭仔 ', '大湯 ', '大磾 ', '大磾 ', '大磾 ', '大湲 ', '大湯 ', '大湲 ', '大人無 ', '大湯 ', '大人無 ', '大湯 ', '大人人人人人 ', '大磾 ', '大湲 ', '大人無 ', '大磾 ', '大磾 ', '大人無 ', '大湲 ', '大湲 ', '大人無 ', '大人無 ', '大大路 ', '大人人人 ', '大人無 ', '大人無無 ', '大人無無 ', '大湲 ', '大人人人人人 ', '大人無 ', '大大路 ', '大人無 ', '大人人人人 ', '大人無 ', '大人無 ', '大人無 ', '大人無 ', '大人人人人 ', '大人無無 ', '大湯 ', '大湯 ', '大人無 ', '大人無 ', '大大路 ', '大人無 ', '三頭無 ', '大湲 ', '大火 ', '大頭仔 ', '大人無 ', '大人無 ', '三頭人人一人生頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂頂 ', '大湲 ', '大湲 ', '大湲 ', '大湯 ', '大坑 ', '跤仔 ', '大人無 ', '大人無 ', '大磾 ', '大大路 ', '鵭仔 ', '大磾 ', '跤仔 ', '大湲 ', '三頭無無 ', '大大路 ', '大人人人人 ', '大人無 ', '大人無 ', '大火 ', '三頭人人 ', '大湲 ', '大大路 ', '大人無 ', '大頭仔 ', '大坵 ', '大坑 ', '大人無無 ', '大湲 ', '大人無 ', '大人無 ', '大湯 ', '大人無 ', '大火 ', '大湲 ', '大人無 ', '大磾 ', '大人無 ', '大人無 ', '大人無 ', '大湲 ', '大湯 ']

preprocessor_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c1e1cf1e0f592d5e4a409fb4bad5c85a3999010e244b51f776a67a2fc6c0616
+size 6173655480

run.sh ADDED Viewed

	@@ -0,0 +1,34 @@

+python3 run_speech_recognition_seq2seq_streaming.py \
+--model_name_or_path="openai/whisper-large-v2" \
+--dataset_name="mozilla-foundation/common_voice_11_0" \
+--dataset_config_name="nan-tw" \
+--language="chinese" \
+--train_split_name="train" \
+--eval_split_name="test" \
+--model_index_name="Whisper large-v2 nan-tw" \
+--max_steps="5000" \
+--output_dir="./" \
+--per_device_train_batch_size="2" \
+--per_device_eval_batch_size="2" \
+--logging_steps="25" \
+--learning_rate="1e-5" \
+--warmup_steps="500" \
+--evaluation_strategy="steps" \
+--eval_steps="1000" \
+--save_strategy="steps" \
+--save_steps="1000" \
+--generation_max_length="225" \
+--length_column_name="input_length" \
+--max_duration_in_seconds="30" \
+--text_column_name="sentence" \
+--freeze_feature_encoder="False" \
+--report_to="tensorboard" \
+--gradient_checkpointing \
+--fp16 \
+--overwrite_output_dir \
+--do_train \
+--do_eval \
+--predict_with_generate \
+--do_normalize_eval \
+--use_auth_token \
+--optim="adamw_bnb_8bit"

run_speech_recognition_seq2seq_streaming.py ADDED Viewed

	@@ -0,0 +1,617 @@

+#!/usr/bin/env python
+# coding=utf-8
+# Copyright 2022 The HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+Fine-tuning the library models for sequence to sequence speech recognition
+with 🤗 Datasets' streaming mode.
+"""
+# You can also adapt this script for your own sequence to sequence speech
+# recognition task. Pointers for this are left as comments.
+import ryNormText
+import logging
+import os
+import re
+import string
+import sys
+from dataclasses import dataclass, field
+from typing import Any, Dict, List, Optional, Union
+import datasets
+import torch
+from datasets import IterableDatasetDict, interleave_datasets, load_dataset
+from torch.utils.data import IterableDataset
+import evaluate
+import transformers
+from transformers import (
+    AutoConfig,
+    AutoFeatureExtractor,
+    AutoModelForSpeechSeq2Seq,
+    AutoProcessor,
+    AutoTokenizer,
+    HfArgumentParser,
+    Seq2SeqTrainer,
+    Seq2SeqTrainingArguments,
+    TrainerCallback,
+    set_seed,
+)
+from transformers.trainer_pt_utils import IterableDatasetShard
+from transformers.trainer_utils import get_last_checkpoint, is_main_process
+from transformers.utils import check_min_version, send_example_telemetry
+from transformers.utils.versions import require_version
+# Will error if the minimal version of Transformers is not installed. Remove at your own risks.
+check_min_version("4.25.0.dev0")
+require_version("datasets>=1.18.2", "To fix: pip install -r examples/pytorch/speech-recognition/requirements.txt")
+logger = logging.getLogger(__name__)
+@dataclass
+class ModelArguments:
+    """
+    Arguments pertaining to which model/config/tokenizer we are going to fine-tune from.
+    """
+    model_name_or_path: str = field(
+        metadata={"help": "Path to pretrained model or model identifier from huggingface.co/models"}
+    )
+    config_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained config name or path if not the same as model_name"}
+    )
+    tokenizer_name: Optional[str] = field(
+        default=None, metadata={"help": "Pretrained tokenizer name or path if not the same as model_name"}
+    )
+    feature_extractor_name: Optional[str] = field(
+        default=None, metadata={"help": "feature extractor name or path if not the same as model_name"}
+    )
+    cache_dir: Optional[str] = field(
+        default=None,
+        metadata={"help": "Where to store the pretrained models downloaded from huggingface.co"},
+    )
+    use_fast_tokenizer: bool = field(
+        default=True,
+        metadata={"help": "Whether to use one of the fast tokenizer (backed by the tokenizers library) or not."},
+    )
+    model_revision: str = field(
+        default="main",
+        metadata={"help": "The specific model version to use (can be a branch name, tag name or commit id)."},
+    )
+    use_auth_token: bool = field(
+        default=False,
+        metadata={
+            "help": (
+                "Will use the token generated when running `huggingface-cli login` (necessary to use this script "
+                "with private models)."
+            )
+        },
+    )
+    freeze_feature_encoder: bool = field(
+        default=True, metadata={"help": "Whether to freeze the feature encoder layers of the model."}
+    )
+    freeze_encoder: bool = field(
+        default=False, metadata={"help": "Whether to freeze the entire encoder of the seq2seq model."}
+    )
+    forced_decoder_ids: List[List[int]] = field(
+        default=None,
+        metadata={
+            "help": (
+                "A list of pairs of integers which indicates a mapping from generation indices to token indices "
+                "that will be forced before sampling. For example, [[0, 123]] means the first generated token "
+                "will always be a token of index 123."
+            )
+        },
+    )
+    suppress_tokens: List[int] = field(
+        default=None, metadata={"help": "A list of tokens that will be suppressed at generation."}
+    )
+    model_index_name: str = field(default=None, metadata={"help": "Pretty name for the model card."})
+@dataclass
+class DataTrainingArguments:
+    """
+    Arguments pertaining to what data we are going to input our model for training and eval.
+    """
+    dataset_name: str = field(
+        default=None, metadata={"help": "The name of the dataset to use (via the datasets library)."}
+    )
+    dataset_config_name: Optional[str] = field(
+        default=None, metadata={"help": "The configuration name of the dataset to use (via the datasets library)."}
+    )
+    text_column: Optional[str] = field(
+        default=None,
+        metadata={"help": "The name of the column in the datasets containing the full texts (for summarization)."},
+    )
+    max_train_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": (
+                "For debugging purposes or quicker training, truncate the number of training examples to this "
+                "value if set."
+            )
+        },
+    )
+    max_eval_samples: Optional[int] = field(
+        default=None,
+        metadata={
+            "help": (
+                "For debugging purposes or quicker training, truncate the number of evaluation examples to this "
+                "value if set."
+            )
+        },
+    )
+    audio_column_name: str = field(
+        default="audio",
+        metadata={"help": "The name of the dataset column containing the audio data. Defaults to 'audio'"},
+    )
+    text_column_name: str = field(
+        default="text",
+        metadata={"help": "The name of the dataset column containing the text data. Defaults to 'text'"},
+    )
+    max_duration_in_seconds: float = field(
+        default=20.0,
+        metadata={
+            "help": (
+                "Truncate audio files that are longer than `max_duration_in_seconds` seconds to"
+                " 'max_duration_in_seconds`"
+            )
+        },
+    )
+    min_duration_in_seconds: float = field(
+        default=0.0, metadata={"help": "Filter audio files that are shorter than `min_duration_in_seconds` seconds"}
+    )
+    train_split_name: str = field(
+        default="train",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    eval_split_name: str = field(
+        default="test",
+        metadata={
+            "help": "The name of the training data set split to use (via the datasets library). Defaults to 'train'"
+        },
+    )
+    do_lower_case: bool = field(
+        default=False,
+        metadata={"help": "Whether the target text should be lower cased."},
+    )
+    do_remove_punctuation: bool = field(
+        default=False,
+        metadata={"help": "Whether the target text should be striped of punctuation."},
+    )
+    do_normalize_eval: bool = field(
+        default=True,
+        metadata={"help": "Whether to normalise the references and predictions in the eval WER calculation."},
+    )
+    language: str = field(
+        default=None,
+        metadata={
+            "help": (
+                "Language for multilingual fine-tuning. This argument should be set for multilingual fine-tuning "
+                "only. For English speech recognition, it should be set to `None`."
+            )
+        },
+    )
+    task: str = field(
+        default="transcribe",
+        metadata={"help": "Task, either `transcribe` for speech recognition or `translate` for speech translation."},
+    )
+    shuffle_buffer_size: Optional[int] = field(
+        default=500,
+        metadata={
+            "help": (
+                "The number of streamed examples to download before shuffling them. The large the buffer, "
+                "the closer it is to real offline shuffling."
+            )
+        },
+    )
+@dataclass
+class DataCollatorSpeechSeq2SeqWithPadding:
+    """
+    Data collator that will dynamically pad the inputs received.
+    Args:
+        processor ([`WhisperProcessor`])
+            The processor used for processing the data.
+        decoder_start_token_id (`int`)
+            The begin-of-sentence of the decoder.
+    """
+    processor: Any
+    decoder_start_token_id: int
+    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
+        # split inputs and labels since they have to be of different lengths and need
+        # different padding methods
+        model_input_name = self.processor.model_input_names[0]
+        input_features = [{model_input_name: feature[model_input_name]} for feature in features]
+        label_features = [{"input_ids": feature["labels"]} for feature in features]
+        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")
+        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")
+        # replace padding with -100 to ignore loss correctly
+        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)
+        # if bos token is appended in previous tokenization step,
+        # cut bos token here as it's append later anyways
+        if (labels[:, 0] == self.decoder_start_token_id).all().cpu().item():
+            labels = labels[:, 1:]
+        batch["labels"] = labels
+        return batch
+def load_streaming_dataset(dataset_name, dataset_config_name, split="train", **kwargs):
+    """
+    Utility function to load a dataset in streaming mode. For datasets with multiple splits,
+    each split is loaded individually and then splits combined by taking alternating examples from
+    each (interleaving).
+    """
+    if "+" in split:
+        # load multiple splits separated by the `+` symbol with streaming mode
+        dataset_splits = [
+            load_dataset(dataset_name, dataset_config_name, split=split_name, streaming=True, **kwargs)
+            for split_name in split.split("+")
+        ]
+        # interleave multiple splits to form one dataset
+        interleaved_dataset = interleave_datasets(dataset_splits)
+        return interleaved_dataset
+    else:
+        # load a single split *with* streaming mode
+        dataset = load_dataset(dataset_name, dataset_config_name, split=split, streaming=True, **kwargs)
+        return dataset
+def main():
+    # 1. Parse input arguments
+    # See all possible arguments in src/transformers/training_args.py
+    # or by passing the --help flag to this script.
+    # We now keep distinct sets of args, for a cleaner separation of concerns.
+    parser = HfArgumentParser((ModelArguments, DataTrainingArguments, Seq2SeqTrainingArguments))
+    if len(sys.argv) == 2 and sys.argv[1].endswith(".json"):
+        # If we pass only one argument to the script and it's the path to a json file,
+        # let's parse it to get our arguments.
+        model_args, data_args, training_args = parser.parse_json_file(json_file=os.path.abspath(sys.argv[1]))
+    else:
+        model_args, data_args, training_args = parser.parse_args_into_dataclasses()
+    # Sending telemetry. Tracking the example usage helps us better allocate resources to maintain them. The
+    # information sent is the one passed as arguments along with your Python/PyTorch versions.
+    send_example_telemetry("run_speech_recognition_seq2seq_streaming", model_args, data_args)
+    # 2. Setup logging
+    logging.basicConfig(
+        format="%(asctime)s - %(levelname)s - %(name)s - %(message)s",
+        datefmt="%m/%d/%Y %H:%M:%S",
+        handlers=[logging.StreamHandler(sys.stdout)],
+    )
+    log_level = training_args.get_process_log_level()
+    logger.setLevel(log_level)
+    datasets.utils.logging.set_verbosity(log_level)
+    transformers.utils.logging.set_verbosity(log_level)
+    transformers.utils.logging.enable_default_handler()
+    transformers.utils.logging.enable_explicit_format()
+    logger.setLevel(logging.INFO if is_main_process(training_args.local_rank) else logging.WARN)
+    # Log on each process the small summary:
+    logger.warning(
+        f"Process rank: {training_args.local_rank}, device: {training_args.device}, n_gpu: {training_args.n_gpu}"
+        f"distributed training: {bool(training_args.local_rank != -1)}, 16-bits training: {training_args.fp16}"
+    )
+    logger.info(f"Training/evaluation parameters {training_args}")
+    # Set the verbosity to info of the Transformers logger (on main process only):
+    if is_main_process(training_args.local_rank):
+        transformers.utils.logging.set_verbosity_info()
+    logger.info("Training/evaluation parameters %s", training_args)
+    # 3. Detecting last checkpoint and eventually continue from last checkpoint
+    last_checkpoint = None
+    if os.path.isdir(training_args.output_dir) and training_args.do_train and not training_args.overwrite_output_dir:
+        last_checkpoint = get_last_checkpoint(training_args.output_dir)
+        if last_checkpoint is None and len(os.listdir(training_args.output_dir)) > 0:
+            raise ValueError(
+                f"Output directory ({training_args.output_dir}) already exists and is not empty. "
+                "Use --overwrite_output_dir to overcome."
+            )
+        elif last_checkpoint is not None and training_args.resume_from_checkpoint is None:
+            logger.info(
+                f"Checkpoint detected, resuming training at {last_checkpoint}. To avoid this behavior, change "
+                "the `--output_dir` or add `--overwrite_output_dir` to train from scratch."
+            )
+    # Set seed before initializing model.
+    set_seed(training_args.seed)
+    # 4. Load dataset
+    raw_datasets = IterableDatasetDict()
+    if training_args.do_train:
+        raw_datasets["train"] = load_streaming_dataset(
+            data_args.dataset_name,
+            data_args.dataset_config_name,
+            split=data_args.train_split_name,
+            use_auth_token=True if model_args.use_auth_token else None,
+        )
+    if training_args.do_eval:
+        raw_datasets["eval"] = load_streaming_dataset(
+            data_args.dataset_name,
+            data_args.dataset_config_name,
+            split=data_args.eval_split_name,
+            use_auth_token=True if model_args.use_auth_token else None,
+        )
+    raw_datasets_features = list(next(iter(raw_datasets.values())).features.keys())
+    if data_args.audio_column_name not in raw_datasets_features:
+        raise ValueError(
+            f"--audio_column_name '{data_args.audio_column_name}' not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--audio_column_name` to the correct audio column - one of "
+            f"{', '.join(raw_datasets_features)}."
+        )
+    if data_args.text_column_name not in raw_datasets_features:
+        raise ValueError(
+            f"--text_column_name {data_args.text_column_name} not found in dataset '{data_args.dataset_name}'. "
+            "Make sure to set `--text_column_name` to the correct text column - one of "
+            f"{', '.join(raw_datasets_features)}."
+        )
+    # 5. Load pretrained model, tokenizer, and feature extractor
+    #
+    # Distributed training:
+    # The .from_pretrained methods guarantee that only one local process can concurrently
+    config = AutoConfig.from_pretrained(
+        model_args.config_name if model_args.config_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    config.update({"forced_decoder_ids": model_args.forced_decoder_ids, "suppress_tokens": model_args.suppress_tokens})
+    feature_extractor = AutoFeatureExtractor.from_pretrained(
+        model_args.feature_extractor_name if model_args.feature_extractor_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    tokenizer = AutoTokenizer.from_pretrained(
+        model_args.tokenizer_name if model_args.tokenizer_name else model_args.model_name_or_path,
+        cache_dir=model_args.cache_dir,
+        use_fast=model_args.use_fast_tokenizer,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    model = AutoModelForSpeechSeq2Seq.from_pretrained(
+        model_args.model_name_or_path,
+        config=config,
+        cache_dir=model_args.cache_dir,
+        revision=model_args.model_revision,
+        use_auth_token=True if model_args.use_auth_token else None,
+    )
+    if model.config.decoder_start_token_id is None:
+        raise ValueError("Make sure that `config.decoder_start_token_id` is correctly defined")
+    if model_args.freeze_feature_encoder:
+        model.freeze_feature_encoder()
+    if model_args.freeze_encoder:
+        model.freeze_encoder()
+        model.model.encoder.gradient_checkpointing = False
+    if data_args.language is not None:
+        # We only need to set the task id when the language is specified (i.e. in a multilingual setting)
+        tokenizer.set_prefix_tokens(language=data_args.language, task=data_args.task)
+    # 6. Resample speech dataset if necessary
+    dataset_sampling_rate = next(iter(raw_datasets.values())).features[data_args.audio_column_name].sampling_rate
+    if dataset_sampling_rate != feature_extractor.sampling_rate:
+        raw_datasets = raw_datasets.cast_column(
+            data_args.audio_column_name, datasets.features.Audio(sampling_rate=feature_extractor.sampling_rate)
+        )
+    # 7. Preprocessing the datasets.
+    # We need to read the audio files as arrays and tokenize the targets.
+    max_input_length = data_args.max_duration_in_seconds * feature_extractor.sampling_rate
+    min_input_length = data_args.min_duration_in_seconds * feature_extractor.sampling_rate
+    audio_column_name = data_args.audio_column_name
+    text_column_name = data_args.text_column_name
+    model_input_name = feature_extractor.model_input_names[0]
+    do_lower_case = data_args.do_lower_case
+    do_remove_punctuation = data_args.do_remove_punctuation
+    punctuation_to_remove = string.punctuation.replace("'", "")  # don't remove apostrophes
+    punctuation_to_remove_regex = f"[{''.join(punctuation_to_remove)}]"
+    if data_args.max_train_samples is not None:
+        raw_datasets["train"] = raw_datasets["train"].take(data_args.max_train_samples)
+    if data_args.max_eval_samples is not None:
+        raw_datasets["eval"] = raw_datasets["eval"].take(data_args.max_eval_samples)
+    def prepare_dataset(batch):
+        # process audio
+        sample = batch[audio_column_name]
+        inputs = feature_extractor(sample["array"], sampling_rate=sample["sampling_rate"])
+        # process audio length
+        batch[model_input_name] = inputs.get(model_input_name)[0]
+        batch["input_length"] = len(sample["array"])
+        # process targets (only char no rome)
+        input_str = batch[text_column_name].lower().split('（')[0] if do_lower_case else batch[text_column_name].split('（')[0]
+        if do_remove_punctuation:
+            input_str = re.sub(punctuation_to_remove_regex, " ", input_str).strip()
+            input_str = re.sub("\s\s+", " ", input_str)
+        batch["labels"] = tokenizer(input_str).input_ids
+        return batch
+    with training_args.main_process_first(desc="dataset map pre-processing"):
+        vectorized_datasets = raw_datasets.map(
+            prepare_dataset,
+            remove_columns=raw_datasets_features,
+        ).with_format("torch")
+        if training_args.do_train:
+            vectorized_datasets["train"] = vectorized_datasets["train"].shuffle(
+                buffer_size=data_args.shuffle_buffer_size,
+                seed=training_args.seed,
+            )
+    # filter training data that is shorter than min_input_length or longer than
+    # max_input_length
+    def is_audio_in_length_range(length):
+        return min_input_length < length < max_input_length
+    if training_args.do_train:
+        vectorized_datasets["train"] = vectorized_datasets["train"].filter(
+            is_audio_in_length_range,
+            input_columns=["input_length"],
+        )
+    # 8. Load Metric
+    cer_metric = evaluate.load("cer")
+    wer_metric = evaluate.load("wer")
+    do_normalize_eval = data_args.do_normalize_eval
+    def compute_metrics(pred):
+        pred_ids = pred.predictions
+        pred.label_ids[pred.label_ids == -100] = tokenizer.pad_token_id
+        pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True, normalize=do_normalize_eval)
+        # we do not want to group tokens when computing the metrics
+        label_str = tokenizer.batch_decode(pred.label_ids, skip_special_tokens=True, normalize=do_normalize_eval)
+        cer = 100 * cer_metric.compute(predictions=pred_str, references=label_str)
+        pred_str = [ryNormText.separ_char_word(x) for x in pred_str]
+        label_str = [ryNormText.separ_char_word(x) for x in label_str]
+        p = open('pred.txt','w')
+        p.write(f'{pred_str=}')
+        p.close()
+        p = open('label.txt','w')
+        p.write(f'{label_str=}')
+        p.close()
+        wer = 100 * wer_metric.compute(predictions=pred_str, references=label_str)
+        return {"wer": wer, "cer": cer}
+    # 9. Create a single speech processor
+    if is_main_process(training_args.local_rank):
+        # save feature extractor, tokenizer and config
+        feature_extractor.save_pretrained(training_args.output_dir)
+        tokenizer.save_pretrained(training_args.output_dir)
+        config.save_pretrained(training_args.output_dir)
+    processor = AutoProcessor.from_pretrained(training_args.output_dir)
+    # 10. Define data collator
+    data_collator = DataCollatorSpeechSeq2SeqWithPadding(
+        processor=processor,
+        decoder_start_token_id=model.config.decoder_start_token_id,
+    )
+    # 11. Configure Trainer
+    # Trainer callback to reinitialise and reshuffle the streamable datasets at the beginning of each epoch
+    class ShuffleCallback(TrainerCallback):
+        def on_epoch_begin(self, args, state, control, train_dataloader, **kwargs):
+            if isinstance(train_dataloader.dataset, IterableDatasetShard):
+                pass  # set_epoch() is handled by the Trainer
+            elif isinstance(train_dataloader.dataset, IterableDataset):
+                train_dataloader.dataset.set_epoch(train_dataloader.dataset._epoch + 1)
+    # Initialize Trainer
+    trainer = Seq2SeqTrainer(
+        model=model,
+        args=training_args,
+        train_dataset=vectorized_datasets["train"] if training_args.do_train else None,
+        eval_dataset=vectorized_datasets["eval"] if training_args.do_eval else None,
+        tokenizer=feature_extractor,
+        data_collator=data_collator,
+        compute_metrics=compute_metrics if training_args.predict_with_generate else None,
+        callbacks=[ShuffleCallback()],
+    )
+    # 12. Training
+    if training_args.do_train:
+        checkpoint = None
+        if training_args.resume_from_checkpoint is not None:
+            checkpoint = training_args.resume_from_checkpoint
+        elif last_checkpoint is not None:
+            checkpoint = last_checkpoint
+        train_result = trainer.train(resume_from_checkpoint=checkpoint)
+        trainer.save_model()  # Saves the feature extractor too for easy upload
+        metrics = train_result.metrics
+        if data_args.max_train_samples:
+            metrics["train_samples"] = data_args.max_train_samples
+        trainer.log_metrics("train", metrics)
+        trainer.save_metrics("train", metrics)
+        trainer.save_state()
+    # 13. Evaluation
+    results = {}
+    if training_args.do_eval:
+        logger.info("*** Evaluate ***")
+        metrics = trainer.evaluate(
+            metric_key_prefix="eval",
+            max_length=training_args.generation_max_length,
+            num_beams=training_args.generation_num_beams,
+        )
+        if data_args.max_eval_samples:
+            metrics["eval_samples"] = data_args.max_eval_samples
+        trainer.log_metrics("eval", metrics)
+        trainer.save_metrics("eval", metrics)
+    # 14. Write Training Stats
+    kwargs = {
+        "finetuned_from": model_args.model_name_or_path,
+        "tasks": "automatic-speech-recognition",
+        "tags": "whisper-event",
+    }
+    if data_args.dataset_name is not None:
+        kwargs["dataset_tags"] = data_args.dataset_name
+        if data_args.dataset_config_name is not None:
+            kwargs["dataset"] = f"{data_args.dataset_name} {data_args.dataset_config_name}"
+        else:
+            kwargs["dataset"] = data_args.dataset_name
+        if "common_voice" in data_args.dataset_name:
+            kwargs["language"] = data_args.dataset_config_name
+        if model_args.model_index_name is not None:
+            kwargs["model_name"] = model_args.model_index_name
+    if training_args.push_to_hub:
+        trainer.push_to_hub(**kwargs)
+    else:
+        trainer.create_model_card(**kwargs)
+    return results
+if __name__ == "__main__":
+    main()

ryNormText.py ADDED Viewed

	@@ -0,0 +1,81 @@

+import string, re, opencc
+全型2半型= str.maketrans(
+    '　０１２３４５６７８９'
+    'ａｂｃｄｅｆｇｈｉｊｋｌｍｎｏｐｑｒｓｔｕｖｗｘｙｚ'
+    'ＡＢＣＤＥＦＧＨＩＪＫＬＭＮＯＰＱＲＳＴＵＶＷＸＹＺ'
+    '！゛＃＄％＆（）＊＋、ー。／：；〈＝〉？＠［］＾＿‘｛｜｝～',
+    ' 0123456789'
+    'abcdefghijklmnopqrstuvwxyz'
+    'ABCDEFGHIJKLMNOPQRSTUVWXYZ'
+    '!"#$%&()*+,-./:;<=>?@[]^_`{|}~'
+    )
+def 把怪字修進unicode(xStr):
+    xStr= re.sub('\uf5c3','𪜶', xStr)
+    return xStr
+def ryNormText(s):
+    """
+    <<<None>>> ==> 刪除
+    標點 ==> 空白
+    連續空白 ==> 1個空白
+    簡繁
+    """
+    punc1= string.punctuation  # 這是為英文
+    punc1
+    punc2= '。，﹐、！？：：；『』「」…,\n' # 這是為中文，尚未完備！！
+    punc= f"[{punc1}{punc2}]"  ## 這是 regular expression 的 pattern
+    ## <<<None>>> ==> 刪除
+    s= re.sub('<<<None>>>','',s)
+    # 標點 ==> 空白
+    s= re.sub(punc,' ',s)
+    # 連續空白 ==> 1個空白
+    s= re.sub('[ ]+',' ',s)
+    # 空白 ==> 刪除
+    s= re.sub(' ','',s)
+    s= 把怪字修進unicode(s)
+    # 簡繁
+    s= opencc.OpenCC('s2tw').convert(s)
+    return s
+import unicodedata
+import re
+def separ_char_word(inputString= '我是呂仁園 Renyuan Lyu'):
+    inputString= 把怪字修進unicode(inputString)
+    y= ''
+    for x in inputString:
+        y += x
+        try:
+            un= unicodedata.name(x)
+            if un.startswith('CJK'):
+                y += ' '
+            else:
+                pass
+        except Exception as ex:
+            y = ' '+y+' '
+            print(f'ryErr:(def 中英分開:){ex= }\t【{x= }】\t{inputString= }')
+    y= re.sub('[ ]+',' ', y) #連續空白只保留1個空白
+    return y
+#q= 中英分開('大家好 da jia hao 我是呂仁園 I am Renyuan Lyu')
+#print(q)

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,133 @@

+{
+  "additional_special_tokens": [
+    "<|endoftext|>",
+    "<|startoftranscript|>",
+    "<|en|>",
+    "<|zh|>",
+    "<|de|>",
+    "<|es|>",
+    "<|ru|>",
+    "<|ko|>",
+    "<|fr|>",
+    "<|ja|>",
+    "<|pt|>",
+    "<|tr|>",
+    "<|pl|>",
+    "<|ca|>",
+    "<|nl|>",
+    "<|ar|>",
+    "<|sv|>",
+    "<|it|>",
+    "<|id|>",
+    "<|hi|>",
+    "<|fi|>",
+    "<|vi|>",
+    "<|he|>",
+    "<|uk|>",
+    "<|el|>",
+    "<|ms|>",
+    "<|cs|>",
+    "<|ro|>",
+    "<|da|>",
+    "<|hu|>",
+    "<|ta|>",
+    "<|no|>",
+    "<|th|>",
+    "<|ur|>",
+    "<|hr|>",
+    "<|bg|>",
+    "<|lt|>",
+    "<|la|>",
+    "<|mi|>",
+    "<|ml|>",
+    "<|cy|>",
+    "<|sk|>",
+    "<|te|>",
+    "<|fa|>",
+    "<|lv|>",
+    "<|bn|>",
+    "<|sr|>",
+    "<|az|>",
+    "<|sl|>",
+    "<|kn|>",
+    "<|et|>",
+    "<|mk|>",
+    "<|br|>",
+    "<|eu|>",
+    "<|is|>",
+    "<|hy|>",
+    "<|ne|>",
+    "<|mn|>",
+    "<|bs|>",
+    "<|kk|>",
+    "<|sq|>",
+    "<|sw|>",
+    "<|gl|>",
+    "<|mr|>",
+    "<|pa|>",
+    "<|si|>",
+    "<|km|>",
+    "<|sn|>",
+    "<|yo|>",
+    "<|so|>",
+    "<|af|>",
+    "<|oc|>",
+    "<|ka|>",
+    "<|be|>",
+    "<|tg|>",
+    "<|sd|>",
+    "<|gu|>",
+    "<|am|>",
+    "<|yi|>",
+    "<|lo|>",
+    "<|uz|>",
+    "<|fo|>",
+    "<|ht|>",
+    "<|ps|>",
+    "<|tk|>",
+    "<|nn|>",
+    "<|mt|>",
+    "<|sa|>",
+    "<|lb|>",
+    "<|my|>",
+    "<|bo|>",
+    "<|tl|>",
+    "<|mg|>",
+    "<|as|>",
+    "<|tt|>",
+    "<|haw|>",
+    "<|ln|>",
+    "<|ha|>",
+    "<|ba|>",
+    "<|jw|>",
+    "<|su|>",
+    "<|translate|>",
+    "<|transcribe|>",
+    "<|startoflm|>",
+    "<|startofprev|>",
+    "<|nocaptions|>",
+    "<|notimestamps|>"
+  ],
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 1024,
+  "name_or_path": "openai/whisper-large-v2",
+  "pad_token": null,
+  "processor_class": "WhisperProcessor",
+  "return_attention_mask": false,
+  "special_tokens_map_file": null,
+  "tokenizer_class": "WhisperTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.05,
+    "train_loss": 3.0522214595794677,
+    "train_runtime": 5458.8622,
+    "train_samples_per_second": 1.832,
+    "train_steps_per_second": 0.916
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1275 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 6.0532,
+  "global_step": 5000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.2000000000000006e-07,
+      "loss": 2.3259,
+      "step": 25
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 9.000000000000001e-07,
+      "loss": 1.7615,
+      "step": 50
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.3800000000000001e-06,
+      "loss": 1.2375,
+      "step": 75
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 1.8800000000000002e-06,
+      "loss": 1.3112,
+      "step": 100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.38e-06,
+      "loss": 1.3986,
+      "step": 125
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.88e-06,
+      "loss": 1.6643,
+      "step": 150
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3.3800000000000007e-06,
+      "loss": 1.7064,
+      "step": 175
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3.88e-06,
+      "loss": 1.7026,
+      "step": 200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.38e-06,
+      "loss": 2.0459,
+      "step": 225
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.880000000000001e-06,
+      "loss": 2.3189,
+      "step": 250
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 5.380000000000001e-06,
+      "loss": 2.647,
+      "step": 275
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 5.8800000000000005e-06,
+      "loss": 2.4019,
+      "step": 300
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 6.380000000000001e-06,
+      "loss": 2.9076,
+      "step": 325
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 6.860000000000001e-06,
+      "loss": 4.1248,
+      "step": 350
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 7.360000000000001e-06,
+      "loss": 2.9751,
+      "step": 375
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 7.860000000000001e-06,
+      "loss": 3.1863,
+      "step": 400
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.36e-06,
+      "loss": 3.1017,
+      "step": 425
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 8.860000000000002e-06,
+      "loss": 3.3757,
+      "step": 450
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.360000000000002e-06,
+      "loss": 4.871,
+      "step": 475
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.86e-06,
+      "loss": 7.6053,
+      "step": 500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 9.960000000000001e-06,
+      "loss": 4.4155,
+      "step": 525
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 9.904444444444445e-06,
+      "loss": 4.5183,
+      "step": 550
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.84888888888889e-06,
+      "loss": 4.1442,
+      "step": 575
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.793333333333333e-06,
+      "loss": 4.1241,
+      "step": 600
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 9.737777777777779e-06,
+      "loss": 3.9046,
+      "step": 625
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 9.682222222222223e-06,
+      "loss": 3.8142,
+      "step": 650
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.626666666666667e-06,
+      "loss": 3.6618,
+      "step": 675
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.571111111111113e-06,
+      "loss": 3.6848,
+      "step": 700
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 9.515555555555557e-06,
+      "loss": 3.6017,
+      "step": 725
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.460000000000001e-06,
+      "loss": 3.5401,
+      "step": 750
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 9.404444444444445e-06,
+      "loss": 3.7507,
+      "step": 775
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 9.348888888888889e-06,
+      "loss": 3.3527,
+      "step": 800
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 9.293333333333335e-06,
+      "loss": 3.4445,
+      "step": 825
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 9.237777777777779e-06,
+      "loss": 3.3492,
+      "step": 850
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 9.182222222222223e-06,
+      "loss": 3.4195,
+      "step": 875
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 9.126666666666667e-06,
+      "loss": 3.6324,
+      "step": 900
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 9.07111111111111e-06,
+      "loss": 3.5551,
+      "step": 925
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 9.015555555555557e-06,
+      "loss": 3.6139,
+      "step": 950
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 8.96e-06,
+      "loss": 3.3878,
+      "step": 975
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 8.904444444444446e-06,
+      "loss": 3.5696,
+      "step": 1000
+    },
+    {
+      "epoch": 1.04,
+      "eval_cer": 96.89103531542409,
+      "eval_loss": 3.418963670730591,
+      "eval_runtime": 273.6647,
+      "eval_samples_per_second": 3.603,
+      "eval_steps_per_second": 1.801,
+      "eval_wer": 96.85496183206106,
+      "step": 1000
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 8.848888888888889e-06,
+      "loss": 3.6154,
+      "step": 1025
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 8.793333333333334e-06,
+      "loss": 3.4399,
+      "step": 1050
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.737777777777778e-06,
+      "loss": 3.3262,
+      "step": 1075
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 8.682222222222222e-06,
+      "loss": 3.4615,
+      "step": 1100
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 8.626666666666668e-06,
+      "loss": 3.2971,
+      "step": 1125
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 8.571111111111112e-06,
+      "loss": 3.4235,
+      "step": 1150
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.515555555555556e-06,
+      "loss": 3.252,
+      "step": 1175
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 8.46e-06,
+      "loss": 3.3725,
+      "step": 1200
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.404444444444444e-06,
+      "loss": 3.4539,
+      "step": 1225
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 8.34888888888889e-06,
+      "loss": 3.3736,
+      "step": 1250
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.293333333333334e-06,
+      "loss": 3.3606,
+      "step": 1275
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 8.237777777777778e-06,
+      "loss": 3.4193,
+      "step": 1300
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.182222222222222e-06,
+      "loss": 3.3679,
+      "step": 1325
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 8.126666666666668e-06,
+      "loss": 3.5329,
+      "step": 1350
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.071111111111112e-06,
+      "loss": 3.3347,
+      "step": 1375
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 8.015555555555556e-06,
+      "loss": 3.3093,
+      "step": 1400
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 7.960000000000002e-06,
+      "loss": 3.3035,
+      "step": 1425
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 7.904444444444444e-06,
+      "loss": 3.4493,
+      "step": 1450
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.84888888888889e-06,
+      "loss": 3.2347,
+      "step": 1475
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 7.793333333333334e-06,
+      "loss": 3.2076,
+      "step": 1500
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.737777777777778e-06,
+      "loss": 3.2862,
+      "step": 1525
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 7.682222222222224e-06,
+      "loss": 3.4486,
+      "step": 1550
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 7.626666666666668e-06,
+      "loss": 3.3531,
+      "step": 1575
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 7.571111111111112e-06,
+      "loss": 3.435,
+      "step": 1600
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 7.515555555555556e-06,
+      "loss": 3.3428,
+      "step": 1625
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 7.4600000000000006e-06,
+      "loss": 3.2712,
+      "step": 1650
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.4044444444444455e-06,
+      "loss": 3.147,
+      "step": 1675
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 7.3488888888888895e-06,
+      "loss": 3.2841,
+      "step": 1700
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 7.2933333333333335e-06,
+      "loss": 3.1548,
+      "step": 1725
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 7.237777777777778e-06,
+      "loss": 3.0778,
+      "step": 1750
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.1822222222222224e-06,
+      "loss": 3.1293,
+      "step": 1775
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 7.126666666666667e-06,
+      "loss": 3.3325,
+      "step": 1800
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 7.071111111111112e-06,
+      "loss": 3.1438,
+      "step": 1825
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 7.015555555555556e-06,
+      "loss": 3.3838,
+      "step": 1850
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 6.96e-06,
+      "loss": 3.344,
+      "step": 1875
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 6.904444444444444e-06,
+      "loss": 3.1949,
+      "step": 1900
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 6.848888888888889e-06,
+      "loss": 3.2732,
+      "step": 1925
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 6.793333333333334e-06,
+      "loss": 3.2508,
+      "step": 1950
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 6.737777777777779e-06,
+      "loss": 3.1962,
+      "step": 1975
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 6.682222222222223e-06,
+      "loss": 3.1453,
+      "step": 2000
+    },
+    {
+      "epoch": 2.08,
+      "eval_cer": 98.94355568970722,
+      "eval_loss": 3.238253116607666,
+      "eval_runtime": 276.3056,
+      "eval_samples_per_second": 3.569,
+      "eval_steps_per_second": 1.784,
+      "eval_wer": 98.93129770992365,
+      "step": 2000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 6.626666666666667e-06,
+      "loss": 3.2259,
+      "step": 2025
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 6.571111111111111e-06,
+      "loss": 3.2412,
+      "step": 2050
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 6.515555555555556e-06,
+      "loss": 3.1211,
+      "step": 2075
+    },
+    {
+      "epoch": 2.1,
+      "learning_rate": 6.460000000000001e-06,
+      "loss": 2.9139,
+      "step": 2100
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 6.404444444444446e-06,
+      "loss": 3.1701,
+      "step": 2125
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 6.348888888888889e-06,
+      "loss": 3.1944,
+      "step": 2150
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 6.293333333333334e-06,
+      "loss": 3.1589,
+      "step": 2175
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 6.237777777777778e-06,
+      "loss": 3.2229,
+      "step": 2200
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 6.182222222222223e-06,
+      "loss": 3.2401,
+      "step": 2225
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 6.126666666666668e-06,
+      "loss": 3.2551,
+      "step": 2250
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.0711111111111125e-06,
+      "loss": 2.9634,
+      "step": 2275
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 6.015555555555556e-06,
+      "loss": 3.0801,
+      "step": 2300
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 5.9600000000000005e-06,
+      "loss": 3.1698,
+      "step": 2325
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 5.9044444444444446e-06,
+      "loss": 3.1864,
+      "step": 2350
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 5.8488888888888895e-06,
+      "loss": 3.1402,
+      "step": 2375
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 5.793333333333334e-06,
+      "loss": 3.1443,
+      "step": 2400
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 5.737777777777778e-06,
+      "loss": 2.9661,
+      "step": 2425
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 5.682222222222222e-06,
+      "loss": 3.0652,
+      "step": 2450
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 5.626666666666667e-06,
+      "loss": 3.0405,
+      "step": 2475
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 5.571111111111111e-06,
+      "loss": 2.9499,
+      "step": 2500
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 5.515555555555556e-06,
+      "loss": 3.1246,
+      "step": 2525
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 5.460000000000001e-06,
+      "loss": 3.0122,
+      "step": 2550
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 5.404444444444444e-06,
+      "loss": 3.0258,
+      "step": 2575
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.348888888888889e-06,
+      "loss": 3.1414,
+      "step": 2600
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 5.293333333333334e-06,
+      "loss": 3.1096,
+      "step": 2625
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 5.237777777777778e-06,
+      "loss": 3.0937,
+      "step": 2650
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 5.182222222222223e-06,
+      "loss": 3.0308,
+      "step": 2675
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 5.126666666666668e-06,
+      "loss": 3.1702,
+      "step": 2700
+    },
+    {
+      "epoch": 3.07,
+      "learning_rate": 5.071111111111111e-06,
+      "loss": 3.1638,
+      "step": 2725
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 5.015555555555556e-06,
+      "loss": 2.9025,
+      "step": 2750
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 4.960000000000001e-06,
+      "loss": 3.0278,
+      "step": 2775
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 4.904444444444445e-06,
+      "loss": 3.0397,
+      "step": 2800
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 4.848888888888889e-06,
+      "loss": 3.0413,
+      "step": 2825
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 4.793333333333334e-06,
+      "loss": 3.1721,
+      "step": 2850
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 4.737777777777779e-06,
+      "loss": 2.9547,
+      "step": 2875
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.682222222222223e-06,
+      "loss": 2.974,
+      "step": 2900
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 4.626666666666667e-06,
+      "loss": 3.0297,
+      "step": 2925
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.571111111111112e-06,
+      "loss": 2.9829,
+      "step": 2950
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 4.515555555555556e-06,
+      "loss": 2.8869,
+      "step": 2975
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.4600000000000005e-06,
+      "loss": 3.0722,
+      "step": 3000
+    },
+    {
+      "epoch": 3.13,
+      "eval_cer": 158.52701479022033,
+      "eval_loss": 3.20432710647583,
+      "eval_runtime": 318.685,
+      "eval_samples_per_second": 3.094,
+      "eval_steps_per_second": 1.547,
+      "eval_wer": 129.06870229007635,
+      "step": 3000
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 4.404444444444445e-06,
+      "loss": 2.9035,
+      "step": 3025
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 4.348888888888889e-06,
+      "loss": 2.9127,
+      "step": 3050
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 4.2933333333333334e-06,
+      "loss": 3.1372,
+      "step": 3075
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 4.2377777777777775e-06,
+      "loss": 2.9721,
+      "step": 3100
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 4.182222222222222e-06,
+      "loss": 2.9846,
+      "step": 3125
+    },
+    {
+      "epoch": 3.16,
+      "learning_rate": 4.126666666666667e-06,
+      "loss": 3.0426,
+      "step": 3150
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 4.071111111111111e-06,
+      "loss": 2.9058,
+      "step": 3175
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 4.015555555555556e-06,
+      "loss": 2.8259,
+      "step": 3200
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 3.96e-06,
+      "loss": 2.9893,
+      "step": 3225
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 3.904444444444444e-06,
+      "loss": 2.9297,
+      "step": 3250
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 3.848888888888889e-06,
+      "loss": 2.8989,
+      "step": 3275
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 3.793333333333334e-06,
+      "loss": 2.9417,
+      "step": 3300
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 3.737777777777778e-06,
+      "loss": 2.9383,
+      "step": 3325
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 3.6822222222222225e-06,
+      "loss": 2.8867,
+      "step": 3350
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 3.6266666666666674e-06,
+      "loss": 2.9945,
+      "step": 3375
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 3.5711111111111114e-06,
+      "loss": 2.9077,
+      "step": 3400
+    },
+    {
+      "epoch": 4.05,
+      "learning_rate": 3.515555555555556e-06,
+      "loss": 2.8711,
+      "step": 3425
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 3.46e-06,
+      "loss": 2.9767,
+      "step": 3450
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 3.404444444444445e-06,
+      "loss": 2.8937,
+      "step": 3475
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.3488888888888892e-06,
+      "loss": 2.9073,
+      "step": 3500
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 3.2933333333333333e-06,
+      "loss": 2.7517,
+      "step": 3525
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 3.237777777777778e-06,
+      "loss": 3.0988,
+      "step": 3550
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 3.1822222222222226e-06,
+      "loss": 2.7826,
+      "step": 3575
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 3.1266666666666667e-06,
+      "loss": 2.9641,
+      "step": 3600
+    },
+    {
+      "epoch": 4.09,
+      "learning_rate": 3.0711111111111115e-06,
+      "loss": 2.8948,
+      "step": 3625
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 3.015555555555556e-06,
+      "loss": 2.8519,
+      "step": 3650
+    },
+    {
+      "epoch": 4.1,
+      "learning_rate": 2.96e-06,
+      "loss": 2.8796,
+      "step": 3675
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 2.904444444444445e-06,
+      "loss": 2.9119,
+      "step": 3700
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 2.8488888888888894e-06,
+      "loss": 2.8479,
+      "step": 3725
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 2.7933333333333334e-06,
+      "loss": 2.9925,
+      "step": 3750
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 2.7377777777777783e-06,
+      "loss": 2.9697,
+      "step": 3775
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 2.6822222222222223e-06,
+      "loss": 2.9331,
+      "step": 3800
+    },
+    {
+      "epoch": 4.13,
+      "learning_rate": 2.6266666666666668e-06,
+      "loss": 2.7614,
+      "step": 3825
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 2.5711111111111112e-06,
+      "loss": 2.9913,
+      "step": 3850
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 2.5155555555555557e-06,
+      "loss": 2.8217,
+      "step": 3875
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.46e-06,
+      "loss": 2.7742,
+      "step": 3900
+    },
+    {
+      "epoch": 4.15,
+      "learning_rate": 2.4044444444444446e-06,
+      "loss": 2.8652,
+      "step": 3925
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 2.348888888888889e-06,
+      "loss": 2.9482,
+      "step": 3950
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 2.2933333333333335e-06,
+      "loss": 2.7808,
+      "step": 3975
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 2.237777777777778e-06,
+      "loss": 2.8327,
+      "step": 4000
+    },
+    {
+      "epoch": 5.01,
+      "eval_cer": 333.05161485058863,
+      "eval_loss": 3.225778102874756,
+      "eval_runtime": 362.3621,
+      "eval_samples_per_second": 2.721,
+      "eval_steps_per_second": 1.361,
+      "eval_wer": 327.9083969465649,
+      "step": 4000
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 2.1822222222222225e-06,
+      "loss": 2.7936,
+      "step": 4025
+    },
+    {
+      "epoch": 5.02,
+      "learning_rate": 2.126666666666667e-06,
+      "loss": 2.7693,
+      "step": 4050
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 2.0711111111111114e-06,
+      "loss": 2.7341,
+      "step": 4075
+    },
+    {
+      "epoch": 5.03,
+      "learning_rate": 2.0155555555555554e-06,
+      "loss": 2.7995,
+      "step": 4100
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 1.9600000000000003e-06,
+      "loss": 2.78,
+      "step": 4125
+    },
+    {
+      "epoch": 5.04,
+      "learning_rate": 1.9044444444444445e-06,
+      "loss": 2.8048,
+      "step": 4150
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 1.848888888888889e-06,
+      "loss": 2.6663,
+      "step": 4175
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 1.7933333333333337e-06,
+      "loss": 2.9016,
+      "step": 4200
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 1.737777777777778e-06,
+      "loss": 2.7117,
+      "step": 4225
+    },
+    {
+      "epoch": 5.06,
+      "learning_rate": 1.6822222222222224e-06,
+      "loss": 2.6716,
+      "step": 4250
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 1.6266666666666666e-06,
+      "loss": 2.7193,
+      "step": 4275
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 1.5711111111111113e-06,
+      "loss": 2.7704,
+      "step": 4300
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 1.5155555555555558e-06,
+      "loss": 2.9998,
+      "step": 4325
+    },
+    {
+      "epoch": 5.08,
+      "learning_rate": 1.46e-06,
+      "loss": 2.8433,
+      "step": 4350
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 1.4044444444444447e-06,
+      "loss": 2.6071,
+      "step": 4375
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 1.3488888888888891e-06,
+      "loss": 2.8095,
+      "step": 4400
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 1.2933333333333334e-06,
+      "loss": 2.6704,
+      "step": 4425
+    },
+    {
+      "epoch": 5.1,
+      "learning_rate": 1.2377777777777778e-06,
+      "loss": 2.6676,
+      "step": 4450
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 1.1822222222222223e-06,
+      "loss": 2.8023,
+      "step": 4475
+    },
+    {
+      "epoch": 5.11,
+      "learning_rate": 1.1266666666666667e-06,
+      "loss": 2.7526,
+      "step": 4500
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 1.0711111111111112e-06,
+      "loss": 2.7228,
+      "step": 4525
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 1.0155555555555557e-06,
+      "loss": 2.6382,
+      "step": 4550
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 9.600000000000001e-07,
+      "loss": 2.7358,
+      "step": 4575
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 9.044444444444445e-07,
+      "loss": 2.6922,
+      "step": 4600
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 8.488888888888889e-07,
+      "loss": 2.847,
+      "step": 4625
+    },
+    {
+      "epoch": 5.14,
+      "learning_rate": 7.933333333333335e-07,
+      "loss": 2.6146,
+      "step": 4650
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 7.377777777777779e-07,
+      "loss": 2.7914,
+      "step": 4675
+    },
+    {
+      "epoch": 5.15,
+      "learning_rate": 6.822222222222223e-07,
+      "loss": 2.645,
+      "step": 4700
+    },
+    {
+      "epoch": 5.16,
+      "learning_rate": 6.266666666666667e-07,
+      "loss": 2.717,
+      "step": 4725
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 5.711111111111111e-07,
+      "loss": 2.751,
+      "step": 4750
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 5.155555555555556e-07,
+      "loss": 2.6859,
+      "step": 4775
+    },
+    {
+      "epoch": 6.01,
+      "learning_rate": 4.6000000000000004e-07,
+      "loss": 2.4752,
+      "step": 4800
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 4.0444444444444445e-07,
+      "loss": 2.6502,
+      "step": 4825
+    },
+    {
+      "epoch": 6.02,
+      "learning_rate": 3.488888888888889e-07,
+      "loss": 2.5226,
+      "step": 4850
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 2.9333333333333337e-07,
+      "loss": 2.6241,
+      "step": 4875
+    },
+    {
+      "epoch": 6.03,
+      "learning_rate": 2.3777777777777777e-07,
+      "loss": 2.5514,
+      "step": 4900
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 1.8222222222222226e-07,
+      "loss": 2.6996,
+      "step": 4925
+    },
+    {
+      "epoch": 6.04,
+      "learning_rate": 1.2666666666666666e-07,
+      "loss": 2.6358,
+      "step": 4950
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 7.111111111111112e-08,
+      "loss": 2.7597,
+      "step": 4975
+    },
+    {
+      "epoch": 6.05,
+      "learning_rate": 1.5555555555555557e-08,
+      "loss": 2.6468,
+      "step": 5000
+    },
+    {
+      "epoch": 6.05,
+      "eval_cer": 123.45306368849984,
+      "eval_loss": 3.212874174118042,
+      "eval_runtime": 302.4073,
+      "eval_samples_per_second": 3.261,
+      "eval_steps_per_second": 1.63,
+      "eval_wer": 118.50381679389312,
+      "step": 5000
+    },
+    {
+      "epoch": 6.05,
+      "step": 5000,
+      "total_flos": 2.12189711818752e+19,
+      "train_loss": 3.0522214595794677,
+      "train_runtime": 5458.8622,
+      "train_samples_per_second": 1.832,
+      "train_steps_per_second": 0.916
+    }
+  ],
+  "max_steps": 5000,
+  "num_train_epochs": 9223372036854775807,
+  "total_flos": 2.12189711818752e+19,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0917c506d33e6aaecd26c5c143567a69a21ec072808d7d6a3e64a1189180b2d
+size 3515

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff