Karan Chand commited on
Commit
39e866d
1 Parent(s): 6606848

Upload lm-boosted decoder

Browse files
alphabet.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"labels": ["", "<s>", "</s>", "\u2047", " ", "'", "-", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z"], "is_bpe": false}
language_model/5gram_correct.arpa ADDED
The diff for this file is too large to render. See raw diff
 
language_model/attrs.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"alpha": 0.5, "beta": 1.5, "unk_score_offset": -10.0, "score_boundary": true}
language_model/unigrams.txt ADDED
@@ -0,0 +1,742 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ </s>
2
+ <s>
3
+ a
4
+ able
5
+ about
6
+ above
7
+ accept
8
+ adieu
9
+ adios
10
+ adjacent
11
+ adjo
12
+ adria
13
+ advi
14
+ advised
15
+ aero
16
+ aerovic
17
+ affirm
18
+ after
19
+ afternoo
20
+ afternoon
21
+ afterwards
22
+ again
23
+ ageri
24
+ agree
25
+ ah
26
+ aha
27
+ ahead
28
+ ahm
29
+ ai
30
+ air
31
+ airals
32
+ airbus
33
+ aircraft
34
+ airforce
35
+ airfrans
36
+ airlink
37
+ airtas
38
+ airtours
39
+ airway
40
+ al
41
+ albix
42
+ alfa
43
+ algerie
44
+ ali
45
+ alita
46
+ alitalia
47
+ allowed
48
+ alpha
49
+ already
50
+ alright
51
+ also
52
+ amendment
53
+ an
54
+ and
55
+ another
56
+ any
57
+ anyhow
58
+ aosta
59
+ approval
60
+ approved
61
+ approximately
62
+ arbos
63
+ are
64
+ area
65
+ arrivederci
66
+ as
67
+ ascot
68
+ at
69
+ au
70
+ auf
71
+ austrian
72
+ aviva
73
+ awhile
74
+ b
75
+ back
76
+ bafair
77
+ balkan
78
+ bama
79
+ be
80
+ bee
81
+ been
82
+ before
83
+ being
84
+ belgian
85
+ below
86
+ belstar
87
+ berlin
88
+ bern
89
+ best
90
+ bilsa
91
+ bit
92
+ blocked
93
+ blue
94
+ bonjour
95
+ bravo
96
+ bre
97
+ break
98
+ bri
99
+ britan
100
+ britannia
101
+ british
102
+ buongiorno
103
+ but
104
+ by
105
+ bye
106
+ c
107
+ call
108
+ called
109
+ calling
110
+ callsign
111
+ can
112
+ cann
113
+ canne
114
+ case
115
+ centennial
116
+ chance
117
+ change
118
+ charl
119
+ charlie
120
+ check
121
+ checked
122
+ cheena
123
+ ciao
124
+ clear
125
+ clearance
126
+ cleared
127
+ climb
128
+ climbing
129
+ co
130
+ code
131
+ color
132
+ come
133
+ coming
134
+ commence
135
+ computer
136
+ con
137
+ condor
138
+ confirm
139
+ confirmation
140
+ confirmed
141
+ constellation
142
+ cont
143
+ contact
144
+ contacted
145
+ continental
146
+ continue
147
+ control
148
+ convenience
149
+ cooperation
150
+ coordination
151
+ copied
152
+ corna
153
+ correct
154
+ correction
155
+ corsair
156
+ cot
157
+ cotam
158
+ could
159
+ course
160
+ cross
161
+ crossing
162
+ cruise
163
+ cruising
164
+ current
165
+ d
166
+ dag
167
+ day
168
+ decim
169
+ decimal
170
+ decrease
171
+ degrees
172
+ del
173
+ delta
174
+ des
175
+ descend
176
+ descending
177
+ descent
178
+ destination
179
+ devec
180
+ did
181
+ dijon
182
+ dinkelsbuhl
183
+ dir
184
+ direct
185
+ disregard
186
+ distance
187
+ do
188
+ does
189
+ dont
190
+ du
191
+ due
192
+ dusseldorf
193
+ earlier
194
+ eas
195
+ east
196
+ echo
197
+ egypt
198
+ egyptair
199
+ eigh
200
+ eight
201
+ eighty
202
+ either
203
+ eleven
204
+ emirates
205
+ enable
206
+ epinal
207
+ equipped
208
+ established
209
+ europa
210
+ even
211
+ evening
212
+ expect
213
+ expedite
214
+ expeditious
215
+ expeditiously
216
+ f
217
+ familiar
218
+ faster
219
+ feet
220
+ fi
221
+ fifteen
222
+ final
223
+ fine
224
+ finnair
225
+ five
226
+ flight
227
+ fly
228
+ fo
229
+ fokker
230
+ for
231
+ force
232
+ forty
233
+ four
234
+ fox
235
+ foxtrot
236
+ foxy
237
+ france
238
+ frankfurt
239
+ french
240
+ freq
241
+ frequenc
242
+ frequency
243
+ fribourg
244
+ from
245
+ fu
246
+ full
247
+ fully
248
+ further
249
+ fusse
250
+ futura
251
+ gave
252
+ ge
253
+ gene
254
+ genev
255
+ geneva
256
+ georgia
257
+ german
258
+ germania
259
+ get
260
+ gibair
261
+ give
262
+ go
263
+ going
264
+ golf
265
+ goo
266
+ good
267
+ got
268
+ gotil
269
+ gott
270
+ gruss
271
+ gulf
272
+ guten
273
+ h
274
+ half
275
+ hallo
276
+ hamburg
277
+ hansa
278
+ hanseli
279
+ hap
280
+ hapag
281
+ have
282
+ heading
283
+ hejda
284
+ hello
285
+ help
286
+ herbi
287
+ high
288
+ higher
289
+ hm
290
+ ho
291
+ hochwald
292
+ hoi
293
+ hote
294
+ hotel
295
+ how
296
+ however
297
+ hundred
298
+ i
299
+ iberia
300
+ iden
301
+ ident
302
+ identification
303
+ identified
304
+ if
305
+ ill
306
+ im
307
+ immediately
308
+ in
309
+ inbound
310
+ increase
311
+ ind
312
+ indeed
313
+ india
314
+ indialook
315
+ indication
316
+ information
317
+ ingishire
318
+ initial
319
+ initially
320
+ instead
321
+ instructed
322
+ inter
323
+ interested
324
+ interfere
325
+ intersection
326
+ into
327
+ is
328
+ israeli
329
+ it
330
+ its
331
+ japan
332
+ japanair
333
+ jat
334
+ jet
335
+ jetaviation
336
+ jetcom
337
+ jose
338
+ juliett
339
+ just
340
+ k
341
+ kamas
342
+ karlsruhe
343
+ kay
344
+ keep
345
+ kempten
346
+ kilo
347
+ kines
348
+ kir
349
+ knots
350
+ know
351
+ l
352
+ la
353
+ last
354
+ later
355
+ lauda
356
+ le
357
+ least
358
+ leave
359
+ left
360
+ leisure
361
+ less
362
+ lev
363
+ level
364
+ liberty
365
+ light
366
+ likewise
367
+ lima
368
+ line
369
+ little
370
+ lloyd
371
+ london
372
+ looking
373
+ looks
374
+ lower
375
+ lu
376
+ luftha
377
+ lufthansa
378
+ lufty
379
+ luha
380
+ lupen
381
+ luxair
382
+ luxeuil
383
+ lyon
384
+ m
385
+ mach
386
+ maintain
387
+ maintaining
388
+ make
389
+ malay
390
+ malaysian
391
+ malta
392
+ many
393
+ marseille
394
+ may
395
+ me
396
+ med
397
+ merair
398
+ meridiana
399
+ metavec
400
+ midland
401
+ mike
402
+ milan
403
+ milano
404
+ miles
405
+ minimum
406
+ minute
407
+ minutes
408
+ missed
409
+ missing
410
+ mission
411
+ mistake
412
+ mixed
413
+ monarch
414
+ mor
415
+ more
416
+ morgen
417
+ morn
418
+ morning
419
+ morok
420
+ much
421
+ mun
422
+ munchen
423
+ munich
424
+ my
425
+ nafamens
426
+ nah
427
+ nato
428
+ nattenheim
429
+ navi
430
+ navig
431
+ navigatio
432
+ navigation
433
+ near
434
+ neckar
435
+ need
436
+ negative
437
+ negra
438
+ nelli
439
+ netherlands
440
+ new
441
+ ni
442
+ nin
443
+ nine
444
+ no
445
+ non
446
+ normal
447
+ north
448
+ norvenich
449
+ not
450
+ november
451
+ now
452
+ number
453
+ o
454
+ occupied
455
+ oclock
456
+ odina
457
+ of
458
+ oh
459
+ ohh
460
+ ok
461
+ okay
462
+ okaydoke
463
+ olben
464
+ olympic
465
+ omega
466
+ on
467
+ one
468
+ onur
469
+ opposite
470
+ or
471
+ osca
472
+ oscar
473
+ other
474
+ out
475
+ over
476
+ own
477
+ p
478
+ papa
479
+ paris
480
+ passe
481
+ passeiry
482
+ passing
483
+ per
484
+ period
485
+ permit
486
+ pick
487
+ pin
488
+ planned
489
+ please
490
+ point
491
+ portugal
492
+ portugalia
493
+ position
494
+ possible
495
+ preceding
496
+ prefer
497
+ present
498
+ presently
499
+ pressure
500
+ previous
501
+ prex
502
+ problem
503
+ problems
504
+ proc
505
+ procee
506
+ proceed
507
+ quite
508
+ r
509
+ ra
510
+ rad
511
+ radar
512
+ radio
513
+ rate
514
+ re
515
+ reach
516
+ reaching
517
+ read
518
+ reading
519
+ ready
520
+ realized
521
+ reason
522
+ received
523
+ reclearance
524
+ recleared
525
+ reduce
526
+ rei
527
+ reims
528
+ remain
529
+ report
530
+ reported
531
+ request
532
+ requested
533
+ requesting
534
+ rerouted
535
+ resia
536
+ restricting
537
+ restrictions
538
+ resume
539
+ revoir
540
+ rhei
541
+ rhein
542
+ rhi
543
+ right
544
+ roge
545
+ roger
546
+ rolampont
547
+ rollen
548
+ romeo
549
+ route
550
+ routing
551
+ roystar
552
+ runway
553
+ rv
554
+ s
555
+ sabena
556
+ said
557
+ same
558
+ saronno
559
+ sata
560
+ saudia
561
+ say
562
+ scandinavian
563
+ schonen
564
+ sec
565
+ second
566
+ sector
567
+ seems
568
+ sent
569
+ separation
570
+ servus
571
+ set
572
+ sev
573
+ seven
574
+ shamrock
575
+ short
576
+ shortcut
577
+ shortly
578
+ should
579
+ sierra
580
+ since
581
+ singa
582
+ sir
583
+ six
584
+ skyfox
585
+ slightly
586
+ slower
587
+ so
588
+ sobelair
589
+ soon
590
+ sorry
591
+ south
592
+ spair
593
+ spar
594
+ speed
595
+ speedbird
596
+ speedway
597
+ squawk
598
+ squawking
599
+ st
600
+ stable
601
+ stand
602
+ standard
603
+ state
604
+ station
605
+ stay
606
+ steel
607
+ still
608
+ stop
609
+ stress
610
+ succeeding
611
+ sufficient
612
+ suggest
613
+ sunwing
614
+ swi
615
+ swiss
616
+ swissair
617
+ switch
618
+ t
619
+ ta
620
+ tag
621
+ taitian
622
+ talk
623
+ tango
624
+ tarom
625
+ tele
626
+ ten
627
+ th
628
+ than
629
+ thank
630
+ thanks
631
+ that
632
+ thats
633
+ the
634
+ then
635
+ there
636
+ thereafter
637
+ think
638
+ thirteen
639
+ thirty
640
+ this
641
+ thousand
642
+ thr
643
+ three
644
+ through
645
+ till
646
+ time
647
+ to
648
+ today
649
+ told
650
+ too
651
+ topswiss
652
+ torino
653
+ tour
654
+ towards
655
+ tra
656
+ track
657
+ traffic
658
+ transavia
659
+ translift
660
+ transmission
661
+ transu
662
+ transwede
663
+ trasa
664
+ trasad
665
+ trasadingen
666
+ triple
667
+ troubles
668
+ try
669
+ tsch
670
+ tschu
671
+ tschuss
672
+ tun
673
+ tunair
674
+ tunis
675
+ turkair
676
+ turkish
677
+ turn
678
+ turning
679
+ tw
680
+ twenty
681
+ two
682
+ type
683
+ u
684
+ ukay
685
+ understand
686
+ uniform
687
+ united
688
+ until
689
+ up
690
+ us
691
+ v
692
+ valda
693
+ vectors
694
+ very
695
+ vi
696
+ via
697
+ victor
698
+ viscinity
699
+ viva
700
+ w
701
+ wanted
702
+ warburg
703
+ was
704
+ way
705
+ we
706
+ welcome
707
+ well
708
+ were
709
+ what
710
+ whats
711
+ when
712
+ where
713
+ whether
714
+ which
715
+ whiskey
716
+ whitestar
717
+ who
718
+ whos
719
+ wiederhoren
720
+ will
721
+ willisau
722
+ wind
723
+ with
724
+ within
725
+ worth
726
+ would
727
+ wrong
728
+ xray
729
+ yankee
730
+ yeah
731
+ yes
732
+ you
733
+ your
734
+ youre
735
+ youve
736
+ z
737
+ ze
738
+ zer
739
+ zero
740
+ zulu
741
+ zuri
742
+ zurich
preprocessor_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "do_normalize": true,
3
+ "feature_extractor_type": "Wav2Vec2FeatureExtractor",
4
+ "feature_size": 1,
5
+ "padding_side": "right",
6
+ "padding_value": 0.0,
7
+ "processor_class": "Wav2Vec2ProcessorWithLM",
8
+ "return_attention_mask": true,
9
+ "sampling_rate": 16000
10
+ }
special_tokens_map.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "pad_token": "<pad>"}
tokenizer_config.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "pad_token": "<pad>", "do_lower_case": false, "word_delimiter_token": "|", "replace_word_delimiter_char": " ", "special_tokens_map_file": "/root/.cache/huggingface/transformers/c2fa5198a7a6c87e4e444afac6d9a7c2d8e45299aaf8966e41d727cc6ae7e04c.9d6cd81ef646692fb1c169a880161ea1cb95f49694f220aced9b704b457e51dd", "name_or_path": "jonatasgrosman/wav2vec2-large-xlsr-53-english", "tokenizer_class": "Wav2Vec2CTCTokenizer", "processor_class": "Wav2Vec2ProcessorWithLM"}
vocab.json ADDED
@@ -0,0 +1 @@
 
 
1
+ {"<pad>": 0, "<s>": 1, "</s>": 2, "<unk>": 3, "|": 4, "'": 5, "-": 6, "a": 7, "b": 8, "c": 9, "d": 10, "e": 11, "f": 12, "g": 13, "h": 14, "i": 15, "j": 16, "k": 17, "l": 18, "m": 19, "n": 20, "o": 21, "p": 22, "q": 23, "r": 24, "s": 25, "t": 26, "u": 27, "v": 28, "w": 29, "x": 30, "y": 31, "z": 32}