ntt123 commited on
Commit
6434756
1 Parent(s): 7caef41

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +1 -92
app.py CHANGED
@@ -30,102 +30,11 @@ assert phone_set[0][1:-1] == "SEP"
30
  assert "sil" in phone_set
31
  sil_idx = phone_set.index("sil")
32
 
33
- vietnamese_characters = [
34
- "a",
35
- "à",
36
- "á",
37
- "ả",
38
- "ã",
39
- "ạ",
40
- "ă",
41
- "ằ",
42
- "ắ",
43
- "ẳ",
44
- "ẵ",
45
- "ặ",
46
- "â",
47
- "ầ",
48
- "ấ",
49
- "ẩ",
50
- "ẫ",
51
- "ậ",
52
- "e",
53
- "è",
54
- "é",
55
- "ẻ",
56
- "ẽ",
57
- "ẹ",
58
- "ê",
59
- "ề",
60
- "ế",
61
- "ể",
62
- "ễ",
63
- "ệ",
64
- "i",
65
- "ì",
66
- "í",
67
- "ỉ",
68
- "ĩ",
69
- "ị",
70
- "o",
71
- "ò",
72
- "ó",
73
- "ỏ",
74
- "õ",
75
- "ọ",
76
- "ô",
77
- "ồ",
78
- "ố",
79
- "ổ",
80
- "ỗ",
81
- "ộ",
82
- "ơ",
83
- "ờ",
84
- "ớ",
85
- "ở",
86
- "ỡ",
87
- "ợ",
88
- "u",
89
- "ù",
90
- "ú",
91
- "ủ",
92
- "ũ",
93
- "ụ",
94
- "ư",
95
- "ừ",
96
- "ứ",
97
- "ử",
98
- "ữ",
99
- "ự",
100
- "y",
101
- "ỳ",
102
- "ý",
103
- "ỷ",
104
- "ỹ",
105
- "ỵ",
106
- "b",
107
- "c",
108
- "d",
109
- "đ",
110
- "g",
111
- "h",
112
- "k",
113
- "l",
114
- "m",
115
- "n",
116
- "p",
117
- "q",
118
- "r",
119
- "s",
120
- "t",
121
- "v",
122
- "x",
123
- ]
124
- alphabet = "".join(vietnamese_characters)
125
  space_re = regex.compile(r"\s+")
126
  number_re = regex.compile("([0-9]+)")
127
  digits = ["không", "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín"]
128
  num_re = regex.compile(r"([0-9.,]*[0-9])")
 
129
  keep_text_and_num_re = regex.compile(rf"[^\s{alphabet}.,0-9]")
130
  keep_text_re = regex.compile(rf"[^\s{alphabet}]")
131
 
 
30
  assert "sil" in phone_set
31
  sil_idx = phone_set.index("sil")
32
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
  space_re = regex.compile(r"\s+")
34
  number_re = regex.compile("([0-9]+)")
35
  digits = ["không", "một", "hai", "ba", "bốn", "năm", "sáu", "bảy", "tám", "chín"]
36
  num_re = regex.compile(r"([0-9.,]*[0-9])")
37
+ alphabet = "aàáảãạăằắẳẵặâầấẩẫậeèéẻẽẹêềếểễệiìíỉĩịoòóỏõọôồốổỗộơờớởỡợuùúủũụưừứửữựyỳýỷỹỵbcdđghklmnpqrstvx"
38
  keep_text_and_num_re = regex.compile(rf"[^\s{alphabet}.,0-9]")
39
  keep_text_re = regex.compile(rf"[^\s{alphabet}]")
40