Vvaann commited on
Commit
ea057f0
·
verified ·
1 Parent(s): bc866f4

Create app.py

Browse files
Files changed (1) hide show
  1. app.py +42 -0
app.py ADDED
@@ -0,0 +1,42 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ import glob
2
+ import os
3
+ from tokenizers import Tokenizer
4
+ import gradio as gr
5
+
6
+ # Load the tokenizer
7
+ tokenizer = Tokenizer.from_file("tamil_bpe_tokenizer.json")
8
+
9
+ # Define the compression ratio function
10
+ def compression_ratio(text):
11
+ encoded = tokenizer.encode(text)
12
+ compressed_length = len(encoded.ids)
13
+ original_length = len(text)
14
+ compression = original_length / compressed_length
15
+ decoded_text = tokenizer.decode(encoded.ids)
16
+
17
+ encoded_tokens = encoded.tokens
18
+ vocab_size = len(tokenizer.get_vocab())
19
+
20
+ return encoded_tokens, vocab_size, compression, decoded_text
21
+
22
+ # Sample text
23
+ sample_text1 = "இந்நூலை வாசித்ததிலிருந்து நிறையவே தெரிந்துகொண்டேன்"
24
+ sample_text2 = "தனக்குக் கிடைக்கின்ற நேரத்தை சில மனிதர்கள் வீணடிக்காமல் சரியாகப் பயன்படுத்திக்கொள்கின்றார்கள்."
25
+ sample_text3 = "Google Play-store ஐ திறந்து Battle Royal Game-களின் தரவிறக்கங்களின் எண்ணிக்கையைப் பாருங்கள். 1Billion, 500Million என சமூக வலைத்தளங்களை பயன்படுத்துவோரின் எண்ணிக்கைக்கு சமனாக இருக்கும்."
26
+
27
+ # Define the Gradio interface
28
+ iface = gr.Interface(
29
+ fn=compression_ratio,
30
+ inputs=gr.Textbox(lines=5, placeholder="Enter text here..."),
31
+ examples=[[sample_text1], [sample_text2], [sample_text3]],
32
+ outputs=[
33
+ gr.JSON(label="Encoded Text"),
34
+ gr.Textbox(label="Vocabulary Size"),
35
+ gr.Textbox(label="Compression Ratio"),
36
+ gr.Textbox(label="Decoded Text")
37
+ ]
38
+ )
39
+
40
+ # Launch the interface
41
+ if __name__ == "__main__":
42
+ iface.launch()