File size: 5,529 Bytes
b32fad2
 
 
 
 
 
 
 
18e3aab
2d71340
b32fad2
9dba90f
1494633
b32fad2
 
ae5d6e0
b32fad2
 
b8ea44a
b32fad2
075466f
b8ea44a
 
b32fad2
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1c24589
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
---
language: 
  - bo
tags:
- tibetan
- pretrained language model
- roberta
widget:
- text: "རྫོགས་པའི་ <mask>"
- text: "ཆོས་ཀྱི་<mask>་བ"
- text: "གངས་རིའི་ <mask>"
- text: "བོད་ཀྱི་སྨན་<mask>"
license: "mit"
---

# Demo in a `fill-mask` task

```
from transformers import AutoTokenizer, AutoModelForMaskedLM, pipeline

model_name = 'sangjeedondrub/tibetan-roberta-base'
model = AutoModelForMaskedLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

fill_mask_pipe = pipeline(
    "fill-mask",
    model=model,
    tokenizer=tokenizer
)

samples = """རིན་ <mask>
ཆོས་ཀྱི་ <mask>
རྫོགས་པའི་ <mask>
གངས་རིའི་ <mask>
མེ་ལོང་ <mask>
བདེན་པའི་ <mask>
'འབྱུང་ <mask>""".splitlines()

for idx, sample in enumerate(samples, start=1):
  outputs = fill_mask_pipe(sample)
  print(idx, sample)
  for output in outputs:
    print(output)
```


# Output

```
1 རིན་ <mask>
{'score': 0.943362832069397, 'token': 459, 'token_str': 'ཐང', 'sequence': 'རིན་ཐང'}
{'score': 0.025716140866279602, 'token': 282, 'token_str': 'པ', 'sequence': 'རིན་པ'}
{'score': 0.004410382825881243, 'token': 596, 'token_str': 'འཕར', 'sequence': 'རིན་འཕར'}
{'score': 0.003161463886499405, 'token': 561, 'token_str': 'ཅང', 'sequence': 'རིན་ཅང'}
{'score': 0.0025683969724923372, 'token': 360, 'token_str': 'གནས', 'sequence': 'རིན་གནས'}
2 ཆོས་ཀྱི་ <mask>
{'score': 0.08558642119169235, 'token': 476, 'token_str': 'དཔལ', 'sequence': 'ཆོས་ཀྱི་དཔལ'}
{'score': 0.0616581067442894, 'token': 323, 'token_str': 'ལས', 'sequence': 'ཆོས་ཀྱི་ལས'}
{'score': 0.04617622494697571, 'token': 568, 'token_str': 'ཉམས', 'sequence': 'ཆོས་ཀྱི་ཉམས'}
{'score': 0.042447883635759354, 'token': 467, 'token_str': 'དབང', 'sequence': 'ཆོས་ཀྱི་དབང'}
{'score': 0.0358237698674202, 'token': 768, 'token_str': 'དད', 'sequence': 'ཆོས་ཀྱི་དད'}
3 རྫོགས་པའི་ <mask>
{'score': 0.06635843217372894, 'token': 323, 'token_str': 'ལས', 'sequence': 'རྫོགས་པའི་ལས'}
{'score': 0.06410858780145645, 'token': 360, 'token_str': 'གནས', 'sequence': 'རྫོགས་པའི་གནས'}
{'score': 0.0570441335439682, 'token': 573, 'token_str': 'གཏམ', 'sequence': 'རྫོགས་པའི་གཏམ'}
{'score': 0.05679900944232941, 'token': 397, 'token_str': 'ལམ', 'sequence': 'རྫོགས་པའི་ལམ'}
{'score': 0.05157950520515442, 'token': 543, 'token_str': 'མཚན', 'sequence': 'རྫོགས་པའི་མཚན'}
4 གངས་རིའི་ <mask>
{'score': 0.21429458260536194, 'token': 971, 'token_str': 'འདབས', 'sequence': 'གངས་རིའི་འདབས'}
{'score': 0.05296638607978821, 'token': 360, 'token_str': 'གནས', 'sequence': 'གངས་རིའི་གནས'}
{'score': 0.04839177057147026, 'token': 712, 'token_str': 'གངས', 'sequence': 'གངས་རིའི་གངས'}
{'score': 0.04389436915516853, 'token': 984, 'token_str': 'འདབ', 'sequence': 'གངས་རིའི་འདབ'}
{'score': 0.04158150777220726, 'token': 274, 'token_str': 'ན', 'sequence': 'གངས་རིའི་ན'}
5 མེ་ལོང་ <mask>
{'score': 0.19395706057548523, 'token': 323, 'token_str': 'ལས', 'sequence': 'མེ་ལོང་ལས'}
{'score': 0.12707622349262238, 'token': 293, 'token_str': 'དང', 'sequence': 'མེ་ལོང་དང'}
{'score': 0.08089829981327057, 'token': 280, 'token_str': 'མ', 'sequence': 'མེ་ལོང་མ'}
{'score': 0.06481984257698059, 'token': 279, 'token_str': 'ལ', 'sequence': 'མེ་ལོང་ལ'}
{'score': 0.0577043853700161, 'token': 362, 'token_str': 'ནང', 'sequence': 'མེ་ལོང་ནང'}
6 བདེན་པའི་ <mask>
{'score': 0.12633271515369415, 'token': 573, 'token_str': 'གཏམ', 'sequence': 'བདེན་པའི་གཏམ'}
{'score': 0.0909079909324646, 'token': 360, 'token_str': 'གནས', 'sequence': 'བདེན་པའི་གནས'}
{'score': 0.08624855428934097, 'token': 397, 'token_str': 'ལམ', 'sequence': 'བདེན་པའི་ལམ'}
{'score': 0.07476165890693665, 'token': 362, 'token_str': 'ནང', 'sequence': 'བདེན་པའི་ནང'}
{'score': 0.06319335103034973, 'token': 323, 'token_str': 'ལས', 'sequence': 'བདེན་པའི་ལས'}
7 'འབྱུང་ <mask>
{'score': 0.8271735906600952, 'token': 360, 'token_str': 'གནས', 'sequence': "'འབྱུང་གནས"}
{'score': 0.10802919417619705, 'token': 270, 'token_str': 'བ', 'sequence': "'འབྱུང་བ"}
{'score': 0.021947095170617104, 'token': 503, 'token_str': 'ཁམས', 'sequence': "'འབྱུང་ཁམས"}
{'score': 0.006081813480705023, 'token': 484, 'token_str': 'རབས', 'sequence': "'འབྱུང་རབས"}
{'score': 0.002384472405537963, 'token': 293, 'token_str': 'དང', 'sequence': "'འབྱུང་དང"}
```

# About

This model is trained and released by Sangjee Dondrub [sangjeedondrub at live dot com], the mere purpose of conducting these experiments is to improve my familiarity with Transformers APIs.