SO0529
commited on
Commit
•
39f56ae
1
Parent(s):
88fe7f0
add: Readme contents
Browse files
README.md
CHANGED
@@ -1,3 +1,82 @@
|
|
1 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2 |
license: mit
|
|
|
|
|
|
|
|
|
|
|
|
|
3 |
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
---
|
2 |
+
language: ja
|
3 |
+
tags:
|
4 |
+
- ja
|
5 |
+
- japanese
|
6 |
+
- gpt_neox
|
7 |
+
- gpt
|
8 |
+
- text-generation
|
9 |
+
- lm
|
10 |
+
- nlp
|
11 |
license: mit
|
12 |
+
datasets:
|
13 |
+
- cc100
|
14 |
+
- wikipedia
|
15 |
+
- oscar
|
16 |
+
widget:
|
17 |
+
- text: "人とAIが協調するためには、"
|
18 |
---
|
19 |
+
|
20 |
+
# gpt-neox-japanese-2.7b
|
21 |
+
|
22 |
+
This repository provides a 2.7B-parameter Japanese [GPT-NeoX](https://github.com/EleutherAI/gpt-neox)-based model. The model was trained by [ABEJA, Inc](https://www.abejainc.com/)
|
23 |
+
|
24 |
+
# How to use
|
25 |
+
|
26 |
+
When using pipeline for text generation.
|
27 |
+
|
28 |
+
``` python
|
29 |
+
from transformers import pipeline
|
30 |
+
|
31 |
+
|
32 |
+
generator = pipeline("text-generation", model="abeja/gpt-neox-japanese-2.7b")
|
33 |
+
generated = generator(
|
34 |
+
"人とAIが協調するためには、",
|
35 |
+
max_length=300,
|
36 |
+
do_sample=True,
|
37 |
+
num_return_sequences=3,
|
38 |
+
top_p=0.95,
|
39 |
+
top_k=50
|
40 |
+
)
|
41 |
+
print(*generated, sep="\n")
|
42 |
+
|
43 |
+
"""
|
44 |
+
[out]
|
45 |
+
{"generated_text": "人とAIが協調するためには、「人が持っている優れた能力とAIの得意とする分野を掛け合わせる」ことが不可欠になります。"}
|
46 |
+
{"generated_text": "人とAIが協調するためには、双方の長所を活かしていくことが不可欠だと考えています。"}
|
47 |
+
{"generated_text": "人とAIが協調するためには、人間がAIを理解する、ということが重要です。人間には「AIに対してAIが何をするべきか」ということを明確に教えないと、AIはある程度の知識はあっても何をすべきかがわかりません。だから、コンピューターが考えたり、決めたりすることはAIではなく、人間が解釈して理解できるようにしなくて"}
|
48 |
+
"""
|
49 |
+
```
|
50 |
+
|
51 |
+
When using PyTorch.
|
52 |
+
|
53 |
+
``` python
|
54 |
+
from transformers import AutoTokenizer, AutoModelForCausalLM
|
55 |
+
|
56 |
+
|
57 |
+
tokenizer = AutoTokenizer.from_pretrained("abeja/gpt-neox-japanese-2.7b")
|
58 |
+
model = AutoModelForCausalLM.from_pretrained("abeja/gpt-neox-japanese-2.7b")
|
59 |
+
|
60 |
+
input_text = "人とAIが協調するためには、"
|
61 |
+
input_ids = tokenizer.encode(input_text, return_tensors="pt")
|
62 |
+
gen_tokens = lm_model.generate(
|
63 |
+
input_ids,
|
64 |
+
max_length=100,
|
65 |
+
do_sample=True,
|
66 |
+
num_return_sequences=3,
|
67 |
+
top_p=0.95,
|
68 |
+
top_k=50,
|
69 |
+
)
|
70 |
+
for gen_text in tokenizer.batch_decode(gen_tokens, skip_special_tokens=True):
|
71 |
+
print(gen_text)
|
72 |
+
|
73 |
+
```
|
74 |
+
|
75 |
+
# Dataset
|
76 |
+
The model was trained on [Japanese CC-100](http://data.statmt.org/cc-100/ja.txt.xz), [Japanese Wikipedia](https://dumps.wikimedia.org/other/cirrussearch), and [Japanese OSCAR](https://huggingface.co/datasets/oscar).
|
77 |
+
|
78 |
+
# Tokenization
|
79 |
+
The model uses a [special sub-word tokenizer](https://github.com/tanreinama/Japanese-BPEEncoder_V2). Please refer the original repository or [GPT-Noex-Japanese](https://huggingface.co/docs/transformers/model_doc/gpt_neox_japanese) in detail.
|
80 |
+
|
81 |
+
# Licenese
|
82 |
+
[The MIT license](https://opensource.org/licenses/MIT)
|