Update README.md
Browse files
README.md
CHANGED
@@ -1,3 +1,167 @@
|
|
1 |
-
---
|
2 |
-
license: cc-by-nc-sa-4.0
|
3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: cc-by-nc-sa-4.0
|
3 |
+
---
|
4 |
+
<p align="center">
|
5 |
+
<img src="https://github.com/lbh0830/TW-Hokkien-LLM/blob/main/pics/logo.jpg?raw=true" alt="Taigi-llama-logo" width="350">
|
6 |
+
</p>
|
7 |
+
|
8 |
+
# Model Card for Taigi-Llama-2-Chat-13B
|
9 |
+
The Taigi-Llama-2-Chat series are built based on the Taigi-Llama-2 series model. We first create the chat vector from the original meta-Llama-2 model using the method introduced in [Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages](https://arxiv.org/abs/2310.04799) to enable the ability to avoid toxic replies. We then conducted instruction fine-tuning on around 100k instruction tuning dataset in Taiwanese Hokkien Hanzi to obtain a chat model specifically for Taiwanese Hokkien. The dataset was generated from Traditional Chinese instruction tuning datasets using the translation model [Bohanlu/Taigi-Llama-2-Translator-13B](https://huggingface.co/Bohanlu/Taigi-Llama-2-Translator-13B).
|
10 |
+
|
11 |
+
For more details, please refer to our [GitHub repository](https://github.com/lbh0830/TW-Hokkien-LLM/tree/main).
|
12 |
+
|
13 |
+
Explore other models and datasets in the [Taiwanese Hokkien LLM collection](https://huggingface.co/collections/Bohanlu/taiwanese-hokkien-llm-6614ba7456e6789bc2f10ca0).
|
14 |
+
|
15 |
+
## Model description
|
16 |
+
|
17 |
+
- **Base Model:** [Bohanlu/Taigi-Llama-2-13B](https://huggingface.co/Bohanlu/Taigi-Llama-2-13B)
|
18 |
+
- **Usage:** This model can be used for chat in Taiwanese Hokkien Hanzi.
|
19 |
+
- **Language(s) (NLP):** Mainly Taiwanese Hokkien Hanzi
|
20 |
+
- **Input:** Text
|
21 |
+
- **Output:** Text
|
22 |
+
- **Model Size:** 13B parameters
|
23 |
+
|
24 |
+
## Prompt Template
|
25 |
+
```
|
26 |
+
{BOS}[INST] {user} [/INST]
|
27 |
+
```
|
28 |
+
|
29 |
+
- `user`: The user message you want to chat with the model.
|
30 |
+
|
31 |
+
## Usage Example
|
32 |
+
```python
|
33 |
+
from transformers import AutoModelForCausalLM, AutoTokenizer, TextGenerationPipeline
|
34 |
+
import torch
|
35 |
+
import accelerate
|
36 |
+
|
37 |
+
def get_pipeline(path:str, tokenizer:AutoTokenizer, accelerator:accelerate.Accelerator) -> TextGenerationPipeline:
|
38 |
+
model = AutoModelForCausalLM.from_pretrained(
|
39 |
+
path, torch_dtype=torch.float16, device_map='auto', trust_remote_code=True)
|
40 |
+
|
41 |
+
terminators = [tokenizer.eos_token_id, tokenizer.pad_token_id]
|
42 |
+
|
43 |
+
pipeline = TextGenerationPipeline(model = model, tokenizer = tokenizer, num_workers=accelerator.state.num_processes*4, pad_token_id=tokenizer.pad_token_id, eos_token_id=terminators)
|
44 |
+
|
45 |
+
return pipeline
|
46 |
+
|
47 |
+
model_dir = "Bohanlu/Taigi-Llama-2-Chat-7B" # or Bohanlu/Taigi-Llama-2-Chat-13B for the 13B model
|
48 |
+
tokenizer = AutoTokenizer.from_pretrained(model_dir, use_fast=False)
|
49 |
+
|
50 |
+
accelerator = accelerate.Accelerator()
|
51 |
+
pipe = get_pipeline(model_dir, tokenizer, accelerator)
|
52 |
+
|
53 |
+
### Single round
|
54 |
+
messages = [
|
55 |
+
{"role": "user", "content": "你做一个百歲老樹,佇青翠的森林內底,安養天年,雄雄一陣剉樹仔的人衝過來欲共你剉掉,按呢你會有啥物款的心情?"},
|
56 |
+
]
|
57 |
+
|
58 |
+
print(pipe(messages, return_full_text=False, repetition_penalty=1.05, do_sample=True)[0]['generated_text'])
|
59 |
+
|
60 |
+
# Output: 做一欉古早樹仔,我佇青翠的森林內底安養幾若百年矣,看著萬千變化,嘛見證大自然的循環。毋過今仔日,一陣剉樹的人雄雄出現,想欲共我刣掉,我心肝頭真毋甘。
|
61 |
+
#
|
62 |
+
# 我雖然毋是活物,毋過我對森林佮生物的牽連猶是有感情。我捌看著細隻鳥仔佇我的樹身歇睏,嘛捌聽著蟲豸佇樹椏頂唱歌。我知影遮的性命攏是倚靠森林咧生存,若無我的時陣,𪜶就愛面對生存危機矣。
|
63 |
+
#
|
64 |
+
# 閣來,我嘛有歷史價值。我見證過人類文明的起落,捌予人雕刻做藝術品,嘛捌予人當做地標。我毋但是一欉樹仔爾爾,我是規个時代的見證者。
|
65 |
+
#
|
66 |
+
# 雖罔我袂講話,毋過我的心內充滿無奈佮不捨。我向望人類會當了解樹仔對環境的重要性,尊重自然,保護森林。我希望世人會當共我看做是性命的象徵,毋通干焦看我做一欉樹仔爾爾。
|
67 |
+
#
|
68 |
+
# 上尾,我向望這片森林會當繼續生湠,予萬物攏有安身的所在。雖然我無法度阻止剉樹的人,毋過我希望我的遭遇會當喚醒人的意識,予𪜶知影保護環境的要緊。
|
69 |
+
|
70 |
+
### Multiple rounds
|
71 |
+
messages = [
|
72 |
+
{"role": "user", "content": "你做一个百歲老樹,佇青翠的森林內底,安養天年,雄雄一陣剉樹仔的人衝過來欲共你剉掉,按呢你會有啥物款的心情?"},
|
73 |
+
{"role": "assistant", "content": "做一欉千年老樹,佇青翠的森林中安養天年,雄雄一陣剉樹仔的人衝過來欲共我剉掉,這陣我心肝頭會真毋甘、真袂慣勢。\n\n頭先,我感覺真無歡喜佮袂慣勢。我佇遮徛幾若百年矣,早就成做森林的一部份,予人當做是寶物咧保護。今仔日煞有人來破壞我的安寧,予我感覺足無公平閣艱苦。\n\n閣來,我煩惱家己的性命會結束。做一欉大樹,我的性命佮森林是相黏牢的。當我予人剉掉的時陣,嘛代表規个森林生態系統的破壞。我驚惶森林的生物會失去我的庇護,面對生存危機。\n\n毋過,我嘛知影這个世界一直攏咧改變,人類嘛一直咧發展。佇面對改變的時陣,咱愛保持彈性佮適應力。我希望人會當尊重大自然的法則,保護生態系統,予地球會當永續發展。\n\n總講一句,我希望人會當理解樹仔對生態系統的重要性,嘛愛尊重大自然的平衡。我雖然是樹仔,嘛是生態系統的一份子,我希望所有的生物攏會當和平共存,做伙維護這个媠閣可愛的地球。"},
|
74 |
+
{"role": "user", "content": "提出挽救森林的方案,來說服剉樹仔的人停手莫閣剉矣。"},
|
75 |
+
]
|
76 |
+
|
77 |
+
print(pipe(messages, return_full_text=False, repetition_penalty=1.05, do_sample=True)[0]['generated_text'])
|
78 |
+
|
79 |
+
# Output: 做一欉千年老樹,我真通了解森林的重要性,嘛知影剉樹仔的人可能會有𪜶的苦衷佮考慮。為著欲說服剉樹仔的人停落來,我提出下底的建議:
|
80 |
+
#
|
81 |
+
# 1. 生態保育:向剉樹仔的人說明,保護森林會當維持生態的平衡,予動物有蹛所,嘛會使維持水土保持,同時也會使予空氣較新鮮,降低都市熱島效應,改善人的生活品質。
|
82 |
+
# 2. 經濟效益:指出保護森林會帶來長期的經濟效益,親像觀光業、林產品加工佮碳匯交易等等。另外,林木的碳吸存能力會當幫贊減少溫室氣體排放,減輕氣候變遷的影響。
|
83 |
+
# 3. 文化價值:提起森林對當地的重要性,伊承載了豐富的文化資產佮歷史遺跡,是當地居民的精神象徵佮文化的根源。保護森林會當確保遮的寶貝文化資產得著傳承佮保護。
|
84 |
+
# 4. 教育意義:強調森林教育對囡仔佮少年人的重要性,予𪜶會當了解自然界的奧妙佮重要性,培養𪜶對自然的熱愛佮保護意識。
|
85 |
+
# 5. 合作共贏:提出共贏方案,親像佇剉樹仔的時陣同步種新樹栽,恢復森林的生機,予生態系統會當繼續發展。閣來,嘛會使設立森林保護基金,予當地居民參與佮受惠,提高𪜶的保護意識。
|
86 |
+
# 6. 政府政策:呼籲政府制定較嚴格的森林保護政策,加大對違法剉樹仔者的處罰力度,並加強對森林的監督佮管理。
|
87 |
+
# 7. 民眾參與:鼓勵當地居民佮非政府組織積極參與森林保護,透過志工行動、捐錢佮宣傳等等的方式,共同來推捒森林的永續發展。
|
88 |
+
#
|
89 |
+
# 透過遮的方案的實施,我希望人會當沓沓仔改變對森林的看法,予𪜶知影保護森林的重要,從而停止無理性的剉樹行為,做伙來維護這个媠閣可愛的地球。
|
90 |
+
```
|
91 |
+
|
92 |
+
## Other Output Examples
|
93 |
+
<table>
|
94 |
+
<tr>
|
95 |
+
<th>Prompt</th>
|
96 |
+
<th>Taigi-Llama-2-Chat-7B</th>
|
97 |
+
<th>Taigi-Llama-2-Chat-13B</th>
|
98 |
+
</tr>
|
99 |
+
<tr>
|
100 |
+
<td style="vertical-align: top;">請分析下面這段話內底的心情,作者咧講著天氣變遷予地球造成的影響,𪜶敢有煩惱、受氣、傷悲抑是樂天的心情?請你共我解說一下。
|
101 |
+
氣候變遷對地球的影響是袂當無看見的。逐年,咱看著極端氣候的事件佇咧增加,冰山溶去造成海水面升懸,無數的生物當咧面臨滅種的危機。雖罔狀況真嚴重,毋過咱猶是有機會來改變這一切。透過減少溫室氣體的排放、栽培樹仔佮保護生態系統,咱會使為著地球的後代做出奉獻。</td>
|
102 |
+
<td style="vertical-align: top;"> 佇這个段落內底,作者表達出對氣候變遷的擔憂佮關心。伊描寫了氣候變遷帶來的影響,親像極端氣候事件增加、冰川溶去致使海平面上升,閣有真濟物種面對滅絕的威脅。遮的描寫攏顯露出來作者對氣候變遷的掛慮佮不安。
|
103 |
+
毋過,作者嘛強調講咱猶是會當做一寡代誌來改變這寡情形。伊建議咱減少溫室氣體的排放、種樹仔佮保護生態系統,按呢會當對地球的後代做出貢獻。遮的建議顯露出作者向望佮樂觀的態度,相信人類若做伙拍拚,就會當克服氣候變遷帶來的挑戰。
|
104 |
+
總講一句,作者的心情主要是憂愁佮向望相參。伊煩惱氣候變遷對地球佮生物造成傷害,毋過仝款嘛認為人類有才調改變現況,而且閣愛積極採取行動。這款心情反映出作者對環境的關心佮責任心,嘛顯露出伊向望未來的世界會變甲較好的期待。 </td>
|
105 |
+
<td style="vertical-align: top;">佇這段話內底,作者的心情是積極佮樂天的。伊表達了氣候變遷對地球的影響是真實的閣嚴重的,毋過仝時嘛強調講這馬猶有機會通改變這一切。作者呼籲人著採取行動,親像減少溫室氣體的排放、種樹仔佮保護生態系統,來保護地球佮地球頂面的生物。這款積極的態度佮樂天的精神,顯露出作者佇面對氣候變遷的時,雖然知影狀況嚴峻,猶是充滿希望佮信心。</td>
|
106 |
+
</tr>
|
107 |
+
<tr>
|
108 |
+
<td style="vertical-align: top;">請生出一段佮醫學健康相關的對話,內面有牽涉著組織的資訊。對話應該會牽連著��織的功能、相關病症佮治療的方法。
|
109 |
+
阿明共𪜶老母問講人的一个組織,伊想欲知影肝臟的功能、可能會拄著的病症佮醫治的方法。𪜶老母是一个醫生,所以伊對遮的智識真熟似。𪜶的對話按呢寫:</td>
|
110 |
+
<td style="vertical-align: top;"> 阿明:阿母,我聽人講肝是人身體上重要的器官之一,毋過我對肝的了解並袂濟。你敢會當共我講肝的功用佮可能會拄著的病症佮治療的方法?
|
111 |
+
|
112 |
+
老母:當然,肝臟是咱人體中真重要的器官之一。伊主要的功能包括:
|
113 |
+
|
114 |
+
1. 解毒:肝臟會當分解佮消除身軀內面的毒素,親像藥物、酒精佮有毒的化學物等等。
|
115 |
+
2. 營養代謝:肝臟負責共食物中的養份分解佮吸收,閣來參與脂肪、蛋白質佮醣類的新陳代謝。
|
116 |
+
3. 貯血:肝臟會當貯佮調節血液中ê油脂,閣會當調節血糖濃度。
|
117 |
+
4. 免疫功能:肝臟有免疫細胞,會當對抗感染佮發炎。
|
118 |
+
|
119 |
+
啊若肝病,肝病會分做兩類:
|
120 |
+
|
121 |
+
1. 急性肝病:像急性肝炎、肝中毒等等,通常是因為病毒、細菌抑是藥仔引起--的。
|
122 |
+
2. 慢性肝病:像肝硬化、肝癌等等,通常是因為長期喝酒、慢性肝炎、脂肪肝等等因素造成的。
|
123 |
+
|
124 |
+
啊若肝病的治療方法,會使分做下列幾款:
|
125 |
+
|
126 |
+
1. 藥物治療:針對無仝款的肝病,會使用無仝款的藥物來治療。比論講,對肝炎會使用抗病毒的藥仔;對肝硬化會使用保肝劑;對肝癌會使用化學療法、放射線療法等等。
|
127 |
+
2. 手術治療:對一寡肝病,親像肝腫瘤、肝囊腫等等,會當透過手術來治療。
|
128 |
+
3. 介入性治療:對一寡肝病,親像肝動脈栓塞術、肝臟移植等等,會當透過介入性治療來改善病情。
|
129 |
+
|
130 |
+
阿明:多謝你的解說,按呢我對肝臟的功能佮肝病的治療方式已經有較清楚矣。
|
131 |
+
|
132 |
+
老母:你嘛愛注意維持身體健康,避免食酒、食薰等等的歹習慣,定期做身體檢查,提早發現問題來治療。 </td>
|
133 |
+
<td style="vertical-align: top;"> 阿明:阿母,我聽人講肝臟真重要,會當共咱的身軀內底的新陳代謝佮解毒的功能做甲好勢好勢。是按怎咧?<br>阿母:無毋著,肝臟是人體上大的器官之一,伊的主要功能就是新陳代謝佮解毒。新陳代謝就是共食入去的營養素轉化做身體需要的能量,嘛共食入去的毒素佮有害物質分解。解毒就是共血液中的毒素佮有害物質過濾掉,予伊袂入去身軀內。<br>阿明:是講肝臟是按怎會生出病來?<br>阿母:肝臟的病症包括肝炎、肝硬化、肝癌等等。肝炎是講肝臟發炎,肝硬化是講肝臟纖維化,肝癌是講肝臟生腫瘤。遮的病症的病因各無仝款,親像病毒感染、酒精中毒、肝硬化、遺傳因素等等。<br>阿明:是按怎會當治療肝病?<br>阿母:肝病的治療方法因為病情無仝,像肝炎會使用抗病毒的藥仔,肝硬化會使用保肝的藥仔,肝癌會使用手術、放射線治療、化學治療抑是標靶治療。另外,保持健康的生活方式,親像均衡飲食、適當的運動、避免啉酒等等,嘛會當幫贊保護肝臟。<br>阿明:若肝臟出問題,有啥物症頭?<br>阿母:肝病的症頭因為病情無仝,像肝炎可能會有厭𤺪、無胃口、黃疸、茶色尿等等的症頭。肝硬化的時陣可能會有腹肚疼、腰子疼、疲勞、體重減輕等等。肝癌的症頭嘛是百百款,親像腹肚漲疼、黃疸、茶色尿、體重減輕等等。<br>阿母:所以,保護肝臟真要緊。除了保持健康的生活方式以外,定期做身體檢查嘛真重要。若出現任何佮肝臟相關的症頭,著愛即時去病院看。<br>阿明:多謝阿母,我今仔日學著真濟有關肝臟的智識。 </td>
|
134 |
+
</tr>
|
135 |
+
<tr>
|
136 |
+
<td style="vertical-align: top;">根據下跤用戶對電動車的評論,分析內底的情緒成份,閣共評論者滿意的程度評分(一到十),十分代表誠滿意,一分代表誠不滿意。
|
137 |
+
我最近買一台電動車,我對伊的設計佮環保性真有好感。雖罔充電站無遐爾仔好揣,毋過伊的續行力夠額予我做工課用矣。有時陣會煩惱揣袂著充電站,總是講起來,我對我的電動車感覺誠滿意。</td>
|
138 |
+
<td style="vertical-align: top;">評論者對電動車的評價主要是正面的,對設計佮環保性攏表示出肯定。雖然佇充電站方面有小可仔掛慮,毋過整體來講猶是感覺滿意。根據情緒分析,這个評論者對電動車的滿意度應該會使評做七分(誠滿意)。</td>
|
139 |
+
<td style="vertical-align: top;">這个評論者對電動車的滿意度是七分,主要是對電動車的設計佮環保性感覺滿意,毋過對充電站的便利性有淡薄仔掛慮。</td>
|
140 |
+
</tr>
|
141 |
+
<tr>
|
142 |
+
<td style="vertical-align: top;">請將下面的中文句仔翻做英文:「頭家咧發想創新的生理型態的時陣,愛考慮著市場的需求、��競爭者的實力、閣有創新的策略等等濟濟項的因端。」</td>
|
143 |
+
<td style="vertical-align: top;"> When the boss is thinking about a new business model, he or she needs to consider many factors, such as market demand, competitor strength, and innovation strategies. </td>
|
144 |
+
<td style="vertical-align: top;"> When the boss is brainstorming innovative business types, he needs to consider market demand, competitor strength, and innovative strategies, among many other factors. </td>
|
145 |
+
</tr>
|
146 |
+
<tr>
|
147 |
+
<td style="vertical-align: top;">將下面這段有關地動的英文,請翻譯做閩南語。
|
148 |
+
Earthquakes are the result of sudden release of energy in the Earth's crust, leading to seismic waves. The intensity and magnitude of an earthquake can vary greatly depending on factors such as the depth of the focus and the distance from the epicenter. Earthquakes can cause significant damage to buildings, infrastructure, and even lead to loss of life. It is essential for governments and communities to invest in earthquake-resistant infrastructure and educate the public on how to respond during an earthquake.</td>
|
149 |
+
<td style="vertical-align: top;">地動是地球殼層雄雄放出能量,造成地動波。地動的強弱佮規模會因為震央佇佗位、離震源遠近無仝來改變。地動會予建築物、基礎建設佮性命害了了。政府佮社區愛投資佇防震的基礎建設,閣教示民眾按怎佇地動來的時陣有反應。</td>
|
150 |
+
<td style="vertical-align: top;">地動是地球殼內能量雄雄放出所引起的,致使地動波。地動的強弱佮規模會因為像震央深度佮離震央遠近等等因素,產生足大的精差。地動會嚴重破壞建築物、基礎建設,甚至造成性命的損失。政府佮社區愛投資佇抗震的基礎設施,嘛愛教育民眾按怎因應地動。</td>
|
151 |
+
</tr>
|
152 |
+
</table>
|
153 |
+
|
154 |
+
## Citation
|
155 |
+
|
156 |
+
If you find the resources in the Taiwanese Hokkien LLM collection useful in your work, please cite it using the following reference:
|
157 |
+
|
158 |
+
```
|
159 |
+
@misc{lu2024enhancing,
|
160 |
+
title={Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems},
|
161 |
+
author={Bo-Han Lu and Yi-Hsuan Lin and En-Shiun Annie Lee and Richard Tzong-Han Tsai},
|
162 |
+
year={2024},
|
163 |
+
eprint={2403.12024},
|
164 |
+
archivePrefix={arXiv},
|
165 |
+
primaryClass={cs.CL}
|
166 |
+
}
|
167 |
+
```
|