llm-jp
/

llm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0

Text Generation

text-generation-inference

Model card Files Files and versions Community

Update readme

#1

by Taka008 - opened Apr 29

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +15 -11

README.md CHANGED Viewed

@@ -56,30 +56,34 @@ Checkpoints format: Hugging Face Transformers (Megatron-DeepSpeed format models
 ## Required Libraries and Their Versions
-- torch>=2.0.0
-- transformers>=4.34.0
-- tokenizers>=0.14.0
-- accelerate==0.23.0
 ## Usage
 ```python
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
-tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1")
-model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-dolly_en-dolly_ja-ichikara_003_001-oasst_en-oasst_ja-v1.1", device_map="auto", torch_dtype=torch.float16)
-text = "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。\n\n### 指示:\n{instruction}\n\n### 応答:\n".format(instruction="自然言語処理とは何か")
-tokenized_input = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt").to(model.device)
-with torch.no_grad():
     output = model.generate(
         tokenized_input,
         max_new_tokens=512,
         do_sample=True,
         top_p=0.95,
         temperature=0.7,
-        repetition_penalty=1.1,
     )[0]
-print(tokenizer.decode(output))
 ```

 ## Required Libraries and Their Versions
+- torch>=2.3.0
+- transformers>=4.40.1
+- tokenizers>=0.19.1
+- accelerate>=0.29.3
+- flash-attn>=2.5.8
 ## Usage
 ```python
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("llm-jp/llm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0")
+model = AutoModelForCausalLM.from_pretrained("llm-jp/llm-jp-13b-instruct-full-dolly-ichikara_004_001_single-oasst-oasst2-v2.0", device_map="auto", torch_dtype=torch.float16)
+chat = [
+    {"role": "system", "content": "以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。"},
+    {"role": "user", "content": "自然言語処理とは何か"},
+]
+tokenized_input = tokenizer.apply_chat_template(chat, add_generation_prompt=True, tokenize=True, return_tensors="pt").to(model.device)
+with torch.inference_mode():
     output = model.generate(
         tokenized_input,
         max_new_tokens=512,
         do_sample=True,
         top_p=0.95,
         temperature=0.7,
+        repetition_penalty=1.05,
     )[0]
+    print(tokenizer.decode(output, skip_special_tokens=True))
 ```