takerun
/

llm-jp-3-13b-finetune

Transformers

Safetensors

English

Inference Endpoints

Model card Files Files and versions Community

takerun commited on Dec 25, 2024

Commit

6f66f32

verified ·

1 Parent(s): a9501da

Update README.md

Browse files

Files changed (1) hide show

README.md +0 -77

README.md CHANGED Viewed

@@ -80,27 +80,6 @@ from trl import SFTTrainer
 HF_TOKEN = "your token"
 # モデルを読み込み。
-# llm-jp-3 1.8B, 3.7B, 13Bのsnapshotをダウンロード済みでmodelsディレクトリに格納してあります。
-# base_model_idの値はomnicampusの環境におけるモデルのパスを表しており、それ以外の環境で実行する場合は変更の必要があります。
-# その他のモデルは取得に承諾が必要なため、各自でダウンロードお願いします。
-base_model_id = "models/models--llm-jp--llm-jp-3-13b/snapshots/cd3823f4c1fcbb0ad2e2af46036ab1b0ca13192a" #Fine-Tuningするベースモデル
-# omnicampus以外の環境をご利用の方は以下をご利用ください。
-# base_model_id = "llm-jp/llm-jp-3-13b"
-new_model_id = "llm-jp-3-13b-finetune" #Fine-Tuningしたモデルにつけたい名前
-"""
-bnb_config: 量子化の設定
-  - load_in_4bit:
-      - 4bit量子化形式でモデルをロード
-  - bnb_4bit_quant_type:
-      - 量子化の形式を指定
-  - bnb_4bit_compute_dtype:
-      - 量子化された重みを用いて計算する際のデータ型
-"""
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
@@ -108,26 +87,6 @@ bnb_config = BitsAndBytesConfig(
     bnb_4bit_compute_dtype=torch.bfloat16,
 )
-"""
-model: モデル
-  - base_model:
-      - 読み込むベースモデル (事前に定義したもの)
-  - quantization_config:
-      - bnb_configで設定した量子化設定
-  - device_map:
-      - モデルを割り当てるデバイス (CPU/GPU) "auto"で自動に割り当てられます。
-tokenizer: トークナイザー
-  - base_model:
-      - 読み込むベースモデル (事前に定義したもの)
-  - trust_remote_code:
-      - リモートコードの実行を許可 (カスタムモデルなど)
-"""
 model = AutoModelForCausalLM.from_pretrained(
     base_model_id,
     quantization_config=bnb_config,
@@ -136,10 +95,6 @@ model = AutoModelForCausalLM.from_pretrained(
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
-"""
-find_all_linear_names: モデル内の4bit量子化線形層を探します。
-"""
 def find_all_linear_names(model):
     cls = bnb.nn.Linear4bit # 4bit量子化線形層クラスを指定
     lora_module_names = set() # ここに取得した線形層を保持します。
@@ -158,29 +113,6 @@ def find_all_linear_names(model):
 modules = find_all_linear_names(model)
-"""
-peft_config: PEFTの構成設定
-  - r
-      - LoRA のランク (4, 8, 16 ,32...)
-      - 増やすほど学習が捗るが, 過学習のリスクも高まるので注意
-  - lora_alpha
-      - LoRAのスケーリング係数
-  - lora_dropout
-      - ドロップアウト率（過学習を防ぐための割合）
-  - bias
-      - バイアス項の扱い ("none"の場合、LoRAはバイアスを学習しない)
-  - task_type
-      - タスクタイプ
-  - target_modules
-      - LoRAを適用するターゲットモジュール (前のコードで特定した層)
-"""
 peft_config = LoraConfig(
     r=16,
     lora_alpha=32,
@@ -376,7 +308,6 @@ trainer.train() # トレーニングを実行
 ```
 # タスクとなるデータの読み込み。
-# omnicampusの開発環境では、左にタスクのjsonlをドラッグアンドドロップしてから実行。
 import json
 datasets = []
 with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
@@ -420,10 +351,6 @@ for data in tqdm(datasets):
   output = tokenizer.decode(outputs[tokenized_input.size(1):], skip_special_tokens=True)
   results.append({"task_id": data["task_id"], "input": input, "output": output})
-# こちらで生成されたjsolを提出してください。
-# 本コードではinputとeval_aspectも含んでいますが、なくても問題ありません。
-# 必須なのはtask_idとoutputとなります。
 ```
 - adapter_idをベースにしたファイル名でJSONL形式の出力ファイルを保存します。
@@ -435,8 +362,4 @@ with open(f"./{jsonl_id}-outputs.jsonl", 'w', encoding='utf-8') as f:
     for result in results:
         json.dump(result, f, ensure_ascii=False)  # ensure_ascii=False for handling non-ASCII characters
         f.write('\n')
-# モデルとトークナイザーをHugging Faceにアップロード
-model.push_to_hub(new_model_id, token=HF_TOKEN, private=True) # Online saving
-tokenizer.push_to_hub(new_model_id, token=HF_TOKEN, private=True) # Online saving
 ```

 HF_TOKEN = "your token"
 # モデルを読み込み。
 bnb_config = BitsAndBytesConfig(
     load_in_4bit=True,
     bnb_4bit_compute_dtype=torch.bfloat16,
 )
 model = AutoModelForCausalLM.from_pretrained(
     base_model_id,
     quantization_config=bnb_config,
 tokenizer = AutoTokenizer.from_pretrained(base_model_id, trust_remote_code=True)
 def find_all_linear_names(model):
     cls = bnb.nn.Linear4bit # 4bit量子化線形層クラスを指定
     lora_module_names = set() # ここに取得した線形層を保持します。
 modules = find_all_linear_names(model)
 peft_config = LoraConfig(
     r=16,
     lora_alpha=32,
 ```
 # タスクとなるデータの読み込み。
 import json
 datasets = []
 with open("./elyza-tasks-100-TV_0.jsonl", "r") as f:
   output = tokenizer.decode(outputs[tokenized_input.size(1):], skip_special_tokens=True)
   results.append({"task_id": data["task_id"], "input": input, "output": output})
 ```
 - adapter_idをベースにしたファイル名でJSONL形式の出力ファイルを保存します。
     for result in results:
         json.dump(result, f, ensure_ascii=False)  # ensure_ascii=False for handling non-ASCII characters
         f.write('\n')
 ```