--- license: apache-2.0 library_name: peft tags: - generated_from_trainer base_model: sail/Sailor-7B model-index: - name: Sailor-7B-toba results: [] --- [Built with Axolotl](https://github.com/OpenAccess-AI-Collective/axolotl)
See axolotl config axolotl version: `0.4.0` ```yaml base_model: sail/Sailor-7B model_type: AutoModelForCausalLM tokenizer_type: AutoTokenizer is_mistral_derived_model: false load_in_8bit: false load_in_4bit: true strict: false datasets: #we used a small dataset to teach the model function calling abilities - path: ./echonettobatrain.jsonl ds_type: json type: sharegpt dataset_prepared_path: last_run_function_call #0.05 val_set_size: 0.02 output_dir: ./Sailor-7B-toba adapter: qlora lora_model_dir: sequence_len: 8192 sample_packing: false eval_sample_packing: true pad_to_sequence_len: true # important, to get the same trainable parameters then for a qlora training with lora_r=32 and lora_alpha=16 you need to adjust the lora_r depending on the amount of filtered layers you want to use. With top_n=4 you would go for lora_r= 256 lora_r: 64 lora_alpha: 16 lora_dropout: 0.05 lora_target_linear: false lora_fan_in_fan_out: lora_target_modules: - layers.0.self_attn.v_proj - layers.1.self_attn.v_proj - layers.2.self_attn.v_proj - layers.3.self_attn.v_proj - layers.4.self_attn.v_proj - layers.5.self_attn.v_proj - layers.6.self_attn.v_proj - layers.7.self_attn.v_proj - layers.8.self_attn.v_proj - layers.9.self_attn.v_proj - layers.10.self_attn.v_proj - layers.11.self_attn.v_proj - layers.12.self_attn.v_proj - layers.13.self_attn.v_proj - layers.14.self_attn.v_proj - layers.15.self_attn.v_proj - layers.16.self_attn.v_proj - layers.17.self_attn.v_proj - layers.18.self_attn.v_proj - layers.19.self_attn.v_proj - layers.20.self_attn.v_proj - layers.21.self_attn.v_proj - layers.22.self_attn.v_proj - layers.23.self_attn.v_proj - layers.24.self_attn.v_proj - layers.25.self_attn.v_proj - layers.26.self_attn.v_proj - layers.27.self_attn.v_proj - layers.28.self_attn.v_proj - layers.29.self_attn.v_proj - layers.30.self_attn.v_proj - layers.31.self_attn.v_proj - layers.0.self_attn.k_proj - layers.1.self_attn.k_proj - layers.2.self_attn.k_proj - layers.3.self_attn.k_proj - layers.4.self_attn.k_proj - layers.5.self_attn.k_proj - layers.6.self_attn.k_proj - layers.7.self_attn.k_proj - layers.8.self_attn.k_proj - layers.9.self_attn.k_proj - layers.10.self_attn.k_proj - layers.11.self_attn.k_proj - layers.12.self_attn.k_proj - layers.13.self_attn.k_proj - layers.14.self_attn.k_proj - layers.15.self_attn.k_proj - layers.16.self_attn.k_proj - layers.17.self_attn.k_proj - layers.18.self_attn.k_proj - layers.19.self_attn.k_proj - layers.20.self_attn.k_proj - layers.21.self_attn.k_proj - layers.22.self_attn.k_proj - layers.23.self_attn.k_proj - layers.24.self_attn.k_proj - layers.25.self_attn.k_proj - layers.26.self_attn.k_proj - layers.27.self_attn.k_proj - layers.28.self_attn.k_proj - layers.29.self_attn.k_proj - layers.30.self_attn.k_proj - layers.31.self_attn.k_proj - layers.0.self_attn.o_proj - layers.1.self_attn.o_proj - layers.2.self_attn.o_proj - layers.3.self_attn.o_proj - layers.4.self_attn.o_proj - layers.5.self_attn.o_proj - layers.6.self_attn.o_proj - layers.7.self_attn.o_proj - layers.8.self_attn.o_proj - layers.9.self_attn.o_proj - layers.10.self_attn.o_proj - layers.11.self_attn.o_proj - layers.12.self_attn.o_proj - layers.13.self_attn.o_proj - layers.14.self_attn.o_proj - layers.15.self_attn.o_proj - layers.16.self_attn.o_proj - layers.17.self_attn.o_proj - layers.18.self_attn.o_proj - layers.19.self_attn.o_proj - layers.20.self_attn.o_proj - layers.21.self_attn.o_proj - layers.22.self_attn.o_proj - layers.23.self_attn.o_proj - layers.24.self_attn.o_proj - layers.25.self_attn.o_proj - layers.26.self_attn.o_proj - layers.27.self_attn.o_proj - layers.28.self_attn.o_proj - layers.29.self_attn.o_proj - layers.30.self_attn.o_proj - layers.31.self_attn.o_proj - layers.0.self_attn.q_proj - layers.1.self_attn.q_proj - layers.2.self_attn.q_proj - layers.3.self_attn.q_proj - layers.4.self_attn.q_proj - layers.5.self_attn.q_proj - layers.6.self_attn.q_proj - layers.7.self_attn.q_proj - layers.8.self_attn.q_proj - layers.9.self_attn.q_proj - layers.10.self_attn.q_proj - layers.11.self_attn.q_proj - layers.12.self_attn.q_proj - layers.13.self_attn.q_proj - layers.14.self_attn.q_proj - layers.15.self_attn.q_proj - layers.16.self_attn.q_proj - layers.17.self_attn.q_proj - layers.18.self_attn.q_proj - layers.19.self_attn.q_proj - layers.20.self_attn.q_proj - layers.21.self_attn.q_proj - layers.22.self_attn.q_proj - layers.23.self_attn.q_proj - layers.24.self_attn.q_proj - layers.25.self_attn.q_proj - layers.26.self_attn.q_proj - layers.27.self_attn.q_proj - layers.28.self_attn.q_proj - layers.29.self_attn.q_proj - layers.30.self_attn.q_proj - layers.31.self_attn.q_proj - layers.0.mlp.down_proj - layers.1.mlp.down_proj - layers.2.mlp.down_proj - layers.3.mlp.down_proj - layers.4.mlp.down_proj - layers.5.mlp.down_proj - layers.6.mlp.down_proj - layers.7.mlp.down_proj - layers.8.mlp.down_proj - layers.9.mlp.down_proj - layers.10.mlp.down_proj - layers.11.mlp.down_proj - layers.12.mlp.down_proj - layers.13.mlp.down_proj - layers.14.mlp.down_proj - layers.15.mlp.down_proj - layers.16.mlp.down_proj - layers.17.mlp.down_proj - layers.18.mlp.down_proj - layers.19.mlp.down_proj - layers.20.mlp.down_proj - layers.21.mlp.down_proj - layers.22.mlp.down_proj - layers.23.mlp.down_proj - layers.24.mlp.down_proj - layers.25.mlp.down_proj - layers.26.mlp.down_proj - layers.27.mlp.down_proj - layers.28.mlp.down_proj - layers.29.mlp.down_proj - layers.30.mlp.down_proj - layers.31.mlp.down_proj - layers.0.mlp.up_proj - layers.1.mlp.up_proj - layers.2.mlp.up_proj - layers.3.mlp.up_proj - layers.4.mlp.up_proj - layers.5.mlp.up_proj - layers.6.mlp.up_proj - layers.7.mlp.up_proj - layers.8.mlp.up_proj - layers.9.mlp.up_proj - layers.10.mlp.up_proj - layers.11.mlp.up_proj - layers.12.mlp.up_proj - layers.13.mlp.up_proj - layers.14.mlp.up_proj - layers.15.mlp.up_proj - layers.16.mlp.up_proj - layers.17.mlp.up_proj - layers.18.mlp.up_proj - layers.19.mlp.up_proj - layers.20.mlp.up_proj - layers.21.mlp.up_proj - layers.22.mlp.up_proj - layers.23.mlp.up_proj - layers.24.mlp.up_proj - layers.25.mlp.up_proj - layers.26.mlp.up_proj - layers.27.mlp.up_proj - layers.28.mlp.up_proj - layers.29.mlp.up_proj - layers.30.mlp.up_proj - layers.31.mlp.up_proj # important: you need to unfreeze the lm.head - lm.head wandb_project: axolotl-sailor7b-toba wandb_entity: wandb_watch: wandb_run_id: wandb_log_model: gradient_accumulation_steps: 2 micro_batch_size: 2 num_epochs: 3 optimizer: adamw_bnb_8bit lr_scheduler: cosine learning_rate: 0.00025 train_on_inputs: false group_by_length: false bf16: true fp16: false tf32: false gradient_checkpointing: true early_stopping_patience: resume_from_checkpoint: local_rank: logging_steps: 1 xformers_attention: flash_attention: true warmup_steps: 100 eval_steps: 0.2 eval_table_size: eval_table_max_new_tokens: 128 save_steps: debug: deepspeed: weight_decay: 0.0 fsdp: fsdp_config: special_tokens: ```

# Sailor-7B-toba This model is a fine-tuned version of [sail/Sailor-7B](https://huggingface.co/sail/Sailor-7B) on the None dataset. It achieves the following results on the evaluation set: - Loss: 1.3876 ## Model description More information needed ## Intended uses & limitations More information needed ## Training and evaluation data More information needed ## Training procedure ### Training hyperparameters The following hyperparameters were used during training: - learning_rate: 0.00025 - train_batch_size: 2 - eval_batch_size: 2 - seed: 42 - gradient_accumulation_steps: 2 - total_train_batch_size: 4 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08 - lr_scheduler_type: cosine - lr_scheduler_warmup_steps: 100 - num_epochs: 3 ### Training results | Training Loss | Epoch | Step | Validation Loss | |:-------------:|:-----:|:----:|:---------------:| | 5.0998 | 0.0 | 1 | 5.1501 | | 1.3477 | 0.6 | 622 | 1.6304 | | 1.268 | 1.2 | 1244 | 1.4755 | | 0.8714 | 1.8 | 1866 | 1.2799 | | 0.4408 | 2.4 | 2488 | 1.3876 | ### Framework versions - PEFT 0.9.1.dev0 - Transformers 4.39.0.dev0 - Pytorch 2.1.2+cu118 - Datasets 2.18.0 - Tokenizers 0.15.0