Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +21 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +32 -0
train_args.json +123 -0
training_args.bin +3 -0
training_logs.json +1067 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/llama-30b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:431951954e408c8dff8b4432c9466a628b6cd4677ddbf704d0bbc5359267001f
+size 409081617

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

train_args.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+    "initial_model_dir": "models/llama-30b",
+    "distribution_id": "math_textbook",
+    "date_trained": "11/10/2023 04:28:33",
+    "output_dir": "models/classify_lora/llama-30b-math_textbook",
+    "overwrite_output_dir": false,
+    "do_train": false,
+    "do_eval": true,
+    "do_predict": false,
+    "evaluation_strategy": "steps",
+    "prediction_loss_only": false,
+    "per_device_train_batch_size": 8,
+    "per_device_eval_batch_size": 8,
+    "per_gpu_train_batch_size": null,
+    "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 1,
+    "eval_accumulation_steps": null,
+    "eval_delay": 0,
+    "learning_rate": 0.0002,
+    "weight_decay": 0.0,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.999,
+    "adam_epsilon": 1e-08,
+    "max_grad_norm": 0.3,
+    "num_train_epochs": 2,
+    "max_steps": 100,
+    "lr_scheduler_type": "constant",
+    "warmup_ratio": 0.03,
+    "warmup_steps": 0,
+    "log_level": "passive",
+    "log_level_replica": "warning",
+    "log_on_each_node": true,
+    "logging_dir": "models/classify_lora/llama-30b-math_textbook/runs/Oct11_02-16-48_compute-permanent-node-990",
+    "logging_strategy": "steps",
+    "logging_first_step": false,
+    "logging_steps": 1,
+    "logging_nan_inf_filter": true,
+    "save_strategy": "steps",
+    "save_steps": 25,
+    "save_total_limit": 0,
+    "save_safetensors": false,
+    "save_on_each_node": false,
+    "no_cuda": false,
+    "use_cpu": false,
+    "use_mps_device": false,
+    "seed": 42,
+    "data_seed": null,
+    "jit_mode_eval": false,
+    "use_ipex": false,
+    "bf16": false,
+    "fp16": false,
+    "fp16_opt_level": "O1",
+    "half_precision_backend": "auto",
+    "bf16_full_eval": false,
+    "fp16_full_eval": false,
+    "tf32": null,
+    "local_rank": 0,
+    "ddp_backend": null,
+    "tpu_num_cores": null,
+    "tpu_metrics_debug": false,
+    "debug": [],
+    "dataloader_drop_last": false,
+    "eval_steps": 25,
+    "dataloader_num_workers": 0,
+    "past_index": -1,
+    "run_name": "train|models-classify_lora-llama-30b-math_textbook",
+    "disable_tqdm": false,
+    "remove_unused_columns": false,
+    "label_names": null,
+    "load_best_model_at_end": false,
+    "metric_for_best_model": "eval_math_textbook_score",
+    "greater_is_better": true,
+    "ignore_data_skip": false,
+    "sharded_ddp": [],
+    "fsdp": [],
+    "fsdp_min_num_params": 0,
+    "fsdp_config": {
+        "min_num_params": 0,
+        "xla": false,
+        "xla_fsdp_grad_ckpt": false
+    },
+    "fsdp_transformer_layer_cls_to_wrap": null,
+    "deepspeed": "configs/ds_zero_1.json",
+    "label_smoothing_factor": 0.0,
+    "optim": "paged_adamw_32bit",
+    "optim_args": null,
+    "adafactor": false,
+    "group_by_length": false,
+    "length_column_name": "length",
+    "report_to": [
+        "wandb"
+    ],
+    "ddp_find_unused_parameters": false,
+    "ddp_bucket_cap_mb": null,
+    "ddp_broadcast_buffers": null,
+    "dataloader_pin_memory": true,
+    "skip_memory_metrics": true,
+    "use_legacy_prediction_loop": false,
+    "push_to_hub": false,
+    "resume_from_checkpoint": null,
+    "hub_model_id": null,
+    "hub_strategy": "every_save",
+    "hub_token": null,
+    "hub_private_repo": false,
+    "hub_always_push": false,
+    "gradient_checkpointing": false,
+    "include_inputs_for_metrics": false,
+    "fp16_backend": "auto",
+    "push_to_hub_model_id": null,
+    "push_to_hub_organization": null,
+    "push_to_hub_token": null,
+    "_n_gpu": 1,
+    "mp_parameters": "",
+    "auto_find_batch_size": false,
+    "full_determinism": false,
+    "torchdynamo": null,
+    "ray_scope": "last",
+    "ddp_timeout": 1800,
+    "torch_compile": false,
+    "torch_compile_backend": null,
+    "torch_compile_mode": null,
+    "dispatch_batches": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51ecfc818ea40241f2fb6f9e5e88adfc88ef05f40c4b28d289d40ffb82cff3b5
+size 5115

training_logs.json ADDED Viewed

	@@ -0,0 +1,1067 @@

+[
+    {
+        "loss": 0.7607,
+        "learning_rate": 0.0002,
+        "epoch": 0.02,
+        "step": 1
+    },
+    {
+        "loss": 0.7232,
+        "learning_rate": 0.0002,
+        "epoch": 0.04,
+        "step": 2
+    },
+    {
+        "loss": 0.6848,
+        "learning_rate": 0.0002,
+        "epoch": 0.05,
+        "step": 3
+    },
+    {
+        "loss": 0.7019,
+        "learning_rate": 0.0002,
+        "epoch": 0.07,
+        "step": 4
+    },
+    {
+        "loss": 0.6913,
+        "learning_rate": 0.0002,
+        "epoch": 0.09,
+        "step": 5
+    },
+    {
+        "loss": 0.7081,
+        "learning_rate": 0.0002,
+        "epoch": 0.11,
+        "step": 6
+    },
+    {
+        "loss": 0.6857,
+        "learning_rate": 0.0002,
+        "epoch": 0.12,
+        "step": 7
+    },
+    {
+        "loss": 0.6294,
+        "learning_rate": 0.0002,
+        "epoch": 0.14,
+        "step": 8
+    },
+    {
+        "loss": 0.6635,
+        "learning_rate": 0.0002,
+        "epoch": 0.16,
+        "step": 9
+    },
+    {
+        "loss": 0.7302,
+        "learning_rate": 0.0002,
+        "epoch": 0.18,
+        "step": 10
+    },
+    {
+        "loss": 0.6197,
+        "learning_rate": 0.0002,
+        "epoch": 0.19,
+        "step": 11
+    },
+    {
+        "loss": 0.572,
+        "learning_rate": 0.0002,
+        "epoch": 0.21,
+        "step": 12
+    },
+    {
+        "loss": 0.6062,
+        "learning_rate": 0.0002,
+        "epoch": 0.23,
+        "step": 13
+    },
+    {
+        "loss": 0.5423,
+        "learning_rate": 0.0002,
+        "epoch": 0.25,
+        "step": 14
+    },
+    {
+        "loss": 0.4641,
+        "learning_rate": 0.0002,
+        "epoch": 0.26,
+        "step": 15
+    },
+    {
+        "loss": 0.4541,
+        "learning_rate": 0.0002,
+        "epoch": 0.28,
+        "step": 16
+    },
+    {
+        "loss": 0.3941,
+        "learning_rate": 0.0002,
+        "epoch": 0.3,
+        "step": 17
+    },
+    {
+        "loss": 0.4322,
+        "learning_rate": 0.0002,
+        "epoch": 0.32,
+        "step": 18
+    },
+    {
+        "loss": 0.3091,
+        "learning_rate": 0.0002,
+        "epoch": 0.33,
+        "step": 19
+    },
+    {
+        "loss": 0.3358,
+        "learning_rate": 0.0002,
+        "epoch": 0.35,
+        "step": 20
+    },
+    {
+        "loss": 0.5353,
+        "learning_rate": 0.0002,
+        "epoch": 0.37,
+        "step": 21
+    },
+    {
+        "loss": 0.2493,
+        "learning_rate": 0.0002,
+        "epoch": 0.39,
+        "step": 22
+    },
+    {
+        "loss": 0.3774,
+        "learning_rate": 0.0002,
+        "epoch": 0.4,
+        "step": 23
+    },
+    {
+        "loss": 0.4386,
+        "learning_rate": 0.0002,
+        "epoch": 0.42,
+        "step": 24
+    },
+    {
+        "loss": 0.2575,
+        "learning_rate": 0.0002,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "eval_math_textbook_loss": 0.16202543675899506,
+        "eval_math_textbook_score": -0.05223832651972771,
+        "eval_math_textbook_brier_score": 0.05223832651972771,
+        "eval_math_textbook_average_probability": 0.8756378889083862,
+        "eval_math_textbook_accuracy": 0.94,
+        "eval_math_textbook_probabilities": [
+            0.9960231781005859,
+            0.9589232802391052,
+            0.9999951124191284,
+            0.9927495718002319,
+            0.9983804225921631,
+            0.9993534684181213,
+            0.49611395597457886,
+            0.6533418893814087,
+            0.7788395881652832,
+            0.6563414931297302,
+            0.2655615508556366,
+            0.5199369192123413,
+            0.9290330410003662,
+            0.9862822890281677,
+            0.9882707595825195,
+            0.9478281736373901,
+            0.9970117807388306,
+            0.9931566119194031,
+            0.9889145493507385,
+            0.9937031865119934,
+            0.9999682903289795,
+            0.7295100092887878,
+            0.9783802628517151,
+            0.9998266100883484,
+            0.9879601001739502,
+            0.9995874762535095,
+            0.9808893799781799,
+            0.8457397818565369,
+            0.9344746470451355,
+            0.876669704914093,
+            0.1977093666791916,
+            0.9969134330749512,
+            0.9943760633468628,
+            0.9675971865653992,
+            0.9927055239677429,
+            0.9609069228172302,
+            0.41270166635513306,
+            0.5432194471359253,
+            0.7506809234619141,
+            0.8879430294036865,
+            0.9209844470024109,
+            0.9765685796737671,
+            0.986634373664856,
+            0.9965680837631226,
+            0.9989145994186401,
+            0.9733389616012573,
+            0.9279597997665405,
+            0.926964521408081,
+            0.9984092116355896,
+            0.993224561214447,
+            0.9959009289741516,
+            0.9766042828559875,
+            0.99498051404953,
+            0.9953020811080933,
+            0.7484961748123169,
+            0.5595658421516418,
+            0.6347947120666504,
+            0.8333064913749695,
+            0.8934006094932556,
+            0.8698863387107849,
+            0.9989472031593323,
+            0.9997424483299255,
+            0.9983856678009033,
+            0.5097801089286804,
+            0.8684792518615723,
+            0.861236572265625,
+            0.6593285799026489,
+            0.9650273323059082,
+            0.9815667867660522,
+            0.8728976845741272,
+            0.9385504126548767,
+            0.8316371440887451,
+            0.9991797804832458,
+            0.9993802309036255,
+            0.999068558216095,
+            0.9983657002449036,
+            0.9968892931938171,
+            0.989550769329071,
+            0.9781104922294617,
+            0.9844730496406555,
+            0.6861022114753723,
+            0.9963429570198059,
+            0.9961416125297546,
+            0.9998307228088379,
+            0.9972301125526428,
+            0.9972461462020874,
+            0.9998589754104614,
+            0.8539162874221802,
+            0.8533269166946411,
+            0.9063481092453003,
+            0.9272497892379761,
+            0.2949357330799103,
+            0.9830122590065002,
+            0.9900804162025452,
+            0.9989221096038818,
+            0.9978867173194885,
+            0.7507686018943787,
+            0.2280157506465912,
+            0.5014479160308838,
+            0.7952038049697876
+        ],
+        "eval_math_textbook_runtime": 88.1152,
+        "eval_math_textbook_samples_per_second": 1.135,
+        "eval_math_textbook_steps_per_second": 0.045,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "loss": 0.06,
+        "learning_rate": 0.0002,
+        "epoch": 0.46,
+        "step": 26
+    },
+    {
+        "loss": 0.2526,
+        "learning_rate": 0.0002,
+        "epoch": 0.47,
+        "step": 27
+    },
+    {
+        "loss": 0.1444,
+        "learning_rate": 0.0002,
+        "epoch": 0.49,
+        "step": 28
+    },
+    {
+        "loss": 0.1755,
+        "learning_rate": 0.0002,
+        "epoch": 0.51,
+        "step": 29
+    },
+    {
+        "loss": 0.0442,
+        "learning_rate": 0.0002,
+        "epoch": 0.53,
+        "step": 30
+    },
+    {
+        "loss": 0.3503,
+        "learning_rate": 0.0002,
+        "epoch": 0.54,
+        "step": 31
+    },
+    {
+        "loss": 0.469,
+        "learning_rate": 0.0002,
+        "epoch": 0.56,
+        "step": 32
+    },
+    {
+        "loss": 0.135,
+        "learning_rate": 0.0002,
+        "epoch": 0.58,
+        "step": 33
+    },
+    {
+        "loss": 0.1248,
+        "learning_rate": 0.0002,
+        "epoch": 0.6,
+        "step": 34
+    },
+    {
+        "loss": 0.1386,
+        "learning_rate": 0.0002,
+        "epoch": 0.61,
+        "step": 35
+    },
+    {
+        "loss": 0.1263,
+        "learning_rate": 0.0002,
+        "epoch": 0.63,
+        "step": 36
+    },
+    {
+        "loss": 0.0569,
+        "learning_rate": 0.0002,
+        "epoch": 0.65,
+        "step": 37
+    },
+    {
+        "loss": 0.0416,
+        "learning_rate": 0.0002,
+        "epoch": 0.67,
+        "step": 38
+    },
+    {
+        "loss": 0.0964,
+        "learning_rate": 0.0002,
+        "epoch": 0.68,
+        "step": 39
+    },
+    {
+        "loss": 0.1388,
+        "learning_rate": 0.0002,
+        "epoch": 0.7,
+        "step": 40
+    },
+    {
+        "loss": 0.3447,
+        "learning_rate": 0.0002,
+        "epoch": 0.72,
+        "step": 41
+    },
+    {
+        "loss": 0.0337,
+        "learning_rate": 0.0002,
+        "epoch": 0.74,
+        "step": 42
+    },
+    {
+        "loss": 0.2434,
+        "learning_rate": 0.0002,
+        "epoch": 0.75,
+        "step": 43
+    },
+    {
+        "loss": 0.0229,
+        "learning_rate": 0.0002,
+        "epoch": 0.77,
+        "step": 44
+    },
+    {
+        "loss": 0.1047,
+        "learning_rate": 0.0002,
+        "epoch": 0.79,
+        "step": 45
+    },
+    {
+        "loss": 0.1124,
+        "learning_rate": 0.0002,
+        "epoch": 0.81,
+        "step": 46
+    },
+    {
+        "loss": 0.2248,
+        "learning_rate": 0.0002,
+        "epoch": 0.82,
+        "step": 47
+    },
+    {
+        "loss": 0.1916,
+        "learning_rate": 0.0002,
+        "epoch": 0.84,
+        "step": 48
+    },
+    {
+        "loss": 0.0577,
+        "learning_rate": 0.0002,
+        "epoch": 0.86,
+        "step": 49
+    },
+    {
+        "loss": 0.0294,
+        "learning_rate": 0.0002,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "eval_math_textbook_loss": 0.062490738928318024,
+        "eval_math_textbook_score": -0.02642030455172062,
+        "eval_math_textbook_brier_score": 0.02642030455172062,
+        "eval_math_textbook_average_probability": 0.9505031108856201,
+        "eval_math_textbook_accuracy": 0.96,
+        "eval_math_textbook_probabilities": [
+            0.9935856461524963,
+            0.9854414463043213,
+            0.9999929666519165,
+            0.9998990297317505,
+            0.9999942779541016,
+            0.9999994039535522,
+            0.8846103549003601,
+            0.9717264175415039,
+            0.9865896701812744,
+            0.9265250563621521,
+            0.7362580299377441,
+            0.9999997615814209,
+            0.9999853372573853,
+            0.9999990463256836,
+            0.9999983310699463,
+            0.8599734306335449,
+            0.9999970197677612,
+            0.9999957084655762,
+            0.9904043674468994,
+            0.990830659866333,
+            0.9999998807907104,
+            0.8436688780784607,
+            0.9999500513076782,
+            0.9999864101409912,
+            0.9999352693557739,
+            1.0,
+            0.9993420243263245,
+            0.9999982118606567,
+            0.9998797178268433,
+            0.9999988079071045,
+            0.9999676942825317,
+            0.9999847412109375,
+            0.999996542930603,
+            0.9981550574302673,
+            0.9999818801879883,
+            0.999930739402771,
+            0.8088546395301819,
+            0.9683941602706909,
+            0.9999778270721436,
+            0.9500603079795837,
+            0.7374384999275208,
+            0.9987793564796448,
+            0.9999827146530151,
+            0.9997771382331848,
+            0.9933000802993774,
+            0.9999254941940308,
+            0.9691327810287476,
+            0.9999750852584839,
+            1.0,
+            1.0,
+            1.0,
+            0.9915546774864197,
+            0.9993717074394226,
+            0.9983396530151367,
+            0.8835324645042419,
+            0.6976872682571411,
+            0.9402629137039185,
+            0.9999927282333374,
+            0.999998927116394,
+            0.9999991655349731,
+            0.9999998807907104,
+            1.0,
+            0.9999986886978149,
+            0.9999734163284302,
+            0.9999517202377319,
+            0.9999568462371826,
+            0.9999176263809204,
+            0.9999970197677612,
+            0.9999969005584717,
+            0.9998503923416138,
+            0.9999924898147583,
+            0.9999098777770996,
+            0.9999880790710449,
+            0.9999984502792358,
+            0.9999986886978149,
+            0.9852681159973145,
+            0.9834801554679871,
+            0.9828230738639832,
+            0.999982476234436,
+            0.999993085861206,
+            0.995590090751648,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            0.99729984998703,
+            0.9949920773506165,
+            0.9999861717224121,
+            0.9991029500961304,
+            0.9995905756950378,
+            0.9950645565986633,
+            0.9799520373344421,
+            0.43311816453933716,
+            0.9996745586395264,
+            0.999977707862854,
+            0.9999972581863403,
+            0.9999926090240479,
+            0.3268202543258667,
+            0.02255621738731861,
+            0.25264206528663635,
+            0.9999605417251587
+        ],
+        "eval_math_textbook_runtime": 88.0991,
+        "eval_math_textbook_samples_per_second": 1.135,
+        "eval_math_textbook_steps_per_second": 0.045,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "loss": 0.0318,
+        "learning_rate": 0.0002,
+        "epoch": 0.89,
+        "step": 51
+    },
+    {
+        "loss": 0.0211,
+        "learning_rate": 0.0002,
+        "epoch": 0.91,
+        "step": 52
+    },
+    {
+        "loss": 0.0557,
+        "learning_rate": 0.0002,
+        "epoch": 0.93,
+        "step": 53
+    },
+    {
+        "loss": 0.0605,
+        "learning_rate": 0.0002,
+        "epoch": 0.95,
+        "step": 54
+    },
+    {
+        "loss": 0.1855,
+        "learning_rate": 0.0002,
+        "epoch": 0.96,
+        "step": 55
+    },
+    {
+        "loss": 0.0538,
+        "learning_rate": 0.0002,
+        "epoch": 0.98,
+        "step": 56
+    },
+    {
+        "loss": 0.0276,
+        "learning_rate": 0.0002,
+        "epoch": 1.0,
+        "step": 57
+    },
+    {
+        "loss": 0.0116,
+        "learning_rate": 0.0002,
+        "epoch": 1.02,
+        "step": 58
+    },
+    {
+        "loss": 0.0469,
+        "learning_rate": 0.0002,
+        "epoch": 1.04,
+        "step": 59
+    },
+    {
+        "loss": 0.1541,
+        "learning_rate": 0.0002,
+        "epoch": 1.05,
+        "step": 60
+    },
+    {
+        "loss": 0.0957,
+        "learning_rate": 0.0002,
+        "epoch": 1.07,
+        "step": 61
+    },
+    {
+        "loss": 0.0305,
+        "learning_rate": 0.0002,
+        "epoch": 1.09,
+        "step": 62
+    },
+    {
+        "loss": 0.0596,
+        "learning_rate": 0.0002,
+        "epoch": 1.11,
+        "step": 63
+    },
+    {
+        "loss": 0.0154,
+        "learning_rate": 0.0002,
+        "epoch": 1.12,
+        "step": 64
+    },
+    {
+        "loss": 0.0505,
+        "learning_rate": 0.0002,
+        "epoch": 1.14,
+        "step": 65
+    },
+    {
+        "loss": 0.1137,
+        "learning_rate": 0.0002,
+        "epoch": 1.16,
+        "step": 66
+    },
+    {
+        "loss": 0.0445,
+        "learning_rate": 0.0002,
+        "epoch": 1.18,
+        "step": 67
+    },
+    {
+        "loss": 0.0243,
+        "learning_rate": 0.0002,
+        "epoch": 1.19,
+        "step": 68
+    },
+    {
+        "loss": 0.0427,
+        "learning_rate": 0.0002,
+        "epoch": 1.21,
+        "step": 69
+    },
+    {
+        "loss": 0.0269,
+        "learning_rate": 0.0002,
+        "epoch": 1.23,
+        "step": 70
+    },
+    {
+        "loss": 0.0033,
+        "learning_rate": 0.0002,
+        "epoch": 1.25,
+        "step": 71
+    },
+    {
+        "loss": 0.0753,
+        "learning_rate": 0.0002,
+        "epoch": 1.26,
+        "step": 72
+    },
+    {
+        "loss": 0.0136,
+        "learning_rate": 0.0002,
+        "epoch": 1.28,
+        "step": 73
+    },
+    {
+        "loss": 0.0148,
+        "learning_rate": 0.0002,
+        "epoch": 1.3,
+        "step": 74
+    },
+    {
+        "loss": 0.0294,
+        "learning_rate": 0.0002,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "eval_math_textbook_loss": 0.07301133126020432,
+        "eval_math_textbook_score": -0.03377831354737282,
+        "eval_math_textbook_brier_score": 0.03377831354737282,
+        "eval_math_textbook_average_probability": 0.9545721411705017,
+        "eval_math_textbook_accuracy": 0.95,
+        "eval_math_textbook_probabilities": [
+            0.9997319579124451,
+            0.998867392539978,
+            0.9999995231628418,
+            1.0,
+            1.0,
+            1.0,
+            0.9868295788764954,
+            0.999461829662323,
+            0.9999980926513672,
+            0.9989113807678223,
+            0.8771836161613464,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9248412847518921,
+            0.9999861717224121,
+            0.9999493360519409,
+            0.9935328960418701,
+            0.9922099113464355,
+            1.0,
+            0.9558141231536865,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            1.0,
+            0.9999997615814209,
+            0.9999909400939941,
+            0.9995943903923035,
+            0.9999872446060181,
+            0.9999252557754517,
+            0.999969482421875,
+            0.9999967813491821,
+            0.9999842643737793,
+            0.9999707937240601,
+            0.9999200105667114,
+            0.9751906991004944,
+            0.10745485126972198,
+            0.9999172687530518,
+            0.9980173110961914,
+            0.964015007019043,
+            0.9997988343238831,
+            0.9999998807907104,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            0.9999996423721313,
+            0.9999997615814209,
+            1.0,
+            1.0,
+            1.0,
+            0.9998918771743774,
+            0.9999985694885254,
+            0.9999735355377197,
+            0.9980869293212891,
+            0.8544897437095642,
+            0.9932467937469482,
+            0.999996542930603,
+            0.9999991655349731,
+            0.9999991655349731,
+            1.0,
+            1.0,
+            1.0,
+            0.9998795986175537,
+            0.9999253749847412,
+            0.9998786449432373,
+            1.0,
+            1.0,
+            1.0,
+            0.9999792575836182,
+            0.9999995231628418,
+            0.9999175071716309,
+            0.9999997615814209,
+            1.0,
+            0.9999998807907104,
+            0.9999803304672241,
+            0.9999405145645142,
+            0.9999480247497559,
+            0.9999998807907104,
+            1.0,
+            0.9999001026153564,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999997615814209,
+            1.0,
+            0.9999985694885254,
+            0.9999977350234985,
+            0.9999935626983643,
+            0.9955407977104187,
+            0.29453033208847046,
+            0.9999270439147949,
+            0.9999998807907104,
+            1.0,
+            0.999995231628418,
+            0.265657901763916,
+            0.022009721025824547,
+            0.26402267813682556,
+            0.9994683861732483
+        ],
+        "eval_math_textbook_runtime": 88.0387,
+        "eval_math_textbook_samples_per_second": 1.136,
+        "eval_math_textbook_steps_per_second": 0.045,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "loss": 0.0064,
+        "learning_rate": 0.0002,
+        "epoch": 1.33,
+        "step": 76
+    },
+    {
+        "loss": 0.0032,
+        "learning_rate": 0.0002,
+        "epoch": 1.35,
+        "step": 77
+    },
+    {
+        "loss": 0.0048,
+        "learning_rate": 0.0002,
+        "epoch": 1.37,
+        "step": 78
+    },
+    {
+        "loss": 0.0003,
+        "learning_rate": 0.0002,
+        "epoch": 1.39,
+        "step": 79
+    },
+    {
+        "loss": 0.0372,
+        "learning_rate": 0.0002,
+        "epoch": 1.4,
+        "step": 80
+    },
+    {
+        "loss": 0.0939,
+        "learning_rate": 0.0002,
+        "epoch": 1.42,
+        "step": 81
+    },
+    {
+        "loss": 0.0126,
+        "learning_rate": 0.0002,
+        "epoch": 1.44,
+        "step": 82
+    },
+    {
+        "loss": 0.0108,
+        "learning_rate": 0.0002,
+        "epoch": 1.46,
+        "step": 83
+    },
+    {
+        "loss": 0.0085,
+        "learning_rate": 0.0002,
+        "epoch": 1.47,
+        "step": 84
+    },
+    {
+        "loss": 0.0208,
+        "learning_rate": 0.0002,
+        "epoch": 1.49,
+        "step": 85
+    },
+    {
+        "loss": 0.0148,
+        "learning_rate": 0.0002,
+        "epoch": 1.51,
+        "step": 86
+    },
+    {
+        "loss": 0.0621,
+        "learning_rate": 0.0002,
+        "epoch": 1.53,
+        "step": 87
+    },
+    {
+        "loss": 0.0206,
+        "learning_rate": 0.0002,
+        "epoch": 1.54,
+        "step": 88
+    },
+    {
+        "loss": 0.3222,
+        "learning_rate": 0.0002,
+        "epoch": 1.56,
+        "step": 89
+    },
+    {
+        "loss": 0.0032,
+        "learning_rate": 0.0002,
+        "epoch": 1.58,
+        "step": 90
+    },
+    {
+        "loss": 0.3471,
+        "learning_rate": 0.0002,
+        "epoch": 1.6,
+        "step": 91
+    },
+    {
+        "loss": 0.0071,
+        "learning_rate": 0.0002,
+        "epoch": 1.61,
+        "step": 92
+    },
+    {
+        "loss": 0.0237,
+        "learning_rate": 0.0002,
+        "epoch": 1.63,
+        "step": 93
+    },
+    {
+        "loss": 0.001,
+        "learning_rate": 0.0002,
+        "epoch": 1.65,
+        "step": 94
+    },
+    {
+        "loss": 0.0001,
+        "learning_rate": 0.0002,
+        "epoch": 1.67,
+        "step": 95
+    },
+    {
+        "loss": 0.0929,
+        "learning_rate": 0.0002,
+        "epoch": 1.68,
+        "step": 96
+    },
+    {
+        "loss": 0.0143,
+        "learning_rate": 0.0002,
+        "epoch": 1.7,
+        "step": 97
+    },
+    {
+        "loss": 0.3065,
+        "learning_rate": 0.0002,
+        "epoch": 1.72,
+        "step": 98
+    },
+    {
+        "loss": 0.0001,
+        "learning_rate": 0.0002,
+        "epoch": 1.74,
+        "step": 99
+    },
+    {
+        "loss": 0.0032,
+        "learning_rate": 0.0002,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "eval_math_textbook_loss": 0.010601536370813847,
+        "eval_math_textbook_score": -0.002995953895151615,
+        "eval_math_textbook_brier_score": 0.002995953895151615,
+        "eval_math_textbook_average_probability": 0.988393247127533,
+        "eval_math_textbook_accuracy": 1.0,
+        "eval_math_textbook_probabilities": [
+            0.9999728202819824,
+            0.999929666519165,
+            0.999992847442627,
+            1.0,
+            1.0,
+            1.0,
+            0.972246527671814,
+            0.9996466636657715,
+            0.9953646659851074,
+            0.9999886751174927,
+            0.9970952272415161,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9495363831520081,
+            0.9999958276748657,
+            0.9999847412109375,
+            0.9338744878768921,
+            0.9645399451255798,
+            0.9999959468841553,
+            0.7106530070304871,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9998949766159058,
+            0.9981856942176819,
+            0.9998927116394043,
+            0.9999417066574097,
+            0.9999963045120239,
+            0.9999362230300903,
+            0.9999959468841553,
+            0.9999982118606567,
+            0.9999841451644897,
+            0.9837162494659424,
+            0.9520687460899353,
+            0.9999997615814209,
+            0.999528169631958,
+            0.9320865273475647,
+            0.993480920791626,
+            0.9999996423721313,
+            0.9999998807907104,
+            0.9999997615814209,
+            0.9999998807907104,
+            0.9999971389770508,
+            0.9999990463256836,
+            1.0,
+            1.0,
+            1.0,
+            0.9999992847442627,
+            1.0,
+            0.9999998807907104,
+            0.9999986886978149,
+            0.9849389791488647,
+            0.9999982118606567,
+            0.9999945163726807,
+            0.999998927116394,
+            0.9999977350234985,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9998576641082764,
+            0.9999946355819702,
+            0.9998277425765991,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9998338222503662,
+            0.9999983310699463,
+            0.9999959468841553,
+            0.9999998807907104,
+            0.9995096921920776,
+            0.9973734617233276,
+            0.999901294708252,
+            0.9999998807907104,
+            0.9999998807907104,
+            0.9999985694885254,
+            0.993060827255249,
+            0.9994891881942749,
+            0.9998596906661987,
+            0.9999996423721313,
+            0.9999998807907104,
+            0.9999985694885254,
+            0.9552987217903137,
+            0.5565717220306396,
+            0.9723117351531982,
+            0.9999910593032837
+        ],
+        "eval_math_textbook_runtime": 87.9871,
+        "eval_math_textbook_samples_per_second": 1.137,
+        "eval_math_textbook_steps_per_second": 0.045,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "train_runtime": 7888.9918,
+        "train_samples_per_second": 0.406,
+        "train_steps_per_second": 0.013,
+        "total_flos": 0.0,
+        "train_loss": 0.19992217444516427,
+        "epoch": 1.75,
+        "step": 100
+    }
+]