ruggsea commited on 4 days ago

Commit

76e490c

verified ·

1 Parent(s): d60b3ee

Upload Dante-Zero model trained on 2025-03-05

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +58 -0
checkpoint-100/config.json +30 -0
checkpoint-100/generation_config.json +6 -0
checkpoint-100/model.safetensors +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/special_tokens_map.json +24 -0
checkpoint-100/tokenizer.json +0 -0
checkpoint-100/tokenizer_config.json +48 -0
checkpoint-100/trainer_state.json +1533 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-1000/config.json +30 -0
checkpoint-1000/generation_config.json +6 -0
checkpoint-1000/model.safetensors +3 -0
checkpoint-1000/optimizer.pt +3 -0
checkpoint-1000/rng_state.pth +3 -0
checkpoint-1000/scheduler.pt +3 -0
checkpoint-1000/special_tokens_map.json +24 -0
checkpoint-1000/tokenizer.json +0 -0
checkpoint-1000/tokenizer_config.json +48 -0
checkpoint-1000/trainer_state.json +0 -0
checkpoint-1000/training_args.bin +3 -0
checkpoint-1250/config.json +30 -0
checkpoint-1250/generation_config.json +6 -0
checkpoint-1250/model.safetensors +3 -0
checkpoint-1250/optimizer.pt +3 -0
checkpoint-1250/rng_state.pth +3 -0
checkpoint-1250/scheduler.pt +3 -0
checkpoint-1250/special_tokens_map.json +24 -0
checkpoint-1250/tokenizer.json +0 -0
checkpoint-1250/tokenizer_config.json +48 -0
checkpoint-1250/trainer_state.json +0 -0
checkpoint-1250/training_args.bin +3 -0
checkpoint-1500/config.json +30 -0
checkpoint-1500/generation_config.json +6 -0
checkpoint-1500/model.safetensors +3 -0
checkpoint-1500/optimizer.pt +3 -0
checkpoint-1500/rng_state.pth +3 -0
checkpoint-1500/scheduler.pt +3 -0
checkpoint-1500/special_tokens_map.json +24 -0
checkpoint-1500/tokenizer.json +0 -0
checkpoint-1500/tokenizer_config.json +48 -0
checkpoint-1500/trainer_state.json +0 -0
checkpoint-1500/training_args.bin +3 -0
checkpoint-200/config.json +30 -0
checkpoint-200/generation_config.json +6 -0
checkpoint-200/model.safetensors +3 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state.pth +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+# Dante-Zero Fine-tuned Model
+This model was fine-tuned using Reinforcement Learning with Generative Pre-trained Transformer Optimization (GRPO) to generate Dante-style poetry in endecasillabi (11-syllable lines).
+## Model Details
+- **Base Model:** PleIAs/Pleias-350m-Preview
+- **Training Method:** GRPO (Generative Pre-trained Transformer Optimization)
+- **Training Data:** 1,000 chunks from Dante's Divine Comedy
+- **Epochs:** 10
+- **Trained By:** ruggsea
+- **Date:** 2025-03-05
+## Model Description
+This model is specialized in generating Italian poetry in the style of Dante Alighieri's Divine Comedy. It has been trained to:
+1. Generate proper endecasillabi (11-syllable lines)
+2. Follow the structure of Dante's poetry
+3. Avoid repetition
+4. Create original content (not plagiarize the Divine Comedy)
+## Usage
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+# Load model and tokenizer
+model = AutoModelForCausalLM.from_pretrained("ruggsea/dante-zero-2025-03-05")
+tokenizer = AutoTokenizer.from_pretrained("ruggsea/dante-zero-2025-03-05")
+# Generate poetry
+prompt = "Nel mezzo del cammin di nostra vita"
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(
+    inputs.input_ids,
+    max_new_tokens=200,
+    do_sample=True,
+    temperature=0.7,
+    top_p=0.9,
+    repetition_penalty=1.2
+)
+generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(generated_text)
+```
+## Reward Functions
+The model was trained using several reward functions:
+1. **Endecasillabo Checker:** Rewards proper 11-syllable lines
+2. **Plagiarism Checker:** Penalizes copying from the Divine Comedy
+3. **Verse Structure Checker:** Encourages verse-like structure
+4. **Repetition Penalty:** Discourages repetitive patterns
+## License
+This model is available under the same license as the base model (PleIAs/Pleias-350m-Preview).

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "PleIAs/Pleias-350m-Preview",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 65536
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.49.0"
+}

checkpoint-100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c99a7f8c77cc79ed15835969ef60ae7b3c2cbbdab4139110f198edbad56c705
+size 706875632

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77edf2d5a4084c047bb211b08dc91f5697a9d6cb4e2f43fcb5d239222ed9228e
+size 1413896442

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1bb900e9a2b6ab4fe70d2528f090a3254a977221d0c269a3033bf92d7e4cd5a
+size 14180

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1b34a0d732d301e0162f57e8852beddd92961cfdf875b064b06f7ef56cc1a2e
+size 1064

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|end_of_text|>",
+  "padding_side": "left",
+  "return_token_type_ids": false,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "[UNK]",
+  "use_token_type_ids": false,
+  "vocab_size": 65536
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1533 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.4,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 179.5625,
+      "epoch": 0.004,
+      "grad_norm": 2.046875,
+      "kl": 0.0,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.0,
+      "reward": 0.9819051176309586,
+      "reward_std": 0.2500194739550352,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.05803571408614516,
+      "rewards/no_repetition_reward_func": 0.946190819144249,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 1
+    },
+    {
+      "completion_length": 183.1875,
+      "epoch": 0.008,
+      "grad_norm": 1.1875,
+      "kl": 0.0,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": -0.0,
+      "reward": 1.0611461400985718,
+      "reward_std": 0.16349453944712877,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0052083334885537624,
+      "rewards/no_repetition_reward_func": 0.962187796831131,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 2
+    },
+    {
+      "completion_length": 177.3125,
+      "epoch": 0.012,
+      "grad_norm": 3.34375,
+      "kl": 0.0009225639951182529,
+      "learning_rate": 6e-06,
+      "loss": 0.0,
+      "reward": 0.927303671836853,
+      "reward_std": 0.20073290541768074,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.958553671836853,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 3
+    },
+    {
+      "completion_length": 164.375,
+      "epoch": 0.016,
+      "grad_norm": 1.3515625,
+      "kl": 0.0010245055600535125,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.0,
+      "reward": 0.9359359890222549,
+      "reward_std": 0.16188888170290738,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9671860039234161,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 4
+    },
+    {
+      "completion_length": 181.9375,
+      "epoch": 0.02,
+      "grad_norm": 1.2109375,
+      "kl": 0.000991553533822298,
+      "learning_rate": 1e-05,
+      "loss": 0.0,
+      "reward": 1.0427572429180145,
+      "reward_std": 0.14885016926564276,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.010416666977107525,
+      "rewards/no_repetition_reward_func": 0.9698406159877777,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 5
+    },
+    {
+      "completion_length": 199.3125,
+      "epoch": 0.024,
+      "grad_norm": 0.78125,
+      "kl": 0.0008464615239063278,
+      "learning_rate": 1.2e-05,
+      "loss": 0.0,
+      "reward": 0.897506594657898,
+      "reward_std": 0.0972918642219156,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.897506594657898,
+      "rewards/verse_reward_func": 0.0,
+      "step": 6
+    },
+    {
+      "completion_length": 179.0625,
+      "epoch": 0.028,
+      "grad_norm": 0.95703125,
+      "kl": 0.0009047269122675061,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.0,
+      "reward": 0.9670905768871307,
+      "reward_std": 0.11869156261673197,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9358405917882919,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 7
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.032,
+      "grad_norm": 0.82421875,
+      "kl": 0.0009274971816921607,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.0,
+      "reward": 1.0096274018287659,
+      "reward_std": 0.1000128339510411,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.003289473708719015,
+      "rewards/no_repetition_reward_func": 0.9438379555940628,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 8
+    },
+    {
+      "completion_length": 191.4375,
+      "epoch": 0.036,
+      "grad_norm": 0.9609375,
+      "kl": 0.0009898433345369995,
+      "learning_rate": 1.8e-05,
+      "loss": 0.0,
+      "reward": 1.0010679364204407,
+      "reward_std": 0.0678855258738622,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9698179215192795,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 9
+    },
+    {
+      "completion_length": 179.625,
+      "epoch": 0.04,
+      "grad_norm": 1.296875,
+      "kl": 0.0010007202363340184,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "reward": 1.006456971168518,
+      "reward_std": 0.1597397131845355,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9439570009708405,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 10
+    },
+    {
+      "completion_length": 183.375,
+      "epoch": 0.044,
+      "grad_norm": 1.75,
+      "kl": 0.0008183487225323915,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.0,
+      "reward": 0.9860096573829651,
+      "reward_std": 0.23296335770282894,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9235096573829651,
+      "rewards/verse_reward_func": 0.125,
+      "step": 11
+    },
+    {
+      "completion_length": 188.8125,
+      "epoch": 0.048,
+      "grad_norm": 2.109375,
+      "kl": 0.0009898586868075654,
+      "learning_rate": 2.4e-05,
+      "loss": 0.0,
+      "reward": 0.9310034066438675,
+      "reward_std": 0.2854597745463252,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9310034215450287,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 12
+    },
+    {
+      "completion_length": 182.0,
+      "epoch": 0.052,
+      "grad_norm": 0.9453125,
+      "kl": 0.000811553152743727,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.0,
+      "reward": 1.0062111169099808,
+      "reward_std": 0.17000664526131004,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9437110871076584,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 13
+    },
+    {
+      "completion_length": 178.5,
+      "epoch": 0.056,
+      "grad_norm": 1.3359375,
+      "kl": 0.0009504656482022256,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.0,
+      "reward": 0.9895833879709244,
+      "reward_std": 0.07891088706674054,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9583334028720856,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 14
+    },
+    {
+      "completion_length": 192.9375,
+      "epoch": 0.06,
+      "grad_norm": 0.98828125,
+      "kl": 0.0009447222109884024,
+      "learning_rate": 3e-05,
+      "loss": 0.0,
+      "reward": 0.8987747207283974,
+      "reward_std": 0.2582971692318097,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.125,
+      "rewards/no_repetition_reward_func": 0.9612747132778168,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 15
+    },
+    {
+      "completion_length": 186.9375,
+      "epoch": 0.064,
+      "grad_norm": 1.0,
+      "kl": 0.0009807306778384373,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.0,
+      "reward": 1.0321685820817947,
+      "reward_std": 0.12863060203380883,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9696685969829559,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 16
+    },
+    {
+      "completion_length": 155.5625,
+      "epoch": 0.068,
+      "grad_norm": 1.21875,
+      "kl": 0.0010486226383363828,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.0,
+      "reward": 0.9713962525129318,
+      "reward_std": 0.24358075205236673,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.125,
+      "rewards/no_repetition_reward_func": 0.9713962525129318,
+      "rewards/verse_reward_func": 0.125,
+      "step": 17
+    },
+    {
+      "completion_length": 187.5625,
+      "epoch": 0.072,
+      "grad_norm": 0.91015625,
+      "kl": 0.0009779602842172608,
+      "learning_rate": 3.6e-05,
+      "loss": 0.0,
+      "reward": 1.0452248454093933,
+      "reward_std": 0.216551274061203,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004464285913854837,
+      "rewards/no_repetition_reward_func": 0.9470105767250061,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 18
+    },
+    {
+      "completion_length": 185.5625,
+      "epoch": 0.076,
+      "grad_norm": 1.2890625,
+      "kl": 0.001001911296043545,
+      "learning_rate": 3.8e-05,
+      "loss": 0.0,
+      "reward": 0.9728774726390839,
+      "reward_std": 0.09631168603664264,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9416275024414062,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 19
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.08,
+      "grad_norm": 0.8125,
+      "kl": 0.0009419274720130488,
+      "learning_rate": 4e-05,
+      "loss": 0.0,
+      "reward": 0.9773482233285904,
+      "reward_std": 0.07271566009148955,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004464285913854837,
+      "rewards/no_repetition_reward_func": 0.9416339844465256,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 20
+    },
+    {
+      "completion_length": 196.3125,
+      "epoch": 0.084,
+      "grad_norm": 0.90625,
+      "kl": 0.0009593678259989247,
+      "learning_rate": 4.2e-05,
+      "loss": 0.0,
+      "reward": 0.9732275754213333,
+      "reward_std": 0.10389877262059599,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9419775754213333,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 21
+    },
+    {
+      "completion_length": 186.625,
+      "epoch": 0.088,
+      "grad_norm": 1.546875,
+      "kl": 0.0011393697932362556,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0,
+      "reward": 1.0079743266105652,
+      "reward_std": 0.07848087884485722,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.007708333432674408,
+      "rewards/no_repetition_reward_func": 0.9690160155296326,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 22
+    },
+    {
+      "completion_length": 199.0625,
+      "epoch": 0.092,
+      "grad_norm": 0.9609375,
+      "kl": 0.0011462626862339675,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0,
+      "reward": 0.9748821258544922,
+      "reward_std": 0.020194193988572806,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.007352941203862429,
+      "rewards/no_repetition_reward_func": 0.9675291776657104,
+      "rewards/verse_reward_func": 0.0,
+      "step": 23
+    },
+    {
+      "completion_length": 175.0,
+      "epoch": 0.096,
+      "grad_norm": 1.5859375,
+      "kl": 0.0012009456986561418,
+      "learning_rate": 4.8e-05,
+      "loss": 0.0,
+      "reward": 0.9423503875732422,
+      "reward_std": 0.1669474468799308,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.05859375,
+      "rewards/no_repetition_reward_func": 0.9696941375732422,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 24
+    },
+    {
+      "completion_length": 164.0,
+      "epoch": 0.1,
+      "grad_norm": 1.1171875,
+      "kl": 0.0012017716944683343,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "reward": 0.998960480093956,
+      "reward_std": 0.05968155374284834,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.967710480093956,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 25
+    },
+    {
+      "completion_length": 186.1875,
+      "epoch": 0.104,
+      "grad_norm": 1.25,
+      "kl": 0.001386465271934867,
+      "learning_rate": 4.999756310023261e-05,
+      "loss": 0.0001,
+      "reward": 1.024965062737465,
+      "reward_std": 0.12524886144092306,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9624650627374649,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 26
+    },
+    {
+      "completion_length": 199.6875,
+      "epoch": 0.108,
+      "grad_norm": 0.890625,
+      "kl": 0.0012058749562129378,
+      "learning_rate": 4.999025287600886e-05,
+      "loss": 0.0,
+      "reward": 0.9964274168014526,
+      "reward_std": 0.26108699198812246,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9651773869991302,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 27
+    },
+    {
+      "completion_length": 179.75,
+      "epoch": 0.112,
+      "grad_norm": 1.0703125,
+      "kl": 0.00140558643033728,
+      "learning_rate": 4.997807075247146e-05,
+      "loss": 0.0001,
+      "reward": 0.9315525591373444,
+      "reward_std": 0.1886110061313957,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9628025740385056,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 28
+    },
+    {
+      "completion_length": 163.5,
+      "epoch": 0.116,
+      "grad_norm": 1.6171875,
+      "kl": 0.00141397793777287,
+      "learning_rate": 4.996101910454953e-05,
+      "loss": 0.0001,
+      "reward": 0.9228900671005249,
+      "reward_std": 0.08080775220878422,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9541400671005249,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 29
+    },
+    {
+      "completion_length": 185.0,
+      "epoch": 0.12,
+      "grad_norm": 0.921875,
+      "kl": 0.0018486627377569675,
+      "learning_rate": 4.993910125649561e-05,
+      "loss": 0.0001,
+      "reward": 0.9309101402759552,
+      "reward_std": 0.07874627423007041,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9309101402759552,
+      "rewards/verse_reward_func": 0.0,
+      "step": 30
+    },
+    {
+      "completion_length": 181.6875,
+      "epoch": 0.124,
+      "grad_norm": 1.265625,
+      "kl": 0.0024124052142724395,
+      "learning_rate": 4.991232148123761e-05,
+      "loss": 0.0001,
+      "reward": 0.9530736654996872,
+      "reward_std": 0.2654994917102158,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9530736953020096,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 31
+    },
+    {
+      "completion_length": 193.25,
+      "epoch": 0.128,
+      "grad_norm": 1.0234375,
+      "kl": 0.002259129600133747,
+      "learning_rate": 4.988068499954578e-05,
+      "loss": 0.0001,
+      "reward": 1.0645287036895752,
+      "reward_std": 0.22907709190621972,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9395287036895752,
+      "rewards/verse_reward_func": 0.125,
+      "step": 32
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.132,
+      "grad_norm": 0.875,
+      "kl": 0.002345684450119734,
+      "learning_rate": 4.984419797901491e-05,
+      "loss": 0.0001,
+      "reward": 0.9817457795143127,
+      "reward_std": 0.05011130444472656,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004166666883975267,
+      "rewards/no_repetition_reward_func": 0.9463291019201279,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 33
+    },
+    {
+      "completion_length": 171.875,
+      "epoch": 0.136,
+      "grad_norm": 1.1484375,
+      "kl": 0.0031502785277552903,
+      "learning_rate": 4.980286753286195e-05,
+      "loss": 0.0001,
+      "reward": 1.0629110634326935,
+      "reward_std": 0.1909176445333287,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9691610336303711,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 34
+    },
+    {
+      "completion_length": 192.5,
+      "epoch": 0.14,
+      "grad_norm": 1.0390625,
+      "kl": 0.0024105910561047494,
+      "learning_rate": 4.975670171853926e-05,
+      "loss": 0.0001,
+      "reward": 1.0318033248186111,
+      "reward_std": 0.12928975140675902,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9693033397197723,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 35
+    },
+    {
+      "completion_length": 168.8125,
+      "epoch": 0.144,
+      "grad_norm": 1.4765625,
+      "kl": 0.003135324106551707,
+      "learning_rate": 4.9705709536163824e-05,
+      "loss": 0.0001,
+      "reward": 0.9991441071033478,
+      "reward_std": 0.07299526745919138,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.967894122004509,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 36
+    },
+    {
+      "completion_length": 176.75,
+      "epoch": 0.148,
+      "grad_norm": 1.0,
+      "kl": 0.003276034549344331,
+      "learning_rate": 4.964990092676263e-05,
+      "loss": 0.0001,
+      "reward": 1.008391559123993,
+      "reward_std": 0.07070710451807827,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.01131535996682942,
+      "rewards/no_repetition_reward_func": 0.9658262133598328,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 37
+    },
+    {
+      "completion_length": 186.25,
+      "epoch": 0.152,
+      "grad_norm": 1.0390625,
+      "kl": 0.0030353819020092487,
+      "learning_rate": 4.9589286770334654e-05,
+      "loss": 0.0001,
+      "reward": 0.972317710518837,
+      "reward_std": 0.016954098246060312,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004166666883975267,
+      "rewards/no_repetition_reward_func": 0.9681510329246521,
+      "rewards/verse_reward_func": 0.0,
+      "step": 38
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.156,
+      "grad_norm": 0.8828125,
+      "kl": 0.0033272147993557155,
+      "learning_rate": 4.952387888372979e-05,
+      "loss": 0.0001,
+      "reward": 1.0669118165969849,
+      "reward_std": 0.1348436245461926,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9419118165969849,
+      "rewards/verse_reward_func": 0.125,
+      "step": 39
+    },
+    {
+      "completion_length": 173.625,
+      "epoch": 0.16,
+      "grad_norm": 1.84375,
+      "kl": 0.003484633460175246,
+      "learning_rate": 4.9453690018345144e-05,
+      "loss": 0.0001,
+      "reward": 0.999244287610054,
+      "reward_std": 0.18777411000337452,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9679943025112152,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 40
+    },
+    {
+      "completion_length": 179.6875,
+      "epoch": 0.164,
+      "grad_norm": 1.140625,
+      "kl": 0.004894184530712664,
+      "learning_rate": 4.937873385763908e-05,
+      "loss": 0.0002,
+      "reward": 1.0016028583049774,
+      "reward_std": 0.07005300477612764,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9703528732061386,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 41
+    },
+    {
+      "completion_length": 190.625,
+      "epoch": 0.168,
+      "grad_norm": 1.03125,
+      "kl": 0.0029558211099356413,
+      "learning_rate": 4.929902501446366e-05,
+      "loss": 0.0001,
+      "reward": 1.0353728234767914,
+      "reward_std": 0.1293391860090196,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004166666883975267,
+      "rewards/no_repetition_reward_func": 0.9687061756849289,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 42
+    },
+    {
+      "completion_length": 187.6875,
+      "epoch": 0.172,
+      "grad_norm": 1.1484375,
+      "kl": 0.0038812385755591094,
+      "learning_rate": 4.9214579028215776e-05,
+      "loss": 0.0002,
+      "reward": 0.9657279551029205,
+      "reward_std": 0.015553490375168622,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9657279700040817,
+      "rewards/verse_reward_func": 0.0,
+      "step": 43
+    },
+    {
+      "completion_length": 190.25,
+      "epoch": 0.176,
+      "grad_norm": 0.83203125,
+      "kl": 0.0032730000093579292,
+      "learning_rate": 4.912541236180779e-05,
+      "loss": 0.0001,
+      "reward": 0.8466661870479584,
+      "reward_std": 0.20375583856366575,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9091661721467972,
+      "rewards/verse_reward_func": 0.0,
+      "step": 44
+    },
+    {
+      "completion_length": 189.4375,
+      "epoch": 0.18,
+      "grad_norm": 1.03125,
+      "kl": 0.004002011672127992,
+      "learning_rate": 4.9031542398457974e-05,
+      "loss": 0.0002,
+      "reward": 1.0241023004055023,
+      "reward_std": 0.2693894528783858,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.05833333311602473,
+      "rewards/no_repetition_reward_func": 0.9574356377124786,
+      "rewards/verse_reward_func": 0.125,
+      "step": 45
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.184,
+      "grad_norm": 1.109375,
+      "kl": 0.0036516414838843048,
+      "learning_rate": 4.893298743830168e-05,
+      "loss": 0.0001,
+      "reward": 1.031081184744835,
+      "reward_std": 0.12839890411123633,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9685812145471573,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 46
+    },
+    {
+      "completion_length": 184.0625,
+      "epoch": 0.188,
+      "grad_norm": 1.28125,
+      "kl": 0.004063341184519231,
+      "learning_rate": 4.882976669482367e-05,
+      "loss": 0.0002,
+      "reward": 1.010192185640335,
+      "reward_std": 0.06739407801069319,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.008928571827709675,
+      "rewards/no_repetition_reward_func": 0.9700136184692383,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 47
+    },
+    {
+      "completion_length": 198.125,
+      "epoch": 0.192,
+      "grad_norm": 0.83203125,
+      "kl": 0.003968458739109337,
+      "learning_rate": 4.8721900291112415e-05,
+      "loss": 0.0002,
+      "reward": 0.9995202720165253,
+      "reward_std": 0.07142159587237984,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0024999999441206455,
+      "rewards/no_repetition_reward_func": 0.9657702594995499,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 48
+    },
+    {
+      "completion_length": 186.8125,
+      "epoch": 0.196,
+      "grad_norm": 0.875,
+      "kl": 0.004230177321005613,
+      "learning_rate": 4.860940925593703e-05,
+      "loss": 0.0002,
+      "reward": 0.9467289745807648,
+      "reward_std": 0.05237383279018104,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9467289596796036,
+      "rewards/verse_reward_func": 0.0,
+      "step": 49
+    },
+    {
+      "completion_length": 172.25,
+      "epoch": 0.2,
+      "grad_norm": 1.0546875,
+      "kl": 0.007191646727733314,
+      "learning_rate": 4.849231551964771e-05,
+      "loss": 0.0003,
+      "reward": 1.1267552971839905,
+      "reward_std": 0.3819158934056759,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9705053418874741,
+      "rewards/verse_reward_func": 0.21875,
+      "step": 50
+    },
+    {
+      "completion_length": 166.9375,
+      "epoch": 0.204,
+      "grad_norm": 1.40625,
+      "kl": 0.006566129217389971,
+      "learning_rate": 4.837064190990036e-05,
+      "loss": 0.0003,
+      "reward": 0.8921804428100586,
+      "reward_std": 0.1621550468262285,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.055921051651239395,
+      "rewards/no_repetition_reward_func": 0.9481014907360077,
+      "rewards/verse_reward_func": 0.0,
+      "step": 51
+    },
+    {
+      "completion_length": 199.3125,
+      "epoch": 0.208,
+      "grad_norm": 0.8359375,
+      "kl": 0.006002974580042064,
+      "learning_rate": 4.8244412147206284e-05,
+      "loss": 0.0002,
+      "reward": 1.02969092130661,
+      "reward_std": 0.12929325131699443,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9671909362077713,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 52
+    },
+    {
+      "completion_length": 158.75,
+      "epoch": 0.212,
+      "grad_norm": 1.75,
+      "kl": 0.006504544056952,
+      "learning_rate": 4.8113650840307834e-05,
+      "loss": 0.0003,
+      "reward": 0.9824613779783249,
+      "reward_std": 0.16255538212135434,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.058823529398068786,
+      "rewards/no_repetition_reward_func": 0.9162849336862564,
+      "rewards/verse_reward_func": 0.125,
+      "step": 53
+    },
+    {
+      "completion_length": 177.375,
+      "epoch": 0.216,
+      "grad_norm": 1.171875,
+      "kl": 0.005495292483828962,
+      "learning_rate": 4.797838348138086e-05,
+      "loss": 0.0002,
+      "reward": 1.1409614980220795,
+      "reward_std": 0.25640933960676193,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9534614980220795,
+      "rewards/verse_reward_func": 0.1875,
+      "step": 54
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.22,
+      "grad_norm": 0.9375,
+      "kl": 0.005827408516779542,
+      "learning_rate": 4.783863644106502e-05,
+      "loss": 0.0002,
+      "reward": 0.9815671294927597,
+      "reward_std": 0.08528327068779618,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9503171741962433,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 55
+    },
+    {
+      "completion_length": 161.75,
+      "epoch": 0.224,
+      "grad_norm": 2.875,
+      "kl": 0.0055718234507367015,
+      "learning_rate": 4.769443696332272e-05,
+      "loss": 0.0002,
+      "reward": 0.9660014510154724,
+      "reward_std": 0.19446178257931024,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9660014659166336,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 56
+    },
+    {
+      "completion_length": 168.1875,
+      "epoch": 0.228,
+      "grad_norm": 1.5625,
+      "kl": 0.007422439637593925,
+      "learning_rate": 4.754581316012785e-05,
+      "loss": 0.0003,
+      "reward": 0.8729029893875122,
+      "reward_std": 0.31897079292684793,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.125,
+      "rewards/no_repetition_reward_func": 0.966652974486351,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 57
+    },
+    {
+      "completion_length": 174.875,
+      "epoch": 0.232,
+      "grad_norm": 1.0625,
+      "kl": 0.005080131231807172,
+      "learning_rate": 4.7392794005985326e-05,
+      "loss": 0.0002,
+      "reward": 0.9698505848646164,
+      "reward_std": 0.0073038917616941035,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9698505699634552,
+      "rewards/verse_reward_func": 0.0,
+      "step": 58
+    },
+    {
+      "completion_length": 167.9375,
+      "epoch": 0.236,
+      "grad_norm": 1.65625,
+      "kl": 0.005669898469932377,
+      "learning_rate": 4.723540933228244e-05,
+      "loss": 0.0002,
+      "reward": 0.99271559715271,
+      "reward_std": 0.08150344673776999,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9614655822515488,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 59
+    },
+    {
+      "completion_length": 191.0625,
+      "epoch": 0.24,
+      "grad_norm": 0.9375,
+      "kl": 0.007179695880040526,
+      "learning_rate": 4.707368982147318e-05,
+      "loss": 0.0003,
+      "reward": 1.0425692796707153,
+      "reward_std": 0.15895756683312356,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9488192647695541,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 60
+    },
+    {
+      "completion_length": 178.8125,
+      "epoch": 0.244,
+      "grad_norm": 1.234375,
+      "kl": 0.007374793640337884,
+      "learning_rate": 4.690766700109659e-05,
+      "loss": 0.0003,
+      "reward": 1.0702029168605804,
+      "reward_std": 0.14750042068772018,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.004166666883975267,
+      "rewards/no_repetition_reward_func": 0.972286269068718,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 61
+    },
+    {
+      "completion_length": 177.5625,
+      "epoch": 0.248,
+      "grad_norm": 1.1328125,
+      "kl": 0.009947373066097498,
+      "learning_rate": 4.6737373237630476e-05,
+      "loss": 0.0004,
+      "reward": 1.010836973786354,
+      "reward_std": 0.18967258161865175,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9170869737863541,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 62
+    },
+    {
+      "completion_length": 181.75,
+      "epoch": 0.252,
+      "grad_norm": 0.921875,
+      "kl": 0.00658240367192775,
+      "learning_rate": 4.656284173018144e-05,
+      "loss": 0.0003,
+      "reward": 1.0603050589561462,
+      "reward_std": 0.28348227217793465,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9353050738573074,
+      "rewards/verse_reward_func": 0.125,
+      "step": 63
+    },
+    {
+      "completion_length": 178.125,
+      "epoch": 0.256,
+      "grad_norm": 1.4921875,
+      "kl": 0.009526908048428595,
+      "learning_rate": 4.638410650401267e-05,
+      "loss": 0.0004,
+      "reward": 1.0653773248195648,
+      "reward_std": 0.1409751852042973,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.971627339720726,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 64
+    },
+    {
+      "completion_length": 193.0625,
+      "epoch": 0.26,
+      "grad_norm": 0.921875,
+      "kl": 0.007291483459994197,
+      "learning_rate": 4.620120240391065e-05,
+      "loss": 0.0003,
+      "reward": 0.992166668176651,
+      "reward_std": 0.08354807726573199,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9609166830778122,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 65
+    },
+    {
+      "completion_length": 163.1875,
+      "epoch": 0.264,
+      "grad_norm": 2.4375,
+      "kl": 0.010100604966282845,
+      "learning_rate": 4.601416508739211e-05,
+      "loss": 0.0004,
+      "reward": 0.9094432145357132,
+      "reward_std": 0.13521920214407146,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.940693199634552,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 66
+    },
+    {
+      "completion_length": 186.25,
+      "epoch": 0.268,
+      "grad_norm": 0.94140625,
+      "kl": 0.006481092656031251,
+      "learning_rate": 4.5823031017752485e-05,
+      "loss": 0.0003,
+      "reward": 0.9819363504648209,
+      "reward_std": 0.09091703849844635,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9506863355636597,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 67
+    },
+    {
+      "completion_length": 175.8125,
+      "epoch": 0.272,
+      "grad_norm": 2.109375,
+      "kl": 0.008945175679400563,
+      "learning_rate": 4.562783745695738e-05,
+      "loss": 0.0004,
+      "reward": 0.9387106597423553,
+      "reward_std": 0.16390067897737026,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9699606597423553,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 68
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.276,
+      "grad_norm": 0.83984375,
+      "kl": 0.0076279257191345096,
+      "learning_rate": 4.542862245837821e-05,
+      "loss": 0.0003,
+      "reward": 0.9555844515562057,
+      "reward_std": 0.1185589594533667,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9243344515562057,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 69
+    },
+    {
+      "completion_length": 190.375,
+      "epoch": 0.28,
+      "grad_norm": 1.0390625,
+      "kl": 0.010221289936453104,
+      "learning_rate": 4.522542485937369e-05,
+      "loss": 0.0004,
+      "reward": 1.0356830060482025,
+      "reward_std": 0.14343186398036778,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0052083334885537624,
+      "rewards/no_repetition_reward_func": 0.9679746478796005,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 70
+    },
+    {
+      "completion_length": 183.6875,
+      "epoch": 0.284,
+      "grad_norm": 1.0703125,
+      "kl": 0.009065072517842054,
+      "learning_rate": 4.5018284273718336e-05,
+      "loss": 0.0004,
+      "reward": 0.9543251842260361,
+      "reward_std": 0.019520931062288582,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9543252140283585,
+      "rewards/verse_reward_func": 0.0,
+      "step": 71
+    },
+    {
+      "completion_length": 178.125,
+      "epoch": 0.288,
+      "grad_norm": 1.1875,
+      "kl": 0.009216391015797853,
+      "learning_rate": 4.480724108387977e-05,
+      "loss": 0.0004,
+      "reward": 0.9448710381984711,
+      "reward_std": 0.046969235059805214,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9448710232973099,
+      "rewards/verse_reward_func": 0.0,
+      "step": 72
+    },
+    {
+      "completion_length": 195.4375,
+      "epoch": 0.292,
+      "grad_norm": 0.91796875,
+      "kl": 0.007251435425132513,
+      "learning_rate": 4.4592336433146e-05,
+      "loss": 0.0003,
+      "reward": 1.004251092672348,
+      "reward_std": 0.07232979987747967,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.003289473708719015,
+      "rewards/no_repetition_reward_func": 0.9697116166353226,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 73
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.296,
+      "grad_norm": 1.0546875,
+      "kl": 0.008636260172352195,
+      "learning_rate": 4.4373612217604496e-05,
+      "loss": 0.0003,
+      "reward": 1.030202716588974,
+      "reward_std": 0.13229261268861592,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9677027016878128,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 74
+    },
+    {
+      "completion_length": 188.8125,
+      "epoch": 0.3,
+      "grad_norm": 1.1640625,
+      "kl": 0.008647361653856933,
+      "learning_rate": 4.415111107797445e-05,
+      "loss": 0.0003,
+      "reward": 1.0327503681182861,
+      "reward_std": 0.12821446859743446,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9702503681182861,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 75
+    },
+    {
+      "completion_length": 190.25,
+      "epoch": 0.304,
+      "grad_norm": 0.94140625,
+      "kl": 0.010642669745720923,
+      "learning_rate": 4.3924876391293915e-05,
+      "loss": 0.0004,
+      "reward": 0.9804545342922211,
+      "reward_std": 0.02781949588097632,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.011174242943525314,
+      "rewards/no_repetition_reward_func": 0.969280332326889,
+      "rewards/verse_reward_func": 0.0,
+      "step": 76
+    },
+    {
+      "completion_length": 177.5,
+      "epoch": 0.308,
+      "grad_norm": 1.6640625,
+      "kl": 0.009210785734467208,
+      "learning_rate": 4.36949522624633e-05,
+      "loss": 0.0004,
+      "reward": 0.906844437122345,
+      "reward_std": 0.12991982704261318,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.969344437122345,
+      "rewards/verse_reward_func": 0.0,
+      "step": 77
+    },
+    {
+      "completion_length": 169.9375,
+      "epoch": 0.312,
+      "grad_norm": 1.4296875,
+      "kl": 0.0085853380151093,
+      "learning_rate": 4.3461383515647106e-05,
+      "loss": 0.0003,
+      "reward": 1.0604548156261444,
+      "reward_std": 0.1915177572518587,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.966704785823822,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 78
+    },
+    {
+      "completion_length": 161.625,
+      "epoch": 0.316,
+      "grad_norm": 1.40625,
+      "kl": 0.008558343281038105,
+      "learning_rate": 4.3224215685535294e-05,
+      "loss": 0.0003,
+      "reward": 0.9392005652189255,
+      "reward_std": 0.19322428456507623,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9704505503177643,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 79
+    },
+    {
+      "completion_length": 159.0625,
+      "epoch": 0.32,
+      "grad_norm": 2.21875,
+      "kl": 0.009619904682040215,
+      "learning_rate": 4.2983495008466276e-05,
+      "loss": 0.0004,
+      "reward": 0.9338277578353882,
+      "reward_std": 0.17408786993473768,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.059027777751907706,
+      "rewards/no_repetition_reward_func": 0.9616055637598038,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 80
+    },
+    {
+      "completion_length": 171.875,
+      "epoch": 0.324,
+      "grad_norm": 1.0703125,
+      "kl": 0.008021688903681934,
+      "learning_rate": 4.273926841341302e-05,
+      "loss": 0.0003,
+      "reward": 1.0092779248952866,
+      "reward_std": 0.10741436225362122,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9467779695987701,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 81
+    },
+    {
+      "completion_length": 190.3125,
+      "epoch": 0.328,
+      "grad_norm": 0.953125,
+      "kl": 0.008311162469908595,
+      "learning_rate": 4.249158351283414e-05,
+      "loss": 0.0003,
+      "reward": 1.0095551759004593,
+      "reward_std": 0.08130261686164886,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0069444444961845875,
+      "rewards/no_repetition_reward_func": 0.9713607430458069,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 82
+    },
+    {
+      "completion_length": 191.5,
+      "epoch": 0.332,
+      "grad_norm": 1.265625,
+      "kl": 0.00910053146071732,
+      "learning_rate": 4.224048859339175e-05,
+      "loss": 0.0004,
+      "reward": 1.019190862774849,
+      "reward_std": 0.14867421332746744,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9566908329725266,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 83
+    },
+    {
+      "completion_length": 163.5625,
+      "epoch": 0.336,
+      "grad_norm": 1.5390625,
+      "kl": 0.010091160424053669,
+      "learning_rate": 4.198603260653792e-05,
+      "loss": 0.0004,
+      "reward": 0.968821257352829,
+      "reward_std": 0.19755066523794085,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.968821257352829,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 84
+    },
+    {
+      "completion_length": 189.875,
+      "epoch": 0.34,
+      "grad_norm": 1.1796875,
+      "kl": 0.011119180475361645,
+      "learning_rate": 4.172826515897146e-05,
+      "loss": 0.0004,
+      "reward": 1.0337166488170624,
+      "reward_std": 0.1272729904158041,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.97121661901474,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 85
+    },
+    {
+      "completion_length": 174.5,
+      "epoch": 0.344,
+      "grad_norm": 1.2734375,
+      "kl": 0.00940567790530622,
+      "learning_rate": 4.146723650296701e-05,
+      "loss": 0.0004,
+      "reward": 0.9978608191013336,
+      "reward_std": 0.07362514256965369,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9666108191013336,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 86
+    },
+    {
+      "completion_length": 173.0625,
+      "epoch": 0.348,
+      "grad_norm": 1.2578125,
+      "kl": 0.010684633627533913,
+      "learning_rate": 4.1202997526578276e-05,
+      "loss": 0.0004,
+      "reward": 0.9645528197288513,
+      "reward_std": 0.2310585738159716,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9645527899265289,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 87
+    },
+    {
+      "completion_length": 199.9375,
+      "epoch": 0.352,
+      "grad_norm": 1.0234375,
+      "kl": 0.009741432731971145,
+      "learning_rate": 4.093559974371725e-05,
+      "loss": 0.0004,
+      "reward": 1.0686962455511093,
+      "reward_std": 0.20054577942937613,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0052083334885537624,
+      "rewards/no_repetition_reward_func": 0.9697379469871521,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 88
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.356,
+      "grad_norm": 0.97265625,
+      "kl": 0.010457327123731375,
+      "learning_rate": 4.066509528411152e-05,
+      "loss": 0.0004,
+      "reward": 1.063912272453308,
+      "reward_std": 0.1371896315831691,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.00390625,
+      "rewards/no_repetition_reward_func": 0.9662560373544693,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 89
+    },
+    {
+      "completion_length": 186.25,
+      "epoch": 0.36,
+      "grad_norm": 0.95703125,
+      "kl": 0.0091336437035352,
+      "learning_rate": 4.039153688314145e-05,
+      "loss": 0.0004,
+      "reward": 0.9959292709827423,
+      "reward_std": 0.06627507868688554,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9646792411804199,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 90
+    },
+    {
+      "completion_length": 197.5625,
+      "epoch": 0.364,
+      "grad_norm": 0.90625,
+      "kl": 0.0125860923435539,
+      "learning_rate": 4.011497787155938e-05,
+      "loss": 0.0005,
+      "reward": 1.0568312108516693,
+      "reward_std": 0.1421456339303404,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9630811959505081,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 91
+    },
+    {
+      "completion_length": 177.4375,
+      "epoch": 0.368,
+      "grad_norm": 6.8125,
+      "kl": 0.011468705954030156,
+      "learning_rate": 3.983547216509254e-05,
+      "loss": 0.0005,
+      "reward": 1.0019132494926453,
+      "reward_std": 0.22998703457415104,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9706632345914841,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 92
+    },
+    {
+      "completion_length": 191.625,
+      "epoch": 0.372,
+      "grad_norm": 1.140625,
+      "kl": 0.011732830666005611,
+      "learning_rate": 3.955307425393224e-05,
+      "loss": 0.0005,
+      "reward": 0.9975786060094833,
+      "reward_std": 0.07108220970258117,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9663286209106445,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 93
+    },
+    {
+      "completion_length": 184.5,
+      "epoch": 0.376,
+      "grad_norm": 1.40625,
+      "kl": 0.01064238091930747,
+      "learning_rate": 3.92678391921108e-05,
+      "loss": 0.0004,
+      "reward": 1.0643680691719055,
+      "reward_std": 0.19065000605769455,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9706180691719055,
+      "rewards/verse_reward_func": 0.09375,
+      "step": 94
+    },
+    {
+      "completion_length": 190.25,
+      "epoch": 0.38,
+      "grad_norm": 1.0625,
+      "kl": 0.008287778589874506,
+      "learning_rate": 3.897982258676867e-05,
+      "loss": 0.0003,
+      "reward": 1.0316542387008667,
+      "reward_std": 0.1355991712771356,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0,
+      "rewards/no_repetition_reward_func": 0.9691542387008667,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 95
+    },
+    {
+      "completion_length": 179.625,
+      "epoch": 0.384,
+      "grad_norm": 1.7265625,
+      "kl": 0.01421071938239038,
+      "learning_rate": 3.868908058731376e-05,
+      "loss": 0.0006,
+      "reward": 0.9379890263080597,
+      "reward_std": 0.06504874012898654,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9692390412092209,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 96
+    },
+    {
+      "completion_length": 200.0,
+      "epoch": 0.388,
+      "grad_norm": 0.98046875,
+      "kl": 0.013900347286835313,
+      "learning_rate": 3.8395669874474915e-05,
+      "loss": 0.0006,
+      "reward": 1.0974175035953522,
+      "reward_std": 0.15276630711741745,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0027173913549631834,
+      "rewards/no_repetition_reward_func": 0.9697001129388809,
+      "rewards/verse_reward_func": 0.125,
+      "step": 97
+    },
+    {
+      "completion_length": 151.125,
+      "epoch": 0.392,
+      "grad_norm": 2.171875,
+      "kl": 0.016044694697484374,
+      "learning_rate": 3.8099647649251986e-05,
+      "loss": 0.0006,
+      "reward": 0.9290718883275986,
+      "reward_std": 0.18168721569236368,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.0625,
+      "rewards/no_repetition_reward_func": 0.9603218883275986,
+      "rewards/verse_reward_func": 0.03125,
+      "step": 98
+    },
+    {
+      "completion_length": 187.4375,
+      "epoch": 0.396,
+      "grad_norm": 1.1484375,
+      "kl": 0.019918689038604498,
+      "learning_rate": 3.780107162176429e-05,
+      "loss": 0.0008,
+      "reward": 1.0208609402179718,
+      "reward_std": 0.15501247788779438,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": 0.0052083334885537624,
+      "rewards/no_repetition_reward_func": 0.9531526267528534,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 99
+    },
+    {
+      "completion_length": 169.875,
+      "epoch": 0.4,
+      "grad_norm": 21.625,
+      "kl": 0.02106661314610392,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.0008,
+      "reward": 0.9671216309070587,
+      "reward_std": 0.2393743423745036,
+      "rewards/check_divine_comedy_plagiarism": 0.0,
+      "rewards/endecasillabo_reward_func": -0.059210526291280985,
+      "rewards/no_repetition_reward_func": 0.9638321995735168,
+      "rewards/verse_reward_func": 0.0625,
+      "step": 100
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 250,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c61957a403ae0924b967402286406830e3935654a8c024ccfdeadd6433d89ac
+size 5752

checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "PleIAs/Pleias-350m-Preview",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 65536
+}

checkpoint-1000/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.49.0"
+}

checkpoint-1000/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af40ff621b2528378c101b6daa62afe363ae9df812f0824bd28eabe28c590b6b
+size 706875632

checkpoint-1000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2939d3565c8f454d495ab4b18b9d2cbd237eca51b599026cfe2c5953e1528f16
+size 1413896442

checkpoint-1000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf9a6009d6de5a55fcfadf3b516a9c0731ad1f5f93e4fc0dcab89e4f6703f4f7
+size 14180

checkpoint-1000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:066959694903b2428a992642efadd126fbc0e6a7300aedf33231c1641a3b801a
+size 1064

checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|end_of_text|>",
+  "padding_side": "left",
+  "return_token_type_ids": false,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "[UNK]",
+  "use_token_type_ids": false,
+  "vocab_size": 65536
+}

checkpoint-1000/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e715216741604a6e077ba2b09630723e606676f5b8960f15b645bdf2bca79b1
+size 5752

checkpoint-1250/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "PleIAs/Pleias-350m-Preview",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 65536
+}

checkpoint-1250/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.49.0"
+}

checkpoint-1250/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c353e29cdfc442a642ead972a2407b467a7f93694d614db2bf9a908f6d1c603e
+size 706875632

checkpoint-1250/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bed8b310a7435f1a375ddd1f0c38b99598dca67359f45b4cc5097da7c9726a8
+size 1413896442

checkpoint-1250/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bc81ade4cec98e4c2b590620950f56abbb6cdd5dcec276b50656c3fc54171ad
+size 14180

checkpoint-1250/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9197244c5ee8fd84c23cb5387dd7cd4b0d34bb7720142963e9ea404ddb17646d
+size 1064

checkpoint-1250/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1250/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1250/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|end_of_text|>",
+  "padding_side": "left",
+  "return_token_type_ids": false,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "[UNK]",
+  "use_token_type_ids": false,
+  "vocab_size": 65536
+}

checkpoint-1250/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1250/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e715216741604a6e077ba2b09630723e606676f5b8960f15b645bdf2bca79b1
+size 5752

checkpoint-1500/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "PleIAs/Pleias-350m-Preview",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 65536
+}

checkpoint-1500/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.49.0"
+}

checkpoint-1500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bd014f9c19f12c59b3a97c972bfbae0e19cebe03472ea233dfac648ee11a44b
+size 706875632

checkpoint-1500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0dd3053c2cc5f949a3f076a2ce57f93eebd90ee57fa7ea62a306c931dd46927f
+size 1413896442

checkpoint-1500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d36874ae9aa68388939f7ba32704ae78c305546d3405871aa319375e5cb9ccb
+size 14180

checkpoint-1500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2ba4ddf44b55773794aa8993007c7aa5ec7847ee0bddc2ba617f28ab98771e6
+size 1064

checkpoint-1500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|end_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|end_of_text|>",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,48 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|begin_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|end_of_text|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|end_of_text|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|end_of_text|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<|end_of_text|>",
+  "padding_side": "left",
+  "return_token_type_ids": false,
+  "tokenizer_class": "PreTrainedTokenizer",
+  "unk_token": "[UNK]",
+  "use_token_type_ids": false,
+  "vocab_size": 65536
+}

checkpoint-1500/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62f9b836a29bd7368492e464b0eb16cb35efea62335bfe3f9aedeed823bcabef
+size 5752

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "PleIAs/Pleias-350m-Preview",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 2560,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 26,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "tie_word_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 65536
+}

checkpoint-200/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.49.0"
+}

checkpoint-200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e4bedbef9edbd8cf9e7cd0091d138f5e9fbc0b018a72b45612caa6c7cc3dcf2
+size 706875632

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d811fdc36ea64ba6b151d1c439b08be38b79e1da5e617c8a076d245606d21913
+size 1413896442

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:790242f025e1b7c5a019f39cc269f4321859a20583f29393c688025fa9447b45
+size 14180