{"train/loss": 1.18, "train/grad_norm": 0.583970308303833, "train/learning_rate": 0.0, "train/epoch": 9.411764705882353, "train/global_step": 120, "_timestamp": 1719391099.5724134, "_runtime": 4910.594539403915, "_step": 21, "eval/loss": 1.2984201908111572, "eval/runtime": 127.8842, "eval/samples_per_second": 1.572, "eval/steps_per_second": 0.399, "train_runtime": 4600.4395, "train_samples_per_second": 0.437, "train_steps_per_second": 0.026, "total_flos": 775966301356032.0, "train_loss": 1.6367768367131552}