End of training

Browse files

Files changed (15) hide show

README.md +12 -8
config.json +61 -0
dap_multiplexer.394c0181bb2a.root.log.INFO.20240702-233509.137 +22 -0
dap_multiplexer.INFO +9 -9
generation_config.json +7 -0
model.safetensors +3 -0
runs/Jul03_00-27-48_394c0181bb2a/events.out.tfevents.1719966481.394c0181bb2a.3731.2 +3 -0
runs/Jul03_00-28-54_394c0181bb2a/events.out.tfevents.1719966535.394c0181bb2a.3731.3 +3 -0
runs/Jul03_00-30-59_394c0181bb2a/events.out.tfevents.1719966663.394c0181bb2a.3731.4 +3 -0
runs/Jul03_00-31-53_394c0181bb2a/events.out.tfevents.1719966714.394c0181bb2a.3731.5 +3 -0
runs/Jul03_00-32-28_394c0181bb2a/events.out.tfevents.1719966749.394c0181bb2a.3731.6 +3 -0
tmp93kz25pj/__pycache__/_remote_module_non_scriptable.cpython-310.pyc +0 -0
tmp93kz25pj/_remote_module_non_scriptable.py +81 -0
tokenizer.json +1 -6
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,7 +1,6 @@
 ---
-base_model: google-t5/t5-small
-library_name: peft
 license: apache-2.0
 tags:
 - trl
 - sft
@@ -17,6 +16,8 @@ should probably proofread and complete it, then remove this comment. -->
 # tmp
 This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on an unknown dataset.
 ## Model description
@@ -35,22 +36,25 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- learning_rate: 5e-05
-- train_batch_size: 8
-- eval_batch_size: 8
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
-- num_epochs: 3.0
 ### Training results
 ### Framework versions
-- PEFT 0.11.1
 - Transformers 4.41.2
 - Pytorch 2.3.0+cu121
 - Datasets 2.20.0
-- Tokenizers 0.19.1

 ---
 license: apache-2.0
+base_model: google-t5/t5-small
 tags:
 - trl
 - sft
 # tmp
 This model is a fine-tuned version of [google-t5/t5-small](https://huggingface.co/google-t5/t5-small) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.2654
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 16
+- eval_batch_size: 16
 - seed: 42
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
+- num_epochs: 2
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| No log        | 1.0   | 25   | 1.7214          |
+| No log        | 2.0   | 50   | 1.2654          |
 ### Framework versions
 - Transformers 4.41.2
 - Pytorch 2.3.0+cu121
 - Datasets 2.20.0
+- Tokenizers 0.19.1

config.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "google-t5/t5-small",
+  "architectures": [
+    "T5ForConditionalGeneration"
+  ],
+  "classifier_dropout": 0.0,
+  "d_ff": 2048,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "relu",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "relu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": false,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "t5",
+  "n_positions": 512,
+  "num_decoder_layers": 6,
+  "num_heads": 8,
+  "num_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "task_specific_params": {
+    "summarization": {
+      "early_stopping": true,
+      "length_penalty": 2.0,
+      "max_length": 200,
+      "min_length": 30,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 4,
+      "prefix": "summarize: "
+    },
+    "translation_en_to_de": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to German: "
+    },
+    "translation_en_to_fr": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to French: "
+    },
+    "translation_en_to_ro": {
+      "early_stopping": true,
+      "max_length": 300,
+      "num_beams": 4,
+      "prefix": "translate English to Romanian: "
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.41.2",
+  "use_cache": true,
+  "vocab_size": 32128
+}

dap_multiplexer.394c0181bb2a.root.log.INFO.20240702-233509.137 ADDED Viewed

	@@ -0,0 +1,22 @@

+Log file created at: 2024/07/02 23:35:09
+Running on machine: 394c0181bb2a
+Binary: Built on Dec 31 1969 16:00:00 -0800 (0)
+Binary: Built at redacted@redacted:.
+Binary: Built with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
+Previous log: <none>
+Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg
+I0702 23:35:09.857938       1 log_spam.go:43] Process id 137
+I0702 23:35:09.860186       1 log_spam.go:47] Current working directory /
+I0702 23:35:09.860195       1 log_spam.go:49] Current timezone is UTC (currently UTC +00:00)
+I0702 23:35:09.860222       1 log_spam.go:50] Built on Dec 31 1969 16:00:00 -0800 (0)
+ at redacted@redacted:.
+ as unknown
+ with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
+ from changelist 0 in a unknown client based on redacted
+Build tool: unknown
+Build target: unknown
+Build id: unknown
+Built with PGO profile: unknown
+I0702 23:35:09.860227       1 log_spam.go:51] Command line arguments:
+I0702 23:35:09.860229       1 log_spam.go:53]  argv[0]: '/usr/local/bin/dap_multiplexer'
+I0702 23:35:09.860232       1 log_spam.go:53]  argv[1]: '--domain_socket_path=/tmp/debugger_1gmv2hhpef'

dap_multiplexer.INFO CHANGED Viewed

@@ -1,14 +1,14 @@
-Log file created at: 2024/06/30 17:52:46
-Running on machine: 38816f7f58cb
 Binary: Built on Dec 31 1969 16:00:00 -0800 (0)
 Binary: Built at redacted@redacted:.
 Binary: Built with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
 Previous log: <none>
 Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg
-I0630 17:52:46.579676       1 log_spam.go:43] Process id 137
-I0630 17:52:46.582596       1 log_spam.go:47] Current working directory /
-I0630 17:52:46.582610       1 log_spam.go:49] Current timezone is UTC (currently UTC +00:00)
-I0630 17:52:46.582649       1 log_spam.go:50] Built on Dec 31 1969 16:00:00 -0800 (0)
  at redacted@redacted:.
  as unknown
  with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
@@ -17,6 +17,6 @@ Build tool: unknown
 Build target: unknown
 Build id: unknown
 Built with PGO profile: unknown
-I0630 17:52:46.582658       1 log_spam.go:51] Command line arguments:
-I0630 17:52:46.582663       1 log_spam.go:53]  argv[0]: '/usr/local/bin/dap_multiplexer'
-I0630 17:52:46.582668       1 log_spam.go:53]  argv[1]: '--domain_socket_path=/tmp/debugger_23iicn3mfr'

+Log file created at: 2024/07/02 23:35:09
+Running on machine: 394c0181bb2a
 Binary: Built on Dec 31 1969 16:00:00 -0800 (0)
 Binary: Built at redacted@redacted:.
 Binary: Built with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
 Previous log: <none>
 Log line format: [IWEF]mmdd hh:mm:ss.uuuuuu threadid file:line] msg
+I0702 23:35:09.857938       1 log_spam.go:43] Process id 137
+I0702 23:35:09.860186       1 log_spam.go:47] Current working directory /
+I0702 23:35:09.860195       1 log_spam.go:49] Current timezone is UTC (currently UTC +00:00)
+I0702 23:35:09.860222       1 log_spam.go:50] Built on Dec 31 1969 16:00:00 -0800 (0)
  at redacted@redacted:.
  as unknown
  with gc go1.23-20240603-RC03 cl/639787341 +eaa7d9ff86 X:fieldtrack,boringcrypto for linux/amd64
 Build target: unknown
 Build id: unknown
 Built with PGO profile: unknown
+I0702 23:35:09.860227       1 log_spam.go:51] Command line arguments:
+I0702 23:35:09.860229       1 log_spam.go:53]  argv[0]: '/usr/local/bin/dap_multiplexer'
+I0702 23:35:09.860232       1 log_spam.go:53]  argv[1]: '--domain_socket_path=/tmp/debugger_1gmv2hhpef'

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.41.2"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30d4c6ca400b53dfbe16933cb163d2b6b6453f41e80752b366d2ed11b3db785e
+size 242041896

runs/Jul03_00-27-48_394c0181bb2a/events.out.tfevents.1719966481.394c0181bb2a.3731.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f747d76eee7a4367319a362d88fe0bc4f6790e7fcf2bc1a18fbaf0f4064f6f5
+size 5896

runs/Jul03_00-28-54_394c0181bb2a/events.out.tfevents.1719966535.394c0181bb2a.3731.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a79a139a0e78c7adb32f5da45f651b880de4e276e7ebac0754f3c2b94474195
+size 5896

runs/Jul03_00-30-59_394c0181bb2a/events.out.tfevents.1719966663.394c0181bb2a.3731.4 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4bd44f125dbfac4c4e285549f367bc433a51895b3a017fc62fde49b49c1d611
+size 6162

runs/Jul03_00-31-53_394c0181bb2a/events.out.tfevents.1719966714.394c0181bb2a.3731.5 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fb15eae2424259cba6b6fee7bb9517d3d8d485638e93180bd36398b4a7e599a
+size 6162

runs/Jul03_00-32-28_394c0181bb2a/events.out.tfevents.1719966749.394c0181bb2a.3731.6 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:896b6c6bb82b20c2eb4a68273f7ea3575605f0f9932b7bb10af1d66580a1416d
+size 6775

tmp93kz25pj/__pycache__/_remote_module_non_scriptable.cpython-310.pyc ADDED Viewed

Binary file (1.5 kB). View file

tmp93kz25pj/_remote_module_non_scriptable.py ADDED Viewed

	@@ -0,0 +1,81 @@

+from typing import *
+import torch
+import torch.distributed.rpc as rpc
+from torch import Tensor
+from torch._jit_internal import Future
+from torch.distributed.rpc import RRef
+from typing import Tuple  # pyre-ignore: unused import
+module_interface_cls = None
+def forward_async(self, *args, **kwargs):
+    args = (self.module_rref, self.device, self.is_device_map_set, *args)
+    kwargs = {**kwargs}
+    return rpc.rpc_async(
+        self.module_rref.owner(),
+        _remote_forward,
+        args,
+        kwargs,
+    )
+def forward(self, *args, **kwargs):
+    args = (self.module_rref, self.device, self.is_device_map_set, *args)
+    kwargs = {**kwargs}
+    ret_fut = rpc.rpc_async(
+        self.module_rref.owner(),
+        _remote_forward,
+        args,
+        kwargs,
+    )
+    return ret_fut.wait()
+_generated_methods = [
+    forward_async,
+    forward,
+]
+def _remote_forward(
+    module_rref: RRef[module_interface_cls], device: str, is_device_map_set: bool, *args, **kwargs):
+    module = module_rref.local_value()
+    device = torch.device(device)
+    if device.type != "cuda":
+        return module.forward(*args, **kwargs)
+    # If the module is on a cuda device,
+    # move any CPU tensor in args or kwargs to the same cuda device.
+    # Since torch script does not support generator expression,
+    # have to use concatenation instead of
+    # ``tuple(i.to(device) if isinstance(i, Tensor) else i for i in *args)``.
+    args = (*args,)
+    out_args: Tuple[()] = ()
+    for arg in args:
+        arg = (arg.to(device),) if isinstance(arg, Tensor) else (arg,)
+        out_args = out_args + arg
+    kwargs = {**kwargs}
+    for k, v in kwargs.items():
+        if isinstance(v, Tensor):
+            kwargs[k] = kwargs[k].to(device)
+    if is_device_map_set:
+        return module.forward(*out_args, **kwargs)
+    # If the device map is empty, then only CPU tensors are allowed to send over wire,
+    # so have to move any GPU tensor to CPU in the output.
+    # Since torch script does not support generator expression,
+    # have to use concatenation instead of
+    # ``tuple(i.cpu() if isinstance(i, Tensor) else i for i in module.forward(*out_args, **kwargs))``.
+    ret: Tuple[()] = ()
+    for i in module.forward(*out_args, **kwargs):
+        i = (i.cpu(),) if isinstance(i, Tensor) else (i,)
+        ret = ret + i
+    return ret

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 512,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a86aab7b7f10475172cc5ed23967f5e2c56e72b0f4928b7fa99307e41ab177d5
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6bed6a3b8b35711c83eb2f26e07f13a79e69ac571ec141f853d039f0dd8b68c
 size 5304