Upload folder using huggingface_hub

Browse files

Files changed (6) hide show

.summary/0/events.out.tfevents.1688872419.snowflake +3 -0
.summary/0/events.out.tfevents.1688873967.snowflake +3 -0
README.md +1 -1
config.json +3 -3
git.diff +2 -2
sf_log.txt +282 -0

.summary/0/events.out.tfevents.1688872419.snowflake ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:745332bab2e2aeabae1e5c353576ade83586f1d5a76bb3136a0fe6d20aaf5a27
+size 15236

.summary/0/events.out.tfevents.1688873967.snowflake ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90cbaf7dc8e5fd40d00d33dfae5ed26b91d56fdddb7b11908f9de42cb44e425e
+size 15236

README.md CHANGED Viewed

@@ -15,7 +15,7 @@ model-index:
       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
-      value: 4.06 +/- 0.29
       name: mean_reward
       verified: false
 ---

       type: doom_health_gathering_supreme
     metrics:
     - type: mean_reward
+      value: 3.88 +/- 0.22
       name: mean_reward
       verified: false
 ---

config.json CHANGED Viewed

@@ -4,7 +4,7 @@
   "env": "doom_health_gathering_supreme",
   "experiment": "default_experiment",
   "train_dir": "/home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir",
-  "restart_behavior": "overwrite",
   "device": "gpu",
   "seed": 42,
   "num_policies": 1,
@@ -130,8 +130,8 @@
   "cli_args": {},
   "git_hash": "0401714b01ee832562a0930e3744117f1ba51e10",
   "git_repo_name": "https://github.com/tenkara/HF-DeepRL.git",
   "lr_adaptive_min": 1e-06,
   "lr_adaptive_max": 0.01,
-  "env_gpu_observations": true,
-  "command_line": "--env=doom_health_gathering_supreme --train_for_env_steps=2000000"
 }

   "env": "doom_health_gathering_supreme",
   "experiment": "default_experiment",
   "train_dir": "/home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir",
+  "restart_behavior": "resume",
   "device": "gpu",
   "seed": 42,
   "num_policies": 1,
   "cli_args": {},
   "git_hash": "0401714b01ee832562a0930e3744117f1ba51e10",
   "git_repo_name": "https://github.com/tenkara/HF-DeepRL.git",
+  "command_line": "--env=doom_health_gathering_supreme --train_for_env_steps=2000000",
   "lr_adaptive_min": 1e-06,
   "lr_adaptive_max": 0.01,
+  "env_gpu_observations": true
 }

git.diff CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bffe781f41b26f0bcb140521428a958667eb1efa3e48466573f44ef778c97965
-size 212386620

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a61a193f0cc481d66bfc2627e32f7543022b6969516b6c1e19e74af543e7c41
+size 212435236

sf_log.txt CHANGED Viewed

@@ -138,3 +138,285 @@ Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
 [2023-07-08 20:59:39,043][17004] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
 [2023-07-08 20:59:39,075][17004] Stopping LearnerWorker_p0...
 [2023-07-08 20:59:39,075][17004] Loop learner_proc0_evt_loop terminating...

 [2023-07-08 20:59:39,043][17004] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
 [2023-07-08 20:59:39,075][17004] Stopping LearnerWorker_p0...
 [2023-07-08 20:59:39,075][17004] Loop learner_proc0_evt_loop terminating...
+[2023-07-08 21:13:45,642][17306] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:13:45,642][17306] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2023-07-08 21:13:45,688][17306] Num visible devices: 1
+[2023-07-08 21:13:45,807][17306] Setting fixed seed 42
+[2023-07-08 21:13:45,808][17306] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:13:45,808][17306] Initializing actor-critic model on device cuda:0
+[2023-07-08 21:13:45,808][17306] RunningMeanStd input shape: (3, 72, 128)
+[2023-07-08 21:13:45,809][17306] RunningMeanStd input shape: (1,)
+[2023-07-08 21:13:45,816][17306] ConvEncoder: input_channels=3
+[2023-07-08 21:13:45,919][17326] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:13:45,920][17326] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2023-07-08 21:13:45,976][17326] Num visible devices: 1
+[2023-07-08 21:13:46,140][17327] Worker 0 uses CPU cores [0]
+[2023-07-08 21:13:46,130][17306] Conv encoder output size: 512
+[2023-07-08 21:13:46,172][17306] Policy head output size: 512
+[2023-07-08 21:13:46,223][17306] Created Actor Critic model with architecture:
+[2023-07-08 21:13:46,242][17306] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): VizdoomEncoder(
+    (basic_encoder): ConvEncoder(
+      (enc): RecursiveScriptModule(
+        original_name=ConvEncoderImpl
+        (conv_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Conv2d)
+          (1): RecursiveScriptModule(original_name=ReLU)
+          (2): RecursiveScriptModule(original_name=Conv2d)
+          (3): RecursiveScriptModule(original_name=ReLU)
+          (4): RecursiveScriptModule(original_name=Conv2d)
+          (5): RecursiveScriptModule(original_name=ReLU)
+        )
+        (mlp_layers): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=ReLU)
+        )
+      )
+    )
+  )
+  (core): ModelCoreRNN(
+    (core): LSTM(512, 512)
+  )
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2023-07-08 21:13:46,351][17329] Worker 2 uses CPU cores [2]
+[2023-07-08 21:13:46,421][17330] Worker 3 uses CPU cores [3]
+[2023-07-08 21:13:46,561][17331] Worker 4 uses CPU cores [0]
+[2023-07-08 21:13:46,608][17334] Worker 5 uses CPU cores [1]
+[2023-07-08 21:13:46,689][17338] Worker 11 uses CPU cores [3]
+[2023-07-08 21:13:46,697][17336] Worker 9 uses CPU cores [1]
+[2023-07-08 21:13:46,698][17339] Worker 12 uses CPU cores [0]
+[2023-07-08 21:13:46,704][17328] Worker 1 uses CPU cores [1]
+[2023-07-08 21:13:46,711][17345] Worker 18 uses CPU cores [2]
+[2023-07-08 21:13:46,732][17346] Worker 19 uses CPU cores [3]
+[2023-07-08 21:13:46,743][17341] Worker 15 uses CPU cores [3]
+[2023-07-08 21:13:46,746][17340] Worker 13 uses CPU cores [1]
+[2023-07-08 21:13:46,746][17344] Worker 17 uses CPU cores [1]
+[2023-07-08 21:13:46,771][17337] Worker 10 uses CPU cores [2]
+[2023-07-08 21:13:46,789][17333] Worker 7 uses CPU cores [3]
+[2023-07-08 21:13:46,791][17332] Worker 6 uses CPU cores [2]
+[2023-07-08 21:13:46,793][17343] Worker 16 uses CPU cores [0]
+[2023-07-08 21:13:46,801][17335] Worker 8 uses CPU cores [0]
+[2023-07-08 21:13:46,841][17342] Worker 14 uses CPU cores [2]
+[2023-07-08 21:13:47,146][17306] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-07-08 21:13:47,147][17306] Loading state from checkpoint /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:13:47,155][17306] Loading model from checkpoint
+[2023-07-08 21:13:47,156][17306] Loaded experiment state at self.train_step=0, self.env_steps=0
+[2023-07-08 21:13:47,156][17306] Initialized policy 0 weights for model version 0
+[2023-07-08 21:13:47,159][17306] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:13:47,161][17306] LearnerWorker_p0 finished initialization!
+[2023-07-08 21:13:47,303][17326] Unhandled exception CUDA error: OS call failed or operation not supported on this OS
+CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
+For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
+Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
+ in evt loop inference_proc0-0_evt_loop
+[2023-07-08 21:15:39,049][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:17:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:19:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:21:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:23:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:25:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:27:39,050][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:28:39,052][17337] Stopping RolloutWorker_w10...
+[2023-07-08 21:28:39,052][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:28:39,052][17337] Loop rollout_proc10_evt_loop terminating...
+[2023-07-08 21:28:39,052][17335] Stopping RolloutWorker_w8...
+[2023-07-08 21:28:39,053][17339] Stopping RolloutWorker_w12...
+[2023-07-08 21:28:39,054][17333] Stopping RolloutWorker_w7...
+[2023-07-08 21:28:39,053][17343] Stopping RolloutWorker_w16...
+[2023-07-08 21:28:39,055][17341] Stopping RolloutWorker_w15...
+[2023-07-08 21:28:39,055][17343] Loop rollout_proc16_evt_loop terminating...
+[2023-07-08 21:28:39,054][17346] Stopping RolloutWorker_w19...
+[2023-07-08 21:28:39,055][17338] Stopping RolloutWorker_w11...
+[2023-07-08 21:28:39,055][17330] Stopping RolloutWorker_w3...
+[2023-07-08 21:28:39,056][17341] Loop rollout_proc15_evt_loop terminating...
+[2023-07-08 21:28:39,053][17331] Stopping RolloutWorker_w4...
+[2023-07-08 21:28:39,056][17333] Loop rollout_proc7_evt_loop terminating...
+[2023-07-08 21:28:39,057][17331] Loop rollout_proc4_evt_loop terminating...
+[2023-07-08 21:28:39,056][17338] Loop rollout_proc11_evt_loop terminating...
+[2023-07-08 21:28:39,061][17345] Stopping RolloutWorker_w18...
+[2023-07-08 21:28:39,061][17306] Stopping Batcher_0...
+[2023-07-08 21:28:39,061][17345] Loop rollout_proc18_evt_loop terminating...
+[2023-07-08 21:28:39,061][17306] Loop batcher_evt_loop terminating...
+[2023-07-08 21:28:39,061][17335] Loop rollout_proc8_evt_loop terminating...
+[2023-07-08 21:28:39,057][17346] Loop rollout_proc19_evt_loop terminating...
+[2023-07-08 21:28:39,062][17340] Stopping RolloutWorker_w13...
+[2023-07-08 21:28:39,057][17330] Loop rollout_proc3_evt_loop terminating...
+[2023-07-08 21:28:39,062][17340] Loop rollout_proc13_evt_loop terminating...
+[2023-07-08 21:28:39,071][17329] Stopping RolloutWorker_w2...
+[2023-07-08 21:28:39,071][17329] Loop rollout_proc2_evt_loop terminating...
+[2023-07-08 21:28:39,052][17327] Stopping RolloutWorker_w0...
+[2023-07-08 21:28:39,072][17344] Stopping RolloutWorker_w17...
+[2023-07-08 21:28:39,072][17327] Loop rollout_proc0_evt_loop terminating...
+[2023-07-08 21:28:39,072][17344] Loop rollout_proc17_evt_loop terminating...
+[2023-07-08 21:28:39,081][17332] Stopping RolloutWorker_w6...
+[2023-07-08 21:28:39,081][17332] Loop rollout_proc6_evt_loop terminating...
+[2023-07-08 21:28:39,071][17339] Loop rollout_proc12_evt_loop terminating...
+[2023-07-08 21:28:39,082][17328] Stopping RolloutWorker_w1...
+[2023-07-08 21:28:39,082][17328] Loop rollout_proc1_evt_loop terminating...
+[2023-07-08 21:28:39,091][17342] Stopping RolloutWorker_w14...
+[2023-07-08 21:28:39,091][17342] Loop rollout_proc14_evt_loop terminating...
+[2023-07-08 21:28:39,092][17334] Stopping RolloutWorker_w5...
+[2023-07-08 21:28:39,092][17334] Loop rollout_proc5_evt_loop terminating...
+[2023-07-08 21:28:39,094][17306] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:28:39,102][17336] Stopping RolloutWorker_w9...
+[2023-07-08 21:28:39,102][17336] Loop rollout_proc9_evt_loop terminating...
+[2023-07-08 21:28:39,125][17306] Stopping LearnerWorker_p0...
+[2023-07-08 21:28:39,125][17306] Loop learner_proc0_evt_loop terminating...
+[2023-07-08 21:39:33,872][17857] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:39:33,882][17857] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for learning process 0
+[2023-07-08 21:39:33,928][17857] Num visible devices: 1
+[2023-07-08 21:39:34,048][17857] Setting fixed seed 42
+[2023-07-08 21:39:34,049][17857] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:39:34,049][17857] Initializing actor-critic model on device cuda:0
+[2023-07-08 21:39:34,049][17857] RunningMeanStd input shape: (3, 72, 128)
+[2023-07-08 21:39:34,049][17857] RunningMeanStd input shape: (1,)
+[2023-07-08 21:39:34,056][17857] ConvEncoder: input_channels=3
+[2023-07-08 21:39:34,442][17857] Conv encoder output size: 512
+[2023-07-08 21:39:34,443][17857] Policy head output size: 512
+[2023-07-08 21:39:34,452][17857] Created Actor Critic model with architecture:
+[2023-07-08 21:39:34,492][17857] ActorCriticSharedWeights(
+  (obs_normalizer): ObservationNormalizer(
+    (running_mean_std): RunningMeanStdDictInPlace(
+      (running_mean_std): ModuleDict(
+        (obs): RunningMeanStdInPlace()
+      )
+    )
+  )
+  (returns_normalizer): RecursiveScriptModule(original_name=RunningMeanStdInPlace)
+  (encoder): VizdoomEncoder(
+    (basic_encoder): ConvEncoder(
+      (enc): RecursiveScriptModule(
+        original_name=ConvEncoderImpl
+        (conv_head): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Conv2d)
+          (1): RecursiveScriptModule(original_name=ReLU)
+          (2): RecursiveScriptModule(original_name=Conv2d)
+          (3): RecursiveScriptModule(original_name=ReLU)
+          (4): RecursiveScriptModule(original_name=Conv2d)
+          (5): RecursiveScriptModule(original_name=ReLU)
+        )
+        (mlp_layers): RecursiveScriptModule(
+          original_name=Sequential
+          (0): RecursiveScriptModule(original_name=Linear)
+          (1): RecursiveScriptModule(original_name=ReLU)
+        )
+      )
+    )
+  )
+  (core): ModelCoreRNN(
+    (core): LSTM(512, 512)
+  )
+  (decoder): MlpDecoder(
+    (mlp): Identity()
+  )
+  (critic_linear): Linear(in_features=512, out_features=1, bias=True)
+  (action_parameterization): ActionParameterizationDefault(
+    (distribution_linear): Linear(in_features=512, out_features=5, bias=True)
+  )
+)
+[2023-07-08 21:39:34,999][17857] Using optimizer <class 'torch.optim.adam.Adam'>
+[2023-07-08 21:39:35,000][17857] Loading state from checkpoint /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:39:35,072][17857] Loading model from checkpoint
+[2023-07-08 21:39:35,073][17857] Loaded experiment state at self.train_step=0, self.env_steps=0
+[2023-07-08 21:39:35,074][17857] Initialized policy 0 weights for model version 0
+[2023-07-08 21:39:35,084][17857] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:39:35,092][17857] LearnerWorker_p0 finished initialization!
+[2023-07-08 21:39:35,100][17884] Worker 6 uses CPU cores [2]
+[2023-07-08 21:39:35,221][17877] Using GPUs [0] for process 0 (actually maps to GPUs [0])
+[2023-07-08 21:39:35,222][17877] Set environment var CUDA_VISIBLE_DEVICES to '0' (GPU indices [0]) for inference process 0
+[2023-07-08 21:39:35,223][17878] Worker 0 uses CPU cores [0]
+[2023-07-08 21:39:35,231][17879] Worker 1 uses CPU cores [1]
+[2023-07-08 21:39:35,286][17877] Num visible devices: 1
+[2023-07-08 21:39:35,371][17880] Worker 2 uses CPU cores [2]
+[2023-07-08 21:39:35,398][17886] Worker 8 uses CPU cores [0]
+[2023-07-08 21:39:35,408][17888] Worker 10 uses CPU cores [2]
+[2023-07-08 21:39:35,492][17885] Worker 7 uses CPU cores [3]
+[2023-07-08 21:39:35,492][17891] Worker 12 uses CPU cores [0]
+[2023-07-08 21:39:35,511][17887] Worker 9 uses CPU cores [1]
+[2023-07-08 21:39:35,532][17881] Worker 4 uses CPU cores [0]
+[2023-07-08 21:39:35,541][17882] Worker 3 uses CPU cores [3]
+[2023-07-08 21:39:35,576][17893] Worker 15 uses CPU cores [3]
+[2023-07-08 21:39:35,601][17890] Worker 13 uses CPU cores [1]
+[2023-07-08 21:39:35,613][17892] Worker 14 uses CPU cores [2]
+[2023-07-08 21:39:35,621][17894] Worker 16 uses CPU cores [0]
+[2023-07-08 21:39:35,624][17895] Worker 17 uses CPU cores [1]
+[2023-07-08 21:39:35,672][17896] Worker 19 uses CPU cores [3]
+[2023-07-08 21:39:35,679][17883] Worker 5 uses CPU cores [1]
+[2023-07-08 21:39:35,686][17897] Worker 18 uses CPU cores [2]
+[2023-07-08 21:39:35,725][17889] Worker 11 uses CPU cores [3]
+[2023-07-08 21:39:35,840][17877] Unhandled exception CUDA error: OS call failed or operation not supported on this OS
+CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
+For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
+Compile with `TORCH_USE_CUDA_DSA` to enable device-side assertions.
+ in evt loop inference_proc0-0_evt_loop
+[2023-07-08 21:41:27,794][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:43:27,795][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:45:27,793][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:47:27,793][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:49:27,793][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:51:27,793][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:53:27,795][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:54:27,795][17894] Stopping RolloutWorker_w16...
+[2023-07-08 21:54:27,795][17890] Stopping RolloutWorker_w13...
+[2023-07-08 21:54:27,795][17894] Loop rollout_proc16_evt_loop terminating...
+[2023-07-08 21:54:27,795][17890] Loop rollout_proc13_evt_loop terminating...
+[2023-07-08 21:54:27,796][17888] Stopping RolloutWorker_w10...
+[2023-07-08 21:54:27,796][17888] Loop rollout_proc10_evt_loop terminating...
+[2023-07-08 21:54:27,802][17879] Stopping RolloutWorker_w1...
+[2023-07-08 21:54:27,802][17892] Stopping RolloutWorker_w14...
+[2023-07-08 21:54:27,802][17891] Stopping RolloutWorker_w12...
+[2023-07-08 21:54:27,802][17896] Stopping RolloutWorker_w19...
+[2023-07-08 21:54:27,802][17879] Loop rollout_proc1_evt_loop terminating...
+[2023-07-08 21:54:27,802][17892] Loop rollout_proc14_evt_loop terminating...
+[2023-07-08 21:54:27,802][17891] Loop rollout_proc12_evt_loop terminating...
+[2023-07-08 21:54:27,802][17896] Loop rollout_proc19_evt_loop terminating...
+[2023-07-08 21:54:27,808][17897] Stopping RolloutWorker_w18...
+[2023-07-08 21:54:27,808][17897] Loop rollout_proc18_evt_loop terminating...
+[2023-07-08 21:54:27,812][17885] Stopping RolloutWorker_w7...
+[2023-07-08 21:54:27,812][17881] Stopping RolloutWorker_w4...
+[2023-07-08 21:54:27,812][17880] Stopping RolloutWorker_w2...
+[2023-07-08 21:54:27,812][17885] Loop rollout_proc7_evt_loop terminating...
+[2023-07-08 21:54:27,812][17895] Stopping RolloutWorker_w17...
+[2023-07-08 21:54:27,812][17881] Loop rollout_proc4_evt_loop terminating...
+[2023-07-08 21:54:27,812][17880] Loop rollout_proc2_evt_loop terminating...
+[2023-07-08 21:54:27,812][17895] Loop rollout_proc17_evt_loop terminating...
+[2023-07-08 21:54:27,818][17884] Stopping RolloutWorker_w6...
+[2023-07-08 21:54:27,819][17884] Loop rollout_proc6_evt_loop terminating...
+[2023-07-08 21:54:27,822][17893] Stopping RolloutWorker_w15...
+[2023-07-08 21:54:27,822][17883] Stopping RolloutWorker_w5...
+[2023-07-08 21:54:27,822][17878] Stopping RolloutWorker_w0...
+[2023-07-08 21:54:27,822][17893] Loop rollout_proc15_evt_loop terminating...
+[2023-07-08 21:54:27,822][17883] Loop rollout_proc5_evt_loop terminating...
+[2023-07-08 21:54:27,822][17878] Loop rollout_proc0_evt_loop terminating...
+[2023-07-08 21:54:27,832][17882] Stopping RolloutWorker_w3...
+[2023-07-08 21:54:27,832][17882] Loop rollout_proc3_evt_loop terminating...
+[2023-07-08 21:54:27,832][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:54:27,833][17886] Stopping RolloutWorker_w8...
+[2023-07-08 21:54:27,833][17886] Loop rollout_proc8_evt_loop terminating...
+[2023-07-08 21:54:27,833][17887] Stopping RolloutWorker_w9...
+[2023-07-08 21:54:27,833][17887] Loop rollout_proc9_evt_loop terminating...
+[2023-07-08 21:54:27,839][17857] Stopping Batcher_0...
+[2023-07-08 21:54:27,839][17857] Loop batcher_evt_loop terminating...
+[2023-07-08 21:54:27,842][17889] Stopping RolloutWorker_w11...
+[2023-07-08 21:54:27,842][17889] Loop rollout_proc11_evt_loop terminating...
+[2023-07-08 21:54:27,855][17857] Saving /home/raj/repos/HF-DeepRL/8-Proximal-Policy-Optimization/train_dir/default_experiment/checkpoint_p0/checkpoint_000000000_0.pth...
+[2023-07-08 21:54:27,905][17857] Stopping LearnerWorker_p0...
+[2023-07-08 21:54:27,905][17857] Loop learner_proc0_evt_loop terminating...