add all

Browse files

Files changed (4) hide show

vita_tts_ckpt/codec/final.pt +3 -0
vita_tts_ckpt/codec/model.json +40 -0
vita_tts_ckpt/decoder/final.pt +3 -0
vita_tts_ckpt/decoder/model.json +72 -0

vita_tts_ckpt/codec/final.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c04d618827b0e2778280d7c4701d6c8450c4104de4c1a1dca2b5c3120017c7a
+size 253718273

vita_tts_ckpt/codec/model.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+    "resblock": "1",
+    "num_gpus": 8,
+    "batch_size": 160,
+    "learning_rate": 0.0002,
+    "adam_b1": 0.5,
+    "adam_b2": 0.9,
+    "lr_decay": 0.98,
+    "seed": 1234,
+    "upsample_rates": [8,5,5,3],
+    "upsample_kernel_sizes": [16,11,11,5],
+    "upsample_initial_channel": 512,
+    "resblock_kernel_sizes": [3,7,11],
+    "resblock_dilation_sizes": [[1,3,5], [1,3,5], [1,3,5]],
+    "segment_size": 24000,
+    "num_mels": 80,
+    "num_freq": 1025,
+    "n_fft": 1024,
+    "hop_size": 240,
+    "win_size": 1024,
+    "sampling_rate": 24000,
+    "n_code_groups": 1,
+    "residul_layer": 1,
+    "n_codes": 1024,
+    "codebook_loss_lambda": 1.0,
+    "commitment_loss_lambda": 0.25,
+    "global_code_num": 8,
+    "global_feature_conv":[128, 64, 128, 3, 1],
+    "global_tokens": [473,975,419,219,565,121,550,616],
+    "fmin": 0,
+    "fmax": 8000,
+    "fmax_for_loss": null,
+    "num_workers": 12
+}

vita_tts_ckpt/decoder/final.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d3274da94685758ce37209759ac7542ea8f2d6b47c00d1cc18c051d0d33cc3e
+size 1194900847

vita_tts_ckpt/decoder/model.json ADDED Viewed

	@@ -0,0 +1,72 @@

+[
+    896,
+    1024,
+    {
+        "accum_grad": 3,
+        "char_list": [],
+        "debugmode": 0,
+        "encoder_criterion": "ce",
+        "encoder_drop_rate": 0.1,
+        "encoder_input_dim": 896,
+        "encoder_layer_config": "transformer",
+        "encoder_output_dim": 896,
+        "encoder_pre_norm_type": "ln",
+        "encoder_upsample_rate": 9,
+        "kv_cache_prefix_finetune": 0,
+        "epochs": 100,
+        "eps": 1e-08,
+        "eps_decay": 0.8,
+        "gpu_id": null,
+        "gpu_num": 1,
+        "grad_clip": 5,
+        "grad_noise": false,
+        "idim": 896,
+        "init_lr": 0.0005,
+        "lsm_weight": 0.0,
+        "max_batch_size": 25,
+        "max_duration": 256,
+        "max_mem": 20000,
+        "mtlalpha": 0.5,
+        "n_iter_processes": 8,
+        "noam_warmup_steps": 4000,
+        "odim": 1024,
+        "opt": "noamw",
+        "rank": 0,
+        "report_interval_iters": 100,
+        "resume_trainer": false,
+        "save_interval_iters": 2000,
+        "seed": 19832,
+        "sort_duration": true,
+        "start_decay_epoch": 5,
+        "stop_learning_rate": 1e-05,
+        "sycn_batchnorm": false,
+        "tensorboard_dir": null,
+        "train_dtype": "bfloat16",
+        "transformer_attention_dim": 896,
+        "transformer_attention_dropout_rate": 0.1,
+        "transformer_attention_heads": 14,
+        "transformer_chunk_size": [
+            1
+        ],
+        "transformer_concat_after": false,
+        "transformer_dropout_rate": 0.1,
+        "transformer_dynamic_chunks": false,
+        "transformer_input_dim": 896,
+        "transformer_input_layer": "linear",
+        "transformer_left_chunks": [
+            -1
+        ],
+        "transformer_linear_units": 4864,
+        "transformer_normalize_before": true,
+        "transformer_num_blocks": 4,
+        "transformer_output_dim": 896,
+        "transformer_pos_enc_class": "rel-enc",
+        "transformer_positional_dropout_rate": 0.1,
+        "transformer_positionwise_conv_kernel_size": 1,
+        "transformer_positionwise_layer_type": "linear",
+        "use_zero_redun_opt": false,
+        "verbose": 0,
+        "weight_decay": 0.05,
+        "world_size": 1
+    }
+]