Spaces:

Md-Hakim
/

bengali-text-summarization

Sleeping

logicsame commited on Oct 16, 2024

Commit

00c0948

1 Parent(s): 82c8d9a

dvc update

Files changed (5) hide show

dvc.lock ADDED Viewed

+schema: '2.0'
+stages:
+  data_ingestion:
+    cmd: python src/benglasummarization/pipeline/stage01_data_ingestion.py
+    deps:
+    - path: config/config.yaml
+      hash: md5
+      md5: 7dd47470935d9dbcbc4f22c08179c358
+      size: 810
+    - path: src/benglasummarization/pipeline/stage01_data_ingestion.py
+      hash: md5
+      md5: 7c1a49bcb041ba18e3ebafe7b0995470
+      size: 499
+  prepare_Ban_tok:
+    cmd: python src/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
+    deps:
+    - path: config/config.yaml
+      hash: md5
+      md5: 7dd47470935d9dbcbc4f22c08179c358
+      size: 810
+    - path: src/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
+      hash: md5
+      md5: 111dd3fd6adf995de51fea3a2a171e9e
+      size: 490
+    params:
+      params.yaml:
+        output_file: combined_text.txt

dvc.yaml CHANGED Viewed

@@ -4,18 +4,16 @@ stages:
     deps:
       - src/benglasummarization/pipeline/stage01_data_ingestion.py
       - config/config.yaml
-    outs:
-      - artifacts/data_ingestion
-  prepare_base_model:
     cmd: python src/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
     deps:
-      - ssrc/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
       - config/config.yaml
     params:
       - output_file
-    outs:
-      - artifacts/ban_tokenization
   tokenize_training:
     cmd: python src/benglasummarization/pipeline/stage_03_train_ban_token.py
@@ -23,7 +21,6 @@ stages:
       - src/benglasummarization/pipeline/stage_03_train_ban_token.py
       - config/config.yaml
       - artifacts/ban_tokenization/combined_text.txt
-      - artifacts/train_tokenization
     params:
       - model_prefix   # List format for params
       - model_type
@@ -47,5 +44,4 @@ stages:
       - max_grad_norm
       - early_stopping_patience
       - patience_counter
-    outs:
-      - artifacts/model_training

     deps:
       - src/benglasummarization/pipeline/stage01_data_ingestion.py
       - config/config.yaml
+  prepare_Ban_tok:
     cmd: python src/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
     deps:
+      - src/benglasummarization/pipeline/stage_02_prepare_ben_tok.py
       - config/config.yaml
     params:
       - output_file
   tokenize_training:
     cmd: python src/benglasummarization/pipeline/stage_03_train_ban_token.py
       - src/benglasummarization/pipeline/stage_03_train_ban_token.py
       - config/config.yaml
       - artifacts/ban_tokenization/combined_text.txt
     params:
       - model_prefix   # List format for params
       - model_type
       - max_grad_norm
       - early_stopping_patience
       - patience_counter

params.yaml CHANGED Viewed

@@ -1,19 +1,19 @@
-pre_tokenize:
-  output_file: "combined_text.txt"
-train_tokenize:
-  model_prefix : 'cbengali_tokenizer'
-  model_type : 'unigram'
-  vocab_size : 91902
-training_model:
-  max_input_length : 256
-  max_output_length : 125
-  model_name : 'google/pegasus-large'
-  batch_size : 1
-  num_epochs : 1
-  learning_rate : 1e-4
-  accumulator_steps : 4
-  max_grad_norm : 1.0
-  early_stopping_patience : 3
-  patience_counter : 0

+output_file: "combined_text.txt"
+model_prefix : 'cbengali_tokenizer'
+model_type : 'unigram'
+vocab_size : 91902
+max_input_length : 256
+max_output_length : 125
+model_name : 'google/pegasus-large'
+batch_size : 1
+num_epochs : 1
+learning_rate : 1e-4
+accumulator_steps : 4
+max_grad_norm : 1.0
+early_stopping_patience : 3
+patience_counter : 0

src/benglasummarization/components/prepare_ben_token.py CHANGED Viewed

@@ -2,7 +2,7 @@ import pandas as pd
 from pathlib import Path
 from benglasummarization.logging import logger
 from tqdm.notebook import tqdm
-from src.benglasummarization.entity.config_entity import BanTokenizationConfig
 class BanTokenization:
     def __init__(self, config: BanTokenizationConfig):
         self.config = config

 from pathlib import Path
 from benglasummarization.logging import logger
 from tqdm.notebook import tqdm
+from benglasummarization.entity.config_entity import BanTokenizationConfig
 class BanTokenization:
     def __init__(self, config: BanTokenizationConfig):
         self.config = config

src/benglasummarization/config/configuration.py CHANGED Viewed

@@ -30,7 +30,7 @@ class ConfigurationManager:
     def get_ben_tokenization_config(self) -> BanTokenizationConfig:
         config = self.config.ban_tokenization
-        params = self.params.pre_tokenize
         create_directories([config.root_dir])
         ben_tokenization_config = BanTokenizationConfig(
@@ -45,7 +45,7 @@ class ConfigurationManager:
     def get_train_token_config(self) -> BanTokenTrainConfig:
         config = self.config.train_tokenize
-        params = self.params.train_tokenize
         create_directories([config.root_dir])
         train_token_config = BanTokenTrainConfig(
@@ -60,7 +60,7 @@ class ConfigurationManager:
     def get_model_trainer_config(self) -> ModelTrainingConfig:
         config = self.config.model_training
-        param = self.params.training_model
         create_directories([config.root_dir])
         model_trainer_config = ModelTrainingConfig(
             root_dir= config.root_dir,

     def get_ben_tokenization_config(self) -> BanTokenizationConfig:
         config = self.config.ban_tokenization
+        params = self.params
         create_directories([config.root_dir])
         ben_tokenization_config = BanTokenizationConfig(
     def get_train_token_config(self) -> BanTokenTrainConfig:
         config = self.config.train_tokenize
+        params = self.params
         create_directories([config.root_dir])
         train_token_config = BanTokenTrainConfig(
     def get_model_trainer_config(self) -> ModelTrainingConfig:
         config = self.config.model_training
+        param = self.params
         create_directories([config.root_dir])
         model_trainer_config = ModelTrainingConfig(
             root_dir= config.root_dir,