Spaces:

nileshhanotia
/

PeVe_mistral

Sleeping

nileshhanotia commited on Sep 10

Commit

59782fa

•

1 Parent(s): c8ab462

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,12 +1,13 @@
 import os
 import json
 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import Dataset
 import torch
 from huggingface_hub import Repository, HfFolder
 import subprocess
-from sklearn.model_selection import train_test_split
 # Authenticate Hugging Face Hub
 hf_token = st.secrets["HF_TOKEN"]
@@ -33,6 +34,19 @@ def load_data(file_path):
         st.error(f"Error loading dataset: {str(e)}")
         return None
 @st.cache_resource
 def initialize_model_and_tokenizer(model_name, num_labels):
     try:
@@ -60,6 +74,11 @@ def create_dataset(data, tokenizer, max_length):
     })
     return dataset
 def main():
     st.title("Appointment Classification Model Training")
@@ -88,7 +107,7 @@ def main():
     st.write("Preparing dataset...")
     # Split the data into train and evaluation sets
-    train_data, eval_data = train_test_split(data, test_size=0.2, random_state=42)
     train_dataset = create_dataset(train_data, tokenizer, max_length)
     eval_dataset = create_dataset(eval_data, tokenizer, max_length)

 import os
 import json
+import random
 import streamlit as st
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 from datasets import Dataset
 import torch
 from huggingface_hub import Repository, HfFolder
 import subprocess
 # Authenticate Hugging Face Hub
 hf_token = st.secrets["HF_TOKEN"]
         st.error(f"Error loading dataset: {str(e)}")
         return None
+@st.cache_data
+def load_data(file_path):
+    if not os.path.exists(file_path):
+        st.error(f"File not found: {file_path}")
+        return None
+    try:
+        with open(file_path, 'r') as f:
+            data = json.load(f)
+        return data
+    except Exception as e:
+        st.error(f"Error loading dataset: {str(e)}")
+        return None
 @st.cache_resource
 def initialize_model_and_tokenizer(model_name, num_labels):
     try:
     })
     return dataset
+def split_data(data, test_size=0.2):
+    random.shuffle(data)
+    split_index = int(len(data) * (1 - test_size))
+    return data[:split_index], data[split_index:]
 def main():
     st.title("Appointment Classification Model Training")
     st.write("Preparing dataset...")
     # Split the data into train and evaluation sets
+    train_data, eval_data = split_data(data)
     train_dataset = create_dataset(train_data, tokenizer, max_length)
     eval_dataset = create_dataset(eval_data, tokenizer, max_length)