nicholasKluge
/

TeenyTinyLlama-160m-HateBR

@@ -12,6 +12,14 @@ tags:
 - hate-speech
 ---
 ## nicholasKluge/Teeny-tiny-llama-162m-hatebr
 | Epoch | Training Loss | Validation Loss | Accuracy |
@@ -20,12 +28,114 @@ tags:
 |   2   |    0.129100   |     0.371028     | 0.905714 |
 |   3   |    0.019300   |     0.428130     | 0.907143 |
-## bert-base-portuguese-cased-hatebr
 | Epoch | Training Loss | Validation Loss | Accuracy |
 |-------|---------------|------------------|----------|
-|   1   |    0.469500   |     0.529507     | 0.862143 |
-|   2   |    0.293200   |     0.383391     | 0.917857 |
-|   3   |    0.084900   |     0.429867     | 0.912857 |

 - hate-speech
 ---
+## bert-base-portuguese-cased-hatebr
+| Epoch | Training Loss | Validation Loss | Accuracy |
+|-------|---------------|------------------|----------|
+|   1   |    0.469500   |     0.529507     | 0.862143 |
+|   2   |    0.293200   |     0.383391     | 0.917857 |
+|   3   |    0.084900   |     0.429867     | 0.912857 |
 ## nicholasKluge/Teeny-tiny-llama-162m-hatebr
 | Epoch | Training Loss | Validation Loss | Accuracy |
 |   2   |    0.129100   |     0.371028     | 0.905714 |
 |   3   |    0.019300   |     0.428130     | 0.907143 |
+## gpt2-small-portuguese-hatebr
 | Epoch | Training Loss | Validation Loss | Accuracy |
 |-------|---------------|------------------|----------|
+|   1   |    0.475400   |     0.333722     | 0.864286 |
+|   2   |    0.338800   |     0.550519     | 0.852143 |
+|   3   |    0.207900   |     0.596878     | 0.874286 |
+```python
+# Hatebr
+! pip install transformers datasets evaluate accelerate -q
+import evaluate
+import numpy as np
+from huggingface_hub import login
+from datasets import load_dataset, Dataset, DatasetDict
+from transformers import AutoTokenizer, DataCollatorWithPadding
+from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer
+token="your_token"
+task="ruanchaves/hatebr"
+model_name="neuralmind/bert-large-portuguese-cased"
+output_dir="checkpoint"
+learning_rate=5e-5
+per_device_train_batch_size=4
+per_device_eval_batch_size=4
+num_train_epochs=3
+weight_decay=0.01
+evaluation_strategy="epoch"
+save_strategy="epoch"
+hub_model_id="nicholasKluge/gpt2-small-portuguese-hatebr"
+login(token=token)
+dataset = load_dataset(task)
+train = dataset['train'].to_pandas()
+train = train[['instagram_comments', 'offensive_language']]
+train.columns = ['text', 'labels']
+train.labels = train.labels.astype(int)
+train = Dataset.from_pandas(train)
+test = dataset['test'].to_pandas()
+test = test[['instagram_comments', 'offensive_language']]
+test.columns = ['text', 'labels']
+test.labels = test.labels.astype(int)
+test = Dataset.from_pandas(test)
+dataset = DatasetDict({
+    "train": train,
+    "test": test
+})
+model = AutoModelForSequenceClassification.from_pretrained(
+    model_name,
+    num_labels=2,
+    id2label={0: "NEGATIVE", 1: "POSITIVE"},
+    label2id={"NEGATIVE": 0, "POSITIVE": 1}
+)
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+#tokenizer.pad_token = tokenizer._eos_token
+#model.config.pad_token_id = model.config.eos_token_id
+def preprocess_function(examples):
+    return tokenizer(examples["text"], truncation=True)
+dataset_tokenized = dataset.map(preprocess_function, batched=True)
+data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
+accuracy = evaluate.load("accuracy")
+def compute_metrics(eval_pred):
+    predictions, labels = eval_pred
+    predictions = np.argmax(predictions, axis=1)
+    return accuracy.compute(predictions=predictions, references=labels)
+training_args = TrainingArguments(
+    output_dir=output_dir,
+    learning_rate=learning_rate,
+    per_device_train_batch_size=per_device_train_batch_size,
+    per_device_eval_batch_size=per_device_eval_batch_size,
+    num_train_epochs=num_train_epochs,
+    weight_decay=weight_decay,
+    evaluation_strategy=evaluation_strategy,
+    save_strategy=save_strategy,
+    load_best_model_at_end=True,
+    push_to_hub=False,
+    hub_token=token,
+    hub_private_repo=True,
+    hub_model_id=hub_model_id,
+    tf32=False,
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=dataset_tokenized["train"],
+    eval_dataset=dataset_tokenized["test"],
+    tokenizer=tokenizer,
+    data_collator=data_collator,
+    compute_metrics=compute_metrics,
+)
+trainer.train()
+```