Create README.md
Browse files
README.md
ADDED
@@ -0,0 +1,101 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
license: cc-by-nc-sa-4.0
|
3 |
+
language:
|
4 |
+
- tr
|
5 |
+
pipeline_tag: text-classification
|
6 |
+
tags:
|
7 |
+
- legal
|
8 |
+
---
|
9 |
+
|
10 |
+
# Multilable classification Model for Legal Texts
|
11 |
+
|
12 |
+
Released in January 2024, this is a Turkish BERT language model pretrained from scratch on an **optimized BERT architecture** using a 2 GB Turkish legal corpus. The corpus was sourced from legal-related thesis documents available in the Higher Education Board National Thesis Center (YÖKTEZ). The model has been fine-tuned for multi-label classification tasks using human-annotated datasets provided by **NewMind**, a legal tech company based in Istanbul, Turkey.
|
13 |
+
|
14 |
+
---
|
15 |
+
|
16 |
+
## Overview
|
17 |
+
- **Preprint Paper**: [https://arxiv.org/abs/2407.00648](https://arxiv.org/abs/2407.00648)
|
18 |
+
- **Architecture**: Optimized BERT Base
|
19 |
+
- **Language**: Turkish
|
20 |
+
- **Supported Labels**:
|
21 |
+
Supported Labels:
|
22 |
+
|
23 |
+
A total of 31 legal-specific labels such as Vergiler (Taxes) and Sözleşme_Bedeli (Contract Price).
|
24 |
+
|
25 |
+
Full list of labels:
|
26 |
+
'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme', 'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği', 'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler', 'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta', 'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı', 'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli', 'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'.
|
27 |
+
|
28 |
+
**Model Name**: LegalLTurk Optimized BERT
|
29 |
+
|
30 |
+
---
|
31 |
+
|
32 |
+
## How to Use
|
33 |
+
|
34 |
+
### Use a pipeline as a high-level helper
|
35 |
+
```python
|
36 |
+
from transformers import pipeline
|
37 |
+
|
38 |
+
# Define label list
|
39 |
+
label_list = [
|
40 |
+
'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme',
|
41 |
+
'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği',
|
42 |
+
'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler',
|
43 |
+
'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta',
|
44 |
+
'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı',
|
45 |
+
'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli',
|
46 |
+
'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'
|
47 |
+
]
|
48 |
+
|
49 |
+
# Load model
|
50 |
+
model = pipeline("text-classification", model="farnazzeidi/multilabel-legalturk-bert-model", return_all_scores=True)
|
51 |
+
|
52 |
+
# Predict
|
53 |
+
text = ["Her daire için aylık 5 TL + KDV ücret, SITE YÖNETIMI'ne e-posta ile gönderilecektir."]
|
54 |
+
predictions = model(text)
|
55 |
+
|
56 |
+
# Display results
|
57 |
+
for i, pred in enumerate(predictions[0]):
|
58 |
+
print(f"Label: {label_list[i]}, Score: {pred['score']:.4f}")
|
59 |
+
|
60 |
+
```
|
61 |
+
|
62 |
+
|
63 |
+
### Load model directly
|
64 |
+
```python
|
65 |
+
# Load model and tokenizer
|
66 |
+
tokenizer = AutoTokenizer.from_pretrained("farnazzeidi/multilabel-legalturk-bert-model")
|
67 |
+
model = AutoModelForSequenceClassification.from_pretrained("farnazzeidi/multilabel-legalturk-bert-model")
|
68 |
+
|
69 |
+
# Define label list
|
70 |
+
label_list = [
|
71 |
+
'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme',
|
72 |
+
'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği',
|
73 |
+
'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler',
|
74 |
+
'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta',
|
75 |
+
'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı',
|
76 |
+
'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli',
|
77 |
+
'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'
|
78 |
+
]
|
79 |
+
|
80 |
+
# Predict
|
81 |
+
text = ["Her daire için aylık 5 TL + KDV ücret, SITE YÖNETIMI'ne e-posta ile gönderilecektir."]
|
82 |
+
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
|
83 |
+
outputs = model(**inputs)
|
84 |
+
|
85 |
+
# Process results
|
86 |
+
probabilities = torch.sigmoid(outputs.logits)
|
87 |
+
for i, prob in enumerate(probabilities[0]):
|
88 |
+
print(f"Label: {label_list[i]}, Probability: {prob.item():.4f}")
|
89 |
+
|
90 |
+
```
|
91 |
+
---
|
92 |
+
# Authors
|
93 |
+
Farnaz Zeidi, Mehmet Fatih Amasyali, Çigdem Erol
|
94 |
+
|
95 |
+
---
|
96 |
+
|
97 |
+
## License
|
98 |
+
This model is shared under the [CC BY-NC-SA 4.0 License](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en).
|
99 |
+
You are free to use, share, and adapt the model for non-commercial purposes, provided that you give appropriate credit to the authors.
|
100 |
+
|
101 |
+
For commercial use, please contact [[email protected]].
|