farnazzeidi commited on
Commit
36757ab
·
verified ·
1 Parent(s): 1ab7627

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +101 -0
README.md ADDED
@@ -0,0 +1,101 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-sa-4.0
3
+ language:
4
+ - tr
5
+ pipeline_tag: text-classification
6
+ tags:
7
+ - legal
8
+ ---
9
+
10
+ # Multilable classification Model for Legal Texts
11
+
12
+ Released in January 2024, this is a Turkish BERT language model pretrained from scratch on an **optimized BERT architecture** using a 2 GB Turkish legal corpus. The corpus was sourced from legal-related thesis documents available in the Higher Education Board National Thesis Center (YÖKTEZ). The model has been fine-tuned for multi-label classification tasks using human-annotated datasets provided by **NewMind**, a legal tech company based in Istanbul, Turkey.
13
+
14
+ ---
15
+
16
+ ## Overview
17
+ - **Preprint Paper**: [https://arxiv.org/abs/2407.00648](https://arxiv.org/abs/2407.00648)
18
+ - **Architecture**: Optimized BERT Base
19
+ - **Language**: Turkish
20
+ - **Supported Labels**:
21
+ Supported Labels:
22
+
23
+ A total of 31 legal-specific labels such as Vergiler (Taxes) and Sözleşme_Bedeli (Contract Price).
24
+
25
+ Full list of labels:
26
+ 'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme', 'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği', 'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler', 'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta', 'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı', 'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli', 'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'.
27
+
28
+ **Model Name**: LegalLTurk Optimized BERT
29
+
30
+ ---
31
+
32
+ ## How to Use
33
+
34
+ ### Use a pipeline as a high-level helper
35
+ ```python
36
+ from transformers import pipeline
37
+
38
+ # Define label list
39
+ label_list = [
40
+ 'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme',
41
+ 'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği',
42
+ 'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler',
43
+ 'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta',
44
+ 'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı',
45
+ 'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli',
46
+ 'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'
47
+ ]
48
+
49
+ # Load model
50
+ model = pipeline("text-classification", model="farnazzeidi/multilabel-legalturk-bert-model", return_all_scores=True)
51
+
52
+ # Predict
53
+ text = ["Her daire için aylık 5 TL + KDV ücret, SITE YÖNETIMI'ne e-posta ile gönderilecektir."]
54
+ predictions = model(text)
55
+
56
+ # Display results
57
+ for i, pred in enumerate(predictions[0]):
58
+ print(f"Label: {label_list[i]}, Score: {pred['score']:.4f}")
59
+
60
+ ```
61
+
62
+
63
+ ### Load model directly
64
+ ```python
65
+ # Load model and tokenizer
66
+ tokenizer = AutoTokenizer.from_pretrained("farnazzeidi/multilabel-legalturk-bert-model")
67
+ model = AutoModelForSequenceClassification.from_pretrained("farnazzeidi/multilabel-legalturk-bert-model")
68
+
69
+ # Define label list
70
+ label_list = [
71
+ 'Başlık', 'Ceza_Ödeme_Yükümlülükleri', 'Devir_ve_Temlik', 'Fesih_ve_Sona_Erme',
72
+ 'Gizlilik', 'Sorumsuzluk_Kaydı', 'Tazminat', 'Mücbir_Sebep', 'Kontrol_Değişikliği',
73
+ 'Kişisel_Verilerin_Korunması', 'FSM_Hak_ve_Yükümlülükleri', 'Feragat', 'Masraf_ve_Giderler',
74
+ 'Vergiler', 'Münhasırlık_ve_Özgüleme', 'Uyarlama_Kaydı', 'Rekabet_Yasağı', 'Sigorta',
75
+ 'Teminat_Kaydı', 'Uygulanacak_Hukuk', 'Uyuşmazlıkların_Çözümü', 'Ödeme', 'Takyidat_Kaydı',
76
+ 'Hiyerarşi_Kaydı', 'Bildirim_Yükümlülüğü', 'İzin_ve_Onaylar', 'Sözleşme_Bedeli',
77
+ 'Teminat_Bedeli', 'Sona_Ermeyen_Hüküm_Kaydı', 'Yenileme', 'Other'
78
+ ]
79
+
80
+ # Predict
81
+ text = ["Her daire için aylık 5 TL + KDV ücret, SITE YÖNETIMI'ne e-posta ile gönderilecektir."]
82
+ inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
83
+ outputs = model(**inputs)
84
+
85
+ # Process results
86
+ probabilities = torch.sigmoid(outputs.logits)
87
+ for i, prob in enumerate(probabilities[0]):
88
+ print(f"Label: {label_list[i]}, Probability: {prob.item():.4f}")
89
+
90
+ ```
91
+ ---
92
+ # Authors
93
+ Farnaz Zeidi, Mehmet Fatih Amasyali, Çigdem Erol
94
+
95
+ ---
96
+
97
+ ## License
98
+ This model is shared under the [CC BY-NC-SA 4.0 License](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en).
99
+ You are free to use, share, and adapt the model for non-commercial purposes, provided that you give appropriate credit to the authors.
100
+
101
+ For commercial use, please contact [[email protected]].