Add new SentenceTransformer model.
Browse files- 1_Pooling/config.json +10 -0
- README.md +455 -0
- config.json +25 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +7 -0
- tokenizer.json +0 -0
- tokenizer_config.json +57 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,455 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
language: []
|
3 |
+
library_name: sentence-transformers
|
4 |
+
tags:
|
5 |
+
- sentence-transformers
|
6 |
+
- sentence-similarity
|
7 |
+
- feature-extraction
|
8 |
+
- generated_from_trainer
|
9 |
+
- dataset_size:96546
|
10 |
+
- loss:SoftmaxLoss
|
11 |
+
base_model: HooshvareLab/bert-base-parsbert-uncased
|
12 |
+
datasets: []
|
13 |
+
widget:
|
14 |
+
- source_sentence: 'اگرچه در آکادمی هفت جایزه دیگر نیز وجود دارد (جایزه یادبود ایروینگ
|
15 |
+
جی. تالبرگ، جایزه بشردوستانه ژان هرشولت، جایزه گوردون ای. سایر، جایزه علمی و مهندسی،
|
16 |
+
جایزه علمی و فنی آکادمی، جایزه اسکار بهترین دستاورد فنی، مدال تقدیر جان ای. بونر
|
17 |
+
و جایزه دانش آموزی و همچنین دو جایزه افتخاری که در سال ارائه میشود، اما مشهورترین
|
18 |
+
آنها جایزه شایستگی آکادمی بوده که بیشتر به تندیس اسکار معروف است. این تندیس
|
19 |
+
که از فلز برنز آب طلاکاری شده بر روی یک پایه فلزی سیاه ساخته شده دارای بلندی
|
20 |
+
۱۳٫۵ اینچ (معادل ۳۴ سانتیمتر) و وزن ۸٫۵ پوند (معادل ۳٫۸۵ کیلوگرم) است و شوالیهای
|
21 |
+
را نشان میدهد که شمشیر مبارزان جنگ صلیبی را در دست گرفته و بر روی یک حلقه فیلم
|
22 |
+
ایستاده و پنج حوزه فیلم را نشان میدهد که هر کدام نشانگر بخشهای اصلی آکادمی
|
23 |
+
هستند: بازیگر، نویسنده، کارگردان، تهیهکننده و تکنسین.'
|
24 |
+
sentences:
|
25 |
+
- کعبهٔ زرتشت دقیقاً روبهروی آرامگاه کدام پادشاه قرار دارد؟
|
26 |
+
- تندیس اسکار از چه چیزی ساخته شده است؟
|
27 |
+
- هشتمین آلبوم گروه ریدیوهِد چه نام داشت؟
|
28 |
+
- source_sentence: 'بنیتو آمیلکاره آندره آ موسولینی (نام کامل به ایتالیایی: Benito
|
29 |
+
Amilcare Andrea Mussolini) (زاده ۲۹ ژوئیه ۱۸۸۳ - درگذشته ۲۸ آوریل ۱۹۴۵) نخستوزیر
|
30 |
+
پادشاهی ایتالیا از زمان به قدرت رسیدن فاشیستها در اکتبر ۱۹۲۲ تا ۱۹۴۳، و رهبر جمهوری
|
31 |
+
اجتماعی ایتالیا از این سال تا اعدام شدن در ۱۹۴۵ بود. به عنوان یک روزنامهنگار
|
32 |
+
و سیاستمدار، موسولینی عضو پیشروی هیئت ملی حزب سوسیالیست ایتالیا (PSI) از ۱۹۱۰
|
33 |
+
تا ۱۹۱۴ بود، اما به خاطر طرفداری از مداخله نظامی در جنگ اول جهانی بر خلاف رویکرد
|
34 |
+
بیطرفی PSI، از PSI اخراج گردید. موسولینی در طول جنگ در ارتش پادشاهی ایتالیا خدمت
|
35 |
+
نمود تا این که در ۱۹۱۷ زخمی و مرخص شد. اما موسولینی PSI را محکوم نمود، دیدگاههای
|
36 |
+
وی حالا بر محور میهنپرستی متمرکز شده بودند نه سوسیالیسم، و بعدها جنبش فاشیسم
|
37 |
+
را پایه گذاشت که با مساواتخواهی و جنگ طبقاتی به ستیز برخاست. در نتیجهٔ راهپیمایی
|
38 |
+
به سوی رم در اکتبر ۱۹۲۲، موسولینی بدل به جوانترین نخستوزیر ایتالیا تا آن زمان
|
39 |
+
شد. پس از به در کردن تمامی مخالفتهای سیاسی از طریق پلیس مخفی اش و منع اعتصابات
|
40 |
+
کارگری، موسولینی و مریدان وی از طریق یک سری قوانین که ملت را به حالت تک حزبی سوق
|
41 |
+
دادند، قدرت خود را استوار ساختند. در پنج سال، موسولینی قدرتی هم به وسیلهٔ اقدامات
|
42 |
+
قانونی و هم غیر معمول بنا کرد و تشنهٔ ایجاد یک دولت تمامیتخواه (توتالیتر) شد.
|
43 |
+
موسولینی در ۱۹۲۹ پیمان لاتران با واتیکان را امضاء نمود تا به دههها ستیزش بین
|
44 |
+
دولت ایتالیا و پاپ پایان دهد و بدین طریق استقلال شهر واتیکان را به رسمیت شناخت.'
|
45 |
+
sentences:
|
46 |
+
- ضرورت پیدایش جامعه ریشه در چه دارد؟
|
47 |
+
- سریال چرنوبیل در رتبه چندم بانک اطلاعات اینترنتی فیلمها قرار داشت؟
|
48 |
+
- بنیتوموسولینی در چه تاریخی متولد شدهاست؟
|
49 |
+
- source_sentence: در سال ۱۹۱۸ میلادی، بالفور برای اولین بار کمیتهای را جهت ارائهٔ
|
50 |
+
گزارش رسمی در مورد چنین سازمانی تشکیل داد. اعضای این کمیته، که با ابتکار لرد رابرت
|
51 |
+
سیسیل و به رهبری والتر فیلیمور تشکیل شد (و ازینرو «کمیتهٔ فیلیمور» نامگرفت)
|
52 |
+
شامل ایر کرو، ویلیام تایرل و سیسیل هرست (که همه از مقامات وزارت امور خارجهٔ بریتانیا
|
53 |
+
بودند) میشد. این کمیته توصیه کرد که «کنفرانسی از کشورهای متّحد جهت حکمیّت بین
|
54 |
+
کشورها و تحریم کشورهای متخلف» تأسیس شود. پیشنهادهای این کمیسیون در دولت بریتانیا
|
55 |
+
تصویب شد و بخش عمدهای از آن بعدها در میثاق جامعهٔ ملل آورده شد. در ژوئن همان
|
56 |
+
سال، فرانسه پیشنهادی پردامنهتر از گزارش کمیتهٔ فیلیمور ارائه کرد که در آن پیشنهاد
|
57 |
+
ایجاد کنفرانسهای سالانهٔ بینالمللی جهت حلوفصل همهٔ اختلافات و تأسیس یک ارتش
|
58 |
+
بینالمللی جهت اجرای تصمیمات آن شورا گنجانده شده بود.
|
59 |
+
sentences:
|
60 |
+
- در سال ۲۰۰۶ و در یک مطالعه ارتباط ژنتیکی بیش از چند ژن دخیل در ابتلا به آسم شناسایی
|
61 |
+
شد؛ و همچنان این تعداد رو به افزایش است؟
|
62 |
+
- در غرب لاهیجان، کدام گسل بهطور شمال خاوری - جنوب باختری گسل البرز را جابهجا
|
63 |
+
کردهاست؟
|
64 |
+
- بنجامین فرانکلین در چه سالی مؤسسهٔ انتشاراتیِ خود را ترک کرد؟
|
65 |
+
- source_sentence: بین ۱۹۲۵ و ۱۹۲۷، موسولینی تقریباً تمامی حد و مرزهای قانونی و قراردادی
|
66 |
+
که ایجاد محدودیت برای قدرتش مینمود را برداشت و دولتی پلیسی به وجود آورد. قانونی
|
67 |
+
به نام Christmas Eve law که در ۲۴ دسامبر ۱۹۲۵ از تصویب گذرانده شد، عنوان رسمی
|
68 |
+
موسولینی را از «رئیس شورای وزیران» به «رئیس حکومت» تغییر داد، هرچند در بیشتر
|
69 |
+
منابع خبری غیر ایتالیایی هنوز «نخستوزیر» نامیده میشد. اکنون دیگر نه در برابر
|
70 |
+
مجلس بلکه تنها در برابر پادشاه پاسخگو بود. هرچند قانون اساسی ایتالیا بیان داشته
|
71 |
+
بود که وزیران تنها به اقتدار عالیه (شاه) پاسخگو بودند، عملاً حکومت کردن بر خلاف
|
72 |
+
ارادهٔ مقننه تقریباً غیرممکن شده بود. اما این لایحه به این روند پایان داد و همچنین
|
73 |
+
موسولینی را به تنها شخصی که قادر به دیکته کردن دستور جلسات بود، تبدیل نمود. لایحه
|
74 |
+
Christmas Eve law ساختار حکومت موسولینی را به دیکتاتوری دو فاکتوی قانونی تبدیل
|
75 |
+
کرد. خودمختاریهای محلی منحل و پودستاهای منصوب از جانب سنای ایتالیا جای شهرداران
|
76 |
+
و شوراهای شهر را گرفتند.
|
77 |
+
sentences:
|
78 |
+
- طبق تصویب قانونی در ۲۴ دسامبر ۱۹۲۵ عنوان رسمی موسولینی چه تغییری کرد؟
|
79 |
+
- ماندلا در چه سالی از زندان آزاد شد؟
|
80 |
+
- مِدراشیم چیست؟
|
81 |
+
- source_sentence: پرتغالی، در وطن اصلی خود، پرتغال، تقریباً توسط ۱۰ میلیون نفر جمعیت
|
82 |
+
صحبت میشود. پرتغالی همچنین به عنوان زبان رسمی برزیل، بیش از ۲۰۰ میلیون نفر در
|
83 |
+
آن کشور و همچنین کشورهای همسایه، در شرق پاراگوئه و در شمال اروگوئه، سخنگو دارد،
|
84 |
+
که کمی بیش از نیمی از جمعیت آمریکای جنوبی را تشکیل میدهند؛ بنابراین پرتغالی
|
85 |
+
پرسخنگوترین زبان رسمی رومی در یک کشور واحد است. این زبان در شش کشور آفریقایی
|
86 |
+
زبان رسمی است (آنگولا، دماغه سبز، گینه بیسائو، موزامبیک، گینه استوایی و سائوتومه
|
87 |
+
و پرنسیپ) و توسط ۳۰ میلیون نفر از ساکنان آن قاره به عنوان زبان نخست گویش میشود.
|
88 |
+
در آسیا، پرتغالی با سایر زبانها در تیمور شرقی و ماکائو رسمی است، در حالی که
|
89 |
+
بیشتر پرتغالیزبانان در آسیا - حدود ۴۰۰٫۰۰۰ نفر - به دلیل بازگشت مهاجرت ژاپنیهای
|
90 |
+
��رزیل ساکن ژاپن هستند. در آمریکای شمالی ۱٫۰۰۰٫۰۰۰ نفر به پرتغالی به عنوان زبان
|
91 |
+
نخست خود صحبت میکنند. پرتغالی در اقیانوسیه به دلیل شمار سخنگویانش در تیمور شرقی،
|
92 |
+
پس از فرانسوی، دومین زبان رومی است که بیش از همه گویش میشود. نزدیکترین خویشاوند
|
93 |
+
آن، گالیسی، دارای وضعیت رسمی در جامعه خودمختار گالیسیا در اسپانیا، همراه با اسپانیایی
|
94 |
+
است.
|
95 |
+
sentences:
|
96 |
+
- نام پسر عثمان یکم چه بود؟
|
97 |
+
- عباس جدیدی که بود؟
|
98 |
+
- در حدود اواخر کدام قرن پیش از میلاد سکاهای کوچنشین در مرزهای شرقی اشکانیان پیشروی
|
99 |
+
کردند؟
|
100 |
+
pipeline_tag: sentence-similarity
|
101 |
+
---
|
102 |
+
|
103 |
+
# SentenceTransformer based on HooshvareLab/bert-base-parsbert-uncased
|
104 |
+
|
105 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [HooshvareLab/bert-base-parsbert-uncased](https://huggingface.co/HooshvareLab/bert-base-parsbert-uncased). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
106 |
+
|
107 |
+
## Model Details
|
108 |
+
|
109 |
+
### Model Description
|
110 |
+
- **Model Type:** Sentence Transformer
|
111 |
+
- **Base model:** [HooshvareLab/bert-base-parsbert-uncased](https://huggingface.co/HooshvareLab/bert-base-parsbert-uncased) <!-- at revision d73a0e2c7492c33bd5819bcdb23eba207404dd19 -->
|
112 |
+
- **Maximum Sequence Length:** 512 tokens
|
113 |
+
- **Output Dimensionality:** 768 tokens
|
114 |
+
- **Similarity Function:** Cosine Similarity
|
115 |
+
<!-- - **Training Dataset:** Unknown -->
|
116 |
+
<!-- - **Language:** Unknown -->
|
117 |
+
<!-- - **License:** Unknown -->
|
118 |
+
|
119 |
+
### Model Sources
|
120 |
+
|
121 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
122 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
123 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
124 |
+
|
125 |
+
### Full Model Architecture
|
126 |
+
|
127 |
+
```
|
128 |
+
SentenceTransformer(
|
129 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
|
130 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
131 |
+
)
|
132 |
+
```
|
133 |
+
|
134 |
+
## Usage
|
135 |
+
|
136 |
+
### Direct Usage (Sentence Transformers)
|
137 |
+
|
138 |
+
First install the Sentence Transformers library:
|
139 |
+
|
140 |
+
```bash
|
141 |
+
pip install -U sentence-transformers
|
142 |
+
```
|
143 |
+
|
144 |
+
Then you can load this model and run inference.
|
145 |
+
```python
|
146 |
+
from sentence_transformers import SentenceTransformer
|
147 |
+
|
148 |
+
# Download from the 🤗 Hub
|
149 |
+
model = SentenceTransformer("myrkur/sentence-transformer-parsbert-fa")
|
150 |
+
# Run inference
|
151 |
+
sentences = [
|
152 |
+
'پرتغالی، در وطن اصلی خود، پرتغال، تقریباً توسط ۱۰ میلیون نفر جمعیت صحبت می\u200cشود. پرتغالی همچنین به عنوان زبان رسمی برزیل، بیش از ۲۰۰ میلیون نفر در آن کشور و همچنین کشورهای همسایه، در شرق پاراگوئه و در شمال اروگوئه، سخنگو دارد، که کمی بیش از نیمی از جمعیت آمریکای جنوبی را تشکیل می\u200cدهند؛ بنابراین پرتغالی پرسخنگوترین زبان رسمی رومی در یک کشور واحد است. این زبان در شش کشور آفریقایی زبان رسمی است (آنگولا، دماغه سبز، گینه بیسائو، موزامبیک، گینه استوایی و سائوتومه و پرنسیپ) و توسط ۳۰ میلیون نفر از ساکنان آن قاره به عنوان زبان نخست گویش می\u200cشود. در آسیا، پرتغالی با سایر زبان\u200cها در تیمور شرقی و ماکائو رسمی است، در حالی که بیشتر پرتغالی\u200cزبانان در آسیا - حدود ۴۰۰٫۰۰۰ نفر - به دلیل بازگشت مهاجرت ژاپنی\u200cهای برزیل ساکن ژاپن هستند. در آمریکای شمالی ۱٫۰۰۰٫۰۰۰ نفر به پرتغالی به عنوان زبان نخست خود صحبت می\u200cکنند. پرتغالی در اقیانوسیه به دلیل شمار سخنگویانش در تیمور شرقی، پس از فرانسوی، دومین زبان رومی است که بیش از همه گویش می\u200cشود. نزدیکترین خویشاوند آن، گالیسی، دارای وضعیت رسمی در جامعه خودمختار گالیسیا در اسپانیا، همراه با اسپانیایی ا��ت.',
|
153 |
+
'در حدود اواخر کدام قرن پیش از میلاد سکاهای کوچ\u200cنشین در مرزهای شرقی اشکانیان پیشروی کردند؟',
|
154 |
+
'عباس جدیدی که بود؟',
|
155 |
+
]
|
156 |
+
embeddings = model.encode(sentences)
|
157 |
+
print(embeddings.shape)
|
158 |
+
# [3, 768]
|
159 |
+
|
160 |
+
# Get the similarity scores for the embeddings
|
161 |
+
similarities = model.similarity(embeddings, embeddings)
|
162 |
+
print(similarities.shape)
|
163 |
+
# [3, 3]
|
164 |
+
```
|
165 |
+
|
166 |
+
<!--
|
167 |
+
### Direct Usage (Transformers)
|
168 |
+
|
169 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
170 |
+
|
171 |
+
</details>
|
172 |
+
-->
|
173 |
+
|
174 |
+
<!--
|
175 |
+
### Downstream Usage (Sentence Transformers)
|
176 |
+
|
177 |
+
You can finetune this model on your own dataset.
|
178 |
+
|
179 |
+
<details><summary>Click to expand</summary>
|
180 |
+
|
181 |
+
</details>
|
182 |
+
-->
|
183 |
+
|
184 |
+
<!--
|
185 |
+
### Out-of-Scope Use
|
186 |
+
|
187 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
188 |
+
-->
|
189 |
+
|
190 |
+
<!--
|
191 |
+
## Bias, Risks and Limitations
|
192 |
+
|
193 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
194 |
+
-->
|
195 |
+
|
196 |
+
<!--
|
197 |
+
### Recommendations
|
198 |
+
|
199 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
200 |
+
-->
|
201 |
+
|
202 |
+
## Training Details
|
203 |
+
|
204 |
+
### Training Dataset
|
205 |
+
|
206 |
+
#### Unnamed Dataset
|
207 |
+
|
208 |
+
|
209 |
+
* Size: 96,546 training samples
|
210 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>label</code>
|
211 |
+
* Approximate statistics based on the first 1000 samples:
|
212 |
+
| | anchor | positive | label |
|
213 |
+
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
214 |
+
| type | string | string | int |
|
215 |
+
| details | <ul><li>min: 14 tokens</li><li>mean: 151.98 tokens</li><li>max: 283 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 15.24 tokens</li><li>max: 90 tokens</li></ul> | <ul><li>0: ~50.50%</li><li>1: ~49.50%</li></ul> |
|
216 |
+
* Samples:
|
217 |
+
| anchor | positive | label |
|
218 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------|:---------------|
|
219 |
+
| <code>پاستل یک محیط نقاشی به شکل چوب است که از رنگدانههای پودری خالص و چسب تشکیل شدهاست. رنگدانههای مورد استفاده در پاستل همانهایی هستند که برای تولید همه محیطهای هنری رنگی از جمله رنگ روغن استفاده میشود. چسب دارای رنگ خنثی و اشباع کم است. اثر رنگی پاستیل بیش از هر فرایند به رنگدانههای خشک طبیعی نزدیکتر است. از آنجا که سطح یک نقاشی پاستلی شکننده است و به راحتی لکه دار میشود، حفظ آن نیاز به اقدامات محافظتی مانند قاببندی زیر شیشه دارد. همچنین ممکن است با ماده ثابت کننده اسپری شود. با این وجود، وقتی با رنگدانههای دائمی ساخته میشود و از آنها به درستی مراقبت میشود، ممکن است نقاشی پاستلی قرنها بدون تغییر باقی بماند. پاستلها، همانطور که نقاشیهای ساخته شده با یک محیط مایع، در برابر ترک خوردگی و تغییر رنگ که در اثر تغییر در رنگ، تیرگی یا ابعاد محیط خشک میشود، حساس نیستند.</code> | <code>پاستل از چه چیزهایی تشکیل شده است؟</code> | <code>1</code> |
|
220 |
+
| <code>یک روش تغذیه و زندگی است که هدف آن حذف هر نوع محصول حیوانی چه در غذا و چه در مواد مصرفی است. مهمترین دلایل گرایش به وگانیسم افراد، مسائل اخلاقی یا رعایت حقوق حیوانات، حفاظت محیط زیست، حفظ سلامتی، مسائل معنوی یا مذهبی است. بسیاری از افراد وگان با پرورش صنعتی حیوانات و آزمایش روی حیوانات مخالف هستند. از مهمترین محصولات حیوانی که پاک گیاهخواران یا وگانها از مصرف آنها خودداری میکنند میتوان به انواع گوشت (گوشت قرمز، مرغ، آبزیان، ماکیان و...)، لبنیات، تخممرغ، عسل، ابریشم، چرم، خز، و... و نیز محصولاتی که در آنها از فراوردههای حیوانی (مانند ژله که از ژلاتین بهدست میآید) استفاده شدهاست اشاره کرد.</code> | <code>گیاهخواری چه روشی است؟</code> | <code>1</code> |
|
221 |
+
| <code>اسبهای سنگین با اندامی عضلانی را به عنوان «اسبهای خونسرد» میشناسند. آنها را به دلیل توان ماهیچهای و خوی آرام و صبورشان پرورش میدهند. مردم با کمک آنها بارهای سنگین را جابجا میکردند. گاهی به این اسبهای «غولهای نجیب» هم گفته میشود. از جمله اسبهای باری میتوان به نژاد بلژیکی و کلایدزدیل اشاره کرد. برخی از این اسبها مانند پرچرون سبکتر و چابک ترند و درکشیدن بار یا شخم زدن زمین در اقلیم خشک به کار میآیند. دیگران مانند شایر آرامتر و نیرومندترند و برای شخم زدن خاکهای رسی کاربرد دارند. برخی اسبچهها هم در دستهٔ خونسردها جای میگیرند.</code> | <code>اسبهای سنگین با اندامی عضلانی را چه مینامند؟</code> | <code>1</code> |
|
222 |
+
* Loss: [<code>SoftmaxLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#softmaxloss)
|
223 |
+
|
224 |
+
### Evaluation Dataset
|
225 |
+
|
226 |
+
#### Unnamed Dataset
|
227 |
+
|
228 |
+
|
229 |
+
* Size: 11,990 evaluation samples
|
230 |
+
* Columns: <code>anchor</code>, <code>positive</code>, and <code>label</code>
|
231 |
+
* Approximate statistics based on the first 1000 samples:
|
232 |
+
| | anchor | positive | label |
|
233 |
+
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:------------------------------------------------|
|
234 |
+
| type | string | string | int |
|
235 |
+
| details | <ul><li>min: 41 tokens</li><li>mean: 146.59 tokens</li><li>max: 297 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 15.28 tokens</li><li>max: 48 tokens</li></ul> | <ul><li>0: ~47.90%</li><li>1: ~52.10%</li></ul> |
|
236 |
+
* Samples:
|
237 |
+
| anchor | positive | label |
|
238 |
+
|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------|:---------------|
|
239 |
+
| <code>بدنهٔ اسکلتی یا خرپا (Truss) در هواپیماهای اولیه تا جنگ جهانی اول بسیار استفاده میشد. هماکنون در هواپیماهای دستساز و نیز هواپیماهای مدل از این نوع بدنه استفاده زیادی میشود چرا که ساده، سبک و مقاوم بوده و با تیرکهای چوبی قابل ساخت هستند. در این نوع بدنه اغلب نیروها و تنشهای وارده توسط سازه اصلی تحمل شده و از پوسته برای ایجاد شکل آیرودینامیکی به سازه استفاده میشود. سازهٔ اصلی از تیرکهای طولی، تیرکهای مورب، قابهای عرضی و کابلهای نگهدارنده تشکیل شدهاست. برادران رایت که اولین هواپیماهای قابل کنترل را ساختند از این حالت در ساختار بدنهٔ هواپیماهایشان استفاده میکردند.</code> | <code>در چه انتخاباتی یک نامزد نیاز به بیست درصد آرا دارد تا انتخابشدن وی تضمین شود؟</code> | <code>0</code> |
|
240 |
+
| <code>شاید بتوان گفت این موضوع بر میگردد به ریشه زبان بلوچی که برگرفته از زبان پهلوی اشکانی و ساسانی میباشد. از آنجا که زبان پهلوی با دگرگونیهایی به زبان فارسی نو (امروزی) تبدیل شدهاست ویکی از این دگرگونیها حذف (گ) از برخی کلمات میباشد میتوان اینگونه بیان کرد که حرف گ و برخی حروف غیر عربی در زبان بلوچی خالص باقی مانده اما در زبان فارسی امروز گ از برخی کلمات حذف شده و دگرگون شدهاست؛ یعنی زبان بلوچی، "گ " اوستا را که در پازند و فارسی به "های " غیر ملفوظ تبدیل شده، مانند زبان پهلوی به صور ت "گ " و گاهی همان "ک " نگهداشته است. مثالهای دیگر از دگرگونی حروف زبان باستان در فارسی نو اما ثابت ماندن آنها در کلمات بلوچی در زیر آمدهاست:</code> | <code>در چه سالی هگل برای ادامهٔ تحصیل به دبیرستان ایلوستره رفت؟</code> | <code>0</code> |
|
241 |
+
| <code>خرطوم فیلها حاصل اتصال بینی و لب بالایی است. این عضو، استخوان ندارد و دارای مقدار کمی چربی و حدود ۱۵۰۰۰۰ دسته ماهیچهای است. یک یا دو لب انگشت در نوک آن وجود دارد. خرطوم این پستاندار تقریباً ۱٫۸ متر رشد میکند و وزنی حدود ۱۴۰ کیلوگرم دارد. این جانوران از خرطوم دراز خود به عنوان دست استفاده میکنند و با آن غذا و آب را در دهان خود میگذارند. فیلها با استفاده از خرطوم خود میتوانند حداکثر تا ۳۵۰کیلوگرم بار را برداشته و جابجا کنند. از دیگر کاربردهای خرطوم فیلها احساس بویایی و همچنین تولید صدا است.</code> | <code>فیلها از خرطوم دراز خود به عنوان چه چیزی استفاده میکنند؟</code> | <code>1</code> |
|
242 |
+
* Loss: [<code>SoftmaxLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#softmaxloss)
|
243 |
+
|
244 |
+
### Training Hyperparameters
|
245 |
+
#### Non-Default Hyperparameters
|
246 |
+
|
247 |
+
- `per_device_train_batch_size`: 16
|
248 |
+
- `per_device_eval_batch_size`: 16
|
249 |
+
- `gradient_accumulation_steps`: 16
|
250 |
+
- `num_train_epochs`: 2
|
251 |
+
- `lr_scheduler_type`: cosine
|
252 |
+
- `warmup_ratio`: 0.1
|
253 |
+
- `bf16`: True
|
254 |
+
- `load_best_model_at_end`: True
|
255 |
+
- `deepspeed`: False
|
256 |
+
- `batch_sampler`: no_duplicates
|
257 |
+
|
258 |
+
#### All Hyperparameters
|
259 |
+
<details><summary>Click to expand</summary>
|
260 |
+
|
261 |
+
- `overwrite_output_dir`: False
|
262 |
+
- `do_predict`: False
|
263 |
+
- `prediction_loss_only`: True
|
264 |
+
- `per_device_train_batch_size`: 16
|
265 |
+
- `per_device_eval_batch_size`: 16
|
266 |
+
- `per_gpu_train_batch_size`: None
|
267 |
+
- `per_gpu_eval_batch_size`: None
|
268 |
+
- `gradient_accumulation_steps`: 16
|
269 |
+
- `eval_accumulation_steps`: None
|
270 |
+
- `learning_rate`: 5e-05
|
271 |
+
- `weight_decay`: 0.0
|
272 |
+
- `adam_beta1`: 0.9
|
273 |
+
- `adam_beta2`: 0.999
|
274 |
+
- `adam_epsilon`: 1e-08
|
275 |
+
- `max_grad_norm`: 1.0
|
276 |
+
- `num_train_epochs`: 2
|
277 |
+
- `max_steps`: -1
|
278 |
+
- `lr_scheduler_type`: cosine
|
279 |
+
- `lr_scheduler_kwargs`: {}
|
280 |
+
- `warmup_ratio`: 0.1
|
281 |
+
- `warmup_steps`: 0
|
282 |
+
- `log_level`: passive
|
283 |
+
- `log_level_replica`: warning
|
284 |
+
- `log_on_each_node`: True
|
285 |
+
- `logging_nan_inf_filter`: True
|
286 |
+
- `save_safetensors`: True
|
287 |
+
- `save_on_each_node`: False
|
288 |
+
- `save_only_model`: False
|
289 |
+
- `no_cuda`: False
|
290 |
+
- `use_cpu`: False
|
291 |
+
- `use_mps_device`: False
|
292 |
+
- `seed`: 42
|
293 |
+
- `data_seed`: None
|
294 |
+
- `jit_mode_eval`: False
|
295 |
+
- `use_ipex`: False
|
296 |
+
- `bf16`: True
|
297 |
+
- `fp16`: False
|
298 |
+
- `fp16_opt_level`: O1
|
299 |
+
- `half_precision_backend`: auto
|
300 |
+
- `bf16_full_eval`: False
|
301 |
+
- `fp16_full_eval`: False
|
302 |
+
- `tf32`: None
|
303 |
+
- `local_rank`: 0
|
304 |
+
- `ddp_backend`: None
|
305 |
+
- `tpu_num_cores`: None
|
306 |
+
- `tpu_metrics_debug`: False
|
307 |
+
- `debug`: []
|
308 |
+
- `dataloader_drop_last`: False
|
309 |
+
- `dataloader_num_workers`: 0
|
310 |
+
- `dataloader_prefetch_factor`: None
|
311 |
+
- `past_index`: -1
|
312 |
+
- `disable_tqdm`: False
|
313 |
+
- `remove_unused_columns`: True
|
314 |
+
- `label_names`: None
|
315 |
+
- `load_best_model_at_end`: True
|
316 |
+
- `ignore_data_skip`: False
|
317 |
+
- `fsdp`: []
|
318 |
+
- `fsdp_min_num_params`: 0
|
319 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
320 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
321 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True}
|
322 |
+
- `deepspeed`: False
|
323 |
+
- `label_smoothing_factor`: 0.0
|
324 |
+
- `optim`: adamw_torch
|
325 |
+
- `optim_args`: None
|
326 |
+
- `adafactor`: False
|
327 |
+
- `group_by_length`: False
|
328 |
+
- `length_column_name`: length
|
329 |
+
- `ddp_find_unused_parameters`: None
|
330 |
+
- `ddp_bucket_cap_mb`: None
|
331 |
+
- `ddp_broadcast_buffers`: False
|
332 |
+
- `dataloader_pin_memory`: True
|
333 |
+
- `dataloader_persistent_workers`: False
|
334 |
+
- `skip_memory_metrics`: True
|
335 |
+
- `use_legacy_prediction_loop`: False
|
336 |
+
- `push_to_hub`: False
|
337 |
+
- `resume_from_checkpoint`: None
|
338 |
+
- `hub_model_id`: None
|
339 |
+
- `hub_strategy`: every_save
|
340 |
+
- `hub_private_repo`: False
|
341 |
+
- `hub_always_push`: False
|
342 |
+
- `gradient_checkpointing`: False
|
343 |
+
- `gradient_checkpointing_kwargs`: None
|
344 |
+
- `include_inputs_for_metrics`: False
|
345 |
+
- `fp16_backend`: auto
|
346 |
+
- `push_to_hub_model_id`: None
|
347 |
+
- `push_to_hub_organization`: None
|
348 |
+
- `mp_parameters`:
|
349 |
+
- `auto_find_batch_size`: False
|
350 |
+
- `full_determinism`: False
|
351 |
+
- `torchdynamo`: None
|
352 |
+
- `ray_scope`: last
|
353 |
+
- `ddp_timeout`: 1800
|
354 |
+
- `torch_compile`: False
|
355 |
+
- `torch_compile_backend`: None
|
356 |
+
- `torch_compile_mode`: None
|
357 |
+
- `dispatch_batches`: None
|
358 |
+
- `split_batches`: None
|
359 |
+
- `include_tokens_per_second`: False
|
360 |
+
- `include_num_input_tokens_seen`: False
|
361 |
+
- `neftune_noise_alpha`: None
|
362 |
+
- `optim_target_modules`: None
|
363 |
+
- `batch_sampler`: no_duplicates
|
364 |
+
- `multi_dataset_batch_sampler`: proportional
|
365 |
+
|
366 |
+
</details>
|
367 |
+
|
368 |
+
### Training Logs
|
369 |
+
| Epoch | Step | Training Loss | loss |
|
370 |
+
|:----------:|:-------:|:-------------:|:----------:|
|
371 |
+
| 0.0265 | 20 | 0.7506 | - |
|
372 |
+
| 0.0530 | 40 | 0.6701 | - |
|
373 |
+
| 0.0530 | 20 | 0.5843 | - |
|
374 |
+
| 0.1060 | 40 | 0.4591 | - |
|
375 |
+
| 0.1591 | 60 | 0.3316 | - |
|
376 |
+
| 0.2121 | 80 | 0.2856 | - |
|
377 |
+
| 0.2651 | 100 | 0.2599 | - |
|
378 |
+
| 0.3181 | 120 | 0.2478 | - |
|
379 |
+
| 0.3712 | 140 | 0.214 | - |
|
380 |
+
| 0.4242 | 160 | 0.1996 | - |
|
381 |
+
| 0.4772 | 180 | 0.1929 | - |
|
382 |
+
| 0.5302 | 200 | 0.193 | 0.1766 |
|
383 |
+
| 0.5833 | 220 | 0.1798 | - |
|
384 |
+
| 0.6363 | 240 | 0.1794 | - |
|
385 |
+
| 0.6893 | 260 | 0.1735 | - |
|
386 |
+
| 0.7423 | 280 | 0.1713 | - |
|
387 |
+
| 0.7954 | 300 | 0.1547 | - |
|
388 |
+
| 0.8484 | 320 | 0.1545 | - |
|
389 |
+
| 0.9014 | 340 | 0.1577 | - |
|
390 |
+
| 0.9544 | 360 | 0.1575 | - |
|
391 |
+
| 1.0075 | 380 | 0.1431 | - |
|
392 |
+
| 1.0605 | 400 | 0.1498 | 0.1489 |
|
393 |
+
| 1.1135 | 420 | 0.1327 | - |
|
394 |
+
| 1.1665 | 440 | 0.1223 | - |
|
395 |
+
| 1.2196 | 460 | 0.1154 | - |
|
396 |
+
| 1.2726 | 480 | 0.1059 | - |
|
397 |
+
| 1.3256 | 500 | 0.1068 | - |
|
398 |
+
| 1.3786 | 520 | 0.0959 | - |
|
399 |
+
| 1.4316 | 540 | 0.0884 | - |
|
400 |
+
| 1.4847 | 560 | 0.0896 | - |
|
401 |
+
| 1.5377 | 580 | 0.0899 | - |
|
402 |
+
| **1.5907** | **600** | **0.0814** | **0.1445** |
|
403 |
+
| 1.6437 | 620 | 0.0877 | - |
|
404 |
+
| 1.6968 | 640 | 0.0816 | - |
|
405 |
+
| 1.7498 | 660 | 0.0846 | - |
|
406 |
+
| 1.8028 | 680 | 0.0783 | - |
|
407 |
+
| 1.8558 | 700 | 0.0787 | - |
|
408 |
+
| 1.9089 | 720 | 0.0874 | - |
|
409 |
+
| 1.9619 | 740 | 0.0883 | - |
|
410 |
+
|
411 |
+
* The bold row denotes the saved checkpoint.
|
412 |
+
|
413 |
+
### Framework Versions
|
414 |
+
- Python: 3.10.13
|
415 |
+
- Sentence Transformers: 3.0.1
|
416 |
+
- Transformers: 4.39.3
|
417 |
+
- PyTorch: 2.1.1+cu121
|
418 |
+
- Accelerate: 0.26.1
|
419 |
+
- Datasets: 2.19.2
|
420 |
+
- Tokenizers: 0.15.2
|
421 |
+
|
422 |
+
## Citation
|
423 |
+
|
424 |
+
### BibTeX
|
425 |
+
|
426 |
+
#### Sentence Transformers and SoftmaxLoss
|
427 |
+
```bibtex
|
428 |
+
@inproceedings{reimers-2019-sentence-bert,
|
429 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
430 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
431 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
432 |
+
month = "11",
|
433 |
+
year = "2019",
|
434 |
+
publisher = "Association for Computational Linguistics",
|
435 |
+
url = "https://arxiv.org/abs/1908.10084",
|
436 |
+
}
|
437 |
+
```
|
438 |
+
|
439 |
+
<!--
|
440 |
+
## Glossary
|
441 |
+
|
442 |
+
*Clearly define terms in order to be accessible across audiences.*
|
443 |
+
-->
|
444 |
+
|
445 |
+
<!--
|
446 |
+
## Model Card Authors
|
447 |
+
|
448 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
449 |
+
-->
|
450 |
+
|
451 |
+
<!--
|
452 |
+
## Model Card Contact
|
453 |
+
|
454 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
455 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,25 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "HooshvareLab/bert-base-parsbert-uncased",
|
3 |
+
"architectures": [
|
4 |
+
"BertModel"
|
5 |
+
],
|
6 |
+
"attention_probs_dropout_prob": 0.1,
|
7 |
+
"classifier_dropout": null,
|
8 |
+
"hidden_act": "gelu",
|
9 |
+
"hidden_dropout_prob": 0.1,
|
10 |
+
"hidden_size": 768,
|
11 |
+
"initializer_range": 0.02,
|
12 |
+
"intermediate_size": 3072,
|
13 |
+
"layer_norm_eps": 1e-12,
|
14 |
+
"max_position_embeddings": 512,
|
15 |
+
"model_type": "bert",
|
16 |
+
"num_attention_heads": 12,
|
17 |
+
"num_hidden_layers": 12,
|
18 |
+
"pad_token_id": 0,
|
19 |
+
"position_embedding_type": "absolute",
|
20 |
+
"torch_dtype": "float32",
|
21 |
+
"transformers_version": "4.39.3",
|
22 |
+
"type_vocab_size": 2,
|
23 |
+
"use_cache": true,
|
24 |
+
"vocab_size": 100000
|
25 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.39.3",
|
5 |
+
"pytorch": "2.1.1+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:00b0381b81fd700c272e35e08c757fb2f719814cb523003400bd4bfc5d03b3ab
|
3 |
+
size 651387752
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,7 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"cls_token": "[CLS]",
|
3 |
+
"mask_token": "[MASK]",
|
4 |
+
"pad_token": "[PAD]",
|
5 |
+
"sep_token": "[SEP]",
|
6 |
+
"unk_token": "[UNK]"
|
7 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,57 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"added_tokens_decoder": {
|
3 |
+
"0": {
|
4 |
+
"content": "[PAD]",
|
5 |
+
"lstrip": false,
|
6 |
+
"normalized": false,
|
7 |
+
"rstrip": false,
|
8 |
+
"single_word": false,
|
9 |
+
"special": true
|
10 |
+
},
|
11 |
+
"1": {
|
12 |
+
"content": "[UNK]",
|
13 |
+
"lstrip": false,
|
14 |
+
"normalized": false,
|
15 |
+
"rstrip": false,
|
16 |
+
"single_word": false,
|
17 |
+
"special": true
|
18 |
+
},
|
19 |
+
"2": {
|
20 |
+
"content": "[CLS]",
|
21 |
+
"lstrip": false,
|
22 |
+
"normalized": false,
|
23 |
+
"rstrip": false,
|
24 |
+
"single_word": false,
|
25 |
+
"special": true
|
26 |
+
},
|
27 |
+
"3": {
|
28 |
+
"content": "[MASK]",
|
29 |
+
"lstrip": false,
|
30 |
+
"normalized": false,
|
31 |
+
"rstrip": false,
|
32 |
+
"single_word": false,
|
33 |
+
"special": true
|
34 |
+
},
|
35 |
+
"4": {
|
36 |
+
"content": "[SEP]",
|
37 |
+
"lstrip": false,
|
38 |
+
"normalized": false,
|
39 |
+
"rstrip": false,
|
40 |
+
"single_word": false,
|
41 |
+
"special": true
|
42 |
+
}
|
43 |
+
},
|
44 |
+
"clean_up_tokenization_spaces": true,
|
45 |
+
"cls_token": "[CLS]",
|
46 |
+
"do_basic_tokenize": true,
|
47 |
+
"do_lower_case": true,
|
48 |
+
"mask_token": "[MASK]",
|
49 |
+
"model_max_length": 1000000000000000019884624838656,
|
50 |
+
"never_split": null,
|
51 |
+
"pad_token": "[PAD]",
|
52 |
+
"sep_token": "[SEP]",
|
53 |
+
"strip_accents": null,
|
54 |
+
"tokenize_chinese_chars": true,
|
55 |
+
"tokenizer_class": "BertTokenizer",
|
56 |
+
"unk_token": "[UNK]"
|
57 |
+
}
|
vocab.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|