File size: 35,559 Bytes
5136e4d
 
 
 
 
 
 
 
 
 
 
 
 
5ca8291
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5136e4d
 
5ca8291
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5136e4d
 
5ca8291
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5136e4d
 
5ca8291
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5136e4d
5ca8291
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5136e4d
 
 
 
 
5ca8291
 
5136e4d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5ca8291
 
 
 
 
 
5136e4d
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
---
license: apache-2.0
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:39780811
- loss:MatryoshkaLoss
- loss:MultipleNegativesRankingLoss
widget:
- source_sentence: è la città Riverdale basata sui fumetti di Archie
  sentences:
  - >-
    Newark Liberty International Airport EWR è l'aeroporto più trafficato
    dell'area metropolitana di New York-New Jersey in termini di voli. Nel 2012,
    l'aeroporto di Newark Liberty ha servito oltre 34 milioni di passeggeri.
    Inaugurato originariamente nel 1928, è il più antico aeroporto d'America e
    in seguito è diventato il primo a costruire un terminal di compagnie aeree
    commerciali.
  - >-
    Personaggi Riverdale sulla CW. Ambientato nel presente, Riverdale è una
    versione sovversiva di Archie, Betty, Veronica e dei loro amici, esplorando
    il surrealismo della vita di provincia - l'oscurità e le stranezze che
    ribollono sotto Riverdale... La salutare facciata di Ãâ„.
  - >-
    A parte un fumetto di Conan precedente e non ufficiale pubblicato in
    Messico, i due principali editori di fumetti di Conan sono stati Marvel
    Comics e Dark Horse Comics. La Marvel Comics ha lanciato Conan il Barbaro
    (1970â€â€ââ€1993) e il classico Savage Sword of Conan
    (1974â€ââ€1995). Dark Horse ha lanciato la sua serie Conan nel 2003.
- source_sentence: quando si candida per la rielezione?
  sentences:
  - >-
    La prima visita ha lo scopo di confermare la tua gravidanza e determinare il
    tuo stato di salute generale. Inoltre, la visita fornirà al tuo medico
    indizio su eventuali fattori di rischio che potrebbero influenzare la tua
    gravidanza. In genere sarà più lungo delle visite future. Lo scopo della
    visita prenatale è: 1 Determinare la data di scadenza. 2 Scopri la tua
    storia di salute. 3 Esplora la storia medica dei membri della famiglia.
  - >-
    "[Donald Trump è] una persona davvero brillante e di talento, senza alcun
    dubbio", ha detto ai giornalisti [Vladimir] Putin, secondo una traduzione di
    Interfax. Il leader del GOP è stato schietto sui suoi piani per scongelare
    le relazioni degli Stati Uniti con la Russia se dovesse essere eletto
    presidente.
  - >-
    Putin dice che non può escludere la possibilità di essere rieletto nel 2018.
    VALDAI, Russia. 19 settembre (Interfax) - Il presidente russo Vladimir Putin
    ha detto giovedì che non poteva escludere di candidarsi per la rielezione a
    presidente nel 2018. Putin ha rilasciato la dichiarazione durante uno
    scambio con l'ex primo ministro francese Francois Fillon in una riunione
    della discussione Valdai club.
- source_sentence: costo medio dei libri di testo per semestre
  sentences:
  - >-
    Rinite allergica stagionale. Dymista spray nasale è indicato per il sollievo
    dei sintomi della rinite allergica stagionale nei pazienti di età pari o
    superiore a 6 anni che richiedono un trattamento sia con azelastina
    cloridrato che fluticasone propionato per il sollievo sintomatico. La dose
    raccomandata di Dymista è di 1 spruzzo in ciascuna narice due volte al
    giorno.
  - >-
    Ad esempio, la FAFSA 2017-2018 comprende i seguenti semestri: 1 Sessione
    estiva 2017. 2 Semestre autunnale 2017. 3 Semestre invernale 2018. 4
    Semestre primaverile 2018.
  - >-
    Se hai intenzione di frequentare la scuola durante l'estate, moltiplica il
    costo medio per semestre per tre invece di due. Ad esempio, se in un
    semestre tipico, hai seguito 3 corsi principali con costi di libri di testo
    a $ 100, $ 150 e $ 125, il tuo costo medio per i libri di testo sarebbe di $
    125 a semestre. Ora per tenere conto dell'autunno, della primavera e
    dell'estate, moltiplica $ 125 per 3 e hai $ 375. Questo è il costo medio dei
    libri universitari all'anno.
- source_sentence: quanto costa tulane un anno?
  sentences:
  - >-
    Secondo i nostri registri, Joel McCrea potrebbe essere single. Joel McCrea
    era precedentemente sposato con Frances Dee (1933 - 1990). Joel McCrea aveva
    una relazione con Katharine Hepburn (1932), Constance Bennett (1929 - 1930),
    Marion Davies e Jean Harlow. Maggiori informazioni su Joel McCrea.
  - >-
    Sul suo sito web, Tulane riconosce che è costoso - tasse scolastiche e altre
    tasse sono quasi $ 54.000 per uno studente del primo anno che vive nel
    campus - ma promuove anche borse di studio che vanno da $ 7.500 a $ 25.000
    all'anno.
  - >-
    Torna alle domande. Quante uova depongono gli scriccioli e gli uccelli
    azzurri alla volta/in un anno? Gli scriccioli domestici in genere depongono
    da sei a otto uova (ma è noto che ne depongono fino a 12!) In una covata, ma
    nidificano solo una volta all'anno. Gli uccelli azzurri in genere depongono
    sei uova nella prima covata e quattro o cinque nella seconda.
- source_sentence: >-
    chi ha promosso l'idea che, perseguendo il proprio interesse in un libero
    mercato, si sarebbe effettivamente lavorato per il bene comune?
  sentences:
  - >-
    A cura del personale della Mayo Clinic. Il mal di testa da tuono è
    all'altezza del suo nome, attirando la tua attenzione come un tuono. Il
    dolore di questi improvvisi e forti mal di testa raggiunge il picco entro 60
    secondi e può iniziare a svanire dopo un'ora. Alcuni mal di testa a tuono,
    tuttavia, possono durare per più di una settimana. Il mal di testa da tuono
    è spesso un segnale di avvertimento di condizioni potenzialmente pericolose
    per la vita, solitamente legate a sanguinamento all'interno e intorno al
    cervello. Ecco perché è così importante cercare assistenza medica di
    emergenza se si verifica un mal di testa a tuono.
  - >-
    Un'economia di mercato può consistere in vari tipi di cooperative,
    collettivi o agenzie statali autonome che acquistano e scambiano beni
    capitali nei mercati dei capitali, utilizzando un sistema di prezzi liberi
    per allocare beni capitali e lavoro. Il termine economia di libero mercato è
    talvolta usato come sinonimo di mercato economia, ma può anche riferirsi al
    laissez-faire o all'anarchismo del libero mercato. Le economie di mercato
    non presuppongono logicamente l'esistenza della proprietà privata nei mezzi
    di produzione.
  - >-
    Nell'opera più influente di Smith, The Wealth of Nations, ha promosso l'idea
    che perseguendo il proprio interesse personale in un libero mercato, si
    sarebbe effettivamente lavorato per il bene comune. William Young
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: >-
    Static Embeddings with italian BERT uncased tokenizer finetuned on a subset
    of MMARCO
  results:
  - task:
      type: triplet
      name: Triplet
    dataset:
      name: mmarco dev
      type: mmarco_dev
    metrics:
    - type: cosine_accuracy
      value: 0.981249988079071
      name: Cosine Accuracy
  - task:
      type: triplet
      name: Triplet
    dataset:
      name: mmarco test
      type: mmarco_test
    metrics:
    - type: cosine_accuracy
      value: 0.9833999872207642
      name: Cosine Accuracy
datasets:
- unicamp-dl/mmarco
language:
- it
base_model:
- dbmdz/bert-base-italian-uncased
---

# Static Embeddings with italian BERT uncased tokenizer finetuned on a subset of MMARCO

This is a [sentence-transformers](https://www.SBERT.net) model trained on the mmarco dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

## Model Details

### Model Description
- **Model Type:** Sentence Transformer
<!-- - **Base model:** [Unknown](https://huggingface.co/unknown) -->
- **Maximum Sequence Length:** inf tokens
- **Output Dimensionality:** 1024 dimensions
- **Similarity Function:** Cosine Similarity
- **Training Dataset:**
    - mmarco
<!-- - **Language:** Unknown -->
- **License:** apache-2.0

### Model Sources

- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

### Full Model Architecture

```
SentenceTransformer(
  (0): StaticEmbedding(
    (embedding): EmbeddingBag(31102, 1024, mode='mean')
  )
)
```

## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("nickprock/static-similarity-mmarco3m-mrl-bert-base-italian-uncased")
# Run inference
sentences = [
    "chi ha promosso l'idea che, perseguendo il proprio interesse in un libero mercato, si sarebbe effettivamente lavorato per il bene comune?",
    "Nell'opera più influente di Smith, The Wealth of Nations, ha promosso l'idea che perseguendo il proprio interesse personale in un libero mercato, si sarebbe effettivamente lavorato per il bene comune. William Young",
    "Un'economia di mercato può consistere in vari tipi di cooperative, collettivi o agenzie statali autonome che acquistano e scambiano beni capitali nei mercati dei capitali, utilizzando un sistema di prezzi liberi per allocare beni capitali e lavoro. Il termine economia di libero mercato è talvolta usato come sinonimo di mercato economia, ma può anche riferirsi al laissez-faire o all'anarchismo del libero mercato. Le economie di mercato non presuppongono logicamente l'esistenza della proprietà privata nei mezzi di produzione.",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
```

<!--
### Direct Usage (Transformers)

<details><summary>Click to see the direct usage in Transformers</summary>

</details>
-->

<!--
### Downstream Usage (Sentence Transformers)

You can finetune this model on your own dataset.

<details><summary>Click to expand</summary>

</details>
-->

<!--
### Out-of-Scope Use

*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->

## Evaluation

### Metrics

#### Triplet

* Datasets: `mmarco_dev` and `mmarco_test`
* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)

| Metric              | mmarco_dev | mmarco_test |
|:--------------------|:-----------|:------------|
| **cosine_accuracy** | **0.9812** | **0.9834**  |

<!--
## Bias, Risks and Limitations

*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->

<!--
### Recommendations

*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->

## Training Details

### Training Dataset

#### mmarco

* Dataset: mmarco
* Size: 39,780,811 training samples
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | query                                                                                           | positive                                                                                          | negative                                                                                          |
  |:--------|:------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------|
  | type    | string                                                                                          | string                                                                                            | string                                                                                            |
  | details | <ul><li>min: 10 characters</li><li>mean: 39.06 characters</li><li>max: 163 characters</li></ul> | <ul><li>min: 65 characters</li><li>mean: 391.41 characters</li><li>max: 1036 characters</li></ul> | <ul><li>min: 61 characters</li><li>mean: 377.77 characters</li><li>max: 1105 characters</li></ul> |
* Samples:
  | query                                                      | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | negative                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |
  |:-----------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
  | <code>di cosa è fatta la lingua?</code>                    | <code>Lingua e gusto. La lingua è costituita da muscoli ricoperti da membrane mucose. Questi muscoli sono attaccati alla mascella inferiore e all'osso ioide, che si trova appena sopra la laringe e ancora i muscoli della lingua (è l'unico osso del corpo che non tocca nessun altro osso). più sotto. La lingua è costituita da muscoli ricoperti da membrane mucose. Questi muscoli sono attaccati alla mascella inferiore e all'osso ioide, che si trova appena sopra la laringe e ancora i muscoli della lingua (è l'unico osso del corpo che non tocca nessun altro osso).</code> | <code>1 Mal di gola e ulcere della lingua e mal di lingua (10 cause) 2 Mal di gola e ulcere della lingua e sintomi della lingua (10 cause) 3 Mal di gola e ulcere della lingua e sintomi del viso (9 cause) Mal di gola e ulcere della lingua e sintomi della testa (9 cause )</code>                                                                                                                                                                                                                                                                                                                                                                                                                                        |
  | <code>dove si trova l'utero nel corpo di una donna?</code> | <code>L'utero è un organo riproduttivo femminile situato tra la vescica e il retto, nella zona pelvica. L'utero ha tre strati: il rivestimento interno (endometrio); lo strato muscolare medio (miometrio); e lo strato esterno (perimetrio).</code>                                                                                                                                                                                                                                                                                                                                      | <code>Panoramica sulle emorroidi. Le emorroidi sono vene dilatate situate nella parte inferiore del retto e dell'ano. Le vene si gonfiano a causa dell'aumento della pressione al loro interno, di solito da costipazione o diarrea profusa, e durante la gravidanza a causa della pressione dell'utero allargato. Le emorroidi interne si trovano nel rivestimento interno del retto e non possono essere percepite. Le vene si gonfiano a causa dell'aumento della pressione al loro interno, di solito da costipazione o diarrea profusa, e durante la gravidanza a causa della pressione dell'utero allargato. Le emorroidi interne si trovano nel rivestimento interno del retto e non possono essere percepite.</code> |
  | <code>costo medio del riccio</code>                        | <code>Un riccio grigio può costare da $ 180 a $ 250, mentre un Cinnicot può costare da $ 180 a $ 250. Un pigmeo africano può variare da $ 50 a $ 300. L'allevatore PogStarHedgehogs.com, ad esempio, vende diversi tipi di ricci che vanno da $ 150 a $ 200.</code>                                                                                                                                                                                                                                                                                                                       | <code>Il costo medio totale (ATC) è anche chiamato costo medio o costo unitario. I costi totali medi sono un costo chiave nella teoria dell'impresa perché indicano l'efficienza con cui vengono utilizzate le risorse scarse. I costi variabili medi si trovano dividendo i costi variabili fissi totali per l'output. I costi totali medi sono un costo chiave nella teoria dell'impresa perché indicano l'efficienza con cui vengono utilizzate le risorse scarse. I costi variabili medi si ottengono dividendo i costi variabili fissi totali per l'output.</code>                                                                                                                                                      |
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
  ```json
  {
      "loss": "MultipleNegativesRankingLoss",
      "matryoshka_dims": [
          1024,
          768,
          512,
          256,
          128,
          64,
          32
      ],
      "matryoshka_weights": [
          1,
          1,
          1,
          1,
          1,
          1,
          1
      ],
      "n_dims_per_step": -1
  }
  ```

### Evaluation Dataset

#### mmarco

* Dataset: mmarco
* Size: 39,780,811 evaluation samples
* Columns: <code>query</code>, <code>positive</code>, and <code>negative</code>
* Approximate statistics based on the first 1000 samples:
  |         | query                                                                                          | positive                                                                                         | negative                                                                                         |
  |:--------|:-----------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------|
  | type    | string                                                                                         | string                                                                                           | string                                                                                           |
  | details | <ul><li>min: 9 characters</li><li>mean: 39.69 characters</li><li>max: 196 characters</li></ul> | <ul><li>min: 77 characters</li><li>mean: 396.0 characters</li><li>max: 1167 characters</li></ul> | <ul><li>min: 82 characters</li><li>mean: 379.98 characters</li><li>max: 990 characters</li></ul> |
* Samples:
  | query                                                 | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | negative                                                                                                                                                                                                                                                                                                                                                                 |
  |:------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
  | <code>la massoterapia aiuta per la neuropatia?</code> | <code>Il Foot Pain Center, specializzato nel trattamento della neuropatia periferica, fa molto affidamento sull'uso della massoterapia nel trattamento di questa condizione. La definizione tecnica del massaggio è l'uso della pressione su strutture corporee mirate come muscoli, tendini, nervi, legamenti, articolazioni o vasi linfatici.</code>                                                                                                                                                                                                                                                                                                                                                                                                                               | <code>Il numero ORI per il Consiglio di massoterapia è EDOH4600Z. Tuttavia, è necessario portare con sé il modulo di rilevamento delle impronte digitali al venditore. Se fai domanda online, c'è un modulo che devi stampare con il tuo numero ORI precompilato.</code>                                                                                                 |
  | <code>quanto è pericoloso juarez 2015</code>          | <code>Rio de Janeiro è la seconda città più grande del Brasile ed è un luogo molto comune da visitare per i turisti. Ma nonostante tutte queste cose, è considerata una delle città più pericolose al mondo nel 2015. Il traffico di droga e i crimini violenti sono al culmine in questa città. Ci sono stati molti tentativi di omicidio tra varie bande che hanno preso il controllo dell'intera città.ut, ci sono poche città al mondo che dovresti evitare di visitare a tutti i costi nel 2015. In questo articolo, elencheremo le 10 città più pericolose 2015.</code>                                                                                                                                                                                                        | <code>Lana Lang Lana può essere pericolosa se minacciata o sospettosa, come te! È compassionevole e se tiene a qualcuno, non scherzare con loro. Ti amerà o ti odierà, suona familiare? Ana può essere pericolosa se minacciata o sospettosa, come te! È compassionevole e se tiene a qualcuno, non scherzare con loro. Ti amerà o ti odierà, ti suona familiare?</code> |
  | <code>a cosa serve un radar?</code>                   | <code>Se gridi ciao, il suono potrebbe rimbalzare su di te da un oggetto di grandi dimensioni. Poi senti la tua voce che ritorna. La tua voce di ritorno si chiama eco. Radar e sonar sono dispositivi elettronici che utilizzano il principio di un'eco per rilevare e localizzare oggetti. Sia il radar che il sonar localizzano gli oggetti dall'eco di un segnale che viene rimbalzato sull'oggetto. Il radar utilizza le onde radio, che sono un tipo di energia elettromagnetica. Il sonar utilizza il principio dell'eco inviando onde sonore sott'acqua o attraverso il corpo umano per individuare gli oggetti. Le onde sonore sono un tipo di energia acustica. A causa del diverso tipo di energia utilizzata in radar e sonar, ognuno ha le proprie applicazioni.</code> | <code>per METEO LOCALE: PROFONDITÀ NEVE: RADAR METEO LOCALE: MAPPA METEO STATO: Medford, MA Medford, MA neve Medford, MA radar MA mappa-o--o--o- 02155 02155 neve 02155 radar -o--o- MA MA neve</code>                                                                                                                                                                   |
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
  ```json
  {
      "loss": "MultipleNegativesRankingLoss",
      "matryoshka_dims": [
          1024,
          768,
          512,
          256,
          128,
          64,
          32
      ],
      "matryoshka_weights": [
          1,
          1,
          1,
          1,
          1,
          1,
          1
      ],
      "n_dims_per_step": -1
  }
  ```

### Training Hyperparameters
#### Non-Default Hyperparameters

- `eval_strategy`: steps
- `per_device_train_batch_size`: 2048
- `per_device_eval_batch_size`: 2048
- `learning_rate`: 0.2
- `num_train_epochs`: 1
- `warmup_ratio`: 0.1
- `bf16`: True
- `load_best_model_at_end`: True
- `batch_sampler`: no_duplicates

#### All Hyperparameters
<details><summary>Click to expand</summary>

- `overwrite_output_dir`: False
- `do_predict`: False
- `eval_strategy`: steps
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 2048
- `per_device_eval_batch_size`: 2048
- `per_gpu_train_batch_size`: None
- `per_gpu_eval_batch_size`: None
- `gradient_accumulation_steps`: 1
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 0.2
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1.0
- `num_train_epochs`: 1
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: {}
- `warmup_ratio`: 0.1
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `save_safetensors`: True
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `no_cuda`: False
- `use_cpu`: False
- `use_mps_device`: False
- `seed`: 42
- `data_seed`: None
- `jit_mode_eval`: False
- `use_ipex`: False
- `bf16`: True
- `fp16`: False
- `fp16_opt_level`: O1
- `half_precision_backend`: auto
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: 0
- `ddp_backend`: None
- `tpu_num_cores`: None
- `tpu_metrics_debug`: False
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `past_index`: -1
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: True
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_min_num_params`: 0
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `tp_size`: 0
- `fsdp_transformer_layer_cls_to_wrap`: None
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch
- `optim_args`: None
- `adafactor`: False
- `group_by_length`: False
- `length_column_name`: length
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `use_legacy_prediction_loop`: False
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: None
- `hub_always_push`: False
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_inputs_for_metrics`: False
- `include_for_metrics`: []
- `eval_do_concat_batches`: True
- `fp16_backend`: auto
- `push_to_hub_model_id`: None
- `push_to_hub_organization`: None
- `mp_parameters`: 
- `auto_find_batch_size`: False
- `full_determinism`: False
- `torchdynamo`: None
- `ray_scope`: last
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `dispatch_batches`: None
- `split_batches`: None
- `include_tokens_per_second`: False
- `include_num_input_tokens_seen`: False
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `use_liger_kernel`: False
- `eval_use_gather_object`: False
- `average_tokens_across_devices`: False
- `prompts`: None
- `batch_sampler`: no_duplicates
- `multi_dataset_batch_sampler`: proportional

</details>

### Training Logs
| Epoch  | Step | Training Loss | Validation Loss | mmarco_dev_cosine_accuracy | mmarco_test_cosine_accuracy |
|:------:|:----:|:-------------:|:---------------:|:--------------------------:|:---------------------------:|
| -1     | -1   | -             | -               | 0.7376                     | -                           |
| 0.0007 | 1    | 41.641        | -               | -                          | -                           |
| 0.0683 | 100  | 20.789        | 8.6823          | 0.9036                     | -                           |
| 0.1365 | 200  | 7.6202        | 5.9332          | 0.9340                     | -                           |
| 0.2048 | 300  | 5.5177        | 4.6173          | 0.9495                     | -                           |
| 0.2730 | 400  | 4.3551        | 3.8064          | 0.9593                     | -                           |
| 0.3413 | 500  | 3.7185        | 3.3687          | 0.9653                     | -                           |
| 0.4096 | 600  | 3.256         | 3.0356          | 0.9711                     | -                           |
| 0.4778 | 700  | 2.9338        | 2.8374          | 0.9740                     | -                           |
| 0.5461 | 800  | 2.7087        | 2.6892          | 0.9762                     | -                           |
| 0.6143 | 900  | 2.5392        | 2.5313          | 0.9781                     | -                           |
| 0.6826 | 1000 | 2.3883        | 2.3742          | 0.9805                     | -                           |
| 0.7509 | 1100 | 2.2713        | 2.2511          | 0.9812                     | -                           |
| -1     | -1   | -             | -               | -                          | 0.9834                      |


### Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.5.0.dev0
- Transformers: 4.50.0.dev0
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.3.1
- Tokenizers: 0.21.0

## Citation

### BibTeX

#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
```

#### MatryoshkaLoss
```bibtex
@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
```

#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
```

<!--
## Glossary

*Clearly define terms in order to be accessible across audiences.*
-->

<!--
## Model Card Authors

*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->

<!--
## Model Card Contact

*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->