SentenceTransformer based on intfloat/multilingual-e5-base

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-base
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/e5-preskripsi-20250119_163855")
# Run inference
sentences = [
    'query: Is this Indonesian news article related or relevant to the rumah sakit polri kramat jati, jakarta timur?',
    'passage: Identitas Mayat Wanita yang Ditemukan Dalam Karung di Muara Baru Terungkap, Korban Ibu Rumah Tangga. INILAHKORAN, Bandung - Polisi telah mengonfirmasi identitas jasad seorang wanita yang ditemukan tanpa kepala di danau kawasan Muara Baru. Korban, yang diketahui berinisial SH, lahir di Jakarta pada tahun 1984. Kepala Bidang Humas Polda Metro Jaya, Kombes Pol Ade Ary Syam Indradi, mengungkapkan informasi tersebut kepada wartawan pada Rabu, 30 Oktober 2024. Dirreskrimum Polda Metro Jaya, Kombes Pol Wira Satya Triputra, menambahkan bahwa korban adalah seorang ibu rumah tangga yang tinggal di Jalan Babakan, Curug, Kota Tangerang. Saat ini, jenazahnya telah dibawa ke Rumah Sakit Polri Kramat Jati, Jakarta Timur, untuk dilakukan autopsi, yang dilakukan berdasarkan hasil identifikasi. Kepala Subdit Jatanras Ditreskrimum Polda Metro Jaya, AKBP Rovan Richard Mahenu, menyatakan bahwa kematian korban diduga merupakan tindakan pembunuhan. "Kami menduga telah terjadi tindak pidana yang melanggar Pasal 338 dan/atau Pasal 340 KUHP," ungkap Rovan. Pihak kepolisian saat ini masih melakukan penyelidikan lebih lanjut terkait kasus ini.',
    'passage: KPU Kepri Pleno Putuskan Hasil Tes Kesehatan Dua Bakal Paslon Pilkada 2024. TRIBUNBATAM.id, TANJUNGPINANG -Komisi Pemilihan Umum Kepulauan Riau (KPU Kepri) mengumumkan dua bakal paslon Pilkada Kepri 2024 berhak mengikuti tahapan Pilgub Kepri 2024 selanjutnya. Anggota KPU Kepri, Ferry Muliadi Manalu mengungkap jika dua bakal paslon di Pilkada Kepri 2024 itu dinyatakan mampu untuk mengikuti tahapan Pilgub Kepri berikutnya. Seperti diketahui, dua bakal paslon di Pilkada Kepri 2024, Ansar Ahmad dan Nyanyang Haris Pratamura menjalani tes kesehatan di RSUD Raja Ahmad Tabib Tanjungpinang, Sabtu (31/8). Begitu pula dengan bakal paslon di Pilgub Kepri 2024 lainnya, Muhammad Rudi dan Aunur Rafiq. “Sudah kami pleno kan. Untuk kedua Paslon yang telah melaksanakan cek kesehatan dinyatakan mampu,” sebutnya, Rabu (04/09/2024). Setelah ini, pihaknya masih meneliti berkas pendaftran hingga tanggal 5 September 2024. Bila ada ditemukan ada berkas yang belum lengkap, maka KPU Kepri akan mengembalikan untuk melengkapi berkas tersebut. Masa pengembalian berkas yang diminta untuk diperbaiki sampai dengan 8 September 2024. “Hingga nanti kami tetapkan sebagai Calon pada 22 September 2024,”ujarnya. Untuk tahap pengambilan nomor urut sendiri, akan dilakukan pada 23 September 2024. “Bila penetapan Calon nanti ada dua pasang. Maka yang mendapatkan nomor urut pertama posisi gambarnya untuk di kertas suara ada di sebelah kiri dan nomor urut 2 di kanan,” ujarnya. (TribunBatam.id/Endra Kaputra)',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.527
spearman_cosine 0.5333

Training Details

Training Dataset

Unnamed Dataset

  • Size: 37,469 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 17 tokens
    • mean: 23.35 tokens
    • max: 42 tokens
    • min: 31 tokens
    • mean: 421.34 tokens
    • max: 512 tokens
    • min: 0.0
    • mean: 0.6
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    query: Is this Indonesian news article positively impact the kadiv humas polri irjen pol sandi nugroho? passage: Terima Audiensi Para Buruh, Kapolri Apresiasi Upaya Menjaga Ruang Demokrasi. REPUBLIKA.CO.ID, JAKARTA -- Kapolri Jenderal Polisi Drs. Listyo Sigit Prabowo menerima audiensi kelompok buruh. Hadir mendampingi Irwasum Polri Komjen Pol Ahmad Dofiri, Kabareskrim Komjen. Pol Wahyu Widada, Kadiv Propam Polri Irjen Pol Abdul Karim, dan Kadiv Humas Polri Irjen Pol Sandi Nugroho. Dari kelompok buruh, hadir Presiden Konfederasi Serikat Pekerja Seluruh Indonesia (KSPSI) Andi Gani dan ⁠Presiden Partai Buruh Said Iqbal. Dalam pertemuan itu, Kapolri mengingatkan mengenai aturan dalam penyampaian pendapat di muka umum. Jenderal Sigit berpesan kepada elemen buruh yang hendak berunjuk rasa agar melakukannya dengan tertib. "Tentunya dalam kesempatan ini saya juga mengucapkan terima kasih kepada seluruh rekan-rekan buruh se-Indonesia yang telah memanfaatkan ruang untuk berekspresi yang tentunya kita tahu semua bahwa masa buruh sangat besar," jelas Kapolri di Mabes Polri, Jakarta Selatan, Jumat (1... 0.5
    query: Is this Indonesian news article positively impact the Silmy Karim? passage: Perjalanan Haji Lebih Hemat dengan Makkah Route, Begini Pernyataan Direktur Jenderal Imigrasi. SOLO, iNewsSurabaya.id - Direktur Jenderal Imigrasi, Silmy Karim, memastikan proses pemberangkatan Jemaah Calon Haji (JCH) melalui Makkah Route berjalan mulus. Dalam pelepasan kloter pertama di Bandara Adi Soemarmo, Solo, Silmy memantau kesiapan petugas imigrasi dan kerja sama Makkah Route. "Saya bersyukur pelaksanaannya cukup lancar. Di Solo dan Surabaya, ini kali pertama Makkah Route diterapkan, dan kami memastikan semuanya berjalan baik," ujar Silmy di Bandara Adi Soemarmo, Solo. Tahun ini, sebanyak 114.186 JCH dari berbagai bandara keberangkatan memperoleh fasilitas pemeriksaan keimigrasian pra kedatangan dari otoritas imigrasi Kerajaan Arab Saudi melalui Makkah Route. Ini mencakup 47% dari total JCH asal Indonesia yang akan berangkat dari 13 embarkasi di seluruh Indonesia. Makkah Route memindahkan proses keimigrasian dari bandara kedatangan di Arab Saudi ke bandara keberangkatan... 1.0
    query: Is this Indonesian news article positively impact the Badan Pusat Statistik (BPS)? passage: HET Beras Bulog Naik, Harga Jadi Rp12.500 per Kg. JAKARTA - Pemerintah menaikan harga eceran tertinggi (HET) beras yang diproduksi Perum Bulog. Salah satunya beras yang digunakan dalam program stabilisasi pasokan dan harga pangan (SPHP) alias operasi pasar.\t\t\t\t\t\t\t Kenaikan harga beras Bulog mulai berlaku pada 1 Mei 2024 lalu. Hal ini berdasarkan surat Badan Pangan Nasional (Bapanas) Nomor 142/TS/02.02/K/4/2024 tentang Penugasan SPHP Beras tahun 2024.\n Mengutip keterangan resmi perusahaan, HET beras yang disubsidi pemerintah itu naik dari Rp10.900 menjadi Rp12.500 per kilogram (kg). Harga ini berlaku untuk wilayah Jawa, Lampung, Sumatera Selatan, Bali, Nusa Tenggara Barat (NTB), dan Sulawesi. “Per 1 Mei 2024 terdapat perubahan harga beras SPHP yang mengacu pada surat Badan Pangan Nasional tentang penugasan SPHP beras tahun 2024," demikian bunyi keterangan Bulog dikutip dari laman Instagram Minggu (5/5/2024).\n Harga beras Bulog di wilayah Sumatera lainnya (kecuali Lamp... 0.0
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 2
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 2
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss cosine_similarity_eval_spearman_cosine
0.4270 500 0.1833 0.3318
0.8540 1000 0.1295 0.5143
1.0 1171 - 0.5136
1.2810 1500 0.1065 0.5224
1.7079 2000 0.0989 0.5295
2.0 2342 - 0.5333

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.3.1
  • Transformers: 4.47.1
  • PyTorch: 2.5.1+cu121
  • Accelerate: 1.2.1
  • Datasets: 3.2.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
4
Safetensors
Model size
278M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for masa-research/e5-preskripsi-20250119_163855

Finetuned
(41)
this model

Evaluation results