SentenceTransformer based on intfloat/multilingual-e5-small

This is a sentence-transformers model finetuned from intfloat/multilingual-e5-small. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: intfloat/multilingual-e5-small
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/me5-small-preskripsi-binary-sentimen-acc88-20250121_210146")
# Run inference
sentences = [
    'query: Is this Indonesian news article positively impact the Pemkab Deli Serdang?',
    'passage: Bawaslu dan Satpol PP Saling Lempar Bola Terkait Poster di Area Perkantoran Bupati Deli Serdang. TRIBUN-MEDAN. com, LUBUKPAKAM - Badan Pengawas Pemilu (Bawaslu) Kabupaten Deli Serdang mengaku belum punya kewenangan untuk menertibkan atau menurunkan poster maupun baliho bergambar Bakal Calon Gubernur Sumut yang terpasang di area komplek perkantoran Bupati Deli Serdang. Dianggap pihak yang paling berwenang menertibkan poster maupun baliho ini adalah Pemkab Deli Serdang sendiri. Hal ini lantaran keberadaannya jelas-jelas di lingkungan perkantoran Pemkab.\\xa0 "Kewenangan Pemkab lah (menertibkan). Kita punya kewenangan setelah massa kampanye. Selain itu baru pada saat masa kampanye," ujar Ketua Bawaslu Kabupaten Deli Serdang, Febryandi Ginting.\\xa0 Dianggap pada saat ini belumlah memasuki masa kampanye apalagi masa tenang. Febryandi bilang pada saat mereka sudah punya kewenangan mereka akan melakukan penertiban bersama berbagai pihak.\\xa0 Termasuk pada saat penertiban Alat Peraga Kampanye (APK) pada masa tenang.\\xa0 "Sekarang ini kembali kepada kewenangan Pemkab. Semuakan wilayah di areal Pemkab. Termasuk di jalan umum masuk wilayah Pemkab," kata Febryandi.\\xa0 Meski berada di areal lingkungan perkantoran Bupati Deli Serdang tepatnya di samping kantor Bupati dan depan lapangan alun-alun Lubuk Pakam namun belum ada sikap tegas dari pihak terkait atas keberadaan poster dan baliho. Sampai saat ini belum ada pihak yang berani menggeser apalagi mencabut.\\xa0 Walaupun area lingkungan Pemkab ini merupakan lalulintas menuju venue PON namun tidak ada yang berani menurunkannya. Padahal tulisan dalam poster tertulis dukungan untuk menjadi Gubernur.\\xa0 Kasatpol PP Deli Serdang, Marjuki Hasibuan yang dikonfirmasi mengenai hal ini mengaku siap untuk selanjutnya berkordinasi dengan Bawaslu. Ia tidak sependapat kalau ini mutlak kewenangan Pemkab. Disebut setiap yang berkaitan dengan Pilkada Bawaslu selalu punya kewenangan.\\xa0 "Nanti biar kita kordinasikan dan komunikasikan sama Bawaslu. Itukan berbau untuk pilkada, harus tetap orang itu juga (yang menertibkan)," kata Marjuki. , Disebut Marjuki kalau penertiban baliho dan poster berbau Pilkada sudah pernah mereka tertibkan pada pekan lalu di kawasan Jln Arteri sampai menuju area Sport Center tempat dimana venue PON berada., Disebut saat penertiban itu Bawaslu juga ikut bersama tim. , Seperti di arteri kemarin harus ikut orang itu walaupun Satpol yang nurunkan tapi orang itu tetap ada. Kalau berbau pilkada harus ada orang itu., Di arteri yang tidak berkaitan sama PON kemarin kita bersihkan. Kalau dukung PON nggak masalah. Nanti kita tanyakan sama Bawaslu," ucap Marjuki. , Pantauan www.tribun-medan.com poster bergambar Balon Gubsu ada puluhan yang semuanya dipasang di batang pohon yang ada di pulau jalan., Sementara itu untuk yang dibaliho foto Balon Gubernur terpajang bersamaan dengan salah satu Balon Bupati Deli Serdang. Baliho di pasang diberbagai persimpangan di komplek perkantoran Bupati., Isi baliho berkaitan dengan kegiatan HIPMI Cup Race 2024. Meski kegiatan acara sudah berlangsung hampir sebulan lamanya namun hingga kini baliho masih terus terpajang. Tidak ada yang berani untuk menggesernya. , (dra/tribun-medan.com). , Berita viral lainnya di Tribun Medan',
    'passage: Kalbe Farma (KLBF) Optimistis Bukukan Kenaikan Pendapatan dan Laba Tahun Ini. Reporter: Sabrina Rhamadanty | Editor: Noverius Laoli KONTAN.CO.ID - JAKARTA. PT Kalbe Farma Tbk (Kalbe) optimistis pendapatan dan laba perseroan tumbuh tahun 2023 ini. Kendati target yang ditetapkan tumbuh moderat di level single digit.  Hal ini disampaikan langsung Direktur Kalbe Farma Sie Djohan.\\xa0“Saya rasa mungkin single digit ya (kenaikan pendapatan dan laba), tapi middle to high single digit,” ungkap Sie Djohan saat ditemui Kontan dalam acara Penyerahan Izin Edar Produk EFESA oleh BPOM di kawasan Pulo Gadung, Senin (23/10).  Sje\\xa0Djohan\\xa0yang juga menjabat\\xa0Presiden Direktur\\xa0Kalbe\\xa0Genexine\\xa0Biologics,\\xa0salah satu anak usaha Kalbe ini menambahkan pada intinya untuk seluruh unit Kalbe, hingga akhir tahun ini masih memproyeksikan adanya pertumbuhan pendapatan maupun laba.\\xa0  "Ya memang tahun ini kan banyak tantangan karena produk-produk yang tadinya banyak dibutuhkan untuk Covid-19, tahun ini sudah gak dibutuhkan lagi,” ungkapnya.\\xa0  Sie Djohan mengakui jika produk-produk milik emiten dengan kode saham\\xa0KLBF\\xa0ini, yang berkaitan dengan Covid-19 memang mengalami penurunan tahun ini.\\xa0      “Tetapi di Kalbe kami bisa menutupi penurunan tersebut. Pada saat Covid-19 misalnya, kami berhasil secepat-cepatnya membuat produk yang dibutuhkan. Karena sekarang produk-produk itu penjualannya menurun, kami juga sudah menyiapkan produk-produk yang lain yang bisa menutupi penurunan dari produk Covid-19 ini,” jelasnya.\\xa0  Untuk diketahui KLBF melalui anak usaha mereka, Kalbe-Genexine Biologics (KGbio) baru saja mendapatkan Izin Edar Produk obat terbaru mereka berupa obat anemia Efepoetin Alfa (EFESA) oleh Badan Pengawas Obat dan Makanan (BPOM).\\xa0  Melalui obat baru ini, Sie Djohan optimistis ke depannya obat ini dapat akan menopang pendapatan dan laba perusahaan.  “Tetapi harus diingat ini molekul baru (EFESA) sehingga kami tentunya harus melakukan edukasi kepada key opinion leader sehingga bisa dipahami obatnya dan kemudian digunakan, jadi mungkin perlu waktu,” ungkap dia.\\xa0 Reporter: Sabrina Rhamadanty | Editor: Noverius Laoli, Ia juga menambahkan obat ini tidak langsung berkontribusi untuk pendapatan dan profit Kalbe di kuartal satu 2024. , “Mungkin ngak, tetapi ke depannya over time, dan ingat obat ini bukan hanya akan dipasarkan di Indonesia, bukan cuma ASEAN, kita punya teritori yang cukup luas untuk memasarkan (obat) ini,” tutupnya.  , Untuk diketahui, sebelumnya berdasarkan catatan Kontan, Direktur Pharma KLBF, Mulia Lie mengatakan pada semester II-2023 Kalbe akan fokus pada upaya mendorong penjualan dengan berbagai aktivitas pemasaran dan edukasi.  , Selain itu, Kalbe akan tetap fokus pada menjaga ketersediaan produk dan meminimalkan dampak kenaikan harga bahan baku melalui pengelolaan harga dan portofolio.  , Terkait ekspansi, di semester II-2023 Kalbe berupaya mendorong peningkatan TKDN (Tingkat Komponen Dalam Negeri) melalui berbagai inisiatif penyediaan produk obat dan alat kesehatan. , ,',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.692
spearman_cosine 0.541

Training Details

Training Dataset

Unnamed Dataset

  • Size: 20,370 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string int
    details
    • min: 17 tokens
    • mean: 22.3 tokens
    • max: 42 tokens
    • min: 28 tokens
    • mean: 429.58 tokens
    • max: 512 tokens
    • 0: ~39.60%
    • 1: ~60.40%
  • Samples:
    sentence_0 sentence_1 label
    query: Is this Indonesian news article positively impact the Kabupaten Dharmasraya? passage: Pemerintah Buka Skema KPBU untuk Bangun Infrastruktur Penerangan Jalan. REPUBLIKA.CO.ID, JAKARTA — Kementerian Energi dan Sumber Daya Mineral mulai menerapkan skema Kerja sama Pemerintah dengan Badan Usaha (KPBU), yang salah satunya dapat digunakan untuk pembangunan infrastruktur Penerangan Jalan Umum (PJU). Salah satu bentuk skema KPBU untuk proyek PJU yakni seperti dalam pembentukan Badan Usaha Pelaksana KPBU Unsolicited pertama di Indonesia pada proyek peningkatan infrastruktur PJU di Kabupaten Dharmasraya, Sumatera Barat. Direktur Jenderal Ketenagalistrikan Kementerian ESDM Jisman P Hutajulu Jisman mengapresiasi tercapainya kesepakatan berupa Perjanjian Kerja Sama (PKS) antara Pemerintah Daerah Kabupaten Dharmasraya dengan PT Dharmasraya Kemilau Abadi. Ia menilai, PKS tersebut merupakan hal positif dalam mendukung usaha penunjang ketenagalistrikan, juga sebagai salah satu upaya percepatan Pembangunan di daerah. “Kementerian ESDM berkomitmen mempercepat proses pemberian per... 1
    query: Is this Indonesian news article positively impact the Kementerian Kelautan dan Perikanan (KKP)? passage: Kado Perayaan HUT Kemerdekaan RI, KKP Tangkap Dua Kapal Illegal Fishing di Selat Malaka. JAKARTA - Kementerian Kelautan dan Perikanan (KKP) berhasil melumpuhkan dua kapal berbendera Malaysia yang diduga melakukan ilegal fishing di WPPNRI 517 Perairan Selat Malaka.Penangkapan ini berhasil dilakukan dalam patroli Kapal Pengawas Kelautan dan Perikanan HIU 01 bertepatan dengan Hari Kemerdekaan Republik Indonesia ke-78 pada Kamis (17/8/2023)."Sekitar pukul 03.15, KP. HIU 01 berhasil menangkap dua kapal illegal fishing di Selat Malaka. Ini adalah kado dari kami untuk Indonesia di Hari Ulang Tahun Kemerdekaan RI yang ke-78," ujar Direktur Jenderal Sumber Daya Kelautan dan Perikanan (PSDKP) Laksda TNI Adin Nurawaluddin, mengonfirmasi kejadian tersebut.Adin menjabarkan bahwa dua kapal yang ditangkap adalah KM. SLFA 3763 dan KM. PKFA 7541. Kedua kapal tersebut berhasil dilumpuhkan pada saat melakukan illegal fishing menggunakan alat tangkap terlarang pada titik koordinat 03º07, 814’ U -... 1
    query: Is this Indonesian news article positively impact the timnas indonesia? passage: KACAU! AFC Tanggapi Permintaan Bahrain untuk Pemindahan Venue Saat Laga Kedua Indonesia vs Bahrain Berlangsung. RADARINDRAMAYU.ID -\xa0Pertandingan antara Timnas Indonesia dan Bahrain dalam lanjutan Kualifikasi Piala Dunia 2026 yang dijadwalkan pada 25 Maret 2025 mendatang terancam mengalami perubahan lokasi.\n Asosiasi Sepak Bola Bahrain (BFA) mengajukan permintaan resmi kepada Konfederasi Sepak Bola Asia (AFC) untuk memindahkan venue laga dari Indonesia, dengan alasan kekhawatiran terkait keselamatan tim nasional mereka.\n Permintaan ini menimbulkan kontroversi dan menuai perhatian publik sepak bola di kawasan Asia.\n Bahrain Mengaku Terima Ancaman\n Asosiasi Sepak Bola Bahrain menyampaikan bahwa permintaan tersebut dilandasi adanya ancaman digital dan serangan verbal yang diterima tim nasional mereka dari fans Indonesia setelah laga terakhir.\n Melalui rilis resmi yang diunggah di akun media sosialnya, BFA menyatakan bahwa keselamatan para pemain dan ofisial adalah priorita... 0
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • num_train_epochs: 25
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 25
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss cosine_similarity_eval_spearman_cosine
0.3135 100 - -0.0310
0.6270 200 - 0.0185
0.9404 300 - 0.1436
1.0 319 - 0.1853
1.2539 400 - 0.4063
1.5674 500 0.2334 0.5086
1.8809 600 - 0.5114
2.0 638 - 0.5150
2.1944 700 - 0.5111
2.5078 800 - 0.5143
2.8213 900 - 0.5169
3.0 957 - 0.5180
3.1348 1000 0.1083 0.5207
3.4483 1100 - 0.5275
3.7618 1200 - 0.5257
4.0 1276 - 0.5289
4.0752 1300 - 0.5300
4.3887 1400 - 0.5282
4.7022 1500 0.0702 0.5275
5.0 1595 - 0.5302
5.0157 1600 - 0.5307
5.3292 1700 - 0.5314
5.6426 1800 - 0.5301
5.9561 1900 - 0.5322
6.0 1914 - 0.5306
6.2696 2000 0.0566 0.5279
6.5831 2100 - 0.5319
6.8966 2200 - 0.5347
7.0 2233 - 0.5375
7.2100 2300 - 0.5352
7.5235 2400 - 0.5381
7.8370 2500 0.0498 0.5377
8.0 2552 - 0.5393
8.1505 2600 - 0.5384
8.4639 2700 - 0.5379
8.7774 2800 - 0.5388
9.0 2871 - 0.5410

Framework Versions

  • Python: 3.12.8
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
2
Safetensors
Model size
118M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Model tree for masa-research/me5-small-preskripsi-binary-sentimen-acc88-20250121_210146

Finetuned
(62)
this model

Evaluation results