SentenceTransformer

This is a sentence-transformers model trained. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 384 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/me5-small-preskripsi-binary-sentimen-acc91-20250121_221803")
# Run inference
sentences = [
    'query: Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Arief Wisnu Cahyono?',
    'passage: PDAM Surabaya optimalkan aplikasi CIS PDAM untuk layanan pelanggan. Surabaya (ANTARA) - PDAM Surya Sembada Kota Surabaya, Jawa Timur terus mengoptimalkan promosi aplikasi Customer Information System (CIS) PDAM untuk meningkatkan layanan dalam rangkaian memperingati Hari Pelanggan Nasional (Harpelnas). Direktur Utama PDAM Surabaya Arief Wisnu Cahyono di Surabaya, Rabu, mengatakan dalam rangka Harpelnas pihaknya memberikan souvenir menarik berupa sembako dan hiburan pelanggan melalui musik akustik serta konsumsi gratis untuk pelanggan pada 4-5 September 2024. "Perayaan HPN tahun ini bertema \' Artificial Intelligence Membuat Pelayanan Pelanggan Lebih Responsif dan Personal\', tema ini selaras dengan komitmen PDAM Surabaya dalam mengoptimalkan teknologi informasi untuk meningkatkan pengalaman pelayanan PDAM," katanya. Ia menyampaikan apresiasi mendalam kepada seluruh pelanggan atas kepercayaan dan kesetiaan yang telah diberikan. "PDAM Surabaya mengucapkan Selamat Hari Pelanggan Nasional 2024. Terima kasih kepada seluruh pelanggan PDAM atas kesetiaan dan kepercayaan yang diberikan. PDAM akan terus berinovasi untuk memastikan pelanggan mendapatkan pelayanan yang cepat dan responsif," ucapnya. Salah satu pelanggan, M. Fachrizal Yosep, mengaku sangat dimudahkan dan masalahnya cepat teratasi setelah membuat laporan melalui CIS. "Era digital, Kota Surabaya dipermudah layanan PDAM-nya lewat CIS. Saya unggah Aplikasi CIS sejak tahun lalu, saat ini sudah hampir dua tahun menggunakan CIS PDAM. CIS memudahkan saya untuk mengakses layanan PDAM. Satu nomor HP saya ini bisa digunakan untuk dua nomor pelanggan, di rumah saya dan rumah orang tua," katanya. Selain Aplikasi CIS PDAM, pelanggan tetap dapat mengakses pelayanan PDAM melalui Call Center Bebas Pulsa 24 jam di 08001926666, WhatsApp di nomor 08123316666. Melalui layanan ini, pelanggan dapat dengan mudah mengakses layanan PDAM tanpa harus datang ke kantor PDAM. Selain itu, pelanggan juga dapat melakukan pencatatan meter mandiri, pembayaran melalui Qris, info gangguan air, serta menyampaikan pengaduan dengan layanan respon cepat.\u200b\u200b\u200b\u200b\u200b\u200b\u200b',
    'passage: Kemenangan Timnas Indonesia Ternoda oleh Kontroversi Wasit, Kado Ulang Tahun STY Rusak. HARIANHALUAN.COM - Seharusnya menjadi kemenangan manis untuk Timnas Indonesia dan hadiah spesial bagi Shin Tae-yong di hari ulang tahunnya, namun keputusan wasit mengubah segalanya. Kemenangan Timnas Indonesia di laga Kualifikasi Piala Dunia 2026 ronde ketiga seharusnya menjadi kado indah untuk pelatih Shin Tae-yong (STY), yang bertepatan dengan hari ulang tahunnya. Namun, pertandingan tersebut berubah menjadi momen yang penuh kekecewaan akibat keputusan kontroversial dari wasit yang merusak euforia kemenangan. Pertandingan yang berlangsung di Stadion Gelora Bung Karno ini dipenuhi dengan semangat para pendukung Timnas, yang berharap kemenangan bisa diraih sebagai bentuk apresiasi kepada STY. Timnas Indonesia tampil solid dan mendominasi sebagian besar jalannya laga.  Gol pembuka dari Tim Garuda bahkan berhasil menggetarkan stadion dan memberikan harapan besar akan kemenangan. Namun, semuanya berubah ketika wasit mengambil keputusan yang dianggap merugikan Indonesia. Di babak kedua, wasit memberikan penalti kepada tim lawan setelah insiden yang dinilai banyak pihak tidak layak. Keputusan tersebut langsung memicu protes dari pemain dan pelatih Timnas, serta gelombang kekecewaan dari para suporter.  Sayangnya, protes tersebut tidak merubah keputusan, dan gol dari penalti lawan menghapus keunggulan Timnas Indonesia. "Kami sudah bekerja keras di lapangan. Semua pemain memberikan yang terbaik, namun keputusan wasit sangat merugikan kami," ujar salah satu pemain Timnas dalam sesi wawancara pasca pertandingan. Kekecewaan juga dirasakan oleh STY, yang merayakan ulang tahunnya di hari tersebut. , "Tentu, saya ingin kemenangan ini menjadi hadiah, namun apa yang terjadi di lapangan di luar kendali kami," ucap STY dengan nada sedih., Meskipun hasil akhir pertandingan tidak sesuai harapan, apresiasi dan dukungan untuk STY tetap mengalir dari para penggemar., Media sosial dibanjiri ucapan selamat ulang tahun dan terima kasih kepada pelatih asal Korea Selatan ini atas dedikasi dan kerja kerasnya selama melatih Timnas Indonesia. , "Selamat ulang tahun coach, terima kasih atas perjuangannya untuk Timnas," tulis seorang penggemar di Twitter, yang kemudian viral., Kekecewaan akibat keputusan wasit ini tidak hanya dirasakan oleh STY dan para pemain, namun juga oleh seluruh pendukung Timnas Indonesia., Banyak pihak berharap bahwa federasi sepak bola internasional dapat mengevaluasi kembali kualitas wasit dalam pertandingan penting seperti ini, agar kejadian serupa tidak terulang di masa depan., Meskipun demikian, perjuangan Timnas Indonesia masih panjang., Semangat dan kerja keras yang ditunjukkan dalam pertandingan ini menjadi modal berharga untuk pertandingan berikutnya. , Para pemain dan staf pelatih berjanji akan bangkit dan kembali berjuang demi lolos ke Piala Dunia 2026., Semangat Garuda tetap berkobar, meski kemenangan kali ini harus ternoda oleh kontroversi.***',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Semantic Similarity

Metric Value
pearson_cosine 0.7404
spearman_cosine 0.5515

Semantic Similarity

Metric Value
pearson_cosine 0.7488
spearman_cosine 0.5563

Training Details

Training Dataset

Unnamed Dataset

  • Size: 20,370 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string int
    details
    • min: 20 tokens
    • mean: 24.93 tokens
    • max: 47 tokens
    • min: 33 tokens
    • mean: 440.92 tokens
    • max: 512 tokens
    • 0: ~38.00%
    • 1: ~62.00%
  • Samples:
    sentence_0 sentence_1 label
    query: Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Komisi II DPR RI? passage: Mendagri minta maaf soal kinerja Pj Gubernur Papua Barat Daya. dia adalah think tank utama yang menjadi andalan di Provinsi Papua, dan orang yang sangat cerdas Jakarta (ANTARA) - Menteri Dalam Negeri (Mendagri) Muhammad Tito Karnavian meminta maaf terkait kinerja Penjabat (Pj.) Gubernur Papua Barat Daya Mohammad Musa’ad. “Untuk Papua Barat Daya, saya terus terang minta maaf kalau sampai ada hal yang kurang menyenangkan,” kata Tito dalam rapat kerja Komisi II DPR RI di kompleks parlemen, Senayan, Jakarta, Senin. Ia mengaku mengenal baik Musa’ad sebagai putra asli Fakfak, Papua Barat, yang merupakan akademisi, dan birokrat di Kementerian Pemuda dan Olahraga (Kemenpora). “Waktu saya (menjabat, red.) Kapolda Papua, dia adalah think tank (pemikir, red.) utama yang menjadi andalan di Provinsi Papua, dan orang yang sangat cerdas,” ujarnya. Oleh sebab itu, ia mengaku kaget ketika mendapatkan laporan kinerja yang kurang baik dari Musa’ad. “Saya langsung tegur keras sekali yang bersangk... 0
    query: Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Pemerintah Pusat? passage: PLN: Pembangkit energi baru terbarukan (EBT) di Bali masih 1.48 persen. Denpasar (ANTARA) - PT PLN (Persero) menyatakan bauran pembangkit energi baru terbarukan (EBT) di Bali saat ini masih terbilang kecil yakni sebesar 1,48 persen. Meskipun demikian, General Manager PT PLN (Persero) Unit Induk Distribusi Bali I Wayan Udayana di Denpasar, Bali, Senin, menjamin keandalan dan keamanan pasokan listrik di Bali tetap aman. “PLTS ini sifatnya intermitten yakni pembangkit listrik yang dalam proses pemasokan dayanya tidak tersedia secara terus menerus, dikarenakan faktor sumber daya yang tidak dapat dikontrol. Untuk itu, PLN harus memperkuat sistem dan memastikan pasokan listrik kepada pelanggan tetap andal dan tidak terganggu,” kata General Manager PT PLN (Persero) Unit Induk Distribusi Bali I Wayan Udayana di Denpasar, Bali saat menerima kunjungan Dewan Energi Nasional. Tiga pembangkit listrik EBT di Bali siap diperlihatkan saat KTT G20 Udayana mengatakan potensi EBT di Bali memang ... 0
    query: Apakah artikel berita ini dapat memberi dampak dan sentimen positif masyarakat terhadap Vatikan? passage: Salam Hangat Paus Fransiskus ke Presiden Terpilih Prabowo Subianto. Pemimpin Tertinggi Gereja Katolik Sedunia sekaligus Kepala Negara Vatikan, Paus Fransiskus menyampaikan salam hangat kepada Presiden Terpilih Prabowo Subianto. Dalam pidatonya, Paus Fransiskus mengatakan dirinya kagum dengan makna dari semboyan Bhinneka Tunggal Ika yang dimiliki oleh bangsa Indonesia. 1
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • num_train_epochs: 25
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 25
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: False
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin

Training Logs

Epoch Step Training Loss spearman_cosine
1.0 319 - 0.5452
1.5674 500 0.0293 -
2.0 638 - 0.5504
3.0 957 - 0.5546
3.1348 1000 0.0264 -
4.0 1276 - 0.5513
4.7022 1500 0.0224 -
1.0 319 - 0.5515
1.0 445 - 0.5566
1.1236 500 0.0255 -
2.0 890 - 0.5536
2.2472 1000 0.0224 -
3.0 1335 - 0.5579
3.3708 1500 0.0204 -
4.0 1780 - 0.5506
4.4944 2000 0.019 -
5.0 2225 - 0.5563

Framework Versions

  • Python: 3.12.8
  • Sentence Transformers: 3.3.1
  • Transformers: 4.46.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.2.0
  • Tokenizers: 0.20.3

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
0
Safetensors
Model size
118M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Evaluation results