SentenceTransformer based on masa-research/me5-small-preskripsi-binary-sentimen-acc91-20250121_221803
This is a sentence-transformers model finetuned from masa-research/me5-small-preskripsi-binary-sentimen-acc91-20250121_221803. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: masa-research/me5-small-preskripsi-binary-sentimen-acc91-20250121_221803
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 384 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
(1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("masa-research/me5-small-preskripsi-relevancy-and-binary-sentiment-acc_sent91-acc_rel98-20250131_093535")
# Run inference
sentences = [
'Apakah artikel berita ini membahas tentang kinerja atau citra Ombudsman RI?',
'Rapat Koordinasi Kearsipan, 3 Perangkat Daerah Kota Cirebon Raih Penghargaan ASKI. KABARCIREBON – Pj (Sekda) , H Iing Daiman, menghadiri rapat koordinasi kearsipan di lingkungan Pemerintah Tahun 2024 di Hotel Prima, Senin (9/12/2024). Acara yang dirangkaikan dengan Pencanangan Gerakan Nasional Sadar Tertib Arsip (GNSTA) ini merupakan langkah konkret yang bertujuan untuk mewujudkan sistem pemerintahan yang bersih, efisien, dan transparan melalui pengelolaan yang baik dan teratur. Dalam sambutannya, Pj Sekda menekankan pentingnya kesadaran bersama akan peran vital dalam administrasi pemerintahan. "Kita semua harus menyadari bahwa adalah salah satu unsur yang sangat vital dalam setiap urusan administrasi pemerintahan. Arsip bukan hanya sekadar tumpukan kertas yang disimpan dalam lemari atau rak , tetapi lebih dari itu, adalah rekam jejak dari segala aktivitas dan kebijakan pemerintah yang dapat menggambarkan sejarah perjalanan pembangunan kota kita," ujarnya. Menurutnya, merupakan komponen utama dalam memastikan bahwa pemerintahan dapat berjalan dengan akuntabilitas yang tinggi. Tanpa yang dikelola dengan baik, akan sulit bagi pemerintahan untuk melacak keputusan-keputusan yang telah diambil. "Tanpa yang dikelola dengan baik, kita tidak akan dapat melacak keputusan-keputusan yang diambil, akuntabilitas dan transparansi pemerintahan menjadi kabur, serta pelayanan publik akan terganggu," katanya. Pj Sekda menegaskan bahwa pengelolaan yang baik sangat mendukung tercapainya tata kelola pemerintahan yang bersih, efisien, dan transparan. Dalam konteks ini, pengelolaan bukan hanya soal menjaga dokumen, tetapi juga memastikan bahwa informasi dapat diakses dengan mudah dan cepat oleh pihak yang berkepentingan. Berita Pilihan',
'Risma Siap Bangun Jatim Mulai dari Desa dengan Gaya Kepemimpinan Dekat Rakyat. Mojokerto (beritajatim.com) – Calon Gubernur Jawa Timur nomor urut 03, Tri Rismaharini, menyampaikan pentingnya memahami permasalahan rakyat langsung dari sumbernya. Menurut Risma, pemimpin tidak boleh hanya menerima laporan atau bekerja di balik meja. Hal ini diungkapkannya saat bertemu Komunitas Proklamator Desa di Kedung Sumur, Desa Canggu, Kecamatan Jetis, Kabupaten Mojokerto, Kamis (14/11/2024). Risma menjelaskan bahwa gaya kepemimpinannya berfokus pada dialog dengan warga, bahkan di tempat-tempat sederhana. “Saat saya jadi wali kota di periode pertama, saya pernah kampanye di atas kuburan di pinggir sungai. Meskipun orangnya sedikit, saya senang mendengar suara mereka,” tutur Risma. Menurutnya, menjadi pemimpin yang baik berarti mampu mendengarkan rakyat secara langsung, tanpa batasan. Sebagai mantan Wali Kota Surabaya dua periode dan Menteri Sosial, Risma memiliki visi besar untuk membawa pelayanan pemerintah hingga ke pelosok desa. Ia berencana membangun command center yang memungkinkan masyarakat desa mengakses layanan pemerintah dari mana saja, bahkan bagi mereka yang tidak memiliki perangkat canggih. “Command center ini memungkinkan rakyat desa terhubung dengan layanan, meski tidak punya HP atau smartphone,” jelas Risma. Tidak hanya fokus pada pelayanan publik, Risma juga ingin mengembangkan ekonomi desa dengan meningkatkan nilai jual hasil pertanian lokal. Salah satunya dengan menyediakan alat pengolahan produk di setiap daerah agar komoditas seperti jagung dapat diolah menjadi produk bernilai lebih tinggi. “Sebagian jagung bisa kita jual, sebagian lagi kita olah menjadi minyak goreng. Ini memberi nilai tambah bagi desa,” ungkapnya. Risma mencontohkan pengalamannya di Papua dalam mengolah kelapa sawit menjadi minyak lokal. Ia optimis teknik ini bisa diterapkan di Jawa Timur untuk meningkatkan nilai produk komoditas desa. Selain itu, Risma berkomitmen untuk mendukung kelompok rentan, seperti anak yatim, lansia, dan difabel. Ia mengenang bagaimana setiap pagi, saat menjabat sebagai Wali Kota Surabaya, ia mencari tuna wisma untuk menawarkan tempat tinggal di rumah susun sewa dengan tarif Rp10 ribu per bulan. “Setiap pagi, sebelum bekerja, saya turun ke jalan mencari tuna wisma, melatih keterampilan mereka, dan membekali mereka untuk memulai usaha,” jelasnya. Koordinator Proklamator Desa, Pungkasiadi, menyatakan dukungannya kepada Risma. “Bu Risma bukan sosok yang banyak bicara, tapi langsung bekerja. Rekam jejaknya sebagai wali kota dan menteri telah membuktikan bahwa ia pemimpin yang hebat,” ujar mantan Bupati Mojokerto itu. [ram/beq]',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Semantic Similarity
- Evaluated with
EmbeddingSimilarityEvaluator
Metric | Value |
---|---|
pearson_cosine | 0.9411 |
spearman_cosine | 0.8252 |
Training Details
Training Dataset
Unnamed Dataset
- Size: 114,204 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string int details - min: 13 tokens
- mean: 17.62 tokens
- max: 37 tokens
- min: 41 tokens
- mean: 454.72 tokens
- max: 512 tokens
- 0: ~47.50%
- 1: ~52.50%
- Samples:
sentence_0 sentence_1 label Apakah artikel berita ini membahas tentang kinerja atau citra Direktorat Jenderal Pajak?
Daftar Barang dan Jasa yang Kena PPN 12 Persen mulai Awal Tahun Depan. Pajak Pertambahan Nilai (PPN) akan naik dari 11 persen menjadi 12 persen mulai 1 Januari 2025. Kenaikan PPN itu diatur dalam UU Nomor 7 Tahun 2021 tentang Harmonisasi Peraturan Perpajakan (HPP). Rencana kenaikan PPN itu pun menuai kritik dari publik karena akan mengerek harga barang-barang. Namun, Direktorat Jenderal Pajak (DJP) Kementerian Keuangan (Kemenkeu) mengatakan sejatinya hasil pajak itu akan dikembalikan untuk masyarakat lagi. Lantas apa saja barang dan jasa yang akan kena PPN 12 persen mulai awal tahun depan? Melansir situs Kementerian Keuangan, secara umum umum pengenaan PPN dikenakan atas objek berikut: – Penyerahan Barang Kena Pajak (BKP) dan/atau Jasa Kena Pajak (JKP) di dalam daerah pabean yang dilakukan oleh Pengusaha Kena Pajak (PKP). Misalnya barang elektronik yang dibeli di pusat perbelanjaan. – Impor BKP dan/atau pemanfaatan JKP Tak Berwujud dari luar Daerah Pabean di dalam Daerah Pabean. Misaln...
1
Apakah artikel berita ini membahas tentang kinerja atau citra Direktorat Jenderal Pajak?
Aplikasi Coretax DJP Masih Ada Kendala, Layanan Pajak Lambat. JAKARTA (Berita): Aplikasi Coretax Direktorat Jenderal Pajak (DJP) telah diimplementasikan pada tanggal 1 Januari 2025, namun dalam pelaksanaannya ternyata masih banyak mengalami kendala yang menyebabkan terjadinya ketidaknyamanan dan keterlambatan layanan administrasi perpajakan. “Sehubungan dengan itu bersama ini kami dengan segala kerendahan hati menyampaikan permohonan maaf kepada seluruh wajib pajak atas terdapatnya kendala – kendala yang terjadi dalam penggunaan fitur-fitur layanan Coretax DJP tersebut,” tegas Dwi Astuti, Direktur Penyuluhan, Pelayanan, dan Hubungan Masyarakat (P2Humas) Direktorat Jenderal Pajak Jumat (10/1/2024). Dalam siaran persnya diterima melalui Kabid P2Humas Kanwil DJP Sumut I Lusi Yuliani, Dwi menuturkan pihaknya akan terus berupaya untuk memperbaiki kendala yang ada serta memastikan layanan Coretax DJP dapat berjalan dengan baik. Sampai saat ini, upaya perbaikan yang telah dilakukan meliputi: ...
1
Apakah artikel berita ini membahas tentang kinerja atau citra Ombudsman RI?
Ini program unggulan Kemenekraf tahun 2025 dalam 4 klaster. Jakarta (ANTARA) - Menteri Ekonomi Kreatif/Kepala Badan Ekonomi Kreatif (Menekraf/Kabekraf) Teuku Riefky Harsya telah menyiapkan rencana kerja dan program unggulan Kementerian Ekonomi Kreatif/Badan Ekonomi Kreatif (Kemenekraf/Bekraf) di tahun 2025 dalam empat klaster. “Empat klaster tersebut, di antaranya klaster 1 desain besar pengembangan ekraf (ekonomi kreatif), klaster 2 konsolidasi internal kementerian baru, klaster 3 program yang tertuju kepada penciptaan lapangan kerja dan peningkatan kapasitas pelaku ekonomi kreatif, dan klaster 4 ekraf sebagai the new engine of growth,” kata Riefky dalam keterangan resminya yang diterima di Jakarta, Sabtu. Pada klaster 1 desain besar (grand design), Kemenekraf akan melakukan pengembangan ekonomi kreatif yang mencakup sejumlah program unggulan. Antara lain penyempurnaan regulasi, sinkronisasi lintas kementerian atau lembaga (K/L), serta kolaborasi lintas K/L dan pelaku industri. “Kami ...
0
- Loss:
CosineSimilarityLoss
with these parameters:{ "loss_fct": "torch.nn.modules.loss.MSELoss" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 32per_device_eval_batch_size
: 32num_train_epochs
: 20fp16
: Truemulti_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 32per_device_eval_batch_size
: 32per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 20max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Truefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss | spearman_cosine |
---|---|---|---|
0.1401 | 500 | 0.1054 | - |
0.2802 | 1000 | 0.0569 | - |
0.4203 | 1500 | 0.053 | - |
0.5604 | 2000 | 0.0476 | - |
0.7005 | 2500 | 0.0449 | - |
0.8406 | 3000 | 0.0433 | - |
0.9807 | 3500 | 0.0411 | - |
1.0 | 3569 | - | 0.8153 |
1.1208 | 4000 | 0.0347 | - |
1.2609 | 4500 | 0.0359 | - |
1.4010 | 5000 | 0.0338 | - |
1.5410 | 5500 | 0.0335 | - |
1.6811 | 6000 | 0.0302 | - |
1.8212 | 6500 | 0.0307 | - |
1.9613 | 7000 | 0.0302 | - |
2.0 | 7138 | - | 0.8224 |
2.1014 | 7500 | 0.0262 | - |
2.2415 | 8000 | 0.0259 | - |
2.3816 | 8500 | 0.0244 | - |
2.5217 | 9000 | 0.0248 | - |
2.6618 | 9500 | 0.025 | - |
2.8019 | 10000 | 0.0248 | - |
2.9420 | 10500 | 0.0254 | - |
3.0 | 10707 | - | 0.8229 |
3.0821 | 11000 | 0.0219 | - |
3.2222 | 11500 | 0.0191 | - |
3.3623 | 12000 | 0.0201 | - |
3.5024 | 12500 | 0.0205 | - |
3.6425 | 13000 | 0.0214 | - |
3.7826 | 13500 | 0.0199 | - |
3.9227 | 14000 | 0.0205 | - |
4.0 | 14276 | - | 0.8221 |
4.0628 | 14500 | 0.0177 | - |
4.2029 | 15000 | 0.016 | - |
4.3430 | 15500 | 0.0169 | - |
4.4830 | 16000 | 0.0176 | - |
4.6231 | 16500 | 0.0172 | - |
4.7632 | 17000 | 0.0169 | - |
4.9033 | 17500 | 0.0176 | - |
5.0 | 17845 | - | 0.8242 |
5.0434 | 18000 | 0.0147 | - |
5.1835 | 18500 | 0.0129 | - |
5.3236 | 19000 | 0.0136 | - |
5.4637 | 19500 | 0.0144 | - |
5.6038 | 20000 | 0.0137 | - |
5.7439 | 20500 | 0.0152 | - |
5.8840 | 21000 | 0.0149 | - |
6.0 | 21414 | - | 0.8219 |
6.0241 | 21500 | 0.0142 | - |
6.1642 | 22000 | 0.0105 | - |
6.3043 | 22500 | 0.011 | - |
6.4444 | 23000 | 0.0116 | - |
6.5845 | 23500 | 0.0126 | - |
6.7246 | 24000 | 0.0125 | - |
6.8647 | 24500 | 0.0127 | - |
7.0 | 24983 | - | 0.8252 |
Framework Versions
- Python: 3.12.8
- Sentence Transformers: 3.3.1
- Transformers: 4.46.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.2.0
- Tokenizers: 0.20.3
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 3
Inference Providers
NEW
This model is not currently available via any of the supported third-party Inference Providers, and
the model is not deployed on the HF Inference API.
Model tree for masa-research/me5-small-preskripsi-relevancy-and-binary-sentiment-acc_sent91-acc_rel98-20250131_093535
Evaluation results
- Pearson Cosine on Unknownself-reported0.941
- Spearman Cosine on Unknownself-reported0.825