--- license: apache-2.0 language: - el metrics: - f1 - recall - precision - hamming_loss pipeline_tag: text-classification widget: - text: >- Δεν ξέρω αν είμαι ο μόνος αλλά πιστεύω πως όσο είμαστε απασχολημένοι με την όλη κατάσταση της αστυνομίας η κυβέρνηση προσπαθεί να καλύψει αλλά γεγονότα της επικαιρότητας όπως πανδημία και εξωτερική πολιτική. example_title: Πολιτική - text: >- Άλλες οικονομίες, όπως η Κίνα, προσπαθούν να διατηρούν την αξία του νομίσματος τους χαμηλά ώστε να καταστήσουν τις εξαγωγές τους πιο ελκυστικές στο εξωτερικό. Γιατί όμως θεωρούμε πως η πτωτική πορεία της Τουρκικής λίρας είναι η "αχίλλειος πτέρνα" της Τουρκίας; example_title: Οικονομία - text: >- Γνωρίζει κανείς γιατί δεν ψηφίζουμε πια για να βγει ποιο τραγούδι θα εκπροσωπήσει την Ελλάδα; Τα τελευταία χρόνια ο κόσμος είναι δυσαρεστημένος με τα τραγούδια που στέλνουν, γιατί συνεχίζεται αυτό; example_title: Ψυχαγωγία/Κουλτούρα model-index: - name: IMISLab/Greek-Reddit-BERT results: - task: type: text-classification name: Text-classification dataset: name: GreekReddit type: greekreddit config: default split: test metrics: - name: Precision type: precision value: 80.05 verified: true - name: Recall type: recall value: 81.48 verified: true - name: F1 type: f1 value: 80.61 verified: true - name: Hamming Loss type: hamming_loss value: 19.84 verified: true datasets: - IMISLab/GreekReddit library_name: transformers tags: - Social Media - Reddit - Topic Classification - Text Classification - Greek NLP --- # Greek-Reddit-BERT A Greek topic classification model based on [GREEK-BERT](https://huggingface.co/nlpaueb/bert-base-greek-uncased-v1). This model is fine-tuned on [GreekReddit](https://huggingface.co/datasets/IMISLab/GreekReddit) as part of our research article: [Mastrokostas, C., Giarelis, N., & Karacapilidis, N. (2024) Social Media Topic Classification on Greek Reddit](https://www.mdpi.com/2078-2489/15/9/521) For more information see the evaluation section below. ## Training dataset The training dataset of `Greek-Reddit-BERT` is [GreekReddit](https://huggingface.co/datasets/IMISLab/GreekReddit), which is a topic classification dataset. Overall, [GreekReddit](https://huggingface.co/datasets/IMISLab/GreekReddit) contains 6,534 user posts collected from Greek subreddits belonging to various topics (i.e., society, politics, economy, entertainment/culture, sports). ## Training configuration We fine-tuned `nlpaueb/bert-base-greek-uncased-v1` (113 million parameters) on the GreekReddit train split using the following parameters: * GPU batch size = 16 * Total training epochs = 4 * Learning rate = 5e−5 * Dropout Rate = 0.1 * Number of labels = 10 * 32-bit floating precision * Tokenization * maximum input token length = 512 * padding = True * truncation = True ## Evaluation **Model**|**Precision**|**Recall**|**F1**|**Hamming Loss** ------------|-----------|-----------|-----------|------------- Greek-Reddit-BERT|80.05|81.48|80.61|19.84 ### Example code ```python from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline model_name = 'IMISLab/Greek-Reddit-BERT' model = AutoModelForSequenceClassification.from_pretrained(model_name) tokenizer = AutoTokenizer.from_pretrained(model_name) topic_classifier = pipeline( 'text-classification', device = 'cpu', model = model, tokenizer = tokenizer, truncation = True, max_length = 512 ) text = 'Άλλες οικονομίες, όπως η Κίνα, προσπαθούν να διατηρούν την αξία του νομίσματος τους χαμηλά ώστε να καταστήσουν τις εξαγωγές τους πιο ελκυστικές στο εξωτερικό. Γιατί όμως θεωρούμε πως η πτωτική πορεία της Τουρκικής λίρας είναι η ""αχίλλειος πτέρνα"" της Τουρκίας;' output = topic_classifier(text) print(output[0]['label']) ``` ## Contact If you have any questions/feedback about the model please e-mail one of the following authors: ``` giarelis@ceid.upatras.gr cmastrokostas@ac.upatras.gr karacap@upatras.gr ``` ## Citation ``` @article{mastrokostas2024social, title={Social Media Topic Classification on Greek Reddit}, author={Mastrokostas, Charalampos and Giarelis, Nikolaos and Karacapilidis, Nikos}, journal={Information}, volume={15}, number={9}, pages={521}, year={2024}, publisher={Multidisciplinary Digital Publishing Institute} } ```