AbraMuhara
/

Fine-TunedBERTURKOfansifTespit

@@ -47,70 +47,6 @@ Fatih Kürşat Cansu(Danışman)
 Mehmet Kağan Albayrak(Üye): https://github.com/TFLkedimestan
-## Problem:
-Ele alınan problem, özellikle çocuk ve genç okurlar için uygun kitapların seçilmesi sürecindeki eğitimcilerin ve yetişkinlerin yaşadıkları belirsizliktir.
-Kitapların içerdiği dil, temalar ve uygunsuz öğeler, yaş gruplarına göre farklı etkiler yaratmaktadır.
-Bu bağlamda, öğretmenler, kütüphaneciler, ebeveynler ve okurlar için kitapların içeriklerinin değerlendirilmesi ve uygunluk derecelerinin belirlenmesi oldukça önem arz etmektedir
-## Projenin Tanımı:
-Bu proje, kullanıcıların sisteme yükledikleri Türkçe kitapların PDF dosyalarını analiz ederek kitapların uygun yaş aralıklarını, içerilerinde kaç uygunsuz cümle ve kelime geçtiği vb. bilgileri belirlemeyi ve bunları kullanıcıya bildirmeyi amaçlayan bir uygulamadır.
-Bu projenin ana teması, kitapların içerdiği dil ve temaların uygunluğunu değerlendirerek okurların ve eğitimcilerin doğru seçimler yapmasını sağlamaktır. Elde edilen bulgular doğrultusunda proje bu amaca yüksek bir doğrulukla ulaşmaktadır.
-## Projenin Sağladığı Çözüm ve Hedef Kitlesi
-Bu proje kitapların içeriğini analiz ederek kitaplar hakkında çeşitli bilgiler ve sonuçlar çıkartıp bunları kullanıcıya vermektedir. Bu sayede kullanıcı okuyacağı veya önereceği kitap hakkında derinlemesine bilgi sahibi olmaktadır. Uygulamanın verdiği yaş aralığı sayesinde uygun kitapları önerebilecek veya okuyabilecektir.
-Proje, kitap bulma ve önerme bakımında zorluk yaşayan kişilere yöneliktir.
-Bu projenin hedef kitlesi şunlardır:
-•Kültür ve Turizm Bakanlığına bağlı halk kütüphanelerinde çalışan kütüphaneciler,
-•Milli Eğitim Bakanlığına bağlı öğretmenler,
-•Eğitimciler,
-•Çocuklarına kitap önerecek olan ebeveynler,
-•Okurlar.
-## Proje İş Akışı
-![Projenin başarıyla tamamlanması için gereken görevlerin ve süreçler](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/workflow.png)
 ## Projemizin Aşamaları:
@@ -192,81 +128,6 @@ Doğrulama Seti Veri Dağılımı
-### Yaş Aralığı Modeli Veri Seti
-Bir diğer veri seti, kelime listesi ve bir önceki veri setiyle oluşturan model ile sıfırdan oluşturulmuştur.
-İçerisindeki veriler şunlardır:
-•Cümle, kelime ve hece sayısı;
-•Cümle başına ortalama kelime ve hece sayısı;
-•Ofansif cümle sayısı, oranı ve yüzdesi;
-•Ofansif kelime sayısı ve oranı;
-•Ofansif kelime sayısının ofansif olmayan kelime sayısına oranı;
-•Ortalama cümle ofansifliği;
-•FRES, COE ve Ateşman okunulabilirlik puanları;
-•Önerilen yaş aralığı.
-İçerisinde toplam 113 adet kitabın verisi bulunmaktadır.
-![Veri Seti Yaş Aralığı Dağılımı](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/yas_araligi_dagilim.png)
-Veri Seti Yaş Aralığı Dağılımı
-![enter image description here](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/yas_veri_ornek.png)
-Veri Setinden Bir Örnek
-## Modellerin Oluşturulması
-### Modellerin Linkleri
-Yaş Aralığı Sınıflandırma: https://huggingface.co/AbraMuhara/AgeClassificationTDDI2024
-Uygunsuz Cümle Sınıflandırma: https://huggingface.co/AbraMuhara/Fine-TunedBERTURKOfansifTespit
 ### Uygunsuzluk Modelleri
 Metinlerin uygunsuzluğunu ölçen model için çeşitli mimariler kullanılmıştır.
@@ -347,122 +208,6 @@ Bu modellerin doğrulukları aşağıdadır.
-### Yaş Aralığı Modeli
-Yaş aralığı modeli için oluşturulmuş olan veri seti kullanılmıştır. Modeli oluşturmak için çeşitli makine öğrenmesi ve sinir ağı algoritmaları denenmiştir ve aralarında %95,65 ile en yüksek doğruluğa sahip olan Optuna ile optimize edilmiş CatBoost algoritması seçilmiştir. CatBoost, özellikle kategorik verileri otomatik olarak işleyebilmesi sayesinde veri ön işleme sürecini büyük ölçüde kolaylaştıran bir makine öğrenmesi algoritmasıdır. Optuna ise modellerin performansını artırmak için gereken hiperparametrelerin en iyi şekilde ayarlanmasını sağlar.
-![Modelin Değerlendirmesi](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/catboost-accuracy.jpg)
-![Modelin Hiperparametreleri](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/catboost-param.jpg)
-Ayrıca diğer makine öğrenmesi algoritmalarının yüzde kaç doğruluk verdiği aşağıdadır.
-![Farklı Model Mimarilerinde Uygunsuzluk Modelinin Doğruluk Değerleri](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/accuracies.png)
-## Okunulabilirlik Puanları
-Okunulabilirlik puanları, yapılan araştırmalar sonucu bir metnin farklı dillerde okunulabilirlik endeksini ve farklı yaş aralıkları için okunulabilirlik düzeylerini tespit etmek için oluşturulmuş formüllerdir.
-Bunlardan en popüler olanları şunlardır:
-•COE (Çetinkaya Okunulabilirlik Endeksi):
-$118,823 -(25,987 ∗ASW )-(0,971 ∗AWS)$ (Çetinkaya, 2008)
-•Ateşman Puanı:
-$198,825 -40,175 ∗ASW -2,610 ∗AWS$ (Ateşman, 1997)
-•FRES (Flesch Okunulabilirlik Skoru):
-$206,835 -(AWS ∗1,015)+(ASW ∗8,46)$ (Flesch, 1948)
-*$AWS$ = Cümle başına ortalama kelime sayısı
-*$ASW$ = Kelime başına ortalama hece sayısı
-## GUI
-customtkinter: Uygulamamıza modern bir görüntü katan özelleştirilmiş tkinter
-Uygulamamızın iki modu vardır: Gece ve Gündüz modu.
-Bu iki modun yaptığı arkaplan ve butonların rengini ayarlamasıdır.
-Uygulamamızın sağ alt köşesinde bulunan bilgilendirme butonu, kullanıcının uygulamayı nasıl kullanması gerektiğini ve yapımcısı olan Abra Muhara ekibindeki üyeleri gösterir.
-Uygulama ilk açıldığında ortadaki 'Dosya yükle' yazan butona basıldığında bilgisayarımızdan ölçmek istediğimiz kitabı (pdf'yi) seçmemiz istenir.
-![Dosya yükleme merkezi](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/dosya_yukle.jpg)
-![Kitap Analizi](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/kitap_analiz.jpg)
-Dosya seçildikten sonra kitabın gerekli bilgileri toplanır ve bir tablo haline getirilir.
-Tablo kullanıcıya sunulur ve önerilen yaş aralığı buna göre bildirilir.
-## Proje Yol Haritası
-Projede oluşturulan modeller FastAPI, Hugging Face ve Github platformlarına yüklenmiştir. İlerleyen süreçte açık kaynak kodlu olan bu platformlar üzerinden kullanıcılar tarafından geliştirilebilir. Ayrıca proje halk kütüphanelerinde kullanıma sunulabilir.
-Projede geliştirilebilecek konular şunlardır:
-•Veri setinde kullanılan kitap sayısı artırılabilir ve daha yüksek doğruluk elde edilebilir.
-•Ofansif kelime listesindeki kelime sayısı artırılabilir ve daha yüksek doğruluk elde edilebilir.
-•Uygunsuzluğu ölçen model daha büyük NLP modelleri ile eğitilip daha tutarlı sonuçlar alınabilir.
-Veri setinde kullanılan kitap sayısının artırılabilmesi için kullanıcıların veri setinde kullanılabilmesi için kitap yükleyebileceği demo bir web sitesi oluşturulmuştur. Bu web sitesinden kullanıcılar farklı kitapları ve bu kitapların yaş aralıklarını yükleyerek veri setini büyütebilir ve daha yüksek doğruluk elde edilmesini sağlayabilir.
-Web sitesi linki:
-https://kitapmetre-veri-seti-araci.glitch.me
-![KitapMetre Veri Seti Aracı](https://github.com/Abra-Muhara/kitapmetre-2024AcikHackTDDI/blob/main/additionalImages/veri-seti-arac.png)
 ## Fast-API
@@ -473,12 +218,6 @@ Projenin sonunda elde ettiğimiz modelin kullanıcıların daha kolay erişilmes
 2. Tabular verilerini elde ettiğiniz kitabınızın yaş aralığını bulmak isterseniz tek yapmanız gereken verilerinizi örnek veri setindeki sütunlar şeklinde sıralamanız ve  (https://abramuhara-fast-api.hf.space/predict-age/) sayfasına parametreniz {'features': list[Float]}
 olacak şekilde göndermenizdir. Cevap olarak {"age_group": yazı şeklinde yaş kategorisi} gönderilecektir.
-## Kurulum Rehberi
-Çalıştırmanız tek gereken kod:
-```python
-pip install -r requirements.txt
-```
-Sonrasında gui klasöründeki main.py dosyasını çalıştırın
 ## Kaynakçalar:

 Mehmet Kağan Albayrak(Üye): https://github.com/TFLkedimestan
 ## Projemizin Aşamaları:
 ### Uygunsuzluk Modelleri
 Metinlerin uygunsuzluğunu ölçen model için çeşitli mimariler kullanılmıştır.
 ## Fast-API
 2. Tabular verilerini elde ettiğiniz kitabınızın yaş aralığını bulmak isterseniz tek yapmanız gereken verilerinizi örnek veri setindeki sütunlar şeklinde sıralamanız ve  (https://abramuhara-fast-api.hf.space/predict-age/) sayfasına parametreniz {'features': list[Float]}
 olacak şekilde göndermenizdir. Cevap olarak {"age_group": yazı şeklinde yaş kategorisi} gönderilecektir.
 ## Kaynakçalar: