Add 4-bit quantization and automatic device mapping for improved performance.

#1

Merhabalar, öncelikle tebrik ederim mükemmel bir çalışma olmuş, pull request olarak readme’e inference için 4 bit quantization ve modeli sistemdeki tüm ekran kartlarına ve rama otomatik yükleme kodu ekledim bu sayede kullanıcılar performans azalmadan daha hızlı ve verimli bir şekilde kullanabilirler.

Elinize sağlık fakat modelin verdiği cevaplar quantization'a çok uygun olmadığı için önemli ölçüde etkileniyor, deneyen arkadaşlarımızın bilgisi olsun. Tekrardan hem Turkcell AI ekibine ve size teşekkür ederim...

Ready to merge
This branch is ready to get merged automatically.

Sign up or log in to comment