|
--- |
|
license: apache-2.0 |
|
datasets: |
|
- pomelk1n/RuadaptQwen-Quantization-Dataset |
|
language: |
|
- ru |
|
base_model: |
|
- msu-rcc-lair/RuadaptQwen2.5-32B-instruct |
|
pipeline_tag: text-generation |
|
tags: |
|
- AWQ |
|
- GGUF |
|
- GEMM |
|
--- |
|
|
|
# RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF |
|
|
|
## Описание |
|
Эта модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием **Activation-aware Weight Quantization (AWQ)** с 6-битной точностью, а затем экспортированную в формат **GGUF**. |
|
|
|
## Конфигурация квантизации |
|
|
|
```json |
|
{ |
|
"zero_point": true, |
|
"q_group_size": 128, |
|
"w_bit": 6, |
|
"version": "GEMM" |
|
} |
|
``` |
|
|
|
## Шаги для экспорта в GGUF: |
|
1. AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели. |
|
2. Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации. |
|
3. Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16. |
|
4. Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия. |