File size: 1,556 Bytes
c6ad971
 
 
 
 
 
 
 
 
 
 
 
 
 
 
43cb4c4
c6ad971
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
---
license: apache-2.0
datasets:
- pomelk1n/RuadaptQwen-Quantization-Dataset
language:
- ru
base_model:
- msu-rcc-lair/RuadaptQwen2.5-32B-instruct
pipeline_tag: text-generation
tags:
- AWQ
- GGUF
- GEMM
---

# RuadaptQwen2.5-32B-instruct-4-bit-AWQ-GGUF

## Описание
Эта модель представляет собой квантизированную версию [RuadaptQwen2.5-32B-instruct](https://huggingface.co/msu-rcc-lair/RuadaptQwen2.5-32B-instruct), выполненную с использованием **Activation-aware Weight Quantization (AWQ)** с 6-битной точностью, а затем экспортированную в формат **GGUF**. 

## Конфигурация квантизации

```json
{
  "zero_point": true,
  "q_group_size": 128,
  "w_bit": 6,
  "version": "GEMM"
}
```

## Шаги для экспорта в GGUF:
1. AWQ квантизация: Вычисляются масштабы (scales) и применяются к модели.
2. Сохранение модели в формате FP16: Весовые параметры сохраняются без полной квантизации.
3. Преобразование в GGUF: Используется convert.py для преобразования весов из формата HuggingFace FP16 в GGUF FP16.
4. Квантизация GGUF: Применяется финальная квантизация в формате GGUF (например, 4-битная) для достижения реального сжатия.