这个模型是01-ai/Yi-6B-200K经过AutoGPTQ/AutoAWQ量化后保存的模型,与TheBloke/Yi-6B-200K-GPTQ的不同在于仅在于量化时使用的数据。

量化时使用的数据为(仅为量化时使用的数据,不代表训练数据):

  • 70% 中文
    • 30% wikimedia/wikipedia 20231101.zh (维基百科数据集—>中文子集)
    • 10% wikimedia/wikipedia 20231101.zh-classical (维基百科数据集—>文言文子集)
    • 10% wikimedia/wikipedia 20231101.zh-yue (维基百科数据集—>粤语子集)
    • 10% wikimedia/wikipedia 20231101.zh-min-nan (维基百科数据集—>闽南语子集)
    • 10% OSCAR unshuffled_deduplicated_zh (OSCAR—>中文去重子集)
  • 30% 英文
    • 20% wikimedia/wikipedia 20231101.en (维基百科数据集—>英文子集)
    • 10% OSCAR unshuffled_deduplicated_en (OSCAR—>英文去重子集)

目的是为了更好的映射Yi-6B-200K训练时使用的数据,达到更好的量化效果。

这里提供了共四个量化后的模型权重(下面按量化后的性能排序):

  • AutoGPTQ-8bit-32gs 使用GPTQ方式进行8bit量化,拥有最高的生成质量。
  • AutoAWQ-4bit-32gs 使用AWQ方式进行4bit量化,比GPTQ-4bit生成质量优秀,但兼容性不如GPTQ
  • AutoGPTQ-4bit-32gs 使用GPTQ方式进行4bit量化,使用了Group size 32,比默认设置量化的效果更优秀。
  • AutoGPTQ-4bit-128gs 使用GPTQ方式进行4bit量化,使用了AutoGPTQ的默认设置。
Downloads last month
18
Safetensors
Model size
1.41B params
Tensor type
I32
·
FP16
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.