Virt-io
/

Google-Colab-Imatrix-GGUF

Model card Files Files and versions Community

Virt-io commited on Apr 18, 2024

Commit

a853257

·

verified ·

1 Parent(s): d3d556d

Add new data option

Files changed (1) hide show

Imat_AutoGGUF.ipynb +4 -2

Imat_AutoGGUF.ipynb CHANGED Viewed

@@ -33,11 +33,13 @@
         "\n",
         "# @markdown ### ⚡ Quantization parameters\n",
         "MODEL_ID = \"TinyLlama/TinyLlama-1.1B-Chat-v1.0\" # @param {type:\"string\"}\n",
-        "IMATRIX_OPTION = 'Imatrix' # @param [\"Imatrix\", \"Imatrix-RP\"]\n",
         "if IMATRIX_OPTION == \"Imatrix\":\n",
         "  IMATRIX = f\"Google-Colab-Imatrix-GGUF/Imatrix/imatrix.txt\"\n",
         "if IMATRIX_OPTION == \"Imatrix-RP\":\n",
         "  IMATRIX = f\"Google-Colab-Imatrix-GGUF/Imatrix/imatrix-with-rp-data.txt\"\n",
         "print(IMATRIX)\n",
         "QUANTIZATION_METHODS = \"IQ4_NL, Q8_0\" # @param {type:\"string\"}\n",
         "QUANTIZATION_METHODS = QUANTIZATION_METHODS.replace(\" \", \"\").split(\",\")\n",
@@ -65,7 +67,7 @@
         "!pip install -r llama.cpp/requirements/requirements-convert.txt\n",
         "\n",
         "# Build llamacpp\n",
-        "!cd llama.cpp && make clean && LLAMA_CUBLAS=1 LLAMA_CUDA_FORCE_MMQ=1 LLAMA_LTO=1 LLAMA_CUDA_DMMV_X=64 LLAMA_CUDA_MMV_Y=4 LLAMA_CUDA_KQUANTS_ITER=2 LLAMA_CUDA_F16=1 LLAMA_CUDA_DMMV_F16=1 make -j16\n",
         "\n",
         "# Convert to fp16\n",
         "fp16 = f\"{MODEL_NAME}/{MODEL_NAME.lower()}.fp16.gguf\"\n",

         "\n",
         "# @markdown ### ⚡ Quantization parameters\n",
         "MODEL_ID = \"TinyLlama/TinyLlama-1.1B-Chat-v1.0\" # @param {type:\"string\"}\n",
+        "IMATRIX_OPTION = 'Imatrix' # @param [\"Imatrix\", \"Imatrix-RP\", \"Imatrix-ChatML-test\""]\n",
         "if IMATRIX_OPTION == \"Imatrix\":\n",
         "  IMATRIX = f\"Google-Colab-Imatrix-GGUF/Imatrix/imatrix.txt\"\n",
         "if IMATRIX_OPTION == \"Imatrix-RP\":\n",
         "  IMATRIX = f\"Google-Colab-Imatrix-GGUF/Imatrix/imatrix-with-rp-data.txt\"\n",
+        "if IMATRIX_OPTION == \"Imatrix-ChatML-test\":\n",
+        "  IMATRIX = f\"Google-Colab-Imatrix-GGUF/Imatrix/chatml_test.txt\"\n",
         "print(IMATRIX)\n",
         "QUANTIZATION_METHODS = \"IQ4_NL, Q8_0\" # @param {type:\"string\"}\n",
         "QUANTIZATION_METHODS = QUANTIZATION_METHODS.replace(\" \", \"\").split(\",\")\n",
         "!pip install -r llama.cpp/requirements/requirements-convert.txt\n",
         "\n",
         "# Build llamacpp\n",
+        "!cd llama.cpp && make clean && LLAMA_CUDA=1 LLAMA_LTO=1 LLAMA_CUDA_DMMV_X=64 LLAMA_CUDA_MMV_Y=4 LLAMA_CUDA_KQUANTS_ITER=2 LLAMA_CUDA_F16=1 LLAMA_CUDA_DMMV_F16=1 make -j16\n",
         "\n",
         "# Convert to fp16\n",
         "fp16 = f\"{MODEL_NAME}/{MODEL_NAME.lower()}.fp16.gguf\"\n",