Text Generation
GGUF
futranbg lucianosb commited on
Commit
6316f70
0 Parent(s):

Duplicate from lucianosb/llama-2-7b-langchain-chat-GGUF

Browse files

Co-authored-by: Luciano Santa Brígida <[email protected]>

.gitattributes ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ *.7z filter=lfs diff=lfs merge=lfs -text
2
+ *.arrow filter=lfs diff=lfs merge=lfs -text
3
+ *.bin filter=lfs diff=lfs merge=lfs -text
4
+ *.bz2 filter=lfs diff=lfs merge=lfs -text
5
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
6
+ *.ftz filter=lfs diff=lfs merge=lfs -text
7
+ *.gz filter=lfs diff=lfs merge=lfs -text
8
+ *.h5 filter=lfs diff=lfs merge=lfs -text
9
+ *.joblib filter=lfs diff=lfs merge=lfs -text
10
+ *.lfs.* filter=lfs diff=lfs merge=lfs -text
11
+ *.mlmodel filter=lfs diff=lfs merge=lfs -text
12
+ *.model filter=lfs diff=lfs merge=lfs -text
13
+ *.msgpack filter=lfs diff=lfs merge=lfs -text
14
+ *.npy filter=lfs diff=lfs merge=lfs -text
15
+ *.npz filter=lfs diff=lfs merge=lfs -text
16
+ *.onnx filter=lfs diff=lfs merge=lfs -text
17
+ *.ot filter=lfs diff=lfs merge=lfs -text
18
+ *.parquet filter=lfs diff=lfs merge=lfs -text
19
+ *.pb filter=lfs diff=lfs merge=lfs -text
20
+ *.pickle filter=lfs diff=lfs merge=lfs -text
21
+ *.pkl filter=lfs diff=lfs merge=lfs -text
22
+ *.pt filter=lfs diff=lfs merge=lfs -text
23
+ *.pth filter=lfs diff=lfs merge=lfs -text
24
+ *.rar filter=lfs diff=lfs merge=lfs -text
25
+ *.safetensors filter=lfs diff=lfs merge=lfs -text
26
+ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
27
+ *.tar.* filter=lfs diff=lfs merge=lfs -text
28
+ *.tar filter=lfs diff=lfs merge=lfs -text
29
+ *.tflite filter=lfs diff=lfs merge=lfs -text
30
+ *.tgz filter=lfs diff=lfs merge=lfs -text
31
+ *.wasm filter=lfs diff=lfs merge=lfs -text
32
+ *.xz filter=lfs diff=lfs merge=lfs -text
33
+ *.zip filter=lfs diff=lfs merge=lfs -text
34
+ *.zst filter=lfs diff=lfs merge=lfs -text
35
+ *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ llama-2-7b-langchain-chat-q4_0.gguf filter=lfs diff=lfs merge=lfs -text
37
+ llama-2-7b-langchain-chat-q4_1.gguf filter=lfs diff=lfs merge=lfs -text
38
+ llama-2-7b-langchain-chat-q5_0.gguf filter=lfs diff=lfs merge=lfs -text
39
+ llama-2-7b-langchain-chat-q5_1.gguf filter=lfs diff=lfs merge=lfs -text
40
+ llama-2-7b-langchain-chat-q8_0.gguf filter=lfs diff=lfs merge=lfs -text
README.md ADDED
@@ -0,0 +1,99 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ inference: false
3
+ language:
4
+ - pt
5
+ - en
6
+ - es
7
+ - ru
8
+ - de
9
+ - pl
10
+ - th
11
+ - vi
12
+ - sv
13
+ - bn
14
+ - da
15
+ - he
16
+ - it
17
+ - fa
18
+ - sk
19
+ - id
20
+ - nb
21
+ - el
22
+ - hu
23
+ - eu
24
+ - zh
25
+ - eo
26
+ - ja
27
+ - ca
28
+ - cs
29
+ - bg
30
+ - fi
31
+ - tr
32
+ - ro
33
+ - ar
34
+ - uk
35
+ - ko
36
+ - gl
37
+ - fr
38
+ - nl
39
+ license: llama2
40
+ model_creator: Photolens
41
+ model_link: https://huggingface.co/Photolens/llama-2-7b-langchain-chat
42
+ model_name: lama-2-7b-langchain-chat
43
+ model_type: llama
44
+ quantized_by: lucianosb
45
+ pipeline_tag: text-generation
46
+ datasets:
47
+ - Photolens/oasst1-langchain-llama-2-formatted
48
+ ---
49
+
50
+ # lama-2-7b-langchain-chat - GGUF
51
+ - Criador do Modelo: [Photolens](https://huggingface.co/Photolens)
52
+ - Modelo Original: [llama-2-7b-langchain-chat](https://huggingface.co/Photolens/llama-2-7b-langchain-chat)
53
+
54
+ ## Arquivos Incluídos
55
+
56
+ | Nome | Método Quant | Bits | Tamanho | Desc |
57
+ | ---- | ---- | ---- | ---- | ----- |
58
+ | [llama-2-7b-langchain-chat-q4_0.gguf](https://huggingface.co/lucianosb/llama-2-7b-langchain-chat-GGUF/blob/main/llama-2-7b-langchain-chat-q4_0.gguf) | q4_0 | 4 | 3.56 GB | Quantização em 4-bit. |
59
+ | [llama-2-7b-langchain-chat-q4_1.gguf](https://huggingface.co/lucianosb/llama-2-7b-langchain-chat-GGUF/blob/main/llama-2-7b-langchain-chat-q4_1.gguf) | q4_1 | 4 | 3.95 GB | Quantização em 4-bit. Acurácia maior que q4_0 mas não tão boa quanto q5_0. Inferência mais rápida que os modelos q5. |
60
+ | [llama-2-7b-langchain-chat-q5_0.gguf](https://huggingface.co/lucianosb/llama-2-7b-langchain-chat-GGUF/blob/main/llama-2-7b-langchain-chat-q5_0.gguf) | q5_0 | 5 | 4.33 GB | Quantização em 5-bit. Melhor acurácia, maior uso de recursos, inferência mais lenta. |
61
+ | [llama-2-7b-langchain-chat-q5_1.gguf](https://huggingface.co/lucianosb/llama-2-7b-langchain-chat-GGUF/blob/main/llama-2-7b-langchain-chat-q5_1.gguf) | q5_1 | 5 | 4.72 GB | Quantização em 5-bit. Ainda Melhor acurácia, maior uso de recursos, inferência mais lenta. |
62
+ | [llama-2-7b-langchain-chat-q8_0.gguf](https://huggingface.co/lucianosb/llama-2-7b-langchain-chat-GGUF/blob/main/llama-2-7b-langchain-chat-q8_0.gguf) | q8_0 | 8 | 6.67 GB | Quantização em 8-bit. Quase indistinguível do float16. Usa muitos recursos e é mais lento. |
63
+
64
+ **Observação**: os valores de RAM acima não pressupõem descarregamento de GPU. Se as camadas forem descarregadas para a GPU, isso reduzirá o uso de RAM e usará VRAM.
65
+
66
+ ## Como executar com `llama.cpp`
67
+
68
+ Usei o seguinte comando. Ajuste para suas necessidades:
69
+
70
+ ```
71
+ ./main -m ./models/llama-2-7b-langchain-chat/llama-2-7b-langchain-chat-q5_1.gguf --color --temp 0.5 -n 256 -p "<s>[INST] Há muito tempo atrás, numa galáxia distante [/INST] Assistant Message </s>"
72
+ ```
73
+
74
+ Para compreender os parâmetros, veja [a documentação do llama.cpp](https://github.com/ggerganov/llama.cpp/blob/master/examples/main/README.md)
75
+
76
+
77
+ ## Sobre o formato GGUF
78
+
79
+ GGUF é um novo formato introduzido pela equipe llama.cpp em 21 de agosto de 2023. É um substituto para o GGML, que não é mais suportado pelo llama.cpp.
80
+
81
+ O principal benefício do GGUF é que ele é um formato extensível e à prova de futuro que armazena mais informações sobre o modelo como metadados. Ele também inclui código de tokenização significativamente melhorado, incluindo pela primeira vez suporte total para tokens especiais. Isso deve melhorar o desempenho, especialmente com modelos que usam novos tokens especiais e implementam modelos de prompt personalizados.
82
+
83
+ Aqui está uma lista de clientes e bibliotecas que são conhecidos por suportar GGUF:
84
+
85
+ - [llama.cpp](https://github.com/ggerganov/llama.cpp).
86
+ - [text-generation-webui](https://github.com/oobabooga/text-generation-webui), a interface web mais amplamente utilizada. Suporta GGUF com aceleração GPU via backend ctransformers - backend llama-cpp-python deve funcionar em breve também.
87
+ - [KoboldCpp](https://github.com/LostRuins/koboldcpp), agora suporta GGUF a partir da versão 1.41! Uma poderosa interface web GGML, com aceleração total da GPU. Especialmente bom para contar histórias.
88
+ - [LM Studio](https://lmstudio.ai), versão 0.2.2 e posteriores suportam GGUF. Uma GUI local totalmente equipada com aceleração GPU em ambos Windows (NVidia e AMD) e macOS.
89
+ - [LoLLMS Web UI](https://github.com/ParisNeo/lollms-webui), agora deve funcionar, escolha o backend c_transformers. Uma ótima interface web com muitos recursos interessantes. Suporta aceleração GPU CUDA.
90
+ - [ctransformers](https://github.com/marella/ctransformers), agora suporta GGUF a partir da versão 0.2.24! Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor AI compatível com OpenAI.
91
+ - [llama-cpp-python](https://github.com/abetlen/llama-cpp-python), suporta GGUF a partir da versão 0.1.79. Uma biblioteca Python com aceleração GPU, suporte LangChain e servidor API compatível com OpenAI.
92
+ - [candle](https://github.com/huggingface/candle), adicionou suporte GGUF em 22 de agosto. Candle é um framework ML Rust com foco em desempenho, incluindo suporte GPU e facilidade de uso.
93
+ - [LocalAI](https://github.com/go-skynet/LocalAI), adicionou suporte GGUF em 23 de agosto. LocalAI provê uma API Rest para modelos LLM e de geração de imagens.
94
+
95
+ ## Template
96
+
97
+ ````
98
+ <s>[INST] Prompter Message [/INST] Assistant Message </s>
99
+ ````
llama-2-7b-langchain-chat-q4_0.gguf ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8bccb39290a3ae090a137639d855767ddda0b325f350bb88bf94d1ada328b933
3
+ size 3825806912
llama-2-7b-langchain-chat-q4_1.gguf ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4e5d1fc3e907e3e256aed40fd780a79af751aef96e231003094de3dd52b7a8c5
3
+ size 4238749248
llama-2-7b-langchain-chat-q5_0.gguf ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:42546ed7d4a20680e20703cca140b28e66b19997db9f8f1759cdc9242ba945f3
3
+ size 4651691584
llama-2-7b-langchain-chat-q5_1.gguf ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4f3f16f62801bdf13ff0f14675dcfc3c86dc8f1cfbf6d45de48075260e644b38
3
+ size 5064633920
llama-2-7b-langchain-chat-q8_0.gguf ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0e87c09ea3d0b1f500a27e9431660d24b664da299c24648ebd9d9125e0da6fb7
3
+ size 7161089600