Nichonauta
/

pepita-2-2b-it-v2-Q4_0-GGUF

@@ -1,51 +1,166 @@
 ---
-base_model: Nichonauta/pepita-2-2b-it-v2
 library_name: transformers
 tags:
 - llama-cpp
 - gguf-my-repo
 ---
-# Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF
-This model was converted to GGUF format from [`Nichonauta/pepita-2-2b-it-v2`](https://huggingface.co/Nichonauta/pepita-2-2b-it-v2) using llama.cpp via the ggml.ai's [GGUF-my-repo](https://huggingface.co/spaces/ggml-org/gguf-my-repo) space.
-Refer to the [original model card](https://huggingface.co/Nichonauta/pepita-2-2b-it-v2) for more details on the model.
-## Use with llama.cpp
-Install llama.cpp through brew (works on Mac and Linux)
-```bash
-brew install llama.cpp
-```
-Invoke the llama.cpp server or the CLI.
-### CLI:
-```bash
-llama-cli --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -p "The meaning to life and the universe is"
-```
-### Server:
-```bash
-llama-server --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -c 2048
-```
-Note: You can also use this checkpoint directly through the [usage steps](https://github.com/ggerganov/llama.cpp?tab=readme-ov-file#usage) listed in the Llama.cpp repo as well.
-Step 1: Clone llama.cpp from GitHub.
-```
-git clone https://github.com/ggerganov/llama.cpp
-```
-Step 2: Move into the llama.cpp folder and build it with `LLAMA_CURL=1` flag along with other hardware-specific flags (for ex: LLAMA_CUDA=1 for Nvidia GPUs on Linux).
-```
-cd llama.cpp && LLAMA_CURL=1 make
-```
-Step 3: Run inference through the main binary.
 ```
-./llama-cli --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -p "The meaning to life and the universe is"
-```
-or
 ```
-./llama-server --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -c 2048
 ```

 ---
+base_model:
+- google/gemma-2-2b-it
 library_name: transformers
 tags:
 - llama-cpp
 - gguf-my-repo
+license: gemma
+language:
+- es
+pipeline_tag: text-generation
 ---
+# Modelo: **pepita-2-2b-it-v2**
+**Novedades:**
+- Entrenado con un dataset más pequeño pero de mejor calidad.
+- Pequeños ajustes en el prompt base.
+**Resultados:**
+- Mejora la tasa de artículos de calidad de un 60% a un 99%.
+![pepita.png](https://ollama.com/assets/nichonauta/pepita-2-2b-it-v1/c1568d3e-de0c-4ed6-914d-4bf9fbea2c49)
+## Descripción
+**pepita-2-2b-it-v2** es un modelo de lenguaje ajustado a partir del modelo base [**google/gemma-2-2b-it**](https://huggingface.co/google/gemma-2-2b-it) utilizando cuantización de 4 bits y adaptación LoRA (Low-Rank Adaptation). Este modelo está diseñado para generar artículos detallados en español, optimizado para ejecutarse en hardware con recursos limitados, como GPUs con menor memoria, gracias a las técnicas de compresión y optimización utilizadas.
+El modelo ha sido ajustado para seguir instrucciones en formato de conversación, lo que lo hace adecuado para la generación de contenido estructurado en español.
+## Prompt Base
+(Nuevo) El modelo fue entrenado para seguir este **prompt base** al generar contenido:
 ```
+Escribe un gran artículo muy extenso y detallado en Markdown con un tamaño de al menos mil palabras de longitud siguiendo estos pasos:
+1. Escribe un título principal (#) que tenga entre 50 y 60 caracteres.
+2. Escribe el subtítulo "Introducción" (##):
+   - Redacta un párrafo que introduzca el tema.
+   - Redacta un párrafo que introduzca el artículo.
+3. Continúa con muchos subtítulos (##):
+   - Escribe varios párrafos largos y detallados.
+   - De ser necesario añade sub-subtítulos (###):
+     - Escribe varios párrafos largos y detallados.
+4. Escribe el subtítulo "Conclusión" (##):
+   - Redacta varios párrafos.
+Asegúrate de redactar en español utilizando explicaciones muy extensas y detalladas, manteniendo siempre un tono amigable. Resalta las palabras clave usando **negritas**. Es obligatorio que bajo cada subtítulo escribas al menos tres párrafos antes de pasar a un nuevo subtítulo.
+Comienza inmediatamente con el título principal (#).
 ```
+## Detalles Técnicos
+- **Modelo base**: [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
+- **Tamaño**: 2.2B parámetros
+- **Cuantización**: 4-bit (NF4) usando la biblioteca `bitsandbytes`
+- **Adaptación**: LoRA con 64 dimensiones (`r=64`), `lora_alpha=32` y `lora_dropout=0.05`
+- **Tarea**: Modelo de lenguaje causal (Causal LM)
+- **Idioma**: Español
+- **Entrenamiento supervisado (SFT)**: Utiliza entrenamiento supervisado para ajuste fino
+- **Tipo de modelo**: `AutoModelForCausalLM`
+## Proceso de Conversión
+El modelo fue convertido al formato GGUF desde **Nichonauta/pepita-2-2b-it-v2** utilizando `llama.cpp` a través del espacio GGUF-my-repo de ggml.ai. Para utilizar el modelo en formato GGUF, sigue los pasos detallados a continuación.
+El modelo también está disponible para su uso en **LM Studio** y **Ollama**.
+### Uso con llama.cpp
+1. **Instalación**: Instala `llama.cpp` a través de brew (funciona en Mac y Linux):
+   ```bash
+   brew install llama.cpp
+   ```
+2. **Uso con CLI**:
+   ```bash
+   llama-cli --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -p "El significado de la vida y el universo es"
+   ```
+3. **Uso con servidor**:
+   ```bash
+   llama-server --hf-repo Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF --hf-file pepita-2-2b-it-v2-q4_0.gguf -c 2048
+   ```
+### Uso en **LM Studio**
+El modelo **pepita-2-2b-it-v2** está disponible para su uso en [**LM Studio**](https://lmstudio.ai/), una aplicación de escritorio que facilita la ejecución de modelos de lenguaje sin necesidad de configuraciones complejas. Para utilizar el modelo:
+1. Descarga e instala **LM Studio** desde su sitio oficial.
+2. Carga el modelo desde Hugging Face o en formato GGUF para su uso en el entorno de LM Studio.
+3. Ejecuta consultas o prompts en el modelo fácilmente desde la interfaz gráfica de LM Studio.
+### Uso en **Ollama**
+El modelo también está disponible en [**Ollama**](https://ollama.com/nichonauta/pepita-2-2b-it-v2), una herramienta similar a LM Studio que permite interactuar con modelos de lenguaje de manera local. Sigue los pasos a continuación:
+1. Instala Ollama desde su [página oficial](https://ollama.com).
+2. Accede al modelo desde [Ollama - Nichonauta/pepita-2-2b-it-v2](https://ollama.com/nichonauta/pepita-2-2b-it-v2).
+3. Ejecuta el modelo directamente en tu dispositivo.
+## Configuración de Entrenamiento
+- **Dataset**: El modelo fue entrenado con un dataset de instrucciones en formato conversacional siguiendo una plantilla de prompt para generar artículos extensos en Markdown en español.
+## Uso
+Este modelo está diseñado para generar artículos detallados en español siguiendo una plantilla estructurada. Puedes cargar el modelo directamente desde Hugging Face y comenzar a generar contenido con la siguiente estructura de prompt:
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+model_id = "pepita-2-2b-it-v2"
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+model = AutoModelForCausalLM.from_pretrained(model_id)
+prompt = "Escribe un gran artículo muy detallado en Markdown siguiendo estos pasos: ..."
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(**inputs)
+print(tokenizer.decode(outputs[0]))
 ```
+### Aplicaciones
+- **Generación de artículos**: Ideal para crear contenido en español siguiendo una estructura detallada.
+- **Redacción automatizada**: Generación de texto extensivo y bien estructurado en español.
+## Licencia y Cumplimiento
+El modelo base se ajusta a la [Gemma Terms of Use](https://ai.google.dev/gemma/terms). Al utilizar, reproducir, modificar o distribuir este modelo, debes cumplir con los siguientes requisitos:
+- **Distribución**: Incluir la cláusula de restricciones de uso y proporcionar una copia del acuerdo de licencia a todos los terceros destinatarios del modelo.
+- **Modificaciones**: Cualquier modificación del modelo debe incluir un aviso prominente de que se ha modificado y seguir las restricciones de uso especificadas en la licencia.
+- **Prohibiciones**: No usar el modelo para fines prohibidos especificados en la [Prohibited Use Policy](https://ai.google.dev/gemma/prohibited_use_policy).
+## Resultados del Entrenamiento
+- El modelo mostró una mejora continua en la pérdida a lo largo del entrenamiento.
+## Limitaciones
+- **Idioma**: El modelo está diseñado para el idioma español.
+- **Datos de entrenamiento**: Limitado al dataset de entrenamiento proporcionado.
+- **Cuantización**: La cuantización a 4 bits puede llevar a una ligera degradación en la calidad de las predicciones.
+## Recursos
+- **Modelo base**: [google/gemma-2-2b-it](https://huggingface.co/google/gemma-2-2b-it)
+- **Repositorio de llama.cpp**: [GitHub - llama.cpp](https://github.com/ggerganov/llama.cpp)
+- **Repositorio del modelo en Hugging Face**: [Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF](https://huggingface.co/Nichonauta/pepita-2-2b-it-v2-Q4_0-GGUF)
+- **LM Studio**: [https://lmstudio.ai/](https://lmstudio.ai/)
+- **Ollama - Nichonauta/pepita-2-2b-it-v2**: [https://ollama.com/nichonauta/pepita-2-2b-it-v2](https://ollama.com/nichonauta/pepita-2-2b-it-v2)
+## Autores y Contribuciones
+Este modelo fue ajustado por el equipo **Nichonauta**. Visítanos en:
+- **YouTube**: [Nichonauta](https://www.youtube.com/@nichonauta)
+- **Sitio web**: [https://nichonauta.com](https://nichonauta.com)