--- language: - es license: apache-2.0 library_name: transformers pipeline_tag: text-generation --- # LLM-AviationV2: Innovación AI en los Cielos

LLM-AviationV2: Innovación AI en los Cielos

### Descripción del Modelo Desarrollado por Edison Bejarano y Nicolas Potes, este modelo representa un avance revolucionario en la utilización de la tecnología de Modelos de Lenguaje (LM) dentro del sector aeronáutico, específicamente diseñado para mejorar la comprensión y accesibilidad del Reglamento Aeronáutico Colombiano (RAC). Entrenado en una Tesla V100-SXM2-16GB, el modelo `LLM-AviationV2` se embarca en un viaje para navegar el complejo panorama regulatorio con una eficiencia y perspicacia sin precedentes. - **Desarrollado por:** [Edison Bejarano](https://huggingface.co/ejbejaranos) - [Sergio Nicolas](https://huggingface.co/SergioMadridF) - [Santiago Pineda](https://huggingface.co/sapinedamo) - **Tipo de modelo:** Versión afinada de `google/gemma-2b-it` - **Idiomas (NLP):** Español (es) - **Licencia:** Apache-2.0 - **Afinado a partir del modelo:** `google/gemma-2b-it` ### Fuentes del Modelo - **URL en Hugging Face:** [ejbejaranos/LLM-AviationV2](https://huggingface.co/ejbejaranos/LLM-AviationV2) ## Usos ### Uso Directo El modelo `LLM-AviationV2` está diseñado para aplicaciones directas en tareas de generación de texto, con el objetivo de simplificar la interpretación y aplicación de las regulaciones aeronáuticas. Su función principal es servir a profesionales y entusiastas del campo de la aeronáutica, proporcionando acceso inmediato a información comprensible extraída del RAC. ## Detalles de Entrenamiento ## Datos de Entrenamiento El modelo `LLM-AviationV2` fue afinado utilizando el dataset `RAC_Colombia_QualityImproved025`, el cual representa una versión mejorada en términos de calidad del Reglamento Aeronáutico Colombiano. Este dataset fue curado y mejorado por el equipo de [SomosNLP](https://huggingface.co/somosnlp), con el objetivo de proporcionar una base de datos más precisa y relevante para tareas de procesamiento de lenguaje natural relacionadas con la aviación. Para más detalles sobre este dataset, puedes consultar la documentación y los metadatos a través del siguiente enlace: [Dataset `RAC_Colombia_QualityImproved025` en Hugging Face](https://huggingface.co/datasets/somosnlp/RAC_Colombia_QualityImproved025) ### Procedimiento de Entrenamiento y Resultados #### Hiperparámetros de Entrenamiento para LLM-AviationV2 - **Tipo de GPU:** Tesla V100-SXM2-16GB - **Tiempo Total de Entrenamiento:** Aprox. 70 minutos (4239 segundos) - **Tasa de Aprendizaje:** 0.00005 - **Optimizador:** Paged AdamW 8bit - **Pasos Máximos:** 258 - **Tamaño de Secuencia:** 1024 (presumido) - **Tamaño de Lote por Dispositivo:** 3 #### Velocidades, Tamaños, Tiempos para LLM-AviationV2 - **Tiempo de Entrenamiento:** 882.68 segundos - **Muestras por Segundo en Entrenamiento:** 2.338 - **Pasos por Segundo en Entrenamiento:** 0.585 #### Hiperparámetros de Entrenamiento para LLMs-AviationV3 - **Tipo de GPU:** NVIDIA A100-SXM4-40GB - **Tiempo Total de Entrenamiento:** Aprox. 50 minutos (3007 segundos) - **Tasa de Aprendizaje:** 0.00005 - **Optimizador:** Paged AdamW 8bit - **Pasos Máximos:** 1638 - **Tamaño de Secuencia:** 2048 - **Tamaño de Lote por Dispositivo:** 1 - **Versión de Transformers:** 4.39.0 - **Función de Activación:** gelu_pytorch_tanh #### Velocidades, Tamaños, Tiempos para LLMs-AviationV3 - **Tiempo de Entrenamiento:** 1641.78 segundos - **Muestras por Segundo en Entrenamiento:** 3.991 - **Pasos por Segundo en Entrenamiento:** 0.998 ### Comparación de Modelos Al comparar los modelos, observamos mejoras significativas en la versión LLMs-AviationV3. La expansión del tamaño de la secuencia a 2048 y la reducción del tamaño de lote por dispositivo a 1, junto con el incremento en los pasos máximos a 1638, han demandado más recursos pero han resultado en un aumento notable en la calidad del modelo. Además, la actualización a la versión 4.39.0 de Transformers y el cambio en la función de activación a `gelu_pytorch_tanh` para LLMs-AviationV3 han contribuido a este avance cualitativo. ### Resultados El modelo ha demostrado una capacidad significativa para comprender y generar contenido regulatorio aeronáutico en español, convirtiéndose en un valioso recurso para la industria. Actualmente vamos en la tercera version en donde hemos conseguido mejorar previas versiones:

Métrica de perdida: Innovación AI en los Cielos

## Evaluación Se esta desarrollando un espacio para que expertos en el campo puedan realizar una evalucacion por el momento tenemos estos dos para nuestros mejores modelos : https://somosnlp-rac-col-v1.hf.space ## Impacto Ambiental El entrenamiento de `LLM-AviationV2` se llevó a cabo con una consideración cuidadosa de su huella ambiental, optimizando para la eficiencia y minimizando el gasto computacional innecesario. - **Tipo de Hardware:** Tesla V100-SXM2-16GB - **Horas Utilizadas:** Aproximadamente 0.52 horas - **Consumo de Energía:** Aproximadamente 0.156 kWh - **Emisiones de CO2 Estimadas:** Aproximadamente 0.0741 kg Estas cifras subrayan nuestro compromiso con la sostenibilidad y la reducción del impacto ambiental en el desarrollo de tecnologías de inteligencia artificial. ## Especificaciones Técnicas ### Infraestructura de Cómputo #### Hardware El entrenamiento se realizó en una Tesla V100-SXM2-16GB, elegida por su equilibrio entre rendimiento y eficiencia energética. #### Software - **Versión de Transformers:** 4.38.0 - **Entorno de Entrenamiento:** Proporcionado por la biblioteca Hugging Face Transformers. ## Más Información Para obtener información más detallada sobre `LLM-AviationV2`, incluido el acceso al modelo y sus capacidades completas, por favor visita nuestro [repositorio en Hugging Face](https://huggingface.co/ejbejaranos/LLM-AviationV2). LLM-AviationV2).