¿Pregunta pequeña?
El modelo es increíble; sin duda, en mi opinión, es el mejor hasta el momento en español. Su coherencia y cohesión textual superan a los modelos de código abierto más grandes en inglés. Así que, ante todo, ¡MUCHAS GRACIAS! Es maravilloso y un sueño hecho realidad tener algo en nuestro idioma.
Ahora bien, expresado mi entusiasmo por el modelo Bertin, me gustaría saber si es posible, mediante algún método como Lora o quizás un entrenamiento completo, censurar al modelo utilizando un conjunto de datos o algo similar, para evitar temas delicados como discriminación, política conflictiva, religión, odio, contenido para adultos (NSFW), contenido sexual, violencia gráfica, lenguaje ofensivo, racismo, homofobia, xenofobia, machismo, acoso u otros temas que puedan resultar hirientes o inapropiados. A veces, el modelo aún falla y puede decir cosas descabelladas como "ama a Adolf Hitler y es su dictador favorito" XD.
Si creo una lista de palabras inapropiadas y le explico al modelo porque son malas... para luego entrenarlo con Lora y el PEFT de Hugging Face, ¿crees que servirá de algo? ¿O es bastante difícil lograrlo con un método tan modesto y requiere mayor capacidad computacional?
disculpa mi falta de experiencia, soy un novato entusiasta en el mundo de los LLMs. muchas gracias
Vaya, ¡muchas gracias!
Por supuesto. De hecho @mrm8488 , también parte de BERTIN Project, escribió no hace mucho un Notebook para crear LoRA adapters usando PEFT sobre BERTIN-GPT-J-6B. En su ejemplo se añaden tokens especiales, pero ese paso no es estrictamente necesario.
El tema del alignment es delicado. Los datos para entrenar los modelos BERTIN no han sido extensivamente revisados para eliminar contenido ofensivo. Pero sí que se pueden entrenar, incluso este modelo basado en Alpaca, si consigues un dataset de alignment para que los modelos aprendan a no decir según qué cosas. Con los datos adecuados se puede probar a crear un adapter y debería funcionar.