Es un modelo creado por el BSC o esta basado en llama?

#2
by Dat30 - opened

Veo algunas referencias a llama, pero ninguna mención explicita. Si está basado en llama, quisiera saber la version base.

Language Technologies Unit @ Barcelona Supercomputing Center org

Hola @Dat30 ! Es un modelo creado por el BSC y entrenado "from scratch", de hecho se trata de un checkpoint preliminar ya que el entrenamiento sigue en curso. Podríamos haber creado una clase propia, pero al tener una arquitectura similar a Llama no tenía demasiado sentido ya que el modelo se puede cargar con LlamaForCausalLLM sin problema.

@mapama247
Quizás habría que hacer alguna limpieza de el espacio aquí, para evitar confusiones, al ser una iniciativa publica va a recibir mucha atención mediática.
Por ejemplo ese link, yo entiendo que al compartir la arquitectura tenga sentido usar la misma documentación, pero igual fuera bueno clonar esa documentación y añadir notas particulares (no se si sea siquiera posible la verdad, igual estoy diciendo tonterias)
image.png

Incluso alguna nota aclarando que aunque comparta la arquitectura de Llama, no se usaron los pesos y por tanto no es un fork o un fine-tuning de llama. Lo digo por los medios que seguramente vendrán por aquí aa hechar un ojo.

Igual vendría bien mencionar explícitamente el gobierno de España en la portada del BSC antes que arda troya.

Sugerencias en todo caso, tristemente este tipo de iniciativas siempre terminan politizadas y sacadas de contexto.

Felicidades por este excelente trabajo a todo el equipo 🍻

Un saludo.

newplot-3.png

https://huggingface.co/spaces/cot-leaderboard/open-cot-dashboard?model=meta-llama%2FMeta-Llama-3.1-8B-Instruct

Sería interesante saber los usos comerciales (pymes) que se le pueden dar a Salamandra.

un saludo.

Sign up or log in to comment