--- license: llama3 language: - en - ko pipeline_tag: text-generation tags: - saltlux - luxia - meta - llama-3 - pytorch --- # Model Details Saltlux, AI Labs 언어모델팀에서 학습 및 공개한 Ko-Llama3-Luxia-8B 모델은 Meta에서 출시한 Llama-3-8B 모델을 한국어에 특화한 모델입니다.

자체 보유하고 있는 1TB 이상의 한국어 학습 데이터 중, 약 100GB 정도의 데이터를 선별하여 사전학습에 활용하였습니다.

또한 공개된 Llama-3 Tokenizer를 한국어로 확장하고 사전학습에 활용했습니다. - **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety. - **License:** Llama3 License [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license) ### Intended Use Ko-Llama3-Luxia-8B는 연구용으로 제작되었으며, 다양한 자연어 생성 태스크를 위해 자유롭게 학습 및 활용할 수 있습니다. ### How to Use 해당 모델 카드에는 `Ko-Llama3-Luxia-8B` 모델과 transformers 라이브리러 기반의 예시 코드를 제공합니다. ``` import transformers import torch model_id = "saltlux/Ko-Llama3-Luxia-8B" pipeline = transformers.pipeline( "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto" ) pipeline("<|begin_of_text|>안녕하세요. 솔트룩스 AI Labs 입니다.") ``` # Training Details 한국어 특화를 위한 사전학습 데이터는 Saltlux에서 보유한 뉴스, 법률, 특허, 의료, 역사, 사회, 문화, 대화(문어/구어) 등의 도메인으로 구성된 100GB 수준의 코퍼스(~2023년)를 활용하였습니다.
### Use Device 사전학습은 NVIDIA H100 80GB * 8EA 장비를 활용하여 진행하였습니다. #### Training Hyperparameters
Model Params Context length GQA Learning rate Batch Precision
Ko-Llama3-Luxia-8B 8B 8k yes 1e-5 128 bf16
### Tokenizer Llama-3-Tokenizer를 한국어 특화하기 위해 한국어 토큰 17,536개를 추가하고 활용하였습니다.
Model Vocab Size
Llama-3 128,256
Ko-Llama3-Luxia-8B 145,792
#### Tokenizer Result + Ko
입력 Llama-3 Ko-Llama3-Luxia-8B
요즘 날씨가 너무 오락가락해서 아직도 겨울옷을 못치웠어요.. ['요', '즘', ' 날', '씨', '가', ' 너무', ' 오', '락', '가', '락', '해서', ' 아직', '도', ' 겨', '울', '�', '�', '을', ' 못', '치', '웠', '어요', '..'] ['요즘', ' 날씨', '가', ' 너무', ' 오락', '가락', '해서', ' 아직', '도', ' 겨울', '옷', '을', ' 못', '치', '웠', '어요', '..']
맛있는 밥을 드셨습니까? 맛이 궁금하네요. ['맛', '있는', ' �', '�', '을', ' 드', '셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.'] ['맛', '있는', ' 밥', '을', ' 드셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.']
대법원부터 하급심 판례까지 원하는 판례를 찾는 가장 빠른 방법 - 서면 검색, 요청 판례, 유사 판례, AI 추천, 판례 및 법령 검색. ['대', '법', '원', '부터', ' 하', '급', '심', ' 판', '례', '까지', ' 원', '하는', ' 판', '례', '를', ' 찾', '는', ' 가장', ' 빠', '른', ' 방법', ' -', ' 서', '면', ' 검색', ',', ' 요청', ' 판', '례', ',', ' 유', '사', ' 판', '례', ',', ' AI', ' 추천', ',', ' 판', '례', ' 및', ' 법', '령', ' 검색', '.'] ['대', '법', '원', '부터', ' 하', '급', '심', ' 판례', '까지', ' 원', '하는', ' 판례', '를', ' 찾', '는', ' 가장', ' 빠른', ' 방법', ' -', ' 서면', ' 검색', ',', ' 요청', ' 판례', ',', ' 유사', ' 판례', ',', ' AI', ' 추천', ',', ' 판례', ' 및', ' 법령', ' 검색', '.']
본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다. ['본', ' 발', '명', '은', ' 금', '속', '판', '의', ' 다', '수', ' 부분', '을', ' 에', '칭', '시', '켜', ' 특', '정', ' 무', '�', '�', '모', '양', '을', ' 형', '성', '하는', ' 건', '축', '용', ' 금', '속', '재', ' 장', '식', '판', '으로', ' 이루', '어진', ' 것', '에', ' 특', '징', '이', ' 있다', '.'] ['본', ' 발명', '은', ' 금속', '판', '의', ' 다수', ' 부분', '을', ' 에칭', '시', '켜', ' 특정', ' 무늬', '모', '양', '을', ' 형성', '하는', ' 건축', '용', ' 금속', '재', ' 장식', '판', '으로', ' 이루어진', ' 것', '에', ' 특징', '이', ' 있다', '.']
골다공증은 왜 생기는거에요? 그리고 치료하려면 어떻게해야하죠? ['골', '다', '공', '증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치', '료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?'] ['골', '다', '공증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?']
+ En
입력 Llama-3 Ko-Llama3-Luxia-8B
Korean cuisine, hanguk yori, or hansik, has evolved through centuries of social and political change. ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.'] ['K', 'orean', ' cuisine', ',', ' h', 'angu', 'k', ' y', 'ori', ',', ' or', ' hans', 'ik', ',', ' has', ' evolved', ' through', ' centuries', ' of', ' social', ' and', ' political', ' change', '.']
Son Heung-min is a South Korean professional footballer who plays as a forward for and captains both Premier League club Tottenham Hotspur and the South Korea national team. ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.'] ['Son', ' He', 'ung', '-min', ' is', ' a', ' South', ' Korean', ' professional', ' football', 'er', ' who', ' plays', ' as', ' a', ' forward', ' for', ' and', ' captains', ' both', ' Premier', ' League', ' club', ' Tottenham', ' Hot', 'sp', 'ur', ' and', ' the', ' South', ' Korea', ' national', ' team', '.']
### Citation instructions **Ko-Llama3-Luxia-8B** ``` @article{kollama3luxiacard, title={Llama 3 Luxua Ko Model Card}, author={AILabs@Saltux}, year={2024}, url={수정예정} } ``` **Original Llama-3** ``` @article{llama3modelcard, title={Llama 3 Model Card}, author={AI@Meta}, year={2024}, url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md} } ```