README.md · saltlux/Ko-Llama3-Luxia-8B at b709ab87f2da6b97e21a26da467a60bff2156fef

File size: 9,038 Bytes

---
license: llama3
language:
- en
- ko
pipeline_tag: text-generation
tags:
- saltlux
- luxia
- meta
- llama-3
- pytorch
---
# Llama-3-Luxia-Ko-8B
**Built with Meta Llama 3**<br>
Meta에서 출시한 Llama-3 모델 vocab 128,256개에 한국어 vocab 17,536개를 추가하여 총 145,792개의 vocab을 확보하였습니다.<br>
이후 다양한 도메인의 한국어 코퍼스 약 95GB를 추가하여 학습된 한국어 특화 사전학습 언어모델입니다.

## Model Details
- **Overview:** 이 모델은 Llama-3모델에 한국어 vocab 17,536개를 추가로 학습한 뒤, 한국어 코퍼스로 사전학습된 한국어 특화 언어모델입니다.
- **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.

### Model Description
- **Developed by:** Saltlux AIlabs 언어모델팀
- **Vatiations:** Llama-3-Luxia-Ko 8B 파라미터 수준의 사전학습 모델
- **Input:** 텍스트만 입력합니다.
- **Output:** 텍스트와 코드를 생성합니다.
- **Model Architecture:** Llama-3-Luxia-Ko 모델은 Meta에서 출시한 Llama-3와 같은 auto-regressive 언어모델로 최적화된 transformer 아키텍쳐를 사용합니다.
- **Model Release Date:** April 30, 2024.
- **Status:** 이 모델은 오프라인 데이터 세트에서 훈련된 Static한 모델입니다. 커뮤니티의 피드백을 통해 모델 안정성을 개선함에 따라 조정된 모델의 향후 버전이 출시될 예정입니다.
- **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)

## Intended Use
- **Intended Use Cases:** Llama-3-Luxia-Ko는 한국어 특화 언어모델로 상업용 및 연구용으로 제작되었으며 사전학습 언어모델입니다.

### How to Use
이 저장소에는 transformers와 함께 사용할 수 있는 코드베이스와 `Llama-3-Luxia-Ko-8B`가 포함되어 있습니다.

```
import transformers
import torch

model_id = "Saltlux/Llama-3-Luxia-Ko-8B"

pipeline = transformers.pipeline(
    "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
)
pipeline("<|begin_of_text|>안녕하세요~!")

```

## Training Details 

### Training Data
- **Overview:** Llama-3-Luxia-Ko는 공개적으로 사용 가능한 코퍼스와 함께 자체적으로 수집한 2023년 최신 뉴스데이터를 포함하여 약 95GB 코퍼스로 사전학습 되었습니다.<br>
	사전학습 데이터의 도메인은 법률, 특허, 의료, 역사 분야 등의 다양한 도메인이 포함되어있습니다.

#### Preprocessing
한국어 공개 코퍼스 및 자체 수집 데이터 약 1TB 수준에서 Saltlux가 자체 제작한 정규화 툴을 활용하여 전처리를 수행합니다.

[Document Delete]
- 짧은 텍스트 (120 음절 미만) 필터링
- 긴 텍스트 (100,000 음절 이상) 필터링
- 한국어 비율이 25% 미만인 경우 필터링
- 글머리 기호가 90% 이상인 경우 필터링
- 욕설이 있는 경우 필터링

[Document Modify]
- 이모션 문자 정규화 (최대 2개까지 허용)
- 개행 문자 정규화 (최대 2개까지 허용)
- HTML 태그 제거
- 불필요한 문자 제거
- 비식별화 진행 (휴대폰 번호, 계좌번호 등의 개인정보)
- 중복 문자열 제거

#### Random Sampling
전체 확보한 코퍼스 중 우선적으로 반드시 학습해야하는 코퍼스이면서, 다양한 도메인에서 샘플링 하기 위해 진행합니다.<br>
Saltlux의 샘플링 방법은 아래와 같습니다. 
- 코퍼스의 용량이 10GB 이상인 데이터에 한해서 랜덤 샘플링 진행
- 샘플링 방안은 입력 코퍼스에서 명사/복합명사를 추출해 문서 내의 명사 추출 빈도 수를 세며, 추출 빈도의 임계값을 정해 넘으면 해당 명사/복합명사가 있는 문서를 샘플링하지 않음
- 학습데이터 추출 명사빈도 임계값은 1,000으로 해서 랜덤 샘플링 진행하여 다양한 도메인, 문서를 학습데이터로 선정


### Hardware and Hyperparameters
- **Overview:** Saltlux-Ko-Llama-3 학습에 활용한 장비와 학습 파라미터입니다.

#### Use Device
NVIDIA H100 80GB * 8GA을 활용하여 모델 사전학습을 진행하였습니다.

#### Training Hyperparameters
|Model|Params|Context length|GQA|Learning rate|Batch|Precision|Epoch|
|-------------|---|---|---|---|---|---|---|
|Saltlux-Ko-Llama-3|8B|8k|Yes|5e-6|128|bf16|1.0|

### Tokenizer
- **Overview:** 한국어 토큰들을 다 커버할 수 있는 수준의 공개 말뭉치 데이터 87.85GB 로 Llama-3 한국어 토크나이저 학습을 진행하였습니다.

#### Tokenizer Train Dataset
한국어 토크나이저 학습에 사용한 데이터는 뉴스, 블로그, 한국어 위키백과, 대화, 전문 도메인(법률, 특허 등) 공개된 다양한 한국어 코퍼스를 활용하였음.

#### Tokenizer Result
<table>
	<tr>
		<td><strong>입력</strong>
		</td>
		<td><strong>Llama-3</strong>
		</td>
		<td><strong>Llama-3-Luxia-Ko</strong>
		</td>
	</tr>
  <tr>
	  <td>요즘 날씨가 너무 오락가락해서 아직도 겨울옷을 못치웠어요..
	  </td>
	  <td>['요', '즘', ' 날', '씨', '가', ' 너무', ' 오', '락', '가', '락', '해서', ' 아직', '도', ' 겨', '울', '�', '�', '을', ' 못', '치', '웠', '어요', '..']
	  </td>
	  <td>['요즘', ' 날씨', '가', ' 너무', ' 오락', '가락', '해서', ' 아직', '도', ' 겨울', '옷', '을', ' 못', '치', '웠', '어요', '..']
	  </td>
	</tr>
	<tr>
		 <td>맛있는 밥을 드셨습니까? 맛이 궁금하네요.
		 </td>
		 <td>['맛', '있는', ' �', '�', '을', ' 드', '셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.']
		 </td>
		 <td>['맛', '있는', ' 밥', '을', ' 드셨', '습', '니까', '?', ' 맛', '이', ' 궁금', '하', '네요', '.']
		 </td>
	</tr>
	<tr>
		 <td>대법원부터 하급심 판례까지 원하는 판례를 찾는 가장 빠른 방법 - 서면 검색, 요청 판례, 유사 판례, AI 추천, 판례 및 법령 검색.
		 </td>
		 <td>['대', '법', '원', '부터', ' 하', '급', '심', ' 판', '례', '까지', ' 원', '하는', ' 판', '례', '를', ' 찾', '는', ' 가장', ' 빠', '른', ' 방법', ' -', ' 서', '면', ' 검색', ',', ' 요청', ' 판', '례', ',', ' 유', '사', ' 판', '례', ',', ' AI', ' 추천', ',', ' 판', '례', ' 및', ' 법', '령', ' 검색', '.']
		 </td>
		 <td>['대', '법', '원', '부터', ' 하', '급', '심', ' 판례', '까지', ' 원', '하는', ' 판례', '를', ' 찾', '는', ' 가장', ' 빠른', ' 방법', ' -', ' 서면', ' 검색', ',', ' 요청', ' 판례', ',', ' 유사', ' 판례', ',', ' AI', ' 추천', ',', ' 판례', ' 및', ' 법령', ' 검색', '.']
		 </td>
	</tr>
	<tr>
		 <td>본 발명은 금속판의 다수 부분을 에칭시켜 특정 무늬모양을 형성하는 건축용 금속재 장식판으로 이루어진 것에 특징이 있다.
		 </td>
		 <td>['본', ' 발', '명', '은', ' 금', '속', '판', '의', ' 다', '수', ' 부분', '을', ' 에', '칭', '시', '켜', ' 특', '정', ' 무', '�', '�', '모', '양', '을', ' 형', '성', '하는', ' 건', '축', '용', ' 금', '속', '재', ' 장', '식', '판', '으로', ' 이루', '어진', ' 것', '에', ' 특', '징', '이', ' 있다', '.']
		 </td>
		 <td>['본', ' 발명', '은', ' 금속', '판', '의', ' 다수', ' 부분', '을', ' 에칭', '시', '켜', ' 특정', ' 무늬', '모', '양', '을', ' 형성', '하는', ' 건축', '용', ' 금속', '재', ' 장식', '판', '으로', ' 이루어진', ' 것', '에', ' 특징', '이', ' 있다', '.']
		 </td>
	</tr>
	<tr>
		 <td>골다공증은 왜 생기는거에요? 그리고 치료하려면 어떻게해야하죠?
		 </td>
		 <td>['골', '다', '공', '증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치', '료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?']
		 </td>
		 <td>['골', '다', '공증', '은', ' 왜', ' 생', '기는', '거', '에', '요', '?', ' 그리고', ' 치료', '하려', '면', ' 어떻게', '해야', '하', '죠', '?']
		 </td>
	</tr>
</table>

## Model Card Authors
Saltlux AILabs 언어모델팀

## Model Card Contact
Saltlux AILabs 언어모델팀

## Citation instructions
**Llama-3-Luxia-Ko**
```
@article{llama3luxiakomodelcard,
  title={Satlux Llama 3 Luxua Ko Model Card},
  author={AILabs@Saltux},
  year={2024},
  url={수정예정}
}
```

**Original Llama-3**
```
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url={https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
```