Update README.md

Browse files

Files changed (1) hide show

README.md +52 -63

README.md CHANGED Viewed

@@ -11,18 +11,17 @@ tags:
 - llama-3
 - pytorch
 ---
-# Llama-3-Luxia-Ko-8B
-**Built with Meta Llama 3**<br>
-Meta에서 출시한 Llama-3 모델 vocab 128,256개에 한국어 vocab 17,536개를 추가하여 총 145,792개의 vocab을 확보하였습니다.<br>
-이후 다양한 도메인의 한국어 코퍼스 약 95GB를 추가하여 학습된 한국어 특화 사전학습 언어모델입니다.
-## Model Details
-- **Overview:** 이 모델은 Llama-3모델에 한국어 vocab 17,536개를 추가로 학습한 뒤, 한국어 코퍼스로 사전학습된 한국어 특화 언어모델입니다.
 - **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.
 ### Model Description
-- **Developed by:** Saltlux AIlabs 언어모델팀
-- **Vatiations:** Llama-3-Luxia-Ko 8B 파라미터 수준의 사전학습 모델
 - **Input:** 텍스트만 입력합니다.
 - **Output:** 텍스트와 코드를 생성합니다.
 - **Model Architecture:** Llama-3-Luxia-Ko 모델은 Meta에서 출시한 Llama-3와 같은 auto-regressive 언어모델로 최적화된 transformer 아키텍쳐를 사용합니다.
@@ -30,9 +29,9 @@ Meta에서 출시한 Llama-3 모델 vocab 128,256개에 한국어 vocab 17,536
 - **Status:** 이 모델은 오프라인 데이터 세트에서 훈련된 Static한 모델입니다. 커뮤니티의 피드백을 통해 모델 안정성을 개선함에 따라 조정된 모델의 향후 버전이 출시될 예정입니다.
 - **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)
-## Intended Use
-- **Intended Use Cases:** Llama-3-Luxia-Ko는 한국어 특화 언어모델로 상업용 및 연구용으로 제작되었으며 사전학습 언어모델입니다.
 ### How to Use
 이 저장소에는 transformers와 함께 사용할 수 있는 코드베이스와 `Llama-3-Luxia-Ko-8B`가 포함되어 있습니다.
@@ -45,58 +44,54 @@ model_id = "Saltlux/Llama-3-Luxia-Ko-8B"
 pipeline = transformers.pipeline(
     "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
 )
-pipeline("<|begin_of_text|>안녕하세요~!")
 ```
-## Training Details
 ### Training Data
-- **Overview:** Llama-3-Luxia-Ko는 공개적으로 사용 가능한 코퍼스와 함께 자체적으로 수집한 2023년 최신 뉴스데이터를 포함하여 약 95GB 코퍼스로 사전학습 되었습니다.<br>
-	사전학습 데이터의 도메인은 법률, 특허, 의료, 역사 분야 등의 다양한 도메인이 포함되어있습니다.
-#### Preprocessing
-한국어 공개 코퍼스 및 자체 수집 데이터 약 1TB 수준에서 Saltlux가 자체 제작한 정규화 툴을 활용하여 전처리를 수행합니다.
-[Document Delete]
-- 짧은 텍스트 (120 음절 미만) 필터링
-- 긴 텍스트 (100,000 음절 이상) 필터링
-- 한국어 비율이 25% 미만인 경우 필터링
-- 글머리 기호가 90% 이상인 경우 필터링
-- 욕설이 있는 경우 필터링
-[Document Modify]
-- 이모션 문자 정규화 (최대 2개까지 허용)
-- 개행 문자 정규화 (최대 2개까지 허용)
-- HTML 태그 제거
-- 불필요한 문자 제거
-- 비식별화 진행 (휴대폰 번호, 계좌번호 등의 개인정보)
-- 중복 문자열 제거
-#### Random Sampling
-전체 확보한 코퍼스 중 우선적으로 반드시 학습해야하는 코퍼스이면서, 다양한 도메인에서 샘플링 하기 위해 진행합니다.<br>
-Saltlux의 샘플링 방법은 아래와 같습니다.
-- 코퍼스의 용량이 10GB 이상인 데이터에 한해서 랜덤 샘플링 진행
-- 샘플링 방안은 입력 코퍼스에서 명사/복합명사를 추출해 문서 내의 명사 추출 빈도 수를 세며, 추출 빈도의 임계값을 정해 넘으면 해당 명사/복합명사가 있는 문서를 샘플링하지 않음
-- 학습데이터 추출 명사빈도 임계값은 1,000으로 해서 랜덤 샘플링 진행하여 다양한 도메인, 문서를 학습데이터로 선정
-### Hardware and Hyperparameters
-- **Overview:** Saltlux-Ko-Llama-3 학습에 활용한 장비와 학습 파라미터입니다.
-#### Use Device
-NVIDIA H100 80GB * 8GA을 활용하여 모델 사전학습을 진행하였습니다.
 #### Training Hyperparameters
-|Model|Params|Context length|GQA|Learning rate|Batch|Precision|Epoch|
-|-------------|---|---|---|---|---|---|---|
-|Saltlux-Ko-Llama-3|8B|8k|Yes|5e-6|128|bf16|1.0|
 ### Tokenizer
-- **Overview:** 한국어 토큰들을 다 커버할 수 있는 수준의 공개 말뭉치 데이터 87.85GB 로 Llama-3 한국어 토크나이저 학습을 진행하였습니다.
-#### Tokenizer Train Dataset
-한국어 토크나이저 학습에 사용한 데이터는 뉴스, 블로그, 한국어 위키백과, 대화, 전문 도메인(법률, 특허 등) 공개된 다양한 한국어 코퍼스를 활용하였음.
 #### Tokenizer Result
 <table>
@@ -150,17 +145,11 @@ NVIDIA H100 80GB * 8GA을 활용하여 모델 사전학습을 진행하였습니
 	</tr>
 </table>
-## Model Card Authors
-Saltlux AILabs 언어모델팀
-## Model Card Contact
-Saltlux AILabs 언어모델팀
-## Citation instructions
 **Llama-3-Luxia-Ko**
 ```
 @article{llama3luxiakomodelcard,
-  title={Satlux Llama 3 Luxua Ko Model Card},
   author={AILabs@Saltux},
   year={2024},
   url={수정예정}

 - llama-3
 - pytorch
 ---
+# Model Details
+Saltlux, AI Labs에서 학습 및 공개한 <b>Llama-3-Luxia-Ko-8B</b> 모델은 Meta에서 출시한 Llama-3-8B 모델을 <b>한국어에 특화</b>한 모델입니다.<br><br>
+자체 보유하고 있는 1TB 이상의 한국어 학습 데이터 중, 약 100GB 정도의 데이터를 선별하여 사전학습을 수행했습니다.<br><br>
+또한 공개된 Llama-3 Tokenizer를 한국어로 확장하고 사전학습에 활용했습니다.
 - **Meta Llama-3:** Meta developed and released the Meta Llama 3 family of large language models (LLMs), a collection of pretrained and instruction tuned generative text models in 8 and 70B sizes. The Llama 3 instruction tuned models are optimized for dialogue use cases and outperform many of the available open source chat models on common industry benchmarks. Further, in developing these models, we took great care to optimize helpfulness and safety.
 ### Model Description
+- **Model developers:** Saltlux, AI Labs 언어모델팀
+- **Variation:** Llama-3-Luxia-Ko 8B 파라미터 수준의 사전학습 모델
 - **Input:** 텍스트만 입력합니다.
 - **Output:** 텍스트와 코드를 생성합니다.
 - **Model Architecture:** Llama-3-Luxia-Ko 모델은 Meta에서 출시한 Llama-3와 같은 auto-regressive 언어모델로 최적화된 transformer 아키텍쳐를 사용합니다.
 - **Status:** 이 모델은 오프라인 데이터 세트에서 훈련된 Static한 모델입니다. 커뮤니티의 피드백을 통해 모델 안정성을 개선함에 따라 조정된 모델의 향후 버전이 출시될 예정입니다.
 - **License:** Llama3 License: [https://llama.meta.com/llama3/license](https://llama.meta.com/llama3/license)
+### Intended Use
+Llama-3-Luxia-Ko는 한국어 특화 언어모델로 연구용으로 제작되었으며, 다양한 자연어 생성 작업에 맞게 재활용 및 변형될 수 있습니다.
 ### How to Use
 이 저장소에는 transformers와 함께 사용할 수 있는 코드베이스와 `Llama-3-Luxia-Ko-8B`가 포함되어 있습니다.
 pipeline = transformers.pipeline(
     "text-generation", model=model_id, model_kwargs={"torch_dtype": torch.bfloat16}, device_map="auto"
 )
+pipeline("<|begin_of_text|>안녕하세요. 솔트룩스 AI Labs 입니다.")
 ```
+# Training Details
+Llama-3-Luxia-Ko 모델 학습을 위해 활용한 학습 데이터 및 장비는 Saltlux에서 보유하고 있는 자체 한국어 코퍼스 및 H100 인스턴스를 활용했습니다.
 ### Training Data
+Llama-3-Luxia-Ko는 공개적으로 사용 가능한 코퍼스와 함께 자체적으로 수집한 2023년 최신 뉴스데이터를 포함하여 약 100GB 코퍼스로 사전학습 되었습니다.<br>
+사전학습 데이터는 일반 분야 이외에도 법률, 특허, 의료, 역사, 사회, 문화, 대화(문어/구어) 등 다양한 도메인이 포함되어있습니다.
+### Data Preprocessing
+보유하고 있는 한국어 데이터의 품질 향상을 위해 문서 삭제(Document Delete), 문서 수정(Document Modify) 수준의 전처리 방안을 수립하고 적용합니다.
++ **Document Delete**
+  - 짧은 텍스트 (120 음절 미만) 필터링
+  - 긴 텍스트 (100,000 음절 이상) 필터링
+  - 한국어 비율이 25% 미만인 경우 필터링
+  - 글머리 기호가 90% 이상인 경우 필터링
+  - 욕설이 있는 경우 필터링
++ **Document Modify**
+  - 이모션 문자 정규화 (최대 2개까지 허용)
+  - 개행 문자 정규화 (최대 2개까지 허용)
+  - HTML 태그 제거
+  - 불필요한 문자 제거
+  - 비식별화 진행 (휴대폰 번호, 계좌번호 등의 개인정보)
+  - 중복 문자열 제거
+### Data Sampling
+Llama-3-Luxia-Ko-8B 모델 학습을 위해 1TB 수준의 한국어 코퍼스의 10분의 1인 100GB 데이터를 샘플링합니다.<br><br>데이터 샘플링은 다양한 도메인과 내용이 포함될 수 있도록 고려하여 샘플링하며 방법은 아래와 같습니다.<br>
++ 샘플링 대상은 10GB 이상의 크기를 가지는 도메인 코퍼스
++ 도메인 코퍼스 내 명사, 복합명사 기반 키워드 사전 구축
++ 등장하는 키워드의 DF(Document Frequency)가 임계값 이상일 경우 해당 키워드가 포함된 문서는 샘플링을 중단
+### Use Device
+NVIDIA H100 80GB * 8EA을 활용하여 모델 사전학습을 진행하였습니다.
 #### Training Hyperparameters
+|Model|Params|Context length|GQA|Learning rate|Batch|Precision|
+|---|---|---|---|---|---|---|
+|Llama-3-Luxia-Ko|8B|8k|Yes|1e-5|128|bf16|
 ### Tokenizer
+Llama-3-Tokenizer를 한국어 특화하기 위해 한국어 토큰 17,536개를 추가하고 활용하였습니다.
+|Model|Vocab Size|
+|---|---|
+|Llama-3|128,256|
+|Llama-3-Luxia-Ko|145,792|
 #### Tokenizer Result
 <table>
 	</tr>
 </table>
+### Citation instructions
 **Llama-3-Luxia-Ko**
 ```
 @article{llama3luxiakomodelcard,
+  title={Llama 3 Luxua Ko Model Card},
   author={AILabs@Saltux},
   year={2024},
   url={수정예정}