devngho/llama-ablation-large-korean-corpus-jamo
Llama 아키텍쳐로 pretrain된 모델입니다. 약 20.7B 토큰으로 약 2.7에포크 학습했습니다. MaxText를 통해 학습되었습니다.
500step마다 체크포인트가 제공됩니다.
이 연구는 Google의 TPU Research Cloud (TRC)의 Cloud TPU 제공으로 수행되었습니다. ⚡
이 모델은 한글 자모를 분리한 후(NFKD 정규화) 토크나이징하는 devngho/jamo-tokenizer-exp1 토크나이저가 사용됐습니다.
예시
굵은 부분이 입력입니다.
- max_new_tokens: 256
예시 1 <s> 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다. 인공지능은 '인공지능'과 '인공지능'의 결합으로 탄생했다.
예시 2 <s> 한글의 특징은 '한글'이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다. 한글의 '한글'은 한글의 '한글'과 한글의 '한글'을 합친 말이다.</s>
예시 3 <s> 커피는 '커피'라는 단어에서 '커피'라는 단어가 '커피'라는 단어로 바뀌어 쓰이고 있다. 커피는 '커피'라는 단어에서 '커피'라는 단어가 '커피'라는 단어로 바뀌어 쓰이고 있다. 커피는 '커피'라는 단어에서 '커피'라는 단어가 '커피'라는 단어로 바뀌어 쓰이고 있다. 커피는 '커피'라는 단어에서 '커피'라는 단어가 '커피'라는 단어로 바뀌어 쓰이고 있다. 커피는 '커피'라는 단어에서 '커피'라는 단어가 '커피'라는 단어로 바뀌어 쓰이고 있다.</s>
상당한 환각과 어색함, 반복이 있습니다.
상세
- 제작: devngho
- 언어: ko
- 라이선스: mit
학습 상세
- learning_rate: 6e-4 (cosine, initial/end 6e-5)
- warmup_ratio: 0.05
- batch_size: 1024(fsdp 16 * per device 8 * ga 8)
- optimizer: adamw(b1=0.9, b2=0.95, eps=1e-5, weight_decay=0.01)
- duration: about 27h 50m
- steps: 10000
- wandb에서 전체 설정과 결과를 볼 수 있습니다.
학습 장비
TPU v4-32
학습 데이터셋
AI Hub, 모두의말뭉치를 dedup, length filtering했습니다 (약 16,056,320행).
AI Hub, 모두의말뭉치 규정으로 인해 데이터셋을 공개할 수 없지만, 원본 데이터를 준비한다면 devngho/dataset-preprocess의 과정으로 동일하게 전처리할 수 있습니다.
소프트웨어
jax==0.4.35
MaxText를 포크한 devngho/MaxText
아래에 벤치마크 결과가 제공됩니다.
devngho/llama-ablation-large-korean-corpus-jamo
Pretrained using Llama architecture. Trained with about 20.7B tokens(approximately 34.5 epoch), using MaxText.
Checkpoints for every 500 steps are available.
This research was supported with Cloud TPUs from Google's TPU Research Cloud (TRC). ⚡
This model uses devngho/jamo-tokenizer-exp1 tokenizer that tokenizes inputs after splitting Hangul jamo(NFKD normalization)
Details
- Made by: devngho
- Language: ko
- License: mit
Training details
- learning_rate: 6e-4 (cosine, initial/end 6e-5)
- warmup_ratio: 0.05
- batch_size: 1024(fsdp 16 * per device 8 * ga 8)
- optimizer: adamw(b1=0.9, b2=0.95, eps=1e-5, weight_decay=0.01)
- duration: about 27h 50m
- steps: 10000
- You can check all the configs and training results on wandb
Training devices
TPU v4-32
Training datasets
I applied deduplication and length filtering to a corpus from AI Hub and Modu Corpus (16,056,320 rows).
I couldn't make the training dataset public because of the terms of AI Hub and Modu Corpus. You can still preprocess the dataset in the same way as the dataset used during training this model using devngho/dataset-preprocess with the raw datas.
Software
jax==0.4.35
devngho/MaxText, a fork of MaxText
- Downloads last month
- 364