corpus/AI_HUB 중 구매도서 데이터의 용량이 적어 보입니다.
#4
by
kwonmha
- opened
대규모_구매도서_기반_한국어_말뭉치_데이터의 용량이 거의 기가 단위일 텥데 542K라고 되어 있어서 말씀드립니다.
업데이트가 가능하시다면 해주시면 좋을 것 같습니다.
542K ./029.대규모_구매도서_기반_한국어_말뭉치_데이터.jsonl
kwonmha
changed discussion title from
corpus/AI_HUB 파일에 오류가 있어 보입니다.
to corpus/AI_HUB 중 구매도사 데이터의 용량
kwonmha
changed discussion title from
corpus/AI_HUB 중 구매도사 데이터의 용량
to corpus/AI_HUB 중 구매도서 데이터의 용량이 적어 보입니다.
해당 파일 텍스트가 전처리 과정중 소실이 있어 해당 데이터는 학습하지 못한 상태입니다.
따라서 실제로 본 파일은 GB가 아닌 극히 일부만 본 것으로 추정되어, 실제 학습한 데이터 용량 기준으로 서술되어있습니다.
beomi
changed discussion status to
closed