데이터셋 문의
#2
by
hongju0610
- opened
안녕하세요! 라마 3.2 한국어 모델 연구에 힘써주셔서 감사드립니다. 현재 연구하신 모델을 기반으로 도메인 지식에 맞게 파인튜닝을 진행하고 싶습니다. 다만, 데이터셋의 형식을 어떻게 준비해야 할지 잘 몰라 고민 중입니다. 샘플 데이터셋 JSONL 형식을 알 수 있을까요?
조언을 부탁드립니다. 감사합니다.
안녕하세요 서울과학기술대학교 MLP Lab 신동재 연구원입니다.
파인튜닝 데이터셋 형식은 학습 방법에 따라 약간의 차이가 있을것 같습니다.
가장 기본적인 형식의 대한 예시는 HuggingFaceH4/llava-instruct-mix-vsft 데이터셋 형식을 참고하시면 좋을것 같습니다.
감사합니다.
(연말 잘 보내세요:D)
ShinDJ
changed discussion status to
closed