Update model on 2024-08-20 05:53:18

Browse files

Files changed (6) hide show

README.md +37 -63
added_tokens.json +0 -0
config.json +1 -1
model.safetensors +2 -2
tokenizer.json +0 -0
tokenizer_config.json +0 -0

README.md CHANGED Viewed

@@ -9,35 +9,34 @@ tags:
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
-- dataset_size:215262
 - loss:MultipleNegativesRankingLoss
 widget:
-- source_sentence: chapters and online Capital asset pricing model Ross chapter Workshop
-    on
   sentences:
-  - 제작 석고원형 제작 석고원형 제작 석고원형 완성 Mould 제작 Mould 제작
-  - 글 읽기 관용 표현 속이 타다 물 건너가다 발 뻗고 자다
-  - model Portfolio theory and asset pricing model Portfolio theory and asset
-- source_sentence: 안내 담당 교수 인터넷 기술과 정보사회의 등장 담당 교수 인터넷 신기술
   sentences:
-  - culture the immigrant experience and important contemporary American
-  - 사례 텍스트 마이닝을 활용한 광고 모델로서의 가상 인플루언서 인식 변화 강의
-  - 강의 소개 연결망 이론의 역사 지식정보사회의 연결망 법칙 부익부 빈익빈 추석
-- source_sentence: 금 개설운영 온라인수업 기본교육 차 강의영상 오픈뒤 주내
   sentences:
-  - 목 개설운영 온라인수업 기본교육 차 강의영상 오픈 뒤
-  - 이를 위해 본 교과목에서는 사회문제를 이론적으로 접근하고 분석하는 방법을 먼저 익히고
-  - 강구조및설계 강재의 재료적 성질 및 역학적 특성을
-- source_sentence: 색채 색채의 조화 간격 색상 명도 채도와 조화 조화와 부조화 면적과
   sentences:
-  - 분석 물성 색채 질감 반사도 투명도 무게감
-  - 정신전력 국방부 전신전력교육기본교재 국방일보 중간고사 여건보장 중간시험 제식분대제식 기본전투기술육군학생군사학교 부대관리지휘관시간 전투준비안전단
-  - 예측하고 대응할 수 있는 역량 강화 과정 소개 Course Orientation 강의
-- source_sentence: 대 과학자 사회의 Cudos 과학의 이상과 실재 월 일 과학혁명의 구조
   sentences:
-  - 건강과 질병은 이상과 현실 정신과 신체 쾌락과 고통
-  - 개념도 작성 과학교육과정과 교과서 검토 및 분석 전통적
-  - of our society including food agriculture medicine industry and ecology
 ---
 # SentenceTransformer based on jhgan/ko-sroberta-multitask
@@ -89,9 +88,9 @@ from sentence_transformers import SentenceTransformer
 model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
 # Run inference
 sentences = [
-    '대 과학자 사회의 Cudos 과학의 이상과 실재 월 일 과학혁명의 구조',
-    '건강과 질병은 이상과 현실 정신과 신체 쾌락과 고통',
-    '개념도 작성 과학교육과정과 교과서 검토 및 분석 전통적',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
@@ -146,19 +145,19 @@ You can finetune this model on your own dataset.
 #### Unnamed Dataset
-* Size: 215,262 training samples
 * Columns: <code>sentence_0</code> and <code>sentence_1</code>
 * Approximate statistics based on the first 1000 samples:
-  |         | sentence_0                                                                       | sentence_1                                                                        |
-  |:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
-  | type    | string                                                                           | string                                                                            |
-  | details | <ul><li>min: 5 tokens</li><li>mean: 16.7 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 16.89 tokens</li><li>max: 54 tokens</li></ul> |
 * Samples:
-  | sentence_0                                                                                       | sentence_1                                                                   |
-  |:-------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------|
-  | <code>미움 쪽 북스톤 참고 필로 이경희 자기 미움 쪽 실천활동 진행</code>                                                  | <code>산업혁명과 클라우드 클라우드에 대한 이해 이경희 오라클전무 Workday Business Model Workday</code> |
-  | <code>미움 쪽 북스톤 참고 필로 이경희 자기 미움 쪽 실천활동 진행</code>                                                  | <code>만날 것인가 자기 미움 필로 이경희 자기 미움 쪽 북스톤 참고</code>                              |
-  | <code>and knowledge about the accounting principles cost analysis and financial reporting</code> | <code>are used to illustrate the principles</code>                           |
 * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
   ```json
   {
@@ -293,34 +292,9 @@ You can finetune this model on your own dataset.
 </details>
 ### Training Logs
-| Epoch  | Step  | Training Loss |
-|:------:|:-----:|:-------------:|
-| 0.0372 | 500   | 1.6074        |
-| 0.0743 | 1000  | 1.3245        |
-| 0.1115 | 1500  | 1.1784        |
-| 0.1487 | 2000  | 1.1166        |
-| 0.1858 | 2500  | 1.075         |
-| 0.2230 | 3000  | 1.0003        |
-| 0.2601 | 3500  | 0.9713        |
-| 0.2973 | 4000  | 0.9125        |
-| 0.3345 | 4500  | 0.885         |
-| 0.3716 | 5000  | 0.8991        |
-| 0.4088 | 5500  | 0.8464        |
-| 0.4460 | 6000  | 0.8405        |
-| 0.4831 | 6500  | 0.799         |
-| 0.5203 | 7000  | 0.772         |
-| 0.5575 | 7500  | 0.7564        |
-| 0.5946 | 8000  | 0.7348        |
-| 0.6318 | 8500  | 0.7289        |
-| 0.6689 | 9000  | 0.722         |
-| 0.7061 | 9500  | 0.6702        |
-| 0.7433 | 10000 | 0.7026        |
-| 0.7804 | 10500 | 0.6627        |
-| 0.8176 | 11000 | 0.6392        |
-| 0.8548 | 11500 | 0.6474        |
-| 0.8919 | 12000 | 0.6304        |
-| 0.9291 | 12500 | 0.6092        |
-| 0.9663 | 13000 | 0.6041        |
 ### Framework Versions

 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
+- dataset_size:9089
 - loss:MultipleNegativesRankingLoss
 widget:
+- source_sentence: 현황과 방향을 년 교육과정과 비교하면서 총괄적으로 살펴보는 것을 수업목표로 삼습니다
   sentences:
+  - 탈냉전 이후 나타난 안보의 유형협력안보 포괄안보 인간안보 등을 알아보고 오늘날 핵심이슈로
+  - 시편 유약 제조 시유 실험실습실험 판넬 만들기 완성 차 프로젝트 종료
+  - 자세한 내용은 한글 파일을 참조해주기 바랍니다
+- source_sentence: 단위로 일본 고전문학을 다룸으로써 일본 언어 문화에 대한 이해를 심화시키는 것을
   sentences:
+  - 주요한 내용으로는 데이터 모델ERM 질의 언어SQL 데이터베이스의 설계 데이터베이스의 구현 등이다
+  - 로크 정치적 자유주의 통치론 오리엔테이션 홉스 국가의 인공적 탄생 리바이어던 서설
+  - 장 장 중간고사 takehome exam 캉유웨이 사상 연구 탄쓰퉁 연구 기말고사
+- source_sentence: 능력있는 리더의 요건은 강의주제 리더십과 팔로워십 Reading Quiet quitting is about
   sentences:
+  - 원리와 데이터 통신에 필수적인 프로토콜 계층구조에 대해 익히고 각 계층별 기능을
+  - 팔관회와 연등회 불교 의례의 사회적 역할
+  - 누렸던 것일까 조선시대 여성들이 억압을 받았다면 그 억압의 형태는 어떤 것이었을까
+- source_sentence: 동역학 역학의 한 분야인 동역학은 질량을 가진 물체 또는 시스템의
   sentences:
+  - 최종본 작성 어린이날 과학탐구와 글쓰기 탐구적 과학글쓰기SWH란 탐구적 과학글쓰기를 활용한 과학탐구실험
+  - 연관성 이해하기 이스라엘은 어떻게 광야에서 살아남았을까
+  - 나라 사람이니 추석 연휴 과 식당은 어디에 있나요 과 무슨 일
+- source_sentence: 건강 악화와 후계 구도 아동영화 아홉 명의 배사공 감상 추석 대체공휴일
   sentences:
+  - 자연상태와 사회계약론 리바이어던 장 장 홉스 주권자 리바이어던 장 장 임시공휴일
+  - 이해 PTMES의 이해 테이크 어웨이 스윙 연습 스윙 연습 창립 주년
+  - 발음과 특징비대면 러시아 예술가곡과 대중가곡 연습문제 풀이 림스키코르사코프의 작품적 특징과 동양적
 ---
 # SentenceTransformer based on jhgan/ko-sroberta-multitask
 model = SentenceTransformer("jh8416/my_ewha_model_2024_1")
 # Run inference
 sentences = [
+    '건강 악화와 후계 구도 아동영화 아홉 명의 배사공 감상 추석 대체공휴일',
+    '자연상���와 사회계약론 리바이어던 장 장 홉스 주권자 리바이어던 장 장 임시공휴일',
+    '발음과 특징비대면 러시아 예술가곡과 대중가곡 연습문제 풀이 림스키코르사코프의 작품적 특징과 동양적',
 ]
 embeddings = model.encode(sentences)
 print(embeddings.shape)
 #### Unnamed Dataset
+* Size: 9,089 training samples
 * Columns: <code>sentence_0</code> and <code>sentence_1</code>
 * Approximate statistics based on the first 1000 samples:
+  |         | sentence_0                                                                        | sentence_1                                                                        |
+  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                            |
+  | details | <ul><li>min: 5 tokens</li><li>mean: 24.17 tokens</li><li>max: 81 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 24.61 tokens</li><li>max: 52 tokens</li></ul> |
 * Samples:
+  | sentence_0                                                     | sentence_1                                                  |
+  |:---------------------------------------------------------------|:------------------------------------------------------------|
+  | <code>연휴 통합교육과정 모형 단계 KDB로 이끄는 학습경험의 창안 단계 실습협력적 통합교육과정</code> | <code>그리고 그 기억의 재구성 에르노의 부끄러움 현대사회와 개인의 소외 우엘벡의 투쟁</code>   |
+  | <code>연휴 통합교육과정 모형 단계 KDB로 이끄는 학습경험의 창안 단계 실습협력적 통합교육과정</code> | <code>기획 및 검증 지지와 공감을 이끄는 프리젠테이션 스킬사회문제를 해결하며 사회를 위한</code> |
+  | <code>연휴 통합교육과정 모형 단계 KDB로 이끄는 학습경험의 창안 단계 실습협력적 통합교육과정</code> | <code>학생들의 발표와 토론이 수업을 이끄는 주요한 원동력이다</code>                 |
 * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
   ```json
   {
 </details>
 ### Training Logs
+| Epoch  | Step | Training Loss |
+|:------:|:----:|:-------------:|
+| 0.8787 | 500  | 1.5874        |
 ### Framework Versions

added_tokens.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

config.json CHANGED Viewed

@@ -25,5 +25,5 @@
   "transformers_version": "4.43.3",
   "type_vocab_size": 1,
   "use_cache": true,
-  "vocab_size": 63112
 }

   "transformers_version": "4.43.3",
   "type_vocab_size": 1,
   "use_cache": true,
+  "vocab_size": 32020
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fab5044ab486d8a949b61c2604718cbd719b4da198cff55007a3a52eba8ee322
-size 538070888

 version https://git-lfs.github.com/spec/v1
+oid sha256:a306251e23784ebf92d64672fd175343230733c17da1caad8a1c969084bafb12
+size 442556256

tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff