metadata
base_model:
- bamec66557/MNRP_0.5
- bamec66557/MISCHIEVOUS-12B
library_name: transformers
tags:
- mergekit
- merge
merge
This is a merge of pre-trained language models created using mergekit.
Merge Details
Merge Method
This model was merged using the SLERP merge method.
Models Merged
The following models were included in the merge:
Configuration
The following YAML configuration was used to produce this model:
slices:
- sources:
- model: bamec66557/MNRP_0.5
layer_range: [0, 40] # MNRP_0.5 ๋ชจ๋ธ์ ๋ณํฉ ๋ ์ด์ด ๋ฒ์
- model: bamec66557/MISCHIEVOUS-12B
layer_range: [0, 40] # MISCHIEVOUS-12B ๋ชจ๋ธ์ ๋ณํฉ ๋ ์ด์ด ๋ฒ์
# Layer๋ณ ๋ณํฉ ๋น์จ์ ์กฐ์ ํ์ฌ ๋ ๋ถ๋๋ฌ์ด ํตํฉ์ ์ ๋
# ๊ฐ ํํฐ๋ ๋ชจ๋ธ ๋ด ํน์ ๋ฉ์ปค๋์ฆ์ ์ํฅ์ ๋ฏธ์นจ
parameters:
t:
- filter: self_attn
value: [0.2, 0.4, 0.6, 0.8, 1.0] # Self-attention ๋ ์ด์ด์ ์ ์ง์ ๋ณํฉ
- filter: mlp
value: [0.8, 0.6, 0.4, 0.2, 0.0] # MLP ๋ ์ด์ด๋ ๋ฐ๋ ๋น์จ๋ก ๋ณํฉ
- filter: layer_norm
value: [0.5, 0.5, 0.5, 0.5, 0.5] # Layer Normalization์ ๊ท ์ผ ๋ณํฉ
- value: 0.7 # ๊ธฐ๋ณธ๊ฐ
merge_method: slerp # ๋ณํฉ ๋ฐฉ์์ slerp๋ก ๋ณ๊ฒฝ
base_model: bamec66557/MISCHIEVOUS-12B # ๋ณํฉ์ ๊ธฐ๋ณธ ๋ชจ๋ธ
dtype: bfloat16 # ๋ณํฉ ์ ํจ์จ์ ์ด๊ณ ๋น ๋ฅธ ์ฐ์ฐ์ ์ํ ๋ฐ์ดํฐ ํ์
# ์ถ๊ฐ์ ์ผ๋ก ์ฌ์ฉํ ์ ์๋ ์ต์
regularization:
- method: l2_norm # L2 ์ ๊ทํ๋ฅผ ํตํด ๋ณํฉ๋ ๋ชจ๋ธ ๊ฐ์ค์น ์์ ํ
scale: 0.01
postprocessing:
- operation: smoothing # ๋ณํฉ ํ ๊ฐ์ค์น๋ฅผ ๋ถ๋๋ฝ๊ฒ ์กฐ์
kernel_size: 3
- operation: normalize # ์ ์ฒด ๊ฐ์ค์น๋ฅผ ์ ๊ทํ