Vikhrmodels/Vikhr-Llama-3.2-1B-Instruct · Классная модель, очень хорошие результаты для такого размера!

Здравствуйте, уважаемые энтузиасты! Мне очень понравились достигнутые вами результаты на такой маленькой модели! Можете ли вы выложить как можно более подробные сведения о вашем способе обучения, если это не секрет и не затруднит вас? Включая состав и размер датасета (неужели только 1 Vikhrmodels/GrandMaster-PRO-MAX?). Спасибо за такой интересный результат, за ваш труд! Хочу попробовать поэксперементировать с файнтюном дополнительным на своих русскоязычных данных и других русских датасетах. Есть идея создать Mixture of experts из нескольких таких моделей (например x4), обученных на разных русскоязычных наборах данных. Мне кажется это даст хорошие результаты, в теории. Обучать планирую с помощью LLaMA-Factory.