Reinforced Token Optimization

AI & ML interests

None defined yet.

Recent Activity

zkshan2002 published a model 24 days ago

RTO-RL/Llama3-8B-TDPO

zkshan2002 updated a model 24 days ago

RTO-RL/Llama3-8B-TDPO

zkshan2002 published a model 24 days ago

RTO-RL/Llama3-8B-SimPO

View all activity

models 8

RTO-RL/Llama3-8B-TDPO

Updated 24 days ago • 19 • 1

RTO-RL/Llama3-8B-SimPO

Updated 24 days ago • 12

RTO-RL/Llama3-8B-RDPO

Updated 24 days ago • 22 • 1

RTO-RL/Llama3-8B-PPO

Updated 24 days ago • 17 • 1

RTO-RL/Llama3-8B-RTO

Updated 24 days ago • 19 • 1

RTO-RL/Llama3.2-1B-RewardModel

Updated 24 days ago • 89

RTO-RL/Llama3-8B-RewardModel

Updated 24 days ago • 113

RTO-RL/Llama3-8B-DPO

Updated 24 days ago • 46

datasets

None public yet