Adam Yanxiao Zhao's picture

11 8

Adam Yanxiao Zhao

sdpkjc

·

https://sdpkjc.com

AI & ML interests

Reinforcement Learning

Recent Activity

liked a model 6 days ago

perplexity-ai/r1-1776

updated a model about 1 month ago

sdpkjc/Qwen2.5-1.5B-Instruct-FT-DPO

published a model about 1 month ago

sdpkjc/Qwen2.5-1.5B-Instruct-FT-DPO

View all activity

Organizations

Papers 2

arxiv:2403.00673

arxiv:2402.03046

models 98

sdpkjc/Qwen2.5-1.5B-Instruct-FT-DPO

Text Generation • Updated Jan 22 • 8

sdpkjc/SmolLM2-FT-DPO

Text Generation • Updated Jan 22 • 14

sdpkjc/SmolLM2-FT-MyDataset

Text Generation • Updated Jan 21 • 11

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed5

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed4

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed3

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed2

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Ant-v4-ppo_fix_continuous_action-seed1

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed5

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Humanoid-v4-ppo_fix_continuous_action-seed4

Reinforcement Learning • Updated Jan 20, 2024

datasets

None public yet