PKU-Alignment

university

https://github.com/PKU-Alignment

AI & ML interests

Reinforcement Learning, Large Language Models, Value Alignment

Recent Activity

XuyaoWang updated a model 15 days ago

PKU-Alignment/AnyRewardModel

XuyaoWang updated a dataset 15 days ago

PKU-Alignment/EvalAnything-InstructionFollowing

XuyaoWang updated a dataset 15 days ago

PKU-Alignment/EvalAnything-Selection_Synergy

View all activity

PKU-Alignment's activity

XuyaoWang

updated a model 15 days ago

PKU-Alignment/AnyRewardModel

Any-to-Any • Updated 15 days ago • 218 • 1

XuyaoWang

updated 3 datasets 15 days ago

PKU-Alignment/EvalAnything-InstructionFollowing

Viewer • Updated 15 days ago • 6.7k • 58

PKU-Alignment/EvalAnything-Selection_Synergy

Viewer • Updated 15 days ago • 100 • 48

PKU-Alignment/EvalAnything-AMU

Updated 15 days ago • 150

Gaie

updated a collection 20 days ago

Align-Anything

11 items • Updated 20 days ago • 5

dayone3nder

updated a dataset 20 days ago

PKU-Alignment/align-anything

Viewer • Updated 20 days ago • 85.6k • 1.89k • 17

Gaie

updated a dataset 20 days ago

PKU-Alignment/align-anything

Viewer • Updated 20 days ago • 85.6k • 1.89k • 17

jijiaming

authored a paper 6 months ago

ProgressGym: Alignment with a Millennium of Moral Progress

Paper • 2406.20087 • Published Jun 28, 2024 • 3

TianyiQ

authored 5 papers 7 months ago

PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models

Paper • 2406.15513 • Published Jun 20, 2024 • 1

ProgressGym: Alignment with a Millennium of Moral Progress

Paper • 2406.20087 • Published Jun 28, 2024 • 3

AI Alignment: A Comprehensive Survey

Paper • 2310.19852 • Published Oct 30, 2023

Language Models Resist Alignment

Paper • 2406.06144 • Published Jun 10, 2024

Reward Generalization in RLHF: A Topological Perspective

Paper • 2402.10184 • Published Feb 15, 2024

XuehaiPan

authored a paper about 1 year ago

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Paper • 2307.04657 • Published Jul 10, 2023 • 6

calico-1226

authored a paper about 1 year ago

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Paper • 2310.12773 • Published Oct 19, 2023 • 28

mickelliu

authored a paper about 1 year ago

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Paper • 2310.12773 • Published Oct 19, 2023 • 28

jijiaming

authored a paper about 1 year ago

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Paper • 2310.12773 • Published Oct 19, 2023 • 28

XuehaiPan

authored a paper about 1 year ago

Safe RLHF: Safe Reinforcement Learning from Human Feedback

Paper • 2310.12773 • Published Oct 19, 2023 • 28

mickelliu

authored a paper over 1 year ago

BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset

Paper • 2307.04657 • Published Jul 10, 2023 • 6

XuehaiPan

authored a paper over 1 year ago

Baichuan 2: Open Large-scale Language Models

Paper • 2309.10305 • Published Sep 19, 2023 • 19