2 140 71

Raja Biswas

rbiswasfc

AI & ML interests

NLP, Generative AI

Recent Activity

upvoted an article 3 days ago

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

upvoted an article 3 days ago

Illustrating Reinforcement Learning from Human Feedback (RLHF)

liked a model 3 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

View all activity

Organizations

rbiswasfc's activity

upvoted 2 articles 3 days ago

Article

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

•

18 days ago

• 43

Article

Illustrating Reinforcement Learning from Human Feedback (RLHF)

Dec 9, 2022

• 173

liked a model 3 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

Text Generation • Updated 2 days ago • 914k • 494

liked a Space 5 days ago

1.59k

The Ultra-Scale Playbook

🌌

The ultimate guide to training LLM on large GPU Clusters

published a model 5 days ago

rbiswasfc/mistral-rp-v2

Updated 5 days ago • 5

updated a model 5 days ago

rbiswasfc/mistral-rp-v2

Updated 5 days ago • 5

published a model 5 days ago

rbiswasfc/mistral-rp

Updated 5 days ago • 18

updated a model 5 days ago

rbiswasfc/mistral-rp

Updated 5 days ago • 18

liked 2 datasets 6 days ago

PygmalionAI/PIPPA

Updated Sep 7, 2023 • 224 • 211

lmarena-ai/arena-human-preference-100k

Viewer • Updated 14 days ago • 106k • 607 • 31

liked a dataset 7 days ago

DigitalLearningGmbH/MATH-lighteval

Viewer • Updated Jan 15 • 25k • 11.5k • 19

upvoted 2 collections 7 days ago

SimpleRL

Collection

The collection for the Project "Simple Reinforcement Learning for Reasoning" • 2 items • Updated 7 days ago • 4

CodeI/O

Collection

Collection for CodeI/O @ https://codei-o.github.io/ • 15 items • Updated 13 days ago • 6

upvoted a paper 9 days ago

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15, 2024 • 84

liked a model 10 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Text Generation • Updated 2 days ago • 1.15M • • 934

upvoted an article 10 days ago

Article

How NuminaMath Won the 1st AIMO Progress Prize

Jul 11, 2024

• 117

upvoted a collection 10 days ago

NuminaMath

Collection

Datasets and models for training SOTA math LLMs. See our GitHub for training & inference code: https://github.com/project-numina/aimo-progress-prize • 7 items • Updated 15 days ago • 75

upvoted an article 12 days ago

Article

1 Billion Classifications

13 days ago

• 39

liked 2 datasets 13 days ago

AI-MO/NuminaMath-1.5

Viewer • Updated 15 days ago • 896k • 2.31k • 111

open-r1/OpenR1-Math-220k

Viewer • Updated 8 days ago • 450k • 23.8k • 421