1 182 149

Mohammed Brıman

mohammedbriman

AI & ML interests

Machine Learning, Deep Learning, Natural Language Processing, Natural Language Generation, Computer Vision

Recent Activity

liked a dataset 2 days ago

trl-lib/tldr

upvoted an article 2 days ago

Open-R1: Update #1

liked a dataset 2 days ago

kaist-ai/CoT-Collection

View all activity

Organizations

None yet

mohammedbriman's activity

upvoted an article 2 days ago

Article

Open-R1: Update #1

•

3 days ago

• 221

upvoted a paper 5 days ago

Streaming DiLoCo with overlapping communication: Towards a Distributed Free Lunch

Paper • 2501.18512 • Published 6 days ago • 24

upvoted a paper 10 days ago

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 14 days ago • 295

upvoted a paper 16 days ago

FAST: Efficient Action Tokenization for Vision-Language-Action Models

Paper • 2501.09747 • Published 20 days ago • 23

upvoted a paper 19 days ago

Cut Your Losses in Large-Vocabulary Language Models

Paper • 2411.09009 • Published Nov 13, 2024 • 44

upvoted a paper 20 days ago

Titans: Learning to Memorize at Test Time

Paper • 2501.00663 • Published Dec 31, 2024 • 14

upvoted a paper 21 days ago

Transformer^2: Self-adaptive LLMs

Paper • 2501.06252 • Published 27 days ago • 53

upvoted a paper 25 days ago

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Paper • 2501.04519 • Published 28 days ago • 253

upvoted 5 papers about 1 month ago

upvoted 6 papers about 2 months ago

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 125

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 106

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 89

LLM Pruning and Distillation in Practice: The Minitron Approach

Paper • 2408.11796 • Published Aug 21, 2024 • 58

Transformers Can Navigate Mazes With Multi-Step Prediction

Paper • 2412.05117 • Published Dec 6, 2024 • 5

Reinforcement Learning: An Overview

Paper • 2412.05265 • Published Dec 6, 2024 • 4

upvoted a paper 2 months ago

Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

Paper • 2407.00079 • Published Jun 24, 2024 • 5