ShowAndTell - a floom Collection

floom 's Collections

ShowAndTell-2025-01-30

ShowAndTell-2024-12-03

Coding

ICL

RL

Agents

NLU

RAG

Data Efficient Approaches

Personalization

sentence-transformer-models

Tool Use & more

Feedback Analysis

Memory

SSM

Efficient Serving/Inference

Synthetic Data Generation

Frontier research ideas

ShowAndTell

updated 2 days ago

SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models

Paper • 2412.11605 • Published Dec 16, 2024 • 18
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 93
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

Paper • 2412.17739 • Published Dec 23, 2024 • 41
SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval

Paper • 2412.15443 • Published Dec 19, 2024 • 9
ProgCo: Program Helps Self-Correction of Large Language Models

Paper • 2501.01264 • Published Jan 2 • 25
SDPO: Segment-Level Direct Preference Optimization for Social Agents

Paper • 2501.01821 • Published Jan 3 • 18
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Paper • 2501.02506 • Published Jan 5 • 11
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published Jan 6 • 14
Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Paper • 2501.06708 • Published Jan 12 • 5
Atla Selene Mini: A General Purpose Evaluation Model

Paper • 2501.17195 • Published Jan 27 • 33
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Paper • 2502.06781 • Published 18 days ago • 59
SpargeAttn: Accurate Sparse Attention Accelerating Any Model Inference

Paper • 2502.18137 • Published 4 days ago • 47
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Paper • 2502.14494 • Published 9 days ago • 13
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Paper • 2502.19328 • Published 2 days ago • 17
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Paper • 2502.19361 • Published 2 days ago • 20
Towards an AI co-scientist

Paper • 2502.18864 • Published 3 days ago • 20