Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2403.09629

Rethinking Optimization and Architecture for Tiny Language Models

Paper • 2402.02791 • Published Feb 5 • 12
More Agents Is All You Need

Paper • 2402.05120 • Published Feb 3 • 51
Scaling Laws for Forgetting When Fine-Tuning Large Language Models

Paper • 2401.05605 • Published Jan 11
Aligning Large Language Models with Counterfactual DPO

Paper • 2401.09566 • Published Jan 17 • 2

Can Large Language Models Understand Context?

Paper • 2402.00858 • Published Feb 1 • 21
Efficient Tool Use with Chain-of-Abstraction Reasoning

Paper • 2401.17464 • Published Jan 30 • 16
ReFT: Reasoning with Reinforced Fine-Tuning

Paper • 2401.08967 • Published Jan 17 • 27
The Impact of Reasoning Step Length on Large Language Models

Paper • 2401.04925 • Published Jan 10 • 15

Symbolic LLM Reasoning

CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Paper • 2401.03065 • Published Jan 5 • 10
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Paper • 2401.14196 • Published Jan 25 • 46
WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Paper • 2312.14187 • Published Dec 20, 2023 • 49
On the Effectiveness of Large Language Models in Domain-Specific Code Generation

Paper • 2312.01639 • Published Dec 4, 2023 • 1

Chain of Code: Reasoning with a Language Model-Augmented Code Emulator

Paper • 2312.04474 • Published Dec 7, 2023 • 29
Boosting LLM Reasoning: Push the Limits of Few-shot Learning with Reinforced In-Context Pruning

Paper • 2312.08901 • Published Dec 14, 2023
Learning From Mistakes Makes LLM Better Reasoner

Paper • 2310.20689 • Published Oct 31, 2023 • 28
Making Large Language Models Better Reasoners with Step-Aware Verifier

Paper • 2206.02336 • Published Jun 6, 2022 • 1

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 140
BitNet: Scaling 1-bit Transformers for Large Language Models

Paper • 2310.11453 • Published Oct 17, 2023 • 96
ReFT: Representation Finetuning for Language Models

Paper • 2404.03592 • Published Apr 4 • 86
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 256

google/flan-t5-large

Text2Text Generation • Updated Jul 17, 2023 • 594k • • 548
deepseek-ai/deepseek-coder-6.7b-instruct

Text Generation • Updated Feb 2 • 93k • 335
Object Recognition as Next Token Prediction

Paper • 2312.02142 • Published Dec 4, 2023 • 11
colbert-ir/dspy-Oct11-T5-Large-MH-3k-v1

Text2Text Generation • Updated Oct 11, 2023 • 9 • 1

Research Papers

OpenMathInstruct-1: A 1.8 Million Math Instruction Tuning Dataset

Paper • 2402.10176 • Published Feb 15 • 34
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Paper • 2402.19427 • Published Feb 29 • 52
Beyond Language Models: Byte Models are Digital World Simulators

Paper • 2402.19155 • Published Feb 29 • 49
Matryoshka Representation Learning

Paper • 2205.13147 • Published May 26, 2022 • 8

Ada-Instruct: Adapting Instruction Generators for Complex Reasoning

Paper • 2310.04484 • Published Oct 6, 2023 • 5
Diversity of Thought Improves Reasoning Abilities of Large Language Models

Paper • 2310.07088 • Published Oct 11, 2023 • 5
Adapting Large Language Models via Reading Comprehension

Paper • 2309.09530 • Published Sep 18, 2023 • 75
Democratizing Reasoning Ability: Tailored Learning from Large Language Model

Paper • 2310.13332 • Published Oct 20, 2023 • 14

mistralai/Mistral-7B-Instruct-v0.1

Text Generation • Updated 29 days ago • 661k • • 1.5k
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Paper • 2403.09629 • Published Mar 14 • 69

Large Language Models as Optimizers

Paper • 2309.03409 • Published Sep 7, 2023 • 75
Challenges and Applications of Large Language Models

Paper • 2307.10169 • Published Jul 19, 2023 • 47
Efficiently Modeling Long Sequences with Structured State Spaces

Paper • 2111.00396 • Published Oct 31, 2021 • 1
DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning

Paper • 2006.08381 • Published Jun 15, 2020

Previous
1
2
3
4
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs