sft-datasets

Activity Feed

AI & ML interests

None defined yet.

Recent Activity

hynky updated a dataset 8 days ago

sft-datasets/openr1_dataset_both_correct_or_true

hynky updated a dataset 8 days ago

sft-datasets/openr1_dataset_both_correct_true

hynky updated a dataset 8 days ago

sft-datasets/openr1_dataset_no_restrictions

View all activity

sft-datasets's activity

hynky

updated 6 datasets 8 days ago

hynky

updated a dataset 9 days ago

sft-datasets/test

Viewer • Updated 9 days ago • 10 • 31

hynky

published a dataset 9 days ago

sft-datasets/test

Viewer • Updated 9 days ago • 10 • 31

hynky

published 6 datasets 10 days ago

sft-datasets/openr1_dataset_both_correct_or_true

Viewer • Updated 8 days ago • 154k • 104

sft-datasets/openr1_dataset_both_correct_true

Viewer • Updated 8 days ago • 71.2k • 58

sft-datasets/openr1_dataset_no_restrictions

Viewer • Updated 8 days ago • 200k • 101

sft-datasets/openr1_dataset_llama_verification_true

Viewer • Updated 8 days ago • 124k • 82

sft-datasets/openr1_dataset_math_verify_reparsed_true

Viewer • Updated 8 days ago • 101k • 68

sft-datasets/openr1_dataset_math_verify_answer_true

Viewer • Updated 8 days ago • 88.7k • 88

hynky

authored a paper 28 days ago

SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published about 1 month ago • 198

hynky

authored a paper about 2 months ago

Towards Best Practices for Open Datasets for LLM Training

Paper • 2501.08365 • Published Jan 14 • 56

hynky

authored a paper 8 months ago

The FineWeb Datasets: Decanting the Web for the Finest Text Data at Scale

Paper • 2406.17557 • Published Jun 25, 2024 • 93

hynky

authored a paper about 1 year ago

A Dataset and Strong Baselines for Classification of Czech News Texts

Paper • 2307.10666 • Published Jul 20, 2023

AI & ML interests

Recent Activity

Team members 1

sft-datasets's activity