9 31 71

Seungone Kim

seungone

https://seungonekim.github.io/

AI & ML interests

Large Language Models, LLM-as-a-Judge, Reward Model Overoptimization, Personalized Alignment

Recent Activity

updated a dataset 6 days ago

prometheus-eval/outcome_meta_evaluation

updated a dataset 6 days ago

prometheus-eval/outcome_meta_evaluation

liked a model 14 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

View all activity

Organizations

seungone's activity

upvoted a paper 20 days ago

VideoRAG: Retrieval-Augmented Generation over Video Corpus

Paper • 2501.05874 • Published 24 days ago • 66

upvoted 3 papers about 1 month ago

upvoted 2 papers about 2 months ago

MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale

Paper • 2412.05237 • Published Dec 6, 2024 • 47

Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 46

upvoted 2 articles 3 months ago

Article

Navigating Korean LLM Research #1: Models

•

Oct 22, 2024

• 23

Article

Navigating Korean LLM Research #2: Evaluation Tools

•

Oct 23, 2024

• 7

upvoted 2 papers 3 months ago

Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages

Paper • 2410.16153 • Published Oct 21, 2024 • 44

Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Paper • 2410.13232 • Published Oct 17, 2024 • 41

upvoted a paper 4 months ago

Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Paper • 2409.19715 • Published Sep 29, 2024 • 9

upvoted a paper 5 months ago

Consent in Crisis: The Rapid Decline of the AI Data Commons

Paper • 2407.14933 • Published Jul 20, 2024 • 12

upvoted a paper 8 months ago

The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models

Paper • 2406.05761 • Published Jun 9, 2024 • 2

upvoted a collection 8 months ago

System Message Generalization

Collection

11 items • Updated Jun 7, 2024 • 4

upvoted a paper 8 months ago

Aligning to Thousands of Preferences via System Message Generalization

Paper • 2405.17977 • Published May 28, 2024 • 7

upvoted an article 9 months ago

Article

Let's talk about LLM evaluation

•

May 23, 2024

• 148

upvoted 2 papers 9 months ago

Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

Paper • 2405.01535 • Published May 2, 2024 • 121

Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards

Paper • 2404.10346 • Published Apr 16, 2024 • 1

upvoted 2 papers 10 months ago

The CoT Collection: Improving Zero-shot and Few-shot Learning of Language Models via Chain-of-Thought Fine-Tuning

Paper • 2305.14045 • Published May 23, 2023 • 5

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models

Paper • 2404.02575 • Published Apr 3, 2024 • 48