Abdullah's picture

2 1

Abdullah

amirabdullah19852020

·

amirabdullah19852020

AI & ML interests

Mechanistic interpretability, high dimensional geometry, persona role playing.

Organizations

Papers 1

arxiv:2310.08164

spaces 1

No application file

Interpreting Reward Models

models 16

amirabdullah19852020/interpreting_reward_models

amirabdullah19852020/test

Text Generation • Updated May 8 • 4

amirabdullah19852020/gpt-neo-125m_hh_reward

Text Generation • Updated Apr 27 • 13

amirabdullah19852020/gpt-neo-125m_utility_reward

Reinforcement Learning • Updated Feb 10 • 5

amirabdullah19852020/pythia-70m_sentiment_reward

Reinforcement Learning • Updated Feb 10 • 17

amirabdullah19852020/pythia-160m_sentiment_reward

Reinforcement Learning • Updated Feb 10 • 4

amirabdullah19852020/gpt-neo-125m_sentiment_reward

Reinforcement Learning • Updated Feb 10 • 4

amirabdullah19852020/pythia-160m_utility_reward

Reinforcement Learning • Updated Feb 10 • 6

amirabdullah19852020/pythia-70m_utility_reward

Reinforcement Learning • Updated Feb 10 • 8

amirabdullah19852020/gpt-j-6b-sharded-bf16_sentiment_reward

Reinforcement Learning • Updated Sep 23, 2023

datasets 1

amirabdullah19852020/interpreting_reward_models

Updated May 4 • 1