Spaces:

ofig
/

live-lm-critic

Runtime error

live-lm-critic / eval_critic /eval_critic.py

Olivia Figueira

Upload code with streamlit addition

b6e5241 almost 3 years ago

4.27 kB

	import re
	import os
	import sys
	import json
	import numpy as np
	import editdistance
	from tqdm import tqdm
	from collections import Counter

	sys.path.insert(0, '.')
	from utils.text_utils import detokenize_sent
	from critic.critic import run_gpt2, gpt2_critic

	def load_data():
	data_path = 'eval_critic/eval_data.jsonl'
	good_sents, bad_sents = [], []
	for line in open(data_path):
	obj = json.loads(line)
	good_sents.append(obj['good'])
	bad_sents.append(obj['bad'])
	return good_sents, bad_sents

	good_sents, bad_sents = load_data()



	def get_logps(sents):
	final = []
	for start in tqdm(range(0, len(sents), 100)):
	sents_sub = sents[start: start+100]
	sents_sub_detok = [detokenize_sent(sent) for sent in sents_sub]
	logps = run_gpt2(sents_sub_detok)
	assert logps is not None
	for i in range(len(sents_sub)):
	final.append({'sent': sents_sub[i], 'sent_detok': sents_sub_detok[i], 'logp': float(logps[i])})
	return final

	def evaluate_logp():
	"""
	Check whether log p(bad_sent) < log p(good_sent)
	"""
	good_logps = get_logps(good_sents)
	bad_logps = get_logps(bad_sents)
	accs = []
	for good, bad in zip(good_logps, bad_logps):
	accs.append(int(bad['logp'] < good['logp']))
	avg_acc = float(sum(accs))/len(accs)
	print (f'log p(bad) < log p(good)? {sum(accs)} / {len(accs)} = {avg_acc:.3f}')
	return good_logps, bad_logps

	good_logps, bad_logps = evaluate_logp()
	# log p(bad) < log p(good)? 555 / 586 = 0.947


	def compute_metrics(good_accs, bad_accs):
	goodP = float(sum(good_accs))/(len(bad_accs)-sum(bad_accs)+sum(good_accs))
	goodR = float(sum(good_accs))/len(good_accs)
	goodF05 = (1+0.5*2) float(goodP * goodR)/((0.5*2 goodP) + goodR)
	badP = float(sum(bad_accs))/(len(good_accs)-sum(good_accs)+sum(bad_accs))
	badR = float(sum(bad_accs))/len(bad_accs)
	badF05 = (1+0.5*2) float(badP * badR)/((0.5*2 badP) + badR)
	print (f' Good precision = {sum(good_accs)} / {(len(bad_accs)-sum(bad_accs)+sum(good_accs))} = {goodP:.3f}')
	print (f' Good recall = {sum(good_accs)} / {len(good_accs)} = {goodR:.3f}')
	print (f' Good F0.5 = {goodF05:.3f}')
	print (f' Bad precision = {sum(bad_accs)} / {(len(good_accs)-sum(good_accs)+sum(bad_accs))} = {badP:.3f}')
	print (f' Bad recall = {sum(bad_accs)} / {len(bad_accs)} = {badR:.3f}')
	print (f' Bad F0.5 = {badF05:.3f}')
	return {'goodP': goodP, 'goodR': goodR, 'goodF05': goodF05, 'badP': badP, 'badR': badR, 'badF05': badF05}

	def evaluate_baseline_critic():
	threshold = np.mean([elm['logp'] for elm in good_logps + bad_logps])
	good_accs, bad_accs = [], []
	for obj in good_logps:
	pred = int(obj['logp'] > threshold)
	good_accs.append(pred==1)
	for obj in bad_logps:
	pred = int(obj['logp'] > threshold)
	bad_accs.append(pred==0)
	print ('\nBaseline critic:')
	stats = compute_metrics(good_accs, bad_accs)
	json.dump(stats, open('baseline_critic.stats.json', 'w'), indent=2)

	evaluate_baseline_critic()
	# Baseline critic:
	# Good precision = 365 / 668 = 0.546
	# Good recall = 365 / 586 = 0.623
	# Good F0.5 = 0.560
	# Bad precision = 283 / 504 = 0.562
	# Bad recall = 283 / 586 = 0.483
	# Bad F0.5 = 0.544


	def evaluate_LM_Critic():
	good_accs, bad_accs = [], []
	for obj in tqdm(good_logps):
	res = gpt2_critic(obj['sent_detok'], verbose=0, seed=1, n_samples=100, word_level_mode='refine')
	pred = int(res[0])
	good_accs.append(pred==1)
	for obj in tqdm(bad_logps):
	res = gpt2_critic(obj['sent_detok'], verbose=0, seed=1, n_samples=100, word_level_mode='refine')
	pred = int(res[0])
	bad_accs.append(pred==0)
	print ('\nLM-Critic:')
	stats = compute_metrics(good_accs, bad_accs)
	json.dump(stats, open('lm_critic.stats.json', 'w'), indent=2)

	evaluate_LM_Critic()
	# LM-Critic: (there is variance due to the randomness of sampling, some variation in GPT2 return score)
	# Good precision = 446 / 654 = 0.682
	# Good recall = 446 / 586 = 0.761
	# Good F0.5 = 0.696
	# Bad precision = 378 / 518 = 0.730
	# Bad recall = 378 / 586 = 0.645
	# Bad F0.5 = 0.711