roneneldan
/

TinyStories-33M

Text Generation

Inference Endpoints

Model card Files Files and versions Community

TinyStories-33M / README.md

roneneldan's picture

Update README.md

d1936ec over 1 year ago

|

929 Bytes

	---
	datasets:
	- roneneldan/TinyStories
	---
	Model trained on the TinyStories Dataset, see https://arxiv.org/abs/2305.07759

	Based on GPT-Neo architecture.

	License: mit

	---
	hyperparams used to train this model:

	lr = 5e-4
	lr_schedule = constant
	wd=0.1
	adam_beta1=0.9, adam_beta2 = 0.95
	context length=512
	batch size=80
	gradient accumulation steps=16

	------ EXAMPLE USAGE ---

	from transformers import AutoModelForCausalLM, AutoTokenizer, GenerationConfig

	model = AutoModelForCausalLM.from_pretrained('roneneldan/TinyStories-33M')

	tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neo-125M")

	prompt = "Once upon a time there was"

	input_ids = tokenizer.encode(prompt, return_tensors="pt")

	# Generate completion
	output = model.generate(input_ids, max_length = 1000, num_beams=1)

	# Decode the completion
	output_text = tokenizer.decode(output[0], skip_special_tokens=True)

	# Print the generated text
	print(output_text)