Spaces:
Running
on
Zero
Running
on
Zero
File size: 7,250 Bytes
8824f88 3ef549e d603edf 8824f88 f305ee8 8824f88 189b244 8824f88 2213339 8824f88 5d7dfb6 fe2f876 568a9e0 fe2f876 8824f88 f305ee8 8824f88 b866915 c37af82 8824f88 85a0b8a 3ef549e 85a0b8a 3ef549e a715b6c 3ef549e 8824f88 31bf44d 0737a9d 34353a1 0737a9d 8824f88 b866915 8824f88 c5ac75a a715b6c c5ac75a a715b6c 8824f88 ecbb198 185ad40 fe36abc a34b903 8824f88 a34b903 8824f88 b866915 8824f88 b866915 8824f88 5fa70db 3ef549e d0af199 4fd1382 5fa70db 4fd1382 aa9ae26 08e2fa8 8824f88 a715b6c 730ef92 61a4a00 a715b6c 61a4a00 6c7e825 7d9dc21 4fd1382 f92b5ca fe36abc 8824f88 61a4a00 7d9dc21 cbc651f 61a4a00 a715b6c cbc651f a715b6c 61a4a00 8824f88 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 |
#!/usr/bin/env python
from datetime import datetime
import locale
import os
from threading import Thread
from typing import Iterator
import gradio as gr
import spaces
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
MAX_MAX_NEW_TOKENS = 1536
DEFAULT_MAX_NEW_TOKENS = 1024
MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "8192"))
model_id = "BramVanroy/fietje-2b-chat"
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
model = model.to("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id
@spaces.GPU
def generate(
message: str,
chat_history: list[tuple[str, str]],
max_new_tokens: int = 1024,
temperature: float = 1,
top_p: float = 1.,
top_k: int = 50,
repetition_penalty: float = 1.,
do_sample: bool = False,
) -> Iterator[str]:
# Get Dutch date formatting locale
try:
locale.setlocale(locale.LC_ALL, "nl-NL")
except locale.Error:
pass
now = datetime.now()
now_str = now.strftime("%B %d, %Y, %H:%M:%S")
# Reset locale
try:
locale.setlocale(locale.LC_ALL, locale.getdefaultlocale())
except locale.Error:
pass
conversation = [
{
"role": "system",
"content": f"Je bent Fietje, een behulpzame, efficiënte en enthousiaste AI-assistent die in het Nederlands communiceert."
f" Je werd gemaakt door Bram Vanroy, een onderzoeker aan de KU Leuven en het Instituut voor de Nederlandse Taal (INT)."
f" De huidige datum en tijd is {now_str}."
}
]
for user, assistant in chat_history:
conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
conversation.append({"role": "user", "content": message})
input_ids = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt")
if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
input_ids = input_ids.to(model.device)
streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
generate_kwargs = dict(
{"input_ids": input_ids},
streamer=streamer,
max_new_tokens=max_new_tokens,
do_sample=do_sample,
top_p=top_p,
top_k=top_k,
temperature=temperature,
num_beams=1,
repetition_penalty=repetition_penalty,
)
t = Thread(target=model.generate, kwargs=generate_kwargs)
t.start()
outputs = []
for text in streamer:
outputs.append(text)
yield "".join(outputs)
chat_interface = gr.ChatInterface(
fn=generate,
chatbot=gr.Chatbot(height=450,
label="Fietje",
show_share_button=True,
avatar_images=(None, 'fietje-2b-avatar.png')),
additional_inputs=[
gr.Slider(
label="Max new tokens",
minimum=1,
maximum=MAX_MAX_NEW_TOKENS,
step=1,
value=DEFAULT_MAX_NEW_TOKENS,
),
gr.Slider(
label="Temperature",
minimum=0.05,
maximum=2,
step=0.05,
value=1.0,
),
gr.Slider(
label="Top-p (nucleus sampling)",
minimum=0.05,
maximum=1.0,
step=0.05,
value=1.0,
),
gr.Slider(
label="Top-k",
minimum=1,
maximum=1000,
step=1,
value=50,
),
gr.Slider(
label="Repetition penalty",
minimum=1.0,
maximum=2.0,
step=0.05,
value=1.,
),
gr.Checkbox(
label="Do sample",
value=False,
)
],
examples=[
["""Vraagje: welk woord hoort er niet in dit rijtje thuis: "auto, vliegtuig, geit, bus"?"""],
["Wat is het grootste in de winter, een Aziatische olifant of het Atomium?"],
["Schrijf een nieuwsbericht voor De Speld over de inzet van een kudde geiten door het Nederlands Forensisch Instituut"],
["Wat zijn drie leuke dingen om te doen als ik een weekendje naar Belgisch Limburg ga?"],
["Met wie trad clown Bassie op?"],
["Kan je naar de maan fietsen? Antwoord kort met enkel 'ja' of 'nee'."],
["Wat is groter, een olifant of het Atomium? Redeneer stap voor stap."],
["Ik wil in Python een nieuwe abstracte klasse aanmaken die `Dier` heet en die een abstracte methode `geluid_maken` heeft. Maak daarnaast ook een subklasse `Geit` aan, met een passende invulling van `geluid_maken` voor dit mekkerende dier."],
["Wat is het belang van open-source taalmodellen?"],
],
title="Fietje",
description="""\
<div style="float: left; margin-right: 1em; margin-bottom: 0.48em; max-width: 96px;">
<img src="fietje-2b-banner.png" style="display: inline-block; width: auto; height: auto;border-radius:50%">
<div style="clear: both"></div>
</div>
<a href="https://huggingface.co/BramVanroy/GEITje-7B-ultra">GEITje 7B ultra</a> is een geavanceerde versie van GEITje, verder getraind op uitgebreide chat datasets en ook op een preferentiedataset om beter te aligneren met het gedrag van een gewenste chatbot, in dit geval gpt-4-turbo. Om tot dit model te komen werden nieuwe, grote datasets aangelegd, die ook openbaar beschikbaar zijn. Voor meer informatie over dit model en de datasets, [zie deze Hugging Face post](https://huggingface.co/posts/BramVanroy/679226771675158). Wat meer informatie over deze demo vind je onderaan deze pagina.
""",
submit_btn="Genereer",
stop_btn="Stop",
retry_btn="🔄 Opnieuw",
undo_btn="↩️ Ongedaan maken",
clear_btn="🗑️ Wissen",
)
with gr.Blocks(css="style.css") as demo:
chat_interface.render()
gr.Markdown("""\
## Opmerkingen
Hoewel dit model gealigneerd is met AI feedback (van gpt-4-turbo), kan en zal het nog steeds fouten maken, leugens verzinnen, redeneringsfouten maken, en misschien wel stoute dingen vertellen. Gebruik dit model dus op eigen risico en controleer de output zelf!
Als je problemen ondervindt, [rapporteer die dan gerust](https://huggingface.co/spaces/BramVanroy/fietje-2b/discussions), al zal ik er waarschijnlijk niet veel aan kunnen verhelpen! Toch is het goed om een verslag bij te houden van mogelijke vooroordelen of problemen die het model heeft, zodat daar in toekomstige ontwikkelingen rekening mee gehouden kan worden.
In deze demo wordt gebruik gemaakt van deze system message:
> Je bent Fietje, een behulpzame, efficiënte en enthousiaste AI-assistent die in het Nederlands communiceert. Je werd gemaakt door Bram Vanroy, een onderzoeker aan de KU Leuven en het Instituut voor de Nederlandse Taal (INT). De huidige datum en tijd is {huidige_tijd}.
""")
if __name__ == "__main__":
demo.queue(max_size=20).launch()
|