File size: 7,250 Bytes
8824f88
 
3ef549e
d603edf
8824f88
 
 
 
 
f305ee8
8824f88
 
 
189b244
8824f88
2213339
8824f88
5d7dfb6
fe2f876
568a9e0
fe2f876
 
8824f88
 
f305ee8
8824f88
 
 
 
b866915
 
 
 
c37af82
8824f88
85a0b8a
 
 
 
 
 
3ef549e
 
85a0b8a
3ef549e
 
 
 
 
 
 
 
 
a715b6c
3ef549e
 
 
 
 
8824f88
 
 
 
31bf44d
0737a9d
 
34353a1
0737a9d
8824f88
 
 
 
 
 
b866915
8824f88
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
c5ac75a
a715b6c
c5ac75a
a715b6c
8824f88
 
 
 
 
 
 
 
 
 
ecbb198
185ad40
fe36abc
a34b903
8824f88
 
 
 
 
 
a34b903
8824f88
 
 
 
 
 
 
 
 
 
 
 
 
b866915
8824f88
b866915
 
 
 
8824f88
 
5fa70db
3ef549e
d0af199
4fd1382
5fa70db
4fd1382
 
aa9ae26
08e2fa8
8824f88
a715b6c
730ef92
61a4a00
a715b6c
61a4a00
 
6c7e825
7d9dc21
4fd1382
f92b5ca
fe36abc
 
 
 
 
8824f88
 
 
 
61a4a00
7d9dc21
 
cbc651f
61a4a00
a715b6c
cbc651f
 
a715b6c
61a4a00
8824f88
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
#!/usr/bin/env python

from datetime import datetime
import locale
import os
from threading import Thread
from typing import Iterator

import gradio as gr
import spaces
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer

MAX_MAX_NEW_TOKENS = 1536
DEFAULT_MAX_NEW_TOKENS = 1024
MAX_INPUT_TOKEN_LENGTH = int(os.getenv("MAX_INPUT_TOKEN_LENGTH", "8192"))

model_id = "BramVanroy/fietje-2b-chat"
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.bfloat16, device_map="auto")
model = model.to("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token_id = tokenizer.eos_token_id


@spaces.GPU
def generate(
    message: str,
    chat_history: list[tuple[str, str]],
    max_new_tokens: int = 1024,
    temperature: float = 1,
    top_p: float = 1.,
    top_k: int = 50,
    repetition_penalty: float = 1.,
    do_sample: bool = False,
) -> Iterator[str]:
    # Get Dutch date formatting locale
    try:
        locale.setlocale(locale.LC_ALL, "nl-NL")
    except locale.Error:
        pass
    
    now = datetime.now()
    now_str = now.strftime("%B %d, %Y, %H:%M:%S")
    
    # Reset locale
    try:
        locale.setlocale(locale.LC_ALL, locale.getdefaultlocale())
    except locale.Error:
        pass

    conversation = [
        {
            "role": "system",
            "content": f"Je bent Fietje, een behulpzame, efficiënte en enthousiaste AI-assistent die in het Nederlands communiceert."
                       f" Je werd gemaakt door Bram Vanroy, een onderzoeker aan de KU Leuven en het Instituut voor de Nederlandse Taal (INT)."
                       f" De huidige datum en tijd is {now_str}."
        }
    ]

    for user, assistant in chat_history:
        conversation.extend([{"role": "user", "content": user}, {"role": "assistant", "content": assistant}])
    conversation.append({"role": "user", "content": message})

    input_ids = tokenizer.apply_chat_template(conversation, add_generation_prompt=True, return_tensors="pt")
    if input_ids.shape[1] > MAX_INPUT_TOKEN_LENGTH:
        input_ids = input_ids[:, -MAX_INPUT_TOKEN_LENGTH:]
        gr.Warning(f"Trimmed input from conversation as it was longer than {MAX_INPUT_TOKEN_LENGTH} tokens.")
    input_ids = input_ids.to(model.device)

    streamer = TextIteratorStreamer(tokenizer, timeout=10.0, skip_prompt=True, skip_special_tokens=True)
    generate_kwargs = dict(
        {"input_ids": input_ids},
        streamer=streamer,
        max_new_tokens=max_new_tokens,
        do_sample=do_sample,
        top_p=top_p,
        top_k=top_k,
        temperature=temperature,
        num_beams=1,
        repetition_penalty=repetition_penalty,
    )
    t = Thread(target=model.generate, kwargs=generate_kwargs)
    t.start()

    outputs = []
    for text in streamer:
        outputs.append(text)
        yield "".join(outputs)


chat_interface = gr.ChatInterface(
    fn=generate,
    chatbot=gr.Chatbot(height=450,
                      label="Fietje",
                      show_share_button=True,
                      avatar_images=(None, 'fietje-2b-avatar.png')),
    additional_inputs=[
        gr.Slider(
            label="Max new tokens",
            minimum=1,
            maximum=MAX_MAX_NEW_TOKENS,
            step=1,
            value=DEFAULT_MAX_NEW_TOKENS,
        ),
        gr.Slider(
            label="Temperature",
            minimum=0.05,
            maximum=2,
            step=0.05,
            value=1.0,
        ),
        gr.Slider(
            label="Top-p (nucleus sampling)",
            minimum=0.05,
            maximum=1.0,
            step=0.05,
            value=1.0,
        ),
        gr.Slider(
            label="Top-k",
            minimum=1,
            maximum=1000,
            step=1,
            value=50,
        ),
        gr.Slider(
            label="Repetition penalty",
            minimum=1.0,
            maximum=2.0,
            step=0.05,
            value=1.,
        ),
        gr.Checkbox(
            label="Do sample",
            value=False,
        )
    ],
    examples=[
        ["""Vraagje: welk woord hoort er niet in dit rijtje thuis: "auto, vliegtuig, geit, bus"?"""],
        ["Wat is het grootste in de winter, een Aziatische olifant of het Atomium?"],
        ["Schrijf een nieuwsbericht voor De Speld over de inzet van een kudde geiten door het Nederlands Forensisch Instituut"],
        ["Wat zijn drie leuke dingen om te doen als ik een weekendje naar Belgisch Limburg ga?"],
        ["Met wie trad clown Bassie op?"],
        ["Kan je naar de maan fietsen? Antwoord kort met enkel 'ja' of 'nee'."],
        ["Wat is groter, een olifant of het Atomium? Redeneer stap voor stap."],
        ["Ik wil in Python een nieuwe abstracte klasse aanmaken die `Dier` heet en die een abstracte methode `geluid_maken` heeft. Maak daarnaast ook een subklasse `Geit` aan, met een passende invulling van `geluid_maken` voor dit mekkerende dier."],
        ["Wat is het belang van open-source taalmodellen?"],
    ],
    title="Fietje",
    description="""\
<div style="float: left; margin-right: 1em; margin-bottom: 0.48em; max-width: 96px;">
    <img src="fietje-2b-banner.png" style="display: inline-block; width: auto; height: auto;border-radius:50%">
    <div style="clear: both"></div>
</div>

<a href="https://huggingface.co/BramVanroy/GEITje-7B-ultra">GEITje 7B ultra</a> is een geavanceerde versie van GEITje, verder getraind op uitgebreide chat datasets en ook op een preferentiedataset om beter te aligneren met het gedrag van een gewenste chatbot, in dit geval gpt-4-turbo. Om tot dit model te komen werden nieuwe, grote datasets aangelegd, die ook openbaar beschikbaar zijn. Voor meer informatie over dit model en de datasets, [zie deze Hugging Face post](https://huggingface.co/posts/BramVanroy/679226771675158). Wat meer informatie over deze demo vind je onderaan deze pagina.

""",
    submit_btn="Genereer",
    stop_btn="Stop",
    retry_btn="🔄 Opnieuw",
    undo_btn="↩️ Ongedaan maken",
    clear_btn="🗑️ Wissen",
)

with gr.Blocks(css="style.css") as demo:
    chat_interface.render()
    gr.Markdown("""\
## Opmerkingen

Hoewel dit model gealigneerd is met AI feedback (van gpt-4-turbo), kan en zal het nog steeds fouten maken, leugens verzinnen, redeneringsfouten maken, en misschien wel stoute dingen vertellen. Gebruik dit model dus op eigen risico en controleer de output zelf!

Als je problemen ondervindt, [rapporteer die dan gerust](https://huggingface.co/spaces/BramVanroy/fietje-2b/discussions), al zal ik er waarschijnlijk niet veel aan kunnen verhelpen! Toch is het goed om een verslag bij te houden van mogelijke vooroordelen of problemen die het model heeft, zodat daar in toekomstige ontwikkelingen rekening mee gehouden kan worden. 
In deze demo wordt gebruik gemaakt van deze system message:

> Je bent Fietje, een behulpzame, efficiënte en enthousiaste AI-assistent die in het Nederlands communiceert. Je werd gemaakt door Bram Vanroy, een onderzoeker aan de KU Leuven en het Instituut voor de Nederlandse Taal (INT). De huidige datum en tijd is {huidige_tijd}.
""")

if __name__ == "__main__":
    demo.queue(max_size=20).launch()