Nonsensical output?
I loaded the model with the sharded
tag (PyTorch, before the Safetensors PR got merged in), for the purpose of evaluating it with ScandEval, and it's scoring basically random - so I'm guessing I'm using the model wrongly?
I also tried your online demo with the prompt:
Liste over de beste fotballagene i verden:\n\n1.
and it just outputted
??????????????????????????????????????????????????????????????????? 2.?????????????????????????????????????????????????????????????????????????????????????? 3.
So I'm a bit confused - how do you (successfully) use this model?
Case 2, also in your demo, this one from the NoReC corpus:
Input:
Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.
Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
Sentiment: negativAnmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
Sentiment: positivAnmeldelse: R&Boring
Sentiment: negativAnmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
Sentiment:
Output:
Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.
Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce . Sentiment: negativ>
Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål . Sentiment: positiv>
Anmeldelse: R&Boring Sentiment: negativ
Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
I.e., it just outputs the same as the input, but with some of the newlines collapsed and where without the last "Sentiment" is removed. No sentiment given to the last review.
Hi,
The model is now by all means outdated and has seen quite a lot of noisy data, so today's default parameters for generation might not just work out of the box. For example, see the difference between changing temperature and the number of beams:
In [3]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[3]: [{'generated_text': "Liste over de beste fotballagene i verden:\n\n1. R U C M B E L L' - R U C M B E L L 1. F A R A G O L I S K A"}]
In [4]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[4]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Real Madrid - 87 o 2. Monaco - 86 o 3. Bayern München - 84 o 4. Barcelona - 83 o 5. Juventus - Buddy'}]
In [5]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[5]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Frankrike 2. Tyskland 3. Spania 4. Brasil 5.England 6. England 7. Italia 8. Portugal 9.'}]
In [6]: pipe("Liste over de beste fotballagene i verden:\n\n1.")
Out[6]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Norge = Best, ingen sjanser for nedrykk. Kultur forsvinner over natten? – Er lyden av'}]
And now setting non default values for temperature
and num_beams
:
In [7]: pipe("Liste over de beste fotballagene i verden:\n\n1.", temperature=0.9)
Out[7]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Barcelona 2. Manchester United 3. AC Milan 4. Real Madrid 5.'}]
In [8]: pipe("Liste over de beste fotballagene i verden:\n\n1.", temperature=0.9, num_beams=3)
Out[8]: [{'generated_text': 'Liste over de beste fotballagene i verden:\n\n1. Real Madrid 2. Barcelona 3. Manchester United 4. Juventus 5. AC Milan 6. Inter 7. Bayern München 8. Arsenal 9. Valencia'}]
Morever, in your second example, that's data the model has hardly ever seen, as those would conform better to instruction tuning sets. You might have better luck with the Alpaca version of it (albeit limited).
Output untuned (with max_new_tokens=10
):
Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.
Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
Sentiment: negativ
Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
Sentiment: positiv
Anmeldelse: R&Boring
Sentiment: negativ
Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
Sentiment: ikke noen "wow"-komment
And with the Alpaca tuned:
### Instruksjon:
Følgende er anmeldelser og deres sentiment, som kan være 'positiv', 'nøytral' eller 'negativ'.
Anmeldelse: Hun er i det hele tatt en jevnt over menigsløs følgesvenn som fungerer til lite annet enn mottager av de platte kommentarene til Bryce .
Sentiment: negativ
Anmeldelse: I løpet av testperioden er dette en påstand som langt på vei later til å holde mål .
Sentiment: positiv
Anmeldelse: R&Boring
Sentiment: negativ
Anmeldelse: Ikke bare fordi de lar instrumentene rullere medlemmene mellom , men fordi de også har en stil og innlevelse som fenger og fanger .
Sentiment:
### Respons:
Positive