Remek commited on
Commit
3af5882
1 Parent(s): b12d64f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +4 -52
README.md CHANGED
@@ -38,54 +38,6 @@ Uwaga!
38
  ### Dataset
39
  Omnibus-1 to zbiór polskich instrukcji (100% kontekstu Polskiego - fakty, osoby, miejsca osadzone w Polsce), który został w 100% syntetycznie wygenerowany. Zawiera on instrukcje z kategorii - matematyka, umiejętność pisania, dialogi, tematy medyczne, zagadki logiczne, tłumaczenia itd. Powstał on w ramach moich prac związanych z badaniem jakości modeli w kontekście języka polskiego. Pozwala on na finetuning modelu i sprawdzenie podatności modelu do mówienia w naszym rodzimym języku. Dataset zawiera obecnie 75.000 instrukcji. Będzie cały czas udoskonalony i być może w przyszłości udostępniony (jak uznam, że już jest wtstarczająco pełen i obejmuje szerokie spektrum tematyki i umiejętności). Dataset jest w 100% generowany za pomocą innych LLM (GPT3.5, GPT4, Mixtral itd.)
40
 
41
- ### Użycie Llama-3-8B-Omnibus-1-PL-v01 z biblioteką Transformers
42
-
43
- Poniższy kod używa bibliotekę Transformers:
44
-
45
- ```python
46
- import transformers
47
- import torch
48
-
49
- model_id = "Remek/Llama-3-8B-Omnibus-1-PL-v01"
50
-
51
- pipeline = transformers.pipeline(
52
- "text-generation",
53
- model=model_id,
54
- model_kwargs={"torch_dtype": torch.bfloat16},
55
- device="auto",
56
- )
57
-
58
- messages = [
59
- {"role": "system", "content": "You are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability."},
60
- {"role": "user", "content": "Napisz czym jest Warszawa?"},
61
- ]
62
-
63
- prompt = pipeline.tokenizer.apply_chat_template(
64
- messages,
65
- tokenize=False,
66
- add_generation_prompt=True
67
- )
68
-
69
- terminators = [
70
- pipeline.tokenizer.eos_token_id,
71
- pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
72
- ]
73
-
74
- outputs = pipeline(
75
- prompt,
76
- max_new_tokens=256,
77
- eos_token_id=terminators,
78
- do_sample=True,
79
- temperature=0.6,
80
- top_p=0.9,
81
- )
82
- print(outputs[0]["generated_text"][len(prompt):])
83
- ```
84
-
85
- Przykładowa odpowiedź:
86
-
87
- > Warszawa to stolica Polski, położona na terenie Mazowsza. Jest to największe miasto w Polsce pod względem liczby mieszkańców oraz powierzchni. Warszawa jest również siedzibą rządu, parlamentu, prezydenta, sądu najwyższego oraz wielu innych instytucji państwowych i międzynarodowych. Miasto jest znane z wielu zabytków, takich jak Stare Miasto, Zamek Królewski, Pałac Kultury i Nauki, a także z nowoczesnych atrakcji, takich jak Centrum Nauki Kopernik czy Centrum Nauki i Sztuki. Warszawa jest również ważnym centrum kulturalnym, gospodarczym i naukowym. Miasto jest również siedzibą wielu firm międzynarodowych i polskich przedsiębiorstw. Warszawa jest miastem, które łączy w sobie przeszłość z nowoczesnością, oferując mieszkańcom i turystom szeroki zakres możliwości. Miasto jest również znane z wielu festiwali i wydarzeń kulturalnych, które przyciągają miliony turystów z całego świata. Warszawa to miasto pełne życia, kultury, historii i nowoczesności, które zdecydowanie zasługuje na uwagę. <|im_end|>
88
-
89
 
90
  ### Szablon konwersacji
91
  Szablon konwersacji to oryginalna wersja Llama3
@@ -100,14 +52,14 @@ Szablon konwersacji to oryginalna wersja Llama3
100
  {Assistant}
101
  ```
102
 
103
- ### Wersje quantized
104
  Wersje poddane quantyzacji są dostępne w repozytorium:
105
  * Llama-3-8B-Omnibus-1-PL-v01-GGUF - przetestowane w LM Studio (wybierz szablon - Llama3)
106
 
107
  *
108
- | Version | Model card |
109
- | ------- | -------------------------------------------------------------------- |
110
- | GGUF | [🤗 HuggingFace](https://huggingface.co/Remek/Llama-3-8B-Omnibus-1-PL-v01-GGUF) |
111
 
112
 
113
  ### Trening
 
38
  ### Dataset
39
  Omnibus-1 to zbiór polskich instrukcji (100% kontekstu Polskiego - fakty, osoby, miejsca osadzone w Polsce), który został w 100% syntetycznie wygenerowany. Zawiera on instrukcje z kategorii - matematyka, umiejętność pisania, dialogi, tematy medyczne, zagadki logiczne, tłumaczenia itd. Powstał on w ramach moich prac związanych z badaniem jakości modeli w kontekście języka polskiego. Pozwala on na finetuning modelu i sprawdzenie podatności modelu do mówienia w naszym rodzimym języku. Dataset zawiera obecnie 75.000 instrukcji. Będzie cały czas udoskonalony i być może w przyszłości udostępniony (jak uznam, że już jest wtstarczająco pełen i obejmuje szerokie spektrum tematyki i umiejętności). Dataset jest w 100% generowany za pomocą innych LLM (GPT3.5, GPT4, Mixtral itd.)
40
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
41
 
42
  ### Szablon konwersacji
43
  Szablon konwersacji to oryginalna wersja Llama3
 
52
  {Assistant}
53
  ```
54
 
55
+ ### Wersja instrukcyjna
56
  Wersje poddane quantyzacji są dostępne w repozytorium:
57
  * Llama-3-8B-Omnibus-1-PL-v01-GGUF - przetestowane w LM Studio (wybierz szablon - Llama3)
58
 
59
  *
60
+ | Version | Model card |
61
+ | ------- | -------------------------------------------------------------------------- |
62
+ | Instruct| [🤗 HuggingFace](https://huggingface.co/Remek/Llama-3-8B-Omnibus-1-PL-v01) |
63
 
64
 
65
  ### Trening