--- license: apache-2.0 datasets: - saucam/sans_data language: - sa --- ![](https://raw.githubusercontent.com/saucam/models/main/rudra.png) # ЁЯФ▒ Rudra-7b **Rudra-7b is a LoRA fine-tune of [gemma-7b](https://huggingface.co/google/gemma-7b) on sanskrit data** This is a text-completion model for Sanskrit language. The model was finetuned using unsloth library. I hope this paves the way for future work for Sanskrit models. ![](https://raw.githubusercontent.com/unslothai/unsloth/main/images/made%20with%20unsloth.png) ## Training Qlora finetuning was used. ### Details - GPU: 1 H100 - Time: ~ 29 hours ### Data https://huggingface.co/datasets/saucam/sans_data/blob/main/README.md ## ЁЯТ╗ Usage ### Unsloth ``` from unsloth import FastLanguageModel model, tokenizer = FastLanguageModel.from_pretrained( model_name = "saucam/Rudra-7b", # YOUR MODEL YOU USED FOR TRAINING max_seq_length = 2048, dtype = None, load_in_4bit = False, ) FastLanguageModel.for_inference(model) # Enable native 2x faster inference inputs = tokenizer( [ "рд╕рдВрд╕реНрдХреГрддрдореН" ], return_tensors = "pt").to("cuda") outputs = model.generate(**inputs, max_new_tokens = 256, use_cache = True, repetition_penalty=1.0, temperature=1.0, ) out = tokenizer.batch_decode(outputs) print(out) ``` ### Transformers ```python !pip install -qU transformers accelerate from transformers import AutoTokenizer, AutoModelForCausalLM import transformers import torch model_name = "saucam/Rudra-7b" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) inputs = tokenizer("рд╕рдВрд╕реНрдХреГрддрдореН", return_tensors = "pt")#.to("cuda") outputs = model.generate(**inputs, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(tokenizer.decode(outputs[0])) ``` Sample output from above script ``` Gemma's activation function should be approximate GeLU and not exact GeLU. Changing the activation function to `gelu_pytorch_tanh`.if you want to use the legacy `gelu`, edit the `model.config` to set `hidden_activation=gelu` instead of `hidden_act`. See https://github.com/huggingface/transformers/pull/29402 for more details. Loading checkpoint shards: 100%|тЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИтЦИ| 4/4 [00:01<00:00, 2.54it/s] рд╕рдВрд╕реНрдХреГрддрдореН рднрд╛рд░рддрд╕реНрдп рд░рд╛рд╖реНрдЯреНрд░рднрд╛рд╖рд╛ рдЗрддрд┐ рднрд╛рд░рддрд╕рд░реНрд╡рдХрд╛рд░рд╕реНрдп 1987рддрдореЗ рд╡рд░реНрд╖реЗ рдирд┐рд░реНрдгрдпрдГ ред рдкреНрд░рд╛рдпрдГ 125 рдХреЛрдЯрд┐ рдЬрдирд╛рдГ рд╕рдВрд╕реНрдХреГрддрдореН рдПрд╡ рдкрдардиреНрддрд┐ рдЗрддрд┐ рдЕрдиреБрдорд╛рдирдореН ред рд╕рдВрд╕реНрдХреГрддрдореН рднрд╛рд░рддрд╕реНрдп рдзреНрд░реБрд╡рдореН рдЖрдЩреНрдЧреНрд▓рд╛рдиреБрднрд╛рд╖реНрдпрдореН ред рд╕рдВрд╕реНрдХреГрддрдореН рдЕрддреНрдпрдиреНрддрдореН рдкреНрд░рд╛рдЪреАрдирдореН ред рд╕рдВрд╕реНрдХреГрддрдореН рд╢реИрдерд┐рд▓реНрдпрд╛рддреН рдпрджрд╛ рдпрджрд╛ рдмрд╣рд┐рд░реНрдирд┐рд░реНрдпрд╛рддрд┐ рддрджрд╛ рддрджрд╛ рдПрд╡ рд╕рд╛рдореНрдкреНрд░рддрдХрд╛рд▓реЗ рд╕рдВрд╕реНрдХреГрддреЗрди рд╕рд╣ рддрд╕реНрдп рджреЗрд╢рд╕реНрдп рд╕рдВрд╕реНрдХреГрддрд┐рдГ рд╕рд╣ рдЬрдЧрддрдГ рд╕рдВрд╕реНрдХреГрддрд┐рдГ рд╕рд╣ рд╕рдЩреНрдЧрдЪреНрдЫрддрд┐ рдЗрддрд┐ ред рд╕рдВрд╕реНрдХреГрддреЗрди рд╕рд╣ рджреЗрд╢рд╕реНрдп рд╕рдВрд╕реНрдХреГрддрд┐рдГ рд╕рд╣ рдирдЧрд░рд╕реНрдп рд╕рдВрд╕реНрдХреГрддрд┐рдГ рд╕рд╣ рдХреНрд░реАрдбрд╛рдпрд╛рдГ рд╕рдВрд╕реНрдХреГрддрд┐рдГ рд╕рд╣ рд░рд╛рдЬрдХреАрдпрдГ, рд╕рд╛рдорд╛рдЬрд┐рдХрдГ, рд╕рд╛рдВрд╕реНрдХреГрддрд┐рдХрдГ, рдЖрд░реНрдерд┐рдХрдГ, рд╕рд╛рдВрд╡рд┐рднрд╛рдЧрд┐рдХрдГ, рдиреИрддрд┐рдХрдГ, рд╢рд┐рдХреНрд╖рдгрдореН, рдЖрд╡рд╛рд╕реАрдпрдГ, рд╕рд╛рдореНрдкреНрд░рджрд╛рдпрд┐рдХрдГ, рдзрд╛рд░реНрдорд┐рдХрдГ, рдЖрдзреНрдпрд╛рддреНрдорд┐рдХрдГ, рд╡рд┐рдиреЛрджрдГ, рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХреА, рд╡рд┐рджреНрдпрд╛рд░реНрде ```