راهنمایی در مورد نحوه فاین تیونینگ

#3
by Artin2009 - opened

با سلام و وقت بخیر

من میخوام این مدل رو روی یک دیتاست سوال و جواب فارسی با فرمت جیسون فاین تیون کنم.
میخواستم در رابطه با فرمت های پرامپتی که مدل ساپورت میکنه و نحوه فاین تیون کردنش ازتون راهنمایی بگیرم.

فرمتی که دارم به این شکل هست :

{
      "title": "علوم رایانه",
      "paragraphs": [
        {
          "qas": [
            {
              "answers": [
                {
                  "answer_start": 29,
                  "answer_end": 141,
                  "text": "به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند"
                }
              ],
              "question": "تعریف علوم کامپیوترچیست؟",
              "is_impossible": false,
              "id": 11
            },
            {
              "answers": [
                {
                  "answer_start": 142,
                  "answer_end": 215,
                  "text": "رشته علوم کامپیوتر را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم کرد"
                }
              ],
              "question": "رشته علوم کامپوتر را چگونه می توان تقسیم کرد؟",
              "is_impossible": false,
              "id": 12
            },
            {
              "answers": [
                {
                  "answer_start": 507,
                  "answer_end": 543,
                  "text": " بر چالش‌های موجود در اجرای محاسبات "
                }
              ],
              "question": "تمرکز رشته های علوم کامپیوتر روی چیست؟",
              "is_impossible": false,
              "id": 13
            },
            {
              "answers": [
                {
                  "answer_start": 630,
                  "answer_end": 645,
                  "text": " دانشگاه کپنهاگ"
                }
              ],
              "question": "اولین مکان علمی که عبارت داده شناسی را استفاده کرد کجا بود؟",
              "is_impossible": false,
              "id": 14
            },
            {
              "answers": [
                {
                  "answer_start": 769,
                  "answer_end": 782,
                  "text": "ادسخر دیکسترا"
                }
              ],
              "question": "چه کسی گفته که علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ؟",
              "is_impossible": false,
              "id": 15
            },
            {
              "answers": [
                {
                  "answer_start": 927,
                  "answer_end": 964,
                  "text": "ایالات متحده آمریکا و کشورهای اروپایی"
                }
              ],
              "question": "کشورهای پیشرفته در زمینهٔ علوم کامپیوتر کدام اند؟",
              "is_impossible": false,
              "id": 16
            },
            {
              "answers": [
                {
                  "answer_start": 662,
                  "answer_end": 684,
                  "text": " پیتر ناور در سال ۱۹۶۹"
                }
              ],
              "question": " اولین گروه داده‌شناسی توسط چه کسی و در چه سالی بنا شد؟",
              "is_impossible": false,
              "id": 17
            },
            {
              "answers": [],
              "question": "علوم کامپیوتر در چه سالی به یک رشته دانشگاهی تبدیل شد؟",
              "is_impossible": true,
              "id": 18
            },
            {
              "answers": [],
              "question": "بنیان گذار علم داده شناسی در ایران کیست؟",
              "is_impossible": true,
              "id": 19
            },
            {
              "answers": [],
              "question": "کشورهای عقب مانده در زمینهٔ علوم کامپیوتر کدام اند؟",
              "is_impossible": true,
              "id": 20
            }
          ],
          "context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند.رشته علوم کامپیوتر را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشته‌ها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آن‌ها را بررسی می‌کند) بسیار انتزاعی هستند، این در حالی است که زیررشته‌های دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشته‌های علوم کامپیوتر بر چالش‌های موجود در اجرای محاسبات تمرکز دارند.  اولین مؤسسهٔ علمی که عبارت داده‌شناسی را بکار برد DIKU گروه داده‌شناسی در دانشگاه کپنهاگ بوده‌است که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه داده‌شناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شده‌است: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستم‌های اطلاعاتی است.\r\n"
        }
      ]
    },
Part DP AI org
باعرض سلام و احترام،

مدل‌های ارائه شده از خانواده BERT هستند که تنها Encoder اند. این مدل‌ها را بیاد برای پایپلاین QuestionAnswering آموزش بدید (Fine-tune کنید) تا بتوانید به بهترین شکل ممکن از این دادگان استفاده کنید. برای این کار دو لینک زیر از کتابخانه هاگینگ فیس می‌تواند کمکتان کند.

https://huggingface.co/docs/transformers/en/tasks/question_answering
https://huggingface.co/learn/nlp-course/en/chapter7/7

برای این که بتوانید این دادگان را به راحتی در کتابخانه datasets هاگینگ فیس بارگزاری کنید و مطابق آموزش پیش بروید، بهتر است فرمت دادگانتان را به این صورت به فرمت jsonl تبدیل نمایید و سپس با فرمت json آن را در datasets بارگزاری کنید.
{"titles": "علوم رایانه", "context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند.رشته علوم کامپیوتر را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشته‌ها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آن‌ها را بررسی می‌کند) بسیار انتزاعی هستند، این در حالی است که زیررشته‌های دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشته‌های علوم کامپیوتر بر چالش‌های موجود در اجرای محاسبات تمرکز دارند.  اولین مؤسسهٔ علمی که عبارت داده‌شناسی را بکار برد DIKU گروه داده‌شناسی در دانشگاه کپنهاگ بوده‌است که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه داده‌شناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شده‌است: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستم‌های اطلاعاتی است.\r\n", "question": "تعریف علوم کامپیوترچیست؟", "id": "11", "answers": {"text": ["به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند"], "answer_start": [29]}, "is_impossible": false}
{"titles": "علوم رایانه", "context": "علوم رایانه یا علوم کامپیوتر به مجموعهٔ مطالعاتی گفته می‌شود که به زیربناهای نظری، روش‌های طراحی و ساخت و چگونگی استفاده از رایانه می‌پردازند.رشته علوم کامپیوتر را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم کرد. بعضی از این زیررشته‌ها، نظیر نظریه پیچیدگی محاسباتی (که خواص اساسی مشکلات محاسباتی و قابل حل بودن آن‌ها را بررسی می‌کند) بسیار انتزاعی هستند، این در حالی است که زیررشته‌های دیگر مانند گرافیک کامپیوتری به بررسی کاربردهای قابل لمس تر در دنیای واقعی تأکید دارند. اکثر زیررشته‌های علوم کامپیوتر بر چالش‌های موجود در اجرای محاسبات تمرکز دارند.  اولین مؤسسهٔ علمی که عبارت داده‌شناسی را بکار برد DIKU گروه داده‌شناسی در دانشگاه کپنهاگ بوده‌است که توسط پیتر ناور در سال ۱۹۶۹ به عنوان اولین گروه داده‌شناسی بنا گذاشته شد. عبارت زیر از دانشمند معروف علم رایانه ادسخر دیکسترا نقل قول شده‌است: \"علم رایانه به همان اندازه در مورد رایانه است که نجوم در مورد تلسکوپ.\" در بسیاری از کشورهای پیشرو در زمینهٔ علوم کامپیوتر، مثل ایالات متحده آمریکا و کشورهای اروپایی، رشتهٔ علوم کامپیوتر رشتهٔ اصلی در زمینهٔ علوم و مهندسی کامپیوتر و سیستم‌های اطلاعاتی است.\r\n", "question": "رشته علوم کامپوتر را چگونه می توان تقسیم کرد؟", "id": "12", "answers": {"text": ["رشته علوم کامپیوتر را می‌توان به زیررشته‌های نظری و عملی بسیاری تقسیم کرد"], "answer_start": [142]}, "is_impossible": false}
لازم به ذکر است، از آنجایی که شما در دادگانتان سوالات بی‌جواب و غیرممکن دارید برای ارزیابی باید از متریک squad_v2 استفاده کنید. موفق باشید
AliMGH changed discussion status to closed

Sign up or log in to comment