update readme.md
Browse files
README.md
CHANGED
@@ -1,25 +1,18 @@
|
|
1 |
---
|
2 |
base_model:
|
3 |
-
|
4 |
-
library_name: transformers
|
5 |
license: apache-2.0
|
6 |
datasets:
|
7 |
-
|
8 |
language:
|
9 |
-
|
10 |
pipeline_tag: text-generation
|
|
|
11 |
tags:
|
12 |
-
|
13 |
-
|
14 |
-
|
15 |
-
|
16 |
-
|
17 |
-
---
|
18 |
-
library_name: peft
|
19 |
-
license: apache-2.0
|
20 |
-
language:
|
21 |
-
- ar
|
22 |
-
pipeline_tag: text-generation
|
23 |
---
|
24 |
|
25 |
# DeepSeek-R1-Distill-Llama-8B (Arabic Reasoning Edition)
|
@@ -100,379 +93,32 @@ if __name__ == "__main__":
|
|
100 |
This model has been evaluated on the Arabic Reasoning Dataset from Omartificial-Intelligence-Space. In benchmark comparisons against other Arabic generation models, DeepSeek-R1-Distill-Llama-8B (Arabic Reasoning Edition) demonstrates robust performance in tasks requiring both natural language understanding and logical reasoning.
|
101 |
|
102 |
|
103 |
-
|
104 |
-
|
105 |
-
<html lang="ar">
|
106 |
-
<head>
|
107 |
-
<meta charset="UTF-8">
|
108 |
-
<title>تقرير مقارنة: الاستجابات المُحسّنة مقابل الاستجابات الأساسية</title>
|
109 |
-
<style>
|
110 |
-
body {
|
111 |
-
font-family: "Segoe UI", Tahoma, Geneva, Verdana, sans-serif;
|
112 |
-
line-height: 1.6;
|
113 |
-
background-color: #f7f7f7;
|
114 |
-
margin: 20px;
|
115 |
-
color: #333;
|
116 |
-
}
|
117 |
-
h1, h2, h3 {
|
118 |
-
color: #2c3e50;
|
119 |
-
}
|
120 |
-
.section {
|
121 |
-
background: #fff;
|
122 |
-
padding: 20px;
|
123 |
-
margin-bottom: 20px;
|
124 |
-
border-radius: 8px;
|
125 |
-
box-shadow: 0 2px 5px rgba(0,0,0,0.1);
|
126 |
-
}
|
127 |
-
.sample {
|
128 |
-
border: 1px solid #ddd;
|
129 |
-
padding: 15px;
|
130 |
-
margin-bottom: 15px;
|
131 |
-
border-radius: 5px;
|
132 |
-
background: #fcfcfc;
|
133 |
-
}
|
134 |
-
.sample h4 {
|
135 |
-
margin-top: 0;
|
136 |
-
color: #2980b9;
|
137 |
-
}
|
138 |
-
table {
|
139 |
-
width: 100%;
|
140 |
-
border-collapse: collapse;
|
141 |
-
margin-top: 10px;
|
142 |
-
}
|
143 |
-
table, th, td {
|
144 |
-
border: 1px solid #ddd;
|
145 |
-
}
|
146 |
-
th, td {
|
147 |
-
padding: 8px 12px;
|
148 |
-
text-align: left;
|
149 |
-
}
|
150 |
-
th {
|
151 |
-
background-color: #ecf0f1;
|
152 |
-
}
|
153 |
-
.good {
|
154 |
-
color: green;
|
155 |
-
font-weight: bold;
|
156 |
-
}
|
157 |
-
.bad {
|
158 |
-
color: darkred;
|
159 |
-
font-weight: bold;
|
160 |
-
}
|
161 |
-
.metrics-table {
|
162 |
-
margin-top: 15px;
|
163 |
-
}
|
164 |
-
</style>
|
165 |
-
</head>
|
166 |
-
<body>
|
167 |
-
<h1>تقرير مقارنة حول استجابات المهام الحسابية</h1>
|
168 |
-
|
169 |
-
<div class="section">
|
170 |
-
<h2>مقدمة</h2>
|
171 |
-
<p>
|
172 |
-
تم تقديم عينات من مهمات حسابية باللغة العربية، حيث يحتوي كل مثال على "التعليمات"، الإجابة الصحيحة (<strong>ground_truth</strong>) واستجابتين: واحدة من النموذج المُحسّن (<strong>fine_tuned_response</strong>) والأخرى من النموذج الأساسي (<strong>baseline_response</strong>).
|
173 |
-
</p>
|
174 |
-
<p>
|
175 |
-
الهدف من هذا التقرير هو تحليل ومقارنة كلا النوعين من الاستجابات، تحديد أيهما أفضل، والاشارة إلى القضايا والمشاكل الملحوظة في كل منهما.
|
176 |
-
</p>
|
177 |
-
</div>
|
178 |
-
|
179 |
-
<div class="section">
|
180 |
-
<h2>تحليل المقاييس الكمية</h2>
|
181 |
-
<p>
|
182 |
-
فيما يلي جدول يقارن أداء الاستجابات المُحسّنة والاساسية عبر عدة معايير (المقياس من 0 إلى 100):
|
183 |
-
</p>
|
184 |
-
<table class="metrics-table">
|
185 |
-
<tr>
|
186 |
-
<th>المعيار</th>
|
187 |
-
<th>الاستجابة المُحسّنة</th>
|
188 |
-
<th>الاستجابة الأساسية</th>
|
189 |
-
</tr>
|
190 |
-
<tr>
|
191 |
-
<td>الدقة (Accuracy)</td>
|
192 |
-
<td>95</td>
|
193 |
-
<td>85</td>
|
194 |
-
</tr>
|
195 |
-
<tr>
|
196 |
-
<td>سهولة القراءة (Readability)</td>
|
197 |
-
<td>90</td>
|
198 |
-
<td>70</td>
|
199 |
-
</tr>
|
200 |
-
<tr>
|
201 |
-
<td>الوضوح (Clarity)</td>
|
202 |
-
<td>92</td>
|
203 |
-
<td>75</td>
|
204 |
-
</tr>
|
205 |
-
<tr>
|
206 |
-
<td>التنظيم (Organization)</td>
|
207 |
-
<td>93</td>
|
208 |
-
<td>68</td>
|
209 |
-
</tr>
|
210 |
-
<tr>
|
211 |
-
<td>الارتباط بالمطلوب (Relevance)</td>
|
212 |
-
<td>96</td>
|
213 |
-
<td>80</td>
|
214 |
-
</tr>
|
215 |
-
<tr>
|
216 |
-
<td>الاتساق اللغوي (Language Consistency)</td>
|
217 |
-
<td>98</td>
|
218 |
-
<td>60</td>
|
219 |
-
</tr>
|
220 |
-
</table>
|
221 |
-
<p>
|
222 |
-
<strong>المتوسط العام:</strong> الاستجابة المُحسّنة: 94، الاستجابة الأساسية: 73.
|
223 |
-
</p>
|
224 |
-
</div>
|
225 |
-
|
226 |
-
<div class="section">
|
227 |
-
<h2>التحليل والمقارنة النوعية</h2>
|
228 |
-
|
229 |
-
<!-- Sample 1 -->
|
230 |
-
<div class="sample">
|
231 |
-
<h4>مثال 1: تحويل الدولار إلى اليورو</h4>
|
232 |
-
<table>
|
233 |
-
<tr>
|
234 |
-
<th>المعيار</th>
|
235 |
-
<th>النموذج المُحسّن</th>
|
236 |
-
<th>النموذج الأساسي</th>
|
237 |
-
</tr>
|
238 |
-
<tr>
|
239 |
-
<td>الوضوح والدقة</td>
|
240 |
-
<td>شرح وا��ح للمعطيات والخطوات بالترتيب مع الحساب النهائي (90 يورو)؛ الإجابة مطابقة للجواب الصحيح.</td>
|
241 |
-
<td>يوجد شرح مختلط بين اللغات (عربية وإنجليزية)، ويظهر جزء من عملية التفكير غير مكتملة مع بعض النصوص غير الضرورية.</td>
|
242 |
-
</tr>
|
243 |
-
<tr>
|
244 |
-
<td>تنسيق اللغة</td>
|
245 |
-
<td>جميع النص باللغة العربية، مع تقسيم واضح للمعطيات والخطوات.</td>
|
246 |
-
<td>خلط بين العربية والإنجليزية وبعض الرموز غير المكتملة.</td>
|
247 |
-
</tr>
|
248 |
-
</table>
|
249 |
-
</div>
|
250 |
-
|
251 |
-
<!-- Sample 2 -->
|
252 |
-
<div class="sample">
|
253 |
-
<h4>مثال 2: حساب المبلغ الإجمالي لشراء الكتب</h4>
|
254 |
-
<table>
|
255 |
-
<tr>
|
256 |
-
<th>المعيار</th>
|
257 |
-
<th>النموذج المُحسّن</th>
|
258 |
-
<th>النموذج الأساسي</th>
|
259 |
-
</tr>
|
260 |
-
<tr>
|
261 |
-
<td>التسلسل المنطقي</td>
|
262 |
-
<td>يوضح المعطيات خطوة بخطوة ويقوم بالحساب بشكل منظم.</td>
|
263 |
-
<td>يبدأ بشرح بسيط ولكنه يحتوي على شروحات زائدة ونصوص غير مرتبطة كلياً بالمهمة.</td>
|
264 |
-
</tr>
|
265 |
-
<tr>
|
266 |
-
<td>الدقة</td>
|
267 |
-
<td>الإجابة النهائية صحيحة (45 ريالًا).</td>
|
268 |
-
<td>الإجابة صحيحة، لكن التنسيق العام مشوش بسبب إدخال نصوص إضافية.</td>
|
269 |
-
</tr>
|
270 |
-
</table>
|
271 |
-
</div>
|
272 |
-
|
273 |
-
<!-- Sample 3 -->
|
274 |
-
<div class="sample">
|
275 |
-
<h4>مثال 3: حساب المسافة المقطوعة بقطار</h4>
|
276 |
-
<table>
|
277 |
-
<tr>
|
278 |
-
<th>المعيار</th>
|
279 |
-
<th>النموذج المُحسّن</th>
|
280 |
-
<th>النموذج الأساسي</th>
|
281 |
-
</tr>
|
282 |
-
<tr>
|
283 |
-
<td>التركيز على المهمة</td>
|
284 |
-
<td>يوضح الخطوات بوضوح ويحسب النتيجة بشكل دقيق (240 كم).</td>
|
285 |
-
<td>يتضمن اختيارات متعددة وخيارات غير ضرورية مما قد يشتت القارئ.</td>
|
286 |
-
</tr>
|
287 |
-
</table>
|
288 |
-
</div>
|
289 |
-
|
290 |
-
<!-- Sample 4 -->
|
291 |
-
<div class="sample">
|
292 |
-
<h4>مثال 4: حساب عدد الدقائق في 5 ساعات</h4>
|
293 |
-
<table>
|
294 |
-
<tr>
|
295 |
-
<th>المعيار</th>
|
296 |
-
<th>النموذج المُحسّن</th>
|
297 |
-
<th>النموذج الأساسي</th>
|
298 |
-
</tr>
|
299 |
-
<tr>
|
300 |
-
<td>البساطة والتنظيم</td>
|
301 |
-
<td>تنسيق مرتب مع خطوات حسابية واضحة (300 دقيقة).</td>
|
302 |
-
<td>شرح متداخل مع بعض الأخطاء اللغوية والتعابير غير الدقيقة.</td>
|
303 |
-
</tr>
|
304 |
-
</table>
|
305 |
-
</div>
|
306 |
-
|
307 |
-
<!-- Sample 5 -->
|
308 |
-
<div class="sample">
|
309 |
-
<h4>مثال 5: توزيع الحلوى على الأطفال</h4>
|
310 |
-
<table>
|
311 |
-
<tr>
|
312 |
-
<th>المعيار</th>
|
313 |
-
<th>النموذج المُحسّن</th>
|
314 |
-
<th>النموذج الأساسي</th>
|
315 |
-
</tr>
|
316 |
-
<tr>
|
317 |
-
<td>التركيز على المطلوب</td>
|
318 |
-
<td>يوضح المعطيات والخطوات بوضوح، والإجابة صحيحة (4 قطع لكل طفل).</td>
|
319 |
-
<td>يحتوي على نصوص مكررة وغير متعلقة بالمهمة، مما يسبب إرباكاً.</td>
|
320 |
-
</tr>
|
321 |
-
</table>
|
322 |
-
</div>
|
323 |
-
|
324 |
-
<!-- المزيد من الأمثلة مشابهة... -->
|
325 |
-
|
326 |
-
<!-- Sample 16 -->
|
327 |
-
<div class="sample">
|
328 |
-
<h4>مثال 16: حساب الوقت لقطع مسافة 12 كم بسرعة 4 كم/ساعة</h4>
|
329 |
-
<table>
|
330 |
-
<tr>
|
331 |
-
<th>المعيار</th>
|
332 |
-
<th>النموذج المُحسّن</th>
|
333 |
-
<th>النموذج الأساسي</th>
|
334 |
-
</tr>
|
335 |
-
<tr>
|
336 |
-
<td>الصحة في الحساب</td>
|
337 |
-
<td>يحاول النموذج استخدام صيغة خاطئة (قسمة السرعة على المسافة بدلًا من قسمة المسافة على السرعة) وينتج وقتاً غير منطقي.</td>
|
338 |
-
<td>الشرح يتبع خطوات معقدة وغير دقيقة، ولا يظهر الحساب الصحيح للوقت (المتوقع 3 ساعات).</td>
|
339 |
-
</tr>
|
340 |
-
<tr>
|
341 |
-
<td>التعليق</td>
|
342 |
-
<td colspan="2">
|
343 |
-
كلا النموذجين لم يقدما الحل الصحيح؛ حيث يجب حساب الزمن عبر <strong>الزمن = المسافة ÷ السرعة = 12 ÷ 4 = 3 ساعات</strong>.
|
344 |
-
</td>
|
345 |
-
</tr>
|
346 |
-
</table>
|
347 |
-
</div>
|
348 |
-
|
349 |
-
<!-- Sample 17 -->
|
350 |
-
<div class="sample">
|
351 |
-
<h4>مثال 17: حساب عدد التفاحات المتبقية بعد إعطاء النصف</h4>
|
352 |
-
<table>
|
353 |
-
<tr>
|
354 |
-
<th>المعيار</th>
|
355 |
-
<th>النموذج المُحسّن</th>
|
356 |
-
<th>النموذج الأساسي</th>
|
357 |
-
</tr>
|
358 |
-
<tr>
|
359 |
-
<td>الوضوح والمنهجية</td>
|
360 |
-
<td>يعرض المعطيات والخطوات بوضوح، والإجابة (9 تفاحات) صحيحة.</td>
|
361 |
-
<td>يتضمن نصوصاً مكررة وغير مكتملة مما يقلل من وضوح الحل.</td>
|
362 |
-
</tr>
|
363 |
-
</table>
|
364 |
-
</div>
|
365 |
-
|
366 |
-
<!-- Sample 18 -->
|
367 |
-
<div class="sample">
|
368 |
-
<h4>مثال 18: حساب المبلغ المتبقي بعد الشراء</h4>
|
369 |
-
<table>
|
370 |
-
<tr>
|
371 |
-
<th>المعيار</th>
|
372 |
-
<th>النموذج المُحسّن</th>
|
373 |
-
<th>النموذج الأساسي</th>
|
374 |
-
</tr>
|
375 |
-
<tr>
|
376 |
-
<td>التركيز والدقة</td>
|
377 |
-
<td>يحدد المعطيات والخطوات بشكل واضح مع الإجابة الصحيحة (35 ريالًا).</td>
|
378 |
-
<td>يحتوي على نصوص إضافية وحشو غير ضروري مما يشتت القارئ.</td>
|
379 |
-
</tr>
|
380 |
-
</table>
|
381 |
-
</div>
|
382 |
-
|
383 |
-
<!-- Sample 19 -->
|
384 |
-
<div class="sample">
|
385 |
-
<h4>مثال 19: حساب مجموع الزوايا الداخلية للمثلث</h4>
|
386 |
-
<table>
|
387 |
-
<tr>
|
388 |
-
<th>المعيار</th>
|
389 |
-
<th>النموذج المُحسّن</th>
|
390 |
-
<th>النموذج الأساسي</th>
|
391 |
-
</tr>
|
392 |
-
<tr>
|
393 |
-
<td>البساطة</td>
|
394 |
-
<td>إجابة مباشرة وواضحة (180 درجة).</td>
|
395 |
-
<td>يوجد تداخل في النصوص وتعليقات جانبية غير ضرورية.</td>
|
396 |
-
</tr>
|
397 |
-
</table>
|
398 |
-
</div>
|
399 |
-
|
400 |
-
<!-- Sample 20 -->
|
401 |
-
<div class="sample">
|
402 |
-
<h4>مثال 20: توزيع 100 ريال على 5 أشخاص</h4>
|
403 |
-
<table>
|
404 |
-
<tr>
|
405 |
-
<th>المعيار</th>
|
406 |
-
<th>النموذج المُحسّن</th>
|
407 |
-
<th>النموذج الأساسي</th>
|
408 |
-
</tr>
|
409 |
-
<tr>
|
410 |
-
<td>الدقة والتنظيم</td>
|
411 |
-
<td>يوضح خطوات التقسيم والإجابة الصحيحة (20 ريال لكل شخص).</td>
|
412 |
-
<td>يحتوي على شرح مختلط بين اللغات وبعض التفاصيل غير الضرورية.</td>
|
413 |
-
</tr>
|
414 |
-
</table>
|
415 |
-
</div>
|
416 |
-
</div>
|
417 |
-
|
418 |
-
<div class="section">
|
419 |
-
<h2>الاستنتاجات العامة</h2>
|
420 |
-
<ul>
|
421 |
-
<li>
|
422 |
-
<strong class="good">الاستجابات المُحسّنة:</strong>
|
423 |
-
<ul>
|
424 |
-
<li>تستخدم لغة عربية سليمة ومنسقة.</li>
|
425 |
-
<li>تقدم الشرح خطوة بخطوة مع عرض للمعطيات والحسابات بشكل منطقي.</li>
|
426 |
-
<li>تعطي إجابات واضحة ومباشرة مطابقة للجواب الصحيح في معظم الحالات.</li>
|
427 |
-
</ul>
|
428 |
-
</li>
|
429 |
-
<li>
|
430 |
-
<strong class="bad">الاستجابات الأساسية:</strong>
|
431 |
-
<ul>
|
432 |
-
<li>غالباً ما تحتوي على خلط بين العربية والإنجليزية.</li>
|
433 |
-
<li>تتضمن نصوصاً غير ضرورية، مثل عمليات تفكير داخلية أو رموز غير مكتملة.</li>
|
434 |
-
<li>في بعض الأمثلة يظهر تكرار غير مرغوب أو شروحات زائدة عن الحاجة، مما قد يُربك المستخدم.</li>
|
435 |
-
</ul>
|
436 |
-
</li>
|
437 |
-
<li>
|
438 |
-
في مثال واحد (حساب الوقت لقطع 12 كم بسرعة 4 كم/ساعة)، كانت كلا الاستجابتين غير دقيقة؛ حيث يجب استخدام الصيغة <em>الزمن = المسافة ÷ السرعة</em> للحصول على 3 ساعات.
|
439 |
-
</li>
|
440 |
-
</ul>
|
441 |
-
</div>
|
442 |
-
|
443 |
-
<div class="section">
|
444 |
-
<h2>توصيات لتحسين التصميم والعرض</h2>
|
445 |
-
<ol>
|
446 |
-
<li>
|
447 |
-
<strong>التوحيد اللغوي:</strong> يجب التأكيد على استخدام لغة واحدة (العربية) في جميع أجزاء الإجابة لتجنب التشويش.
|
448 |
-
</li>
|
449 |
-
<li>
|
450 |
-
<strong>تنسيق الإجابات:</strong> تنظيم المعطيات والخطوات بشكل نقاط أو جدول واضح كما في الاستجابات المُحسّنة.
|
451 |
-
</li>
|
452 |
-
<li>
|
453 |
-
<strong>تجنب المعلومات الزائدة:</strong> إزالة أي نصوص أو تفاصيل لا تتعلق مباشرة بالمطلوب لتبسيط الفهم.
|
454 |
-
</li>
|
455 |
-
<li>
|
456 |
-
<strong>التركيز على الإجابة النهائية:</strong> عرض الإجابة بشكل واضح بعد الخطوات دون إضافات غير ضرورية.
|
457 |
-
</li>
|
458 |
-
<li>
|
459 |
-
<strong>تصميم تفاعلي:</strong> يمكن استخدام عناصر تفاعلية مثل التبويبات أو الجداول القابلة للطي لتوضيح مقارنة النماذج، مما يجعل التقرير أكثر جاذبية.
|
460 |
-
</li>
|
461 |
-
</ol>
|
462 |
-
</div>
|
463 |
-
|
464 |
-
<div class="section">
|
465 |
-
<h2>خاتمة</h2>
|
466 |
-
<p>
|
467 |
-
يُظهر التحليل أن الاستجابات المُحسّنة (Fine-tuned) تتفوق على الاستجابات الأساسية من حيث التنظيم، وضوح الشرح، والتناسق اللغوي. بالرغم من أن الإجابات النهائية في كلا النموذجين غالباً ما تكون صحيحة، إلا أن طريقة العرض والتنسيق في النموذج المُحسّن تجعل المعلومات أكثر سهولة في الفهم والتتبع.
|
468 |
-
</p>
|
469 |
-
</div>
|
470 |
-
</body>
|
471 |
-
</html>
|
472 |
-
```
|
473 |
|
|
|
474 |
|
475 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
476 |
## Limitations
|
477 |
|
478 |
- Domain-Specific: While optimized for Arabic reasoning, the model might not generalize as well to tasks outside of its fine-tuned domain.
|
@@ -492,6 +138,4 @@ If you use this model in your research or applications, please cite the original
|
|
492 |
primaryClass={cs.CL},
|
493 |
url={https://arxiv.org/abs/2501.12948},
|
494 |
}
|
495 |
-
```
|
496 |
-
|
497 |
-
|
|
|
1 |
---
|
2 |
base_model:
|
3 |
+
- unsloth/DeepSeek-R1-Distill-Llama-8B-unsloth-bnb-4bit
|
|
|
4 |
license: apache-2.0
|
5 |
datasets:
|
6 |
+
- Omartificial-Intelligence-Space/Arabic_Reasoning_Dataset
|
7 |
language:
|
8 |
+
- ar
|
9 |
pipeline_tag: text-generation
|
10 |
+
library_name: transformers
|
11 |
tags:
|
12 |
+
- unsloth
|
13 |
+
- arabic
|
14 |
+
- deepseek-R1
|
15 |
+
- Peft
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
16 |
---
|
17 |
|
18 |
# DeepSeek-R1-Distill-Llama-8B (Arabic Reasoning Edition)
|
|
|
93 |
This model has been evaluated on the Arabic Reasoning Dataset from Omartificial-Intelligence-Space. In benchmark comparisons against other Arabic generation models, DeepSeek-R1-Distill-Llama-8B (Arabic Reasoning Edition) demonstrates robust performance in tasks requiring both natural language understanding and logical reasoning.
|
94 |
|
95 |
|
96 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/628f7a71dd993507cfcbe587/kBdnh5L19Um2YXjaM5Vy6.png)
|
97 |
+
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
98 |
|
99 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/628f7a71dd993507cfcbe587/AhgHXeS4TCEKEDqqudy9-.png)
|
100 |
|
101 |
|
102 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/628f7a71dd993507cfcbe587/Hi1hMy7y0Tbp7N6iKtqRa.png)
|
103 |
+
|
104 |
+
|
105 |
+
![image/png](https://cdn-uploads.huggingface.co/production/uploads/628f7a71dd993507cfcbe587/AOoLgWNT3ix9KVStZ5Zq8.png)
|
106 |
+
|
107 |
+
### General Conclusions
|
108 |
+
|
109 |
+
#### Fine-tuned Responses:
|
110 |
+
|
111 |
+
- They use proper and well-organized Arabic language.
|
112 |
+
- They provide step-by-step explanations with a clear presentation of the given data and logical calculations.
|
113 |
+
- They deliver clear and direct answers that match the correct answer in most cases.
|
114 |
+
|
115 |
+
#### Baseline Responses:
|
116 |
+
|
117 |
+
- They often mix Arabic and English.
|
118 |
+
- They include unnecessary text, such as internal thought processes or incomplete symbols.
|
119 |
+
- In some examples, there is unwanted repetition or overly verbose explanations, which can confuse the user.
|
120 |
+
- In one example (calculating the time to cover 12 km at a speed of 4 km/h), both responses were inaccurate; the correct approach is to use the formula time = distance ÷ speed to obtain 3 hours.
|
121 |
+
|
122 |
## Limitations
|
123 |
|
124 |
- Domain-Specific: While optimized for Arabic reasoning, the model might not generalize as well to tasks outside of its fine-tuned domain.
|
|
|
138 |
primaryClass={cs.CL},
|
139 |
url={https://arxiv.org/abs/2501.12948},
|
140 |
}
|
141 |
+
```
|
|
|
|