Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

sh1gechan commited on Aug 7, 2024

Commit

e9f5e93

verified ·

1 Parent(s): a193a9d

Update src/leaderboard/read_evals.py

Files changed (1) hide show

src/leaderboard/read_evals.py CHANGED Viewed

@@ -109,7 +109,7 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        average = sum([v for v in self.results.values() if v is not None]) / len(self.results)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
@@ -127,11 +127,11 @@ class EvalResult:
         }
         for task in Tasks:
-            task_value = task.value
-            data_dict[task_value.col_name] = self.results[task_value.metric]
         return data_dict
 def get_request_file_for_model(requests_path, model_name, precision):
     """Selects the correct request file for a given model. Only keeps runs tagged as FINISHED"""
     request_files = os.path.join(

     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
+        average = sum([v for v in self.results.values() if v is not None]) / len(Tasks)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
         }
         for task in Tasks:
+            data_dict[task.value.col_name] = self.results[task.value.benchmark]
         return data_dict
 def get_request_file_for_model(requests_path, model_name, precision):
     """Selects the correct request file for a given model. Only keeps runs tagged as FINISHED"""
     request_files = os.path.join(