Spaces:

llm-jp
/

open-japanese-llm-leaderboard

Running on CPU Upgrade

App Files Files Community

sh1gechan commited on Aug 7, 2024

Commit

167f442

verified ·

1 Parent(s): 29b13b8

Update src/leaderboard/read_evals.py

Browse files

Files changed (1) hide show

src/leaderboard/read_evals.py +4 -6

src/leaderboard/read_evals.py CHANGED Viewed

@@ -77,7 +77,6 @@ class EvalResult:
             task_value = task.value
             if task_value.metric in scores:
                 results[task_value.benchmark] = Decimal(scores[task_value.metric])
-                print(f"Debug: {task_value.benchmark} = {results[task_value.benchmark]}")
         return self(
@@ -110,7 +109,6 @@ class EvalResult:
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
-        average = sum([v for v in self.results.values() if v is not None]) / len(self.results)
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
@@ -120,16 +118,15 @@ class EvalResult:
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
-            AutoEvalColumn.average.name: average,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
-            data_dict[task.value.col_name] = self.results.get(task.value.benchmark, None)
-            print(f"Debug: {task.value.col_name} = {self.results.get(task.value.benchmark, 'N/A')}")
         return data_dict
@@ -188,6 +185,7 @@ def get_raw_eval_results(results_path: str, requests_path: str) -> list[EvalResu
     results = []
     for v in eval_results.values():
         try:
             v.to_dict() # we test if the dict version is complete
             results.append(v)

             task_value = task.value
             if task_value.metric in scores:
                 results[task_value.benchmark] = Decimal(scores[task_value.metric])
         return self(
     def to_dict(self):
         """Converts the Eval Result to a dict compatible with our dataframe display"""
         data_dict = {
             "eval_name": self.eval_name,  # not a column, just a save name,
             AutoEvalColumn.precision.name: self.precision.value.name,
             AutoEvalColumn.architecture.name: self.architecture,
             AutoEvalColumn.model.name: make_clickable_model(self.full_model),
             AutoEvalColumn.revision.name: self.revision,
             AutoEvalColumn.license.name: self.license,
             AutoEvalColumn.likes.name: self.likes,
             AutoEvalColumn.params.name: self.num_params,
             AutoEvalColumn.still_on_hub.name: self.still_on_hub,
         }
         for task in Tasks:
+            task_value = task.value
+            data_dict[task_value.col_name] = self.results[task_value.benchmark]
         return data_dict
     results = []
     for v in eval_results.values():
+        print("v", v)
         try:
             v.to_dict() # we test if the dict version is complete
             results.append(v)