Adding Evaluation Results

#9
Files changed (1) hide show
  1. README.md +14 -0
README.md CHANGED
@@ -192,3 +192,17 @@ for response, history in model.stream_chat(tokenizer, "你好", history=[]):
192
  ## 开源许可证
193
 
194
  本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放,也可申请免费的商业使用授权([申请表](https://wj.qq.com/s2/12725412/f7c1/))。其他问题与合作请联系 <[email protected]>。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
192
  ## 开源许可证
193
 
194
  本仓库的代码依照 Apache-2.0 协议开源。模型权重对学术研究完全开放,也可申请免费的商业使用授权([申请表](https://wj.qq.com/s2/12725412/f7c1/))。其他问题与合作请联系 <[email protected]>。
195
+
196
+ # [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
197
+ Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_internlm__internlm-20b-chat)
198
+
199
+ | Metric | Value |
200
+ |-----------------------|---------------------------|
201
+ | Avg. | 49.12 |
202
+ | ARC (25-shot) | 55.38 |
203
+ | HellaSwag (10-shot) | 78.58 |
204
+ | MMLU (5-shot) | 58.53 |
205
+ | TruthfulQA (0-shot) | 43.22 |
206
+ | Winogrande (5-shot) | 78.77 |
207
+ | GSM8K (5-shot) | 18.73 |
208
+ | DROP (3-shot) | 10.65 |