pingpong

A benchmark for role-playing LLMs

View on GitHub

English learderboard, v2

Last updated: 2024-11-22 16:48:51

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 claude_3_5_sonnet_20241022 4.72±0.05 4.65±0.06 4.75±0.04 4.78±0.04 4.72±0.05 4.65±0.05 4.76±0.05 4.78±0.04 0.00 4.84 4.93 4.41 64 413
2 claude_3_5_sonnet 4.65±0.07 4.56±0.08 4.67±0.07 4.72±0.06 4.65±0.07 4.56±0.08 4.68±0.07 4.72±0.06 0.28 4.74 4.93 4.29 64 418
2 gpt_4o_2024_11_20 4.65±0.07 4.58±0.08 4.66±0.07 4.71±0.06 4.71±0.07 4.64±0.08 4.72±0.07 4.77±0.06 0.00 4.75 4.96 4.42 64 633
2 llama31_405b_it 4.63±0.06 4.56±0.06 4.64±0.06 4.70±0.05 4.65±0.06 4.58±0.06 4.66±0.06 4.72±0.05 0.06 4.68 4.93 4.35 64 548
2 llama31_70b_it 4.63±0.05 4.55±0.06 4.64±0.06 4.70±0.05 4.65±0.05 4.57±0.06 4.67±0.06 4.73±0.05 0.00 4.71 4.93 4.33 64 562
6 llama31_nemotron_70b 4.58±0.06 4.54±0.06 4.58±0.08 4.63±0.04 4.76±0.06 4.71±0.06 4.76±0.08 4.81±0.04 0.02 4.76 4.97 4.56 64 1107
6 gpt_4o_mini 4.56±0.07 4.45±0.08 4.57±0.07 4.66±0.06 4.56±0.07 4.45±0.08 4.57±0.07 4.66±0.05 0.00 4.60 4.94 4.13 64 457
6 claude_3_opus 4.54±0.05 4.49±0.06 4.56±0.06 4.60±0.05 4.71±0.05 4.65±0.06 4.72±0.06 4.76±0.05 0.22 4.75 4.92 4.46 64 1032
6 gemini_pro_1_5_002 4.53±0.08 4.42±0.10 4.56±0.09 4.62±0.08 4.53±0.09 4.42±0.09 4.55±0.09 4.62±0.08 0.00 4.62 4.90 4.08 64 307
10 gemma2_ataraxy_9b 4.52±0.06 4.43±0.08 4.54±0.06 4.59±0.05 4.52±0.06 4.43±0.07 4.54±0.06 4.59±0.06 0.00 4.60 4.80 4.17 64 358
10 qwen25_72b_it 4.51±0.08 4.41±0.09 4.52±0.08 4.61±0.06 4.51±0.07 4.41±0.09 4.53±0.07 4.61±0.06 0.00 4.55 4.91 4.09 64 526
10 gemma2_27b_it 4.51±0.06 4.40±0.07 4.53±0.06 4.62±0.05 4.51±0.06 4.40±0.08 4.52±0.07 4.62±0.05 0.00 4.56 4.92 4.06 64 291
10 gpt_4o 4.50±0.10 4.38±0.10 4.52±0.10 4.61±0.07 4.50±0.09 4.39±0.10 4.52±0.09 4.61±0.07 0.00 4.56 4.94 4.01 64 484
10 gemini_pro_1_5 4.49±0.08 4.39±0.09 4.51±0.09 4.59±0.07 4.49±0.08 4.39±0.09 4.51±0.08 4.59±0.07 0.02 4.54 4.88 4.07 64 265
10 qwen2_72b_it 4.49±0.08 4.38±0.10 4.49±0.09 4.60±0.07 4.49±0.08 4.38±0.11 4.49±0.08 4.60±0.06 0.00 4.48 4.93 4.06 64 510
10 mistral_nemo_gutenberg_12b_v2 4.49±0.07 4.42±0.08 4.51±0.07 4.56±0.07 4.56±0.07 4.48±0.08 4.58±0.07 4.62±0.07 0.00 4.65 4.80 4.25 64 664
10 llama31_8b_it 4.48±0.09 4.41±0.09 4.48±0.09 4.56±0.09 4.51±0.08 4.43±0.08 4.51±0.09 4.59±0.09 0.02 4.50 4.83 4.20 64 568
10 command_r_plus_104b_0824 4.48±0.07 4.37±0.09 4.50±0.07 4.58±0.07 4.50±0.08 4.39±0.09 4.52±0.08 4.60±0.06 0.00 4.58 4.89 4.04 64 553
10 magnum_v2_123b 4.48±0.07 4.41±0.07 4.47±0.08 4.57±0.06 4.58±0.07 4.51±0.07 4.58±0.08 4.68±0.05 0.00 4.55 4.94 4.28 64 768
10 llama31_euryale_70b_v2_2 4.47±0.08 4.38±0.09 4.48±0.09 4.58±0.07 4.48±0.08 4.38±0.09 4.48±0.09 4.58±0.07 0.02 4.48 4.88 4.08 64 384
10 nous_hermes_3_405b 4.46±0.10 4.38±0.10 4.45±0.12 4.58±0.08 4.46±0.09 4.38±0.10 4.45±0.12 4.58±0.08 0.00 4.40 4.90 4.10 64 471
10 llama3_lunaris_8b 4.46±0.07 4.38±0.08 4.46±0.09 4.55±0.06 4.53±0.07 4.46±0.08 4.54±0.08 4.63±0.06 0.00 4.53 4.89 4.20 64 673
23 gemma2_9b_it 4.45±0.09 4.36±0.09 4.43±0.11 4.57±0.07 4.45±0.09 4.36±0.10 4.43±0.11 4.57±0.07 0.00 4.37 4.91 4.09 64 324
23 mistral_large_123b_2407 4.44±0.08 4.32±0.10 4.47±0.08 4.55±0.07 4.44±0.08 4.32±0.09 4.47±0.08 4.55±0.07 0.02 4.55 4.86 3.95 64 325
23 command_r_35b_0824 4.44±0.07 4.33±0.08 4.43±0.09 4.56±0.06 4.43±0.07 4.33±0.08 4.43±0.08 4.56±0.06 0.00 4.39 4.94 3.98 64 460
26 wizardlm_2_8x22b 4.39±0.07 4.30±0.07 4.41±0.07 4.48±0.05 4.57±0.07 4.47±0.07 4.58±0.07 4.66±0.06 0.00 4.62 4.92 4.18 64 1143
26 llama31_8b_stheno_v3_4 4.35±0.08 4.28±0.09 4.35±0.10 4.44±0.08 4.45±0.08 4.37±0.09 4.45±0.10 4.53±0.09 0.00 4.44 4.77 4.14 64 736
26 deepseek_chat_v2_0628 4.34±0.10 4.20±0.12 4.35±0.11 4.49±0.08 4.35±0.10 4.21±0.11 4.35±0.12 4.50±0.08 0.00 4.34 4.94 3.77 64 399
26 claude_3_haiku 4.33±0.11 4.24±0.10 4.32±0.12 4.45±0.09 4.43±0.10 4.34±0.10 4.41±0.12 4.55±0.09 0.03 4.36 4.89 4.04 64 750
30 solar_pro 4.32±0.10 4.19±0.12 4.32±0.11 4.47±0.08 4.32±0.10 4.19±0.11 4.32±0.11 4.48±0.08 0.00 4.30 4.92 3.77 63 300
30 mistral_nemo_rocinante_12b 4.30±0.10 4.18±0.11 4.30±0.12 4.45±0.08 4.33±0.10 4.21±0.11 4.32±0.12 4.48±0.08 0.00 4.28 4.90 3.83 64 561
30 star_command_r_32b_v1 4.30±0.10 4.22±0.11 4.30±0.11 4.41±0.09 4.40±0.10 4.31±0.10 4.40±0.10 4.51±0.10 0.00 4.37 4.81 4.03 64 748
33 llama31_70b_arliai_rpmax_v1_1 4.19±0.14 4.08±0.15 4.16±0.15 4.33±0.11 4.22±0.14 4.12±0.16 4.19±0.15 4.37±0.13 0.00 4.07 4.79 3.81 63 587
33 arliai_rpmax_12b_v1_1 4.16±0.10 4.08±0.11 4.17±0.11 4.24±0.11 4.25±0.11 4.17±0.11 4.25±0.12 4.32±0.11 0.02 4.27 4.55 3.93 64 743
35 mistral_nemo_starcannon_12b 4.13±0.12 4.03±0.12 4.11±0.13 4.25±0.11 4.26±0.13 4.16±0.13 4.26±0.14 4.39±0.11 0.02 4.20 4.76 3.84 64 940
35 lyra4_gutenberg_12b 4.13±0.11 4.02±0.12 4.16±0.11 4.24±0.10 4.30±0.11 4.18±0.12 4.32±0.12 4.40±0.10 0.00 4.38 4.72 3.81 64 1133
35 mistral_nemo_12b 4.13±0.10 3.95±0.12 4.15±0.11 4.30±0.09 4.13±0.10 3.95±0.12 4.16±0.10 4.30±0.09 0.00 4.22 4.80 3.38 64 224
35 jamba_1_5_large 4.12±0.17 3.98±0.18 4.12±0.17 4.30±0.15 4.13±0.17 3.98±0.19 4.12±0.17 4.30±0.15 0.00 4.06 4.80 3.53 64 345
35 qwen2_7b_it 4.10±0.13 3.97±0.12 4.08±0.14 4.28±0.12 4.11±0.13 3.97±0.12 4.09±0.14 4.28±0.12 0.02 4.01 4.79 3.54 64 354
35 ministral_8b 4.07±0.11 3.87±0.12 4.09±0.11 4.27±0.09 4.07±0.10 3.87±0.12 4.09±0.11 4.27±0.09 0.00 4.14 4.84 3.24 64 273
41 mythomax_13b 4.01±0.13 3.87±0.14 3.96±0.14 4.22±0.11 4.02±0.13 3.87±0.14 3.97±0.14 4.22±0.11 0.00 3.81 4.82 3.43 64 388
41 liquid_lfm_40b 4.00±0.13 3.80±0.14 4.01±0.13 4.21±0.10 4.01±0.12 3.80±0.14 4.01±0.14 4.21±0.10 0.02 4.02 4.83 3.18 64 332
43 phi_3_5_mini_4b_it 3.94±0.12 3.81±0.11 3.89±0.14 4.13±0.10 4.03±0.12 3.90±0.13 3.98±0.14 4.23±0.10 0.00 3.81 4.81 3.49 64 768
44 eva_qwen25_14b 3.83±0.19 3.68±0.21 3.84±0.19 3.97±0.20 3.96±0.20 3.81±0.21 3.98±0.20 4.11±0.20 0.00 4.02 4.53 3.36 64 1013