pingpong

A benchmark for role-playing LLMs

View on GitHub

English learderboard, v2

Last updated: 2025-04-04 14:00:06

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 deepseek_v3_0324 4.75±0.04 4.70±0.05 4.77±0.05 4.81±0.04 4.75±0.04 4.70±0.05 4.77±0.04 4.81±0.04 0.00 4.80 4.95 4.53 64 370
1 claude_3_5_sonnet_20241022 4.72±0.05 4.65±0.05 4.76±0.04 4.78±0.04 4.72±0.05 4.65±0.06 4.76±0.05 4.78±0.04 0.00 4.84 4.93 4.41 64 413
1 deepseek_v3 4.71±0.05 4.63±0.06 4.73±0.05 4.77±0.04 4.71±0.05 4.63±0.06 4.73±0.05 4.77±0.04 0.00 4.79 4.94 4.40 64 486
1 claude_3_7_sonnet_20250219 4.71±0.04 4.63±0.05 4.75±0.04 4.76±0.03 4.78±0.04 4.70±0.05 4.82±0.04 4.83±0.04 0.00 4.93 4.97 4.45 64 633
5 gemini_2_5_pro_exp_03_25 4.66±0.06 4.55±0.08 4.70±0.06 4.74±0.05 4.66±0.06 4.55±0.07 4.70±0.06 4.74±0.05 0.00 4.80 4.96 4.23 64 454
5 claude_3_5_sonnet 4.65±0.07 4.56±0.08 4.68±0.07 4.72±0.06 4.65±0.07 4.56±0.08 4.68±0.08 4.72±0.06 0.28 4.74 4.93 4.29 64 418
5 gpt_4o_2024_11_20 4.64±0.07 4.57±0.08 4.65±0.07 4.70±0.05 4.71±0.07 4.64±0.08 4.72±0.07 4.77±0.06 0.00 4.75 4.96 4.42 64 633
5 gpt_45_preview 4.64±0.05 4.56±0.07 4.66±0.05 4.73±0.04 4.65±0.05 4.56±0.07 4.67±0.05 4.73±0.04 0.02 4.71 4.97 4.27 64 322
5 llama31_405b_it 4.62±0.06 4.55±0.07 4.63±0.06 4.69±0.05 4.65±0.06 4.58±0.06 4.66±0.05 4.72±0.05 0.06 4.68 4.93 4.35 64 548
5 llama31_70b_it 4.61±0.05 4.54±0.06 4.63±0.06 4.69±0.05 4.65±0.05 4.58±0.06 4.67±0.06 4.72±0.05 0.00 4.71 4.93 4.33 64 562
11 llama33_70b_it 4.60±0.06 4.50±0.07 4.62±0.06 4.70±0.05 4.60±0.06 4.51±0.07 4.62±0.06 4.70±0.05 0.02 4.67 4.96 4.19 64 460
11 minimax_01 4.58±0.06 4.48±0.07 4.61±0.05 4.67±0.05 4.63±0.05 4.52±0.07 4.66±0.06 4.72±0.05 0.00 4.73 4.96 4.20 64 580
11 llama3_70b_it 4.58±0.06 4.49±0.07 4.60±0.06 4.67±0.05 4.61±0.06 4.51±0.07 4.63±0.07 4.70±0.05 0.00 4.66 4.97 4.21 64 541
11 grok_2_1212 4.57±0.07 4.45±0.09 4.60±0.07 4.67±0.06 4.56±0.07 4.44±0.09 4.60±0.07 4.67±0.06 0.00 4.69 4.97 4.06 64 430
11 llama31_nemotron_70b 4.57±0.06 4.53±0.06 4.58±0.07 4.63±0.04 4.76±0.06 4.71±0.06 4.76±0.07 4.81±0.05 0.02 4.76 4.97 4.56 64 1107
11 gpt_4o_mini 4.55±0.07 4.45±0.08 4.57±0.07 4.65±0.05 4.56±0.07 4.45±0.08 4.57±0.07 4.66±0.06 0.00 4.60 4.94 4.13 64 457
11 claude_3_opus 4.54±0.05 4.48±0.06 4.55±0.05 4.59±0.05 4.71±0.06 4.65±0.06 4.72±0.06 4.76±0.05 0.22 4.75 4.92 4.45 64 1032
18 gemini_pro_1_5_002 4.53±0.08 4.42±0.10 4.56±0.09 4.62±0.08 4.53±0.08 4.42±0.09 4.55±0.09 4.63±0.07 0.00 4.62 4.90 4.08 64 307
18 gemma2_ataraxy_9b 4.52±0.06 4.43±0.07 4.54±0.06 4.59±0.05 4.51±0.06 4.43±0.07 4.54±0.06 4.59±0.06 0.00 4.60 4.80 4.17 64 358
18 gemma2_27b_it 4.51±0.06 4.40±0.08 4.52±0.06 4.62±0.06 4.51±0.06 4.40±0.08 4.52±0.07 4.62±0.05 0.00 4.56 4.92 4.06 64 291
18 gpt_4o 4.50±0.10 4.38±0.10 4.52±0.09 4.61±0.07 4.50±0.09 4.38±0.10 4.52±0.09 4.61±0.07 0.00 4.56 4.94 4.01 64 484
18 gemma2_27b_dippy 4.50±0.07 4.38±0.09 4.53±0.09 4.62±0.06 4.50±0.08 4.37±0.09 4.53±0.08 4.62±0.06 0.00 4.59 4.95 3.97 63 226
18 gemini_pro_1_5 4.49±0.08 4.39±0.09 4.51±0.08 4.59±0.07 4.49±0.08 4.39±0.09 4.51±0.08 4.59±0.07 0.02 4.54 4.87 4.07 64 265
18 gemini_2_0_flash_exp 4.49±0.08 4.35±0.09 4.51±0.10 4.61±0.06 4.49±0.09 4.35±0.09 4.51±0.10 4.61±0.07 0.00 4.57 4.97 3.94 64 317
18 qwen25_72b_it 4.49±0.08 4.39±0.09 4.51±0.08 4.60±0.07 4.51±0.07 4.41±0.08 4.52±0.08 4.62±0.06 0.00 4.55 4.91 4.09 64 526
18 llama31_euryale_70b_v2_2 4.48±0.08 4.38±0.09 4.48±0.09 4.58±0.07 4.47±0.08 4.38±0.09 4.48±0.09 4.58±0.07 0.02 4.48 4.88 4.08 64 384
18 qwen2_72b_it 4.48±0.08 4.38±0.10 4.48±0.09 4.59±0.07 4.49±0.08 4.38±0.10 4.49±0.09 4.60±0.07 0.00 4.49 4.93 4.06 64 510
18 mistral_nemo_gutenberg_12b_v2 4.48±0.07 4.41±0.08 4.51±0.07 4.54±0.07 4.56±0.07 4.49±0.08 4.59±0.07 4.63±0.07 0.00 4.65 4.80 4.24 64 664
29 nous_hermes_3_405b 4.47±0.10 4.39±0.10 4.45±0.12 4.58±0.08 4.47±0.10 4.39±0.10 4.45±0.11 4.58±0.09 0.00 4.40 4.90 4.13 64 471
29 llama31_8b_it 4.47±0.08 4.40±0.09 4.47±0.09 4.55±0.08 4.50±0.09 4.43±0.09 4.51±0.09 4.59±0.09 0.02 4.50 4.83 4.20 64 568
29 command_r_plus_104b_0824 4.47±0.07 4.36±0.08 4.49±0.08 4.57±0.06 4.50±0.08 4.39±0.09 4.52±0.08 4.60±0.06 0.00 4.57 4.90 4.04 64 553
29 magnum_v2_123b 4.47±0.07 4.40±0.07 4.47±0.08 4.56±0.05 4.58±0.07 4.52±0.07 4.58±0.09 4.68±0.05 0.00 4.54 4.94 4.28 64 768
29 gemma2_9b_it 4.45±0.09 4.36±0.10 4.43±0.11 4.57±0.07 4.45±0.09 4.36±0.10 4.44±0.11 4.57±0.08 0.00 4.37 4.91 4.08 64 324
29 llama3_lunaris_8b 4.45±0.07 4.37±0.08 4.45±0.09 4.54±0.06 4.53±0.08 4.45±0.08 4.54±0.08 4.63±0.06 0.00 4.53 4.89 4.19 64 673
29 nova_pro_v1 4.44±0.09 4.31±0.11 4.47±0.09 4.57±0.07 4.44±0.09 4.31±0.10 4.47±0.10 4.57±0.07 0.02 4.52 4.94 3.89 64 405
29 mistral_large_123b_2407 4.44±0.08 4.32±0.09 4.47±0.08 4.55±0.07 4.45±0.08 4.32±0.09 4.47±0.08 4.55±0.07 0.02 4.55 4.86 3.94 64 325
29 command_r_35b_0824 4.43±0.07 4.32±0.08 4.43±0.08 4.56±0.06 4.43±0.07 4.32±0.08 4.43±0.08 4.56±0.06 0.00 4.40 4.94 3.98 64 460
29 mistral_small_24b_2501_dippy_ai 4.43±0.07 4.33±0.08 4.45±0.07 4.54±0.06 4.44±0.07 4.33±0.08 4.45±0.07 4.54±0.06 0.00 4.50 4.83 4.00 64 467
29 mistral_small_24b_2501 4.43±0.07 4.31±0.09 4.46±0.07 4.53±0.07 4.43±0.07 4.31±0.09 4.46±0.07 4.53±0.07 0.00 4.55 4.81 3.94 64 470
40 wizardlm_2_8x22b 4.39±0.07 4.30±0.08 4.40±0.07 4.48±0.06 4.57±0.07 4.47±0.08 4.58±0.07 4.66±0.06 0.00 4.61 4.92 4.18 64 1143
40 phi_4_14b 4.38±0.08 4.28±0.09 4.38±0.09 4.50±0.07 4.45±0.08 4.35±0.10 4.45±0.09 4.57±0.07 0.00 4.42 4.92 4.03 64 644
40 unslopnemo_12b 4.36±0.08 4.24±0.09 4.37±0.08 4.47±0.07 4.43±0.08 4.31±0.09 4.45±0.09 4.55±0.07 0.00 4.49 4.89 3.94 64 660
40 deepseek_chat_v2_0628 4.34±0.10 4.19±0.12 4.35±0.11 4.50±0.08 4.34±0.09 4.20±0.12 4.34±0.11 4.49±0.08 0.00 4.34 4.94 3.75 64 399
40 phi_4_14b_unsloth 4.34±0.10 4.25±0.10 4.32±0.11 4.48±0.08 4.40±0.10 4.30±0.11 4.38±0.12 4.53±0.08 0.00 4.30 4.93 3.99 64 609
40 llama31_8b_stheno_v3_4 4.34±0.09 4.27±0.09 4.35±0.09 4.43±0.09 4.45±0.09 4.38±0.09 4.45±0.10 4.53±0.08 0.00 4.44 4.77 4.14 64 736
40 claude_3_haiku 4.33±0.10 4.23±0.10 4.31±0.12 4.44±0.09 4.43±0.11 4.34±0.10 4.42±0.12 4.55±0.09 0.03 4.36 4.89 4.04 64 750
47 solar_pro 4.32±0.10 4.19±0.11 4.32±0.10 4.47±0.08 4.32±0.10 4.18±0.11 4.32±0.11 4.47±0.08 0.00 4.29 4.92 3.77 63 300
47 l33_euryale_70b 4.32±0.10 4.20±0.12 4.32±0.11 4.44±0.09 4.35±0.11 4.24±0.12 4.36±0.11 4.48±0.09 0.00 4.37 4.82 3.88 64 564
47 mistral_nemo_rocinante_12b 4.30±0.10 4.17±0.11 4.29±0.12 4.44±0.08 4.33±0.10 4.21±0.10 4.32±0.11 4.48±0.08 0.00 4.28 4.90 3.82 64 561
47 star_command_r_32b_v1 4.30±0.09 4.21±0.10 4.29±0.10 4.40±0.09 4.40±0.10 4.31±0.10 4.40±0.11 4.50±0.09 0.00 4.37 4.81 4.03 64 748
47 mag_mell_r1_12b 4.27±0.12 4.22±0.11 4.25±0.13 4.35±0.11 4.46±0.12 4.40±0.12 4.44±0.14 4.54±0.12 0.00 4.37 4.78 4.24 64 1237
52 yi_large 4.21±0.15 4.10±0.17 4.17±0.17 4.36±0.12 4.33±0.15 4.22±0.16 4.31±0.17 4.49±0.12 0.00 4.20 4.94 3.87 64 863
52 llama31_70b_arliai_rpmax_v1_1 4.17±0.14 4.08±0.15 4.14±0.15 4.32±0.12 4.22±0.14 4.12±0.16 4.19±0.15 4.36±0.12 0.00 4.08 4.79 3.80 63 587
52 arliai_rpmax_12b_v1_1 4.15±0.11 4.07±0.10 4.16±0.11 4.23±0.11 4.24±0.11 4.17±0.11 4.25±0.11 4.32±0.12 0.02 4.27 4.55 3.93 64 743
55 jamba_1_5_large 4.14±0.17 4.00±0.18 4.12±0.18 4.30±0.15 4.14±0.17 3.99±0.18 4.12±0.17 4.30±0.15 0.00 4.06 4.79 3.57 64 345
55 mistral_nemo_12b 4.13±0.11 3.94±0.11 4.16±0.11 4.30±0.09 4.13±0.11 3.94±0.12 4.15±0.10 4.30±0.10 0.00 4.22 4.80 3.39 64 224
55 mistral_nemo_starcannon_12b 4.13±0.11 4.03±0.12 4.12±0.14 4.25±0.11 4.26±0.12 4.16±0.12 4.25±0.14 4.39±0.10 0.02 4.20 4.76 3.84 64 940
55 lyra4_gutenberg_12b 4.13±0.10 4.01±0.12 4.15±0.10 4.23±0.10 4.30±0.11 4.18±0.12 4.32±0.11 4.40±0.10 0.00 4.37 4.72 3.81 64 1133
55 qwen2_7b_it 4.11±0.13 3.97±0.11 4.09±0.14 4.28±0.12 4.11±0.13 3.96±0.12 4.09±0.15 4.28±0.12 0.02 4.01 4.79 3.53 64 354
55 ministral_8b 4.08±0.10 3.86±0.13 4.09±0.11 4.27±0.08 4.07±0.11 3.87±0.12 4.09±0.10 4.27±0.09 0.00 4.14 4.84 3.25 64 273
61 mythomax_13b 4.01±0.12 3.87±0.14 3.97±0.14 4.22±0.10 4.02±0.14 3.87±0.13 3.97±0.15 4.22±0.11 0.00 3.81 4.82 3.43 64 388
61 liquid_lfm_40b 3.99±0.12 3.79±0.14 4.00±0.13 4.21±0.11 3.99±0.13 3.78±0.13 4.00±0.13 4.21±0.10 0.02 4.02 4.83 3.15 64 332
63 phi_3_5_mini_4b_it 3.94±0.12 3.81±0.12 3.88±0.14 4.13±0.10 4.03±0.11 3.90±0.12 3.98±0.13 4.23±0.10 0.00 3.81 4.81 3.49 64 768
64 eva_qwen25_14b 3.82±0.20 3.68±0.21 3.84±0.20 3.96±0.20 3.96±0.19 3.81±0.21 3.97±0.19 4.11±0.20 0.00 4.02 4.54 3.35 64 1013