pingpong

A benchmark for role-playing LLMs

View on GitHub

Russian learderboard, v2

Last updated: 2025-04-26 20:28:19

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 deepseek_v3_0324 4.79±0.04 4.71±0.06 4.83±0.04 4.84±0.04 4.79±0.04 4.72±0.06 4.83±0.04 4.83±0.04 0.00 4.93 4.96 4.48 64 314
1 claude_3_5_sonnet_20241022 4.78±0.04 4.71±0.05 4.81±0.05 4.82±0.03 4.78±0.04 4.71±0.05 4.81±0.04 4.82±0.03 0.02 4.89 4.94 4.51 64 348
1 gpt_45_preview 4.75±0.04 4.66±0.05 4.79±0.04 4.82±0.03 4.75±0.04 4.66±0.06 4.79±0.04 4.82±0.03 0.00 4.91 4.99 4.37 64 303
4 gemma3_27b_it 4.71±0.04 4.63±0.05 4.74±0.05 4.78±0.03 4.73±0.05 4.64±0.05 4.76±0.05 4.80±0.03 0.02 4.84 4.99 4.37 64 364
4 gpt_4_1 4.71±0.03 4.64±0.04 4.74±0.04 4.77±0.03 4.77±0.04 4.69±0.04 4.80±0.04 4.83±0.03 0.00 4.88 4.99 4.45 64 424
4 claude_3_7_sonnet_20250219 4.70±0.03 4.64±0.04 4.73±0.03 4.74±0.03 4.83±0.03 4.76±0.05 4.86±0.03 4.87±0.03 0.00 4.96 4.98 4.56 64 556
4 gpt_4o_2024_11_20 4.67±0.06 4.57±0.07 4.71±0.06 4.74±0.05 4.67±0.06 4.57±0.08 4.71±0.06 4.74±0.05 0.00 4.82 4.95 4.24 64 349
4 gpt_4_1_mini 4.67±0.06 4.57±0.06 4.70±0.06 4.74±0.05 4.67±0.06 4.57±0.07 4.70±0.06 4.74±0.05 0.00 4.78 4.96 4.28 64 291
4 gemma3_12b_it 4.67±0.05 4.57±0.07 4.71±0.05 4.76±0.04 4.68±0.05 4.57±0.07 4.71±0.05 4.76±0.04 0.00 4.81 4.98 4.24 64 305
10 claude_3_5_sonnet 4.64±0.07 4.59±0.08 4.68±0.07 4.68±0.07 4.68±0.07 4.62±0.08 4.71±0.08 4.71±0.07 0.30 4.80 4.80 4.44 64 388
10 deepseek_v3 4.64±0.07 4.54±0.08 4.67±0.07 4.70±0.06 4.65±0.06 4.55±0.08 4.68±0.07 4.71±0.06 0.00 4.79 4.90 4.26 64 360
10 gemini_2_5_pro_exp_03_25 4.63±0.07 4.51±0.10 4.69±0.08 4.71±0.06 4.64±0.08 4.52±0.09 4.69±0.07 4.71±0.06 0.00 4.84 4.93 4.15 64 332
10 ruadapt_qwen25_32b_pro_beta 4.59±0.06 4.52±0.07 4.61±0.07 4.64±0.06 4.60±0.06 4.54±0.07 4.63±0.07 4.66±0.06 0.00 4.69 4.82 4.32 64 371
10 sainemo_remix_12b 4.58±0.07 4.50±0.08 4.59±0.08 4.66±0.06 4.61±0.07 4.54±0.08 4.62±0.08 4.69±0.05 0.00 4.64 4.91 4.30 64 392
10 saiga_yandexgpt_8b 4.58±0.06 4.51±0.06 4.59±0.06 4.66±0.04 4.69±0.05 4.62±0.06 4.70±0.06 4.77±0.04 0.00 4.71 4.98 4.39 64 515
16 saiga_nemo_12b_v3 4.57±0.05 4.52±0.06 4.56±0.07 4.63±0.04 4.68±0.06 4.64±0.06 4.67±0.07 4.75±0.05 0.00 4.63 4.93 4.49 64 524
16 command_a_111b_0325 4.56±0.06 4.46±0.07 4.59±0.07 4.63±0.05 4.62±0.06 4.53±0.07 4.65±0.07 4.70±0.05 0.00 4.73 4.91 4.23 64 431
16 mistral_nemo_vikhr_dostoevsky_slerp_12b 4.55±0.06 4.44±0.07 4.56±0.07 4.65±0.05 4.55±0.06 4.44±0.07 4.56±0.07 4.65±0.05 0.00 4.59 4.95 4.11 64 337
16 grok_2_1212 4.55±0.06 4.41±0.08 4.60±0.06 4.65±0.05 4.55±0.06 4.41±0.08 4.60±0.06 4.65±0.05 0.00 4.74 4.94 3.98 64 269
16 saiga_gemma3_12b 4.55±0.06 4.50±0.06 4.55±0.07 4.60±0.06 4.73±0.07 4.68±0.07 4.73±0.07 4.79±0.06 0.00 4.74 4.94 4.51 64 768
16 gemini_2_0_flash_exp 4.54±0.07 4.39±0.09 4.60±0.06 4.64±0.06 4.54±0.07 4.39±0.09 4.60±0.06 4.64±0.06 0.00 4.76 4.93 3.94 64 254
16 minimax_01 4.53±0.07 4.44±0.08 4.54±0.08 4.63±0.06 4.59±0.08 4.50±0.08 4.60±0.09 4.69±0.06 0.00 4.62 4.96 4.20 64 423
23 gemini_pro_1_5_002 4.51±0.10 4.40±0.11 4.56±0.10 4.58±0.09 4.51±0.10 4.40±0.11 4.56±0.10 4.58±0.09 0.00 4.69 4.79 4.06 64 223
23 aya_expanse_32b 4.51±0.07 4.42±0.08 4.51±0.09 4.60±0.05 4.58±0.07 4.49±0.08 4.59±0.08 4.67±0.06 0.00 4.60 4.92 4.23 64 450
23 gemini_pro_1_5 4.49±0.07 4.40±0.08 4.52±0.08 4.56±0.06 4.49±0.08 4.40±0.08 4.52±0.08 4.56±0.06 0.02 4.60 4.75 4.13 64 213
23 gpt_4o_mini 4.49±0.06 4.38±0.07 4.53±0.06 4.57±0.05 4.49±0.06 4.38±0.07 4.52±0.07 4.58±0.05 0.00 4.62 4.82 4.04 64 329
23 gpt_4o 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.07 4.47±0.08 4.35±0.10 4.51±0.09 4.56±0.07 0.02 4.60 4.82 3.99 64 301
23 t_pro_it_1_0 4.46±0.09 4.35±0.09 4.47±0.10 4.58±0.07 4.47±0.08 4.36±0.09 4.47±0.10 4.59±0.07 0.00 4.46 4.94 4.03 64 364
23 qwen25_72b_it 4.45±0.07 4.35±0.08 4.48±0.08 4.54±0.06 4.45±0.07 4.35±0.09 4.48±0.07 4.54±0.06 0.02 4.55 4.80 4.02 64 326
23 gemma2_ataraxy_9b 4.45±0.07 4.39±0.08 4.49±0.08 4.47±0.08 4.45±0.07 4.39±0.07 4.49±0.08 4.47±0.07 0.00 4.61 4.53 4.21 64 302
23 claude_3_opus 4.45±0.06 4.42±0.06 4.47±0.07 4.46±0.06 4.62±0.06 4.59±0.06 4.65±0.07 4.64±0.06 0.05 4.72 4.67 4.48 64 753
32 llama33_70b_it 4.44±0.09 4.35±0.09 4.49±0.08 4.48±0.09 4.50±0.09 4.41±0.09 4.55±0.08 4.54±0.09 0.00 4.69 4.67 4.14 64 429
32 nous_hermes_3_405b 4.44±0.09 4.34±0.09 4.46±0.10 4.52±0.08 4.44±0.09 4.34±0.09 4.46±0.10 4.52±0.08 0.00 4.54 4.74 4.05 62 286
32 mistral_nemo_vikhr_12b 4.44±0.08 4.35±0.09 4.45±0.08 4.53±0.06 4.44±0.08 4.35±0.08 4.45±0.09 4.53±0.07 0.00 4.48 4.79 4.07 64 315
32 gemma2_ifable_9b 4.43±0.08 4.38±0.09 4.48±0.09 4.44±0.08 4.43±0.08 4.39±0.09 4.47±0.09 4.44±0.08 0.00 4.60 4.46 4.24 64 314
32 qwen25_32b_it 4.42±0.08 4.32±0.08 4.45±0.09 4.50±0.08 4.42±0.08 4.32±0.09 4.45±0.09 4.49±0.08 0.00 4.54 4.71 4.01 64 267
32 llama31_405b_it 4.42±0.06 4.36±0.07 4.45±0.07 4.46±0.06 4.53±0.07 4.47±0.07 4.57±0.07 4.57±0.07 0.00 4.66 4.69 4.26 64 536
32 qwen2_72b_it 4.41±0.08 4.30±0.10 4.42±0.10 4.52±0.07 4.41±0.08 4.30±0.09 4.42±0.10 4.52±0.07 0.00 4.43 4.85 3.96 64 242
32 gemma2_27b_it 4.41±0.08 4.28±0.09 4.46±0.07 4.49±0.07 4.41±0.07 4.28±0.09 4.46±0.07 4.49±0.07 0.00 4.62 4.73 3.88 64 210
32 nova_pro_v1 4.41±0.08 4.29±0.09 4.43±0.09 4.53±0.06 4.46±0.08 4.34±0.09 4.48±0.09 4.58±0.06 0.02 4.53 4.92 3.95 64 419
32 mistral_large_123b_2411 4.40±0.10 4.25±0.11 4.45±0.10 4.54±0.08 4.41±0.09 4.25±0.11 4.45±0.09 4.54±0.08 0.00 4.55 4.93 3.75 64 251
32 command_r_plus_104b_0824 4.39±0.08 4.32±0.08 4.40±0.09 4.45±0.08 4.47±0.08 4.39±0.09 4.48±0.09 4.54±0.08 0.00 4.52 4.73 4.16 64 470
43 ruadapt_qwen25_7b_lite_beta 4.37±0.08 4.35±0.08 4.37±0.08 4.40±0.08 4.52±0.08 4.51±0.07 4.53±0.09 4.56±0.08 0.02 4.52 4.63 4.44 64 682
43 mistral_nemo_gutenberg_12b_v2 4.36±0.09 4.32±0.09 4.37±0.10 4.42±0.08 4.51±0.09 4.46±0.09 4.52±0.10 4.57±0.08 0.00 4.52 4.73 4.29 64 661
43 llama31_70b_it 4.34±0.09 4.31±0.08 4.39±0.09 4.32±0.10 4.43±0.09 4.40±0.08 4.48±0.09 4.42±0.11 0.00 4.62 4.38 4.31 64 499
43 t_lite_it_1_0 4.33±0.10 4.22±0.10 4.30±0.11 4.46±0.07 4.37±0.10 4.27±0.10 4.35±0.11 4.51±0.07 0.00 4.28 4.91 3.96 64 414
43 recoilme_gemma_2_9B_v0_5 4.33±0.10 4.18±0.12 4.37±0.11 4.46±0.09 4.33±0.10 4.18±0.11 4.36±0.11 4.46±0.09 0.02 4.46 4.83 3.72 64 264
43 gemma2_9b_it_sppo_iter3 4.32±0.09 4.26±0.10 4.38±0.09 4.34±0.10 4.32±0.10 4.26±0.09 4.38±0.09 4.34±0.09 0.00 4.54 4.38 4.05 64 226
43 claude_3_haiku 4.32±0.08 4.25±0.09 4.33±0.10 4.41±0.07 4.45±0.09 4.37±0.09 4.45±0.10 4.54±0.07 0.00 4.45 4.79 4.13 64 589
50 mistral_small_24b_2501 4.30±0.10 4.15±0.10 4.32±0.11 4.44±0.09 4.32±0.10 4.17±0.12 4.34±0.11 4.45±0.09 0.00 4.39 4.85 3.71 64 368
50 magnum_v2_123b 4.29±0.10 4.22±0.10 4.29±0.12 4.36±0.10 4.39±0.10 4.32±0.10 4.39±0.12 4.46±0.09 0.00 4.39 4.66 4.12 64 506
50 gemma2_ataraxy_gemmasutra_9b 4.28±0.11 4.15±0.11 4.31±0.11 4.40±0.09 4.28±0.10 4.15±0.11 4.31±0.11 4.41±0.09 0.00 4.36 4.75 3.75 64 256
50 mistral_nemo_12b 4.28±0.11 4.16±0.12 4.29±0.13 4.41±0.09 4.28±0.12 4.16±0.13 4.29±0.13 4.42±0.09 0.03 4.28 4.80 3.77 64 313
50 qwen25_14b_it 4.27±0.11 4.17±0.12 4.29±0.12 4.35±0.11 4.27±0.11 4.18±0.12 4.29±0.12 4.34±0.10 0.00 4.35 4.58 3.89 64 278
50 aya_expanse_8b 4.27±0.10 4.21±0.10 4.22±0.13 4.38±0.09 4.39±0.10 4.34±0.11 4.35±0.12 4.51±0.09 0.00 4.20 4.84 4.15 64 585
50 llama31_vikhr_8b 4.26±0.12 4.20±0.11 4.29±0.12 4.30±0.12 4.29±0.11 4.23±0.11 4.32±0.12 4.34±0.12 0.00 4.41 4.45 4.03 64 396
57 gigachat_max_preview 4.23±0.12 4.12±0.13 4.19±0.15 4.40±0.09 4.23±0.12 4.11±0.12 4.19±0.14 4.41±0.10 0.09 4.06 4.90 3.75 64 286
57 phi_4_14b 4.22±0.10 4.11±0.10 4.21±0.11 4.35±0.08 4.32±0.10 4.22±0.11 4.32±0.11 4.46±0.08 0.00 4.28 4.84 3.87 64 534
57 phi_4_14b_unsloth 4.22±0.10 4.11±0.11 4.20±0.12 4.35±0.08 4.32±0.11 4.21±0.12 4.31±0.12 4.46±0.09 0.00 4.25 4.86 3.86 64 530
57 command_r_plus_104b_0424 4.21±0.09 4.15±0.09 4.21±0.10 4.28±0.08 4.34±0.09 4.27±0.09 4.34±0.11 4.42±0.08 0.00 4.32 4.63 4.07 64 615
57 llama32_11b_it 4.20±0.11 4.10±0.11 4.24±0.11 4.28±0.11 4.21±0.11 4.11±0.11 4.25±0.10 4.29±0.11 0.08 4.34 4.51 3.80 64 361
57 command_r_35b_0824 4.20±0.10 4.07±0.12 4.18±0.13 4.35±0.08 4.20±0.11 4.07±0.11 4.19±0.12 4.35±0.08 0.00 4.15 4.78 3.67 64 209
57 gemma2_9b_it_simpo 4.19±0.11 4.16±0.12 4.26±0.12 4.18±0.12 4.20±0.11 4.16±0.12 4.27±0.10 4.18±0.12 0.00 4.45 4.10 4.05 64 322
57 deepseek_chat_v2_0628 4.18±0.12 4.06±0.13 4.20±0.13 4.30±0.10 4.18±0.12 4.06±0.13 4.19±0.12 4.31±0.11 0.00 4.21 4.66 3.69 64 337
65 wizardlm_2_8x22b 4.13±0.11 4.10±0.12 4.13±0.13 4.18±0.10 4.31±0.12 4.26±0.12 4.30±0.14 4.35±0.11 0.00 4.28 4.49 4.15 64 832
65 yandexgpt_4_pro 4.11±0.11 3.92±0.11 4.11±0.12 4.32±0.09 4.11±0.10 3.92±0.11 4.11±0.13 4.32±0.08 0.03 4.10 4.92 3.33 64 218
65 llama31_8b_it 4.09±0.12 4.02±0.12 4.14±0.11 4.11±0.13 4.09±0.12 4.02±0.11 4.14±0.12 4.11±0.13 0.00 4.30 4.17 3.80 64 325
68 gemma2_9b_it 4.03±0.12 3.98±0.12 4.11±0.12 4.00±0.14 4.02±0.12 3.97±0.13 4.11±0.12 4.00±0.14 0.00 4.34 3.93 3.81 64 224
68 magnum_v4_72b 4.02±0.15 3.92±0.15 4.01±0.15 4.13±0.14 4.13±0.15 4.04±0.15 4.13±0.15 4.25±0.15 0.00 4.10 4.60 3.71 64 579
68 gemma2_9b_it_abl 4.02±0.12 3.95±0.11 4.07±0.12 4.07±0.12 4.02±0.11 3.95±0.11 4.07±0.11 4.06±0.12 0.00 4.19 4.18 3.71 64 162
68 jamba_1_5_large 3.98±0.12 3.83±0.12 4.01±0.14 4.11±0.12 3.98±0.12 3.83±0.12 4.01±0.14 4.11±0.11 0.00 4.07 4.50 3.39 64 203
72 mini_magnum_12b_v1_1 3.97±0.15 3.88±0.15 3.95±0.16 4.07±0.13 4.08±0.15 4.00±0.16 4.07±0.16 4.18±0.14 0.00 4.02 4.50 3.72 64 575
72 ruadapt_llama3_kto_abl 3.95±0.13 3.86±0.14 3.97±0.14 4.02±0.13 3.95±0.14 3.86±0.14 3.97±0.14 4.04±0.14 0.00 4.02 4.26 3.58 64 357
72 qwen2_7b_it 3.94±0.13 3.81±0.13 3.90±0.15 4.11±0.11 3.93±0.13 3.81±0.13 3.90±0.15 4.10±0.11 0.00 3.78 4.62 3.42 64 276
72 saiga_llama3_8b 3.94±0.11 3.79±0.11 3.94±0.12 4.10±0.10 3.94±0.10 3.79±0.11 3.94±0.12 4.10±0.10 0.00 3.93 4.57 3.32 64 207
76 gigachat_pro_102615 3.90±0.13 3.71±0.13 3.84±0.15 4.16±0.09 3.90±0.12 3.71±0.14 3.84±0.15 4.16±0.09 0.12 3.66 4.92 3.14 64 229
77 yandexgpt_pro 3.83±0.10 3.66±0.11 3.81±0.12 4.03±0.09 3.83±0.10 3.66±0.11 3.81±0.13 4.03±0.10 0.14 3.76 4.60 3.14 64 226
78 eurollm_9b_it 3.61±0.13 3.47±0.14 3.59±0.16 3.78±0.14 3.68±0.15 3.54±0.14 3.67±0.15 3.85±0.13 0.00 3.60 4.34 3.11 64 489
79 llama31_euryale_70b_v2_2 3.50±0.18 3.51±0.17 3.58±0.18 3.43±0.19 3.55±0.17 3.56±0.17 3.63±0.18 3.48±0.19 0.00 3.84 3.25 3.57 63 439
80 vikhr_gemma_2b_it 2.82±0.13 2.87±0.12 2.84±0.13 2.74±0.15 2.89±0.14 2.95±0.13 2.92±0.14 2.82±0.15 0.00 2.99 2.61 3.09 63 576
80 phi_35_mini_4b_it 2.82±0.11 2.85±0.11 2.84±0.12 2.76±0.13 2.84±0.11 2.89±0.11 2.88±0.12 2.80±0.12 0.00 2.94 2.62 2.99 64 417