pingpong

A benchmark for role-playing LLMs

View on GitHub

Russian learderboard, v2

Last updated: 2025-05-25 20:17:20

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 deepseek_v3_0324 4.79±0.04 4.71±0.05 4.83±0.04 4.84±0.04 4.79±0.04 4.72±0.05 4.83±0.04 4.84±0.04 0.00 4.93 4.96 4.49 64 314
1 claude_3_5_sonnet_20241022 4.78±0.04 4.71±0.05 4.81±0.04 4.82±0.03 4.78±0.04 4.71±0.05 4.81±0.04 4.82±0.03 0.02 4.89 4.94 4.51 64 348
1 gpt_45_preview 4.75±0.04 4.66±0.05 4.79±0.04 4.81±0.03 4.75±0.04 4.66±0.06 4.79±0.04 4.81±0.03 0.00 4.91 4.99 4.37 64 303
4 gemma3_27b_it 4.72±0.04 4.63±0.05 4.75±0.05 4.78±0.03 4.73±0.04 4.64±0.06 4.76±0.05 4.79±0.03 0.02 4.84 4.99 4.37 64 364
4 gpt_4_1 4.71±0.03 4.64±0.04 4.74±0.04 4.77±0.03 4.77±0.03 4.69±0.04 4.80±0.04 4.83±0.03 0.00 4.88 4.99 4.45 64 424
4 claude_3_7_sonnet_20250219 4.70±0.03 4.64±0.04 4.74±0.03 4.74±0.03 4.83±0.03 4.76±0.04 4.86±0.03 4.87±0.03 0.00 4.95 4.98 4.56 64 556
4 gemma3_12b_it 4.68±0.06 4.57±0.07 4.71±0.05 4.76±0.04 4.68±0.05 4.57±0.07 4.71±0.05 4.76±0.04 0.00 4.81 4.98 4.25 64 305
4 claude_4_sonnet 4.68±0.03 4.63±0.04 4.70±0.04 4.71±0.03 4.82±0.04 4.77±0.04 4.85±0.04 4.86±0.03 0.00 4.91 4.95 4.61 64 620
4 gpt_4_1_mini 4.67±0.06 4.57±0.07 4.70±0.06 4.74±0.05 4.67±0.06 4.57±0.07 4.70±0.06 4.74±0.05 0.00 4.78 4.96 4.28 64 291
4 gpt_4o_2024_11_20 4.67±0.06 4.56±0.07 4.71±0.06 4.74±0.05 4.67±0.06 4.57±0.07 4.71±0.06 4.74±0.05 0.00 4.82 4.95 4.24 64 349
11 claude_3_5_sonnet 4.65±0.07 4.59±0.08 4.68±0.08 4.68±0.06 4.68±0.07 4.62±0.08 4.71±0.08 4.71±0.07 0.30 4.80 4.80 4.44 64 388
11 deepseek_v3 4.64±0.07 4.55±0.08 4.68±0.07 4.71±0.06 4.65±0.06 4.55±0.08 4.68±0.07 4.71±0.06 0.00 4.79 4.90 4.25 64 360
11 gemini_2_5_pro_exp_03_25 4.63±0.08 4.52±0.09 4.69±0.07 4.71±0.06 4.63±0.07 4.52±0.08 4.69±0.07 4.71±0.06 0.00 4.84 4.93 4.14 64 332
14 ruadapt_qwen25_32b_pro_beta 4.59±0.06 4.52±0.07 4.61±0.06 4.65±0.06 4.60±0.06 4.53±0.07 4.63±0.07 4.66±0.06 0.00 4.69 4.82 4.32 64 371
14 saiga_yandexgpt_8b 4.59±0.05 4.52±0.06 4.60±0.06 4.66±0.04 4.69±0.06 4.62±0.06 4.70±0.06 4.77±0.04 0.00 4.71 4.98 4.39 64 515
14 sainemo_remix_12b 4.58±0.07 4.51±0.08 4.59±0.07 4.66±0.05 4.61±0.07 4.54±0.07 4.62±0.08 4.69±0.05 0.00 4.64 4.91 4.30 64 392
14 saiga_nemo_12b_v3 4.57±0.06 4.53±0.06 4.56±0.07 4.64±0.05 4.68±0.06 4.64±0.06 4.67±0.07 4.74±0.05 0.00 4.63 4.93 4.49 64 524
14 command_a_111b_0325 4.56±0.06 4.47±0.07 4.59±0.07 4.64±0.05 4.62±0.06 4.52±0.07 4.65±0.07 4.70±0.05 0.00 4.73 4.91 4.23 64 431
14 grok_2_1212 4.55±0.06 4.41±0.07 4.60±0.06 4.65±0.05 4.55±0.06 4.41±0.07 4.60±0.06 4.65±0.05 0.00 4.74 4.94 3.98 64 269
14 saiga_gemma3_12b 4.55±0.06 4.50±0.07 4.55±0.07 4.60±0.05 4.72±0.07 4.67±0.07 4.73±0.07 4.79±0.06 0.00 4.74 4.94 4.51 64 768
14 gemini_2_0_flash_exp 4.54±0.07 4.39±0.08 4.60±0.07 4.64±0.05 4.54±0.07 4.39±0.09 4.60±0.06 4.64±0.05 0.00 4.76 4.93 3.94 64 254
14 mistral_nemo_vikhr_dostoevsky_slerp_12b 4.54±0.07 4.44±0.08 4.56±0.07 4.65±0.05 4.55±0.06 4.44±0.07 4.56±0.07 4.65±0.05 0.00 4.58 4.95 4.11 64 337
14 minimax_01 4.54±0.07 4.45±0.08 4.55±0.08 4.63±0.06 4.59±0.07 4.50±0.08 4.60±0.09 4.69±0.06 0.00 4.62 4.96 4.20 64 423
24 gemini_pro_1_5_002 4.51±0.09 4.40±0.11 4.56±0.10 4.58±0.09 4.51±0.10 4.40±0.10 4.56±0.10 4.58±0.08 0.00 4.69 4.79 4.07 64 223
24 aya_expanse_32b 4.51±0.07 4.43±0.07 4.52±0.08 4.60±0.05 4.58±0.08 4.50±0.07 4.59±0.08 4.67±0.06 0.00 4.60 4.92 4.23 64 450
24 gemini_pro_1_5 4.49±0.08 4.40±0.09 4.52±0.08 4.56±0.07 4.49±0.08 4.40±0.09 4.52±0.08 4.56±0.07 0.02 4.60 4.75 4.13 64 213
24 gpt_4o_mini 4.49±0.06 4.38±0.07 4.52±0.07 4.57±0.05 4.49±0.06 4.38±0.08 4.52±0.07 4.58±0.05 0.00 4.62 4.82 4.04 64 329
24 gpt_4o 4.47±0.07 4.35±0.09 4.51±0.09 4.56±0.07 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.07 0.02 4.61 4.82 3.99 64 301
24 t_pro_it_1_0 4.46±0.09 4.36±0.10 4.46±0.10 4.58±0.07 4.47±0.09 4.37±0.09 4.48±0.10 4.59±0.07 0.00 4.47 4.94 4.03 64 364
24 gemma2_ataraxy_9b 4.45±0.08 4.39±0.08 4.49±0.07 4.47±0.07 4.45±0.07 4.39±0.07 4.49±0.07 4.47±0.08 0.00 4.61 4.52 4.21 64 302
24 qwen25_72b_it 4.45±0.07 4.35±0.08 4.48±0.08 4.54±0.06 4.45±0.07 4.35±0.08 4.48±0.08 4.54±0.06 0.02 4.55 4.80 4.02 64 326
24 claude_3_opus 4.45±0.06 4.42±0.06 4.47±0.07 4.46±0.06 4.62±0.06 4.59±0.06 4.65±0.07 4.63±0.06 0.05 4.71 4.67 4.48 64 753
33 nous_hermes_3_405b 4.44±0.09 4.35±0.09 4.47±0.10 4.51±0.08 4.44±0.09 4.34±0.09 4.46±0.10 4.52±0.08 0.00 4.54 4.74 4.05 62 286
33 mistral_nemo_vikhr_12b 4.44±0.08 4.35±0.08 4.45±0.09 4.53±0.06 4.44±0.08 4.35±0.08 4.45±0.08 4.53±0.06 0.00 4.48 4.79 4.07 64 315
33 llama33_70b_it 4.44±0.08 4.35±0.09 4.49±0.08 4.48±0.09 4.49±0.09 4.41±0.10 4.54±0.08 4.54±0.09 0.00 4.69 4.67 4.13 64 429
33 gemma2_ifable_9b 4.43±0.08 4.38±0.09 4.47±0.10 4.44±0.08 4.43±0.08 4.38±0.09 4.47±0.09 4.44±0.08 0.00 4.60 4.46 4.24 64 314
33 qwen25_32b_it 4.42±0.08 4.32±0.09 4.45±0.09 4.49±0.08 4.42±0.08 4.32±0.09 4.45±0.09 4.49±0.08 0.00 4.54 4.71 4.01 64 267
33 llama31_405b_it 4.42±0.07 4.36±0.07 4.46±0.07 4.46±0.06 4.53±0.06 4.47±0.07 4.57±0.07 4.57±0.07 0.00 4.66 4.69 4.26 64 536
33 qwen2_72b_it 4.41±0.09 4.30±0.09 4.42±0.10 4.52±0.07 4.41±0.08 4.30±0.10 4.42±0.10 4.52±0.07 0.00 4.43 4.85 3.96 64 242
33 mistral_large_123b_2411 4.41±0.09 4.24±0.12 4.45±0.10 4.54±0.07 4.41±0.09 4.24±0.11 4.45±0.09 4.54±0.08 0.00 4.55 4.93 3.75 64 251
33 nova_pro_v1 4.41±0.08 4.29±0.09 4.44±0.09 4.53±0.07 4.47±0.08 4.34±0.09 4.48±0.09 4.58±0.07 0.02 4.53 4.92 3.95 64 419
33 gemma2_27b_it 4.41±0.07 4.28±0.08 4.47±0.08 4.49±0.06 4.41±0.07 4.28±0.09 4.46±0.07 4.49±0.07 0.00 4.63 4.72 3.88 64 210
33 command_r_plus_104b_0824 4.39±0.08 4.32±0.08 4.40±0.09 4.46±0.07 4.47±0.08 4.39±0.08 4.48±0.10 4.54±0.08 0.00 4.52 4.73 4.16 64 470
44 mistral_nemo_gutenberg_12b_v2 4.37±0.09 4.32±0.09 4.37±0.10 4.42±0.07 4.51±0.09 4.46±0.10 4.52±0.10 4.57±0.08 0.00 4.52 4.73 4.30 64 661
44 ruadapt_qwen25_7b_lite_beta 4.37±0.08 4.35±0.08 4.38±0.09 4.40±0.09 4.53±0.08 4.51±0.08 4.53±0.09 4.56±0.09 0.02 4.52 4.64 4.44 64 682
44 llama31_70b_it 4.34±0.09 4.31±0.08 4.39±0.08 4.33±0.11 4.43±0.09 4.40±0.08 4.48±0.09 4.42±0.10 0.00 4.62 4.38 4.31 64 499
44 recoilme_gemma_2_9B_v0_5 4.33±0.10 4.18±0.12 4.36±0.10 4.46±0.09 4.33±0.10 4.18±0.12 4.37±0.11 4.46±0.08 0.02 4.45 4.83 3.72 64 264
44 t_lite_it_1_0 4.33±0.09 4.23±0.10 4.30±0.11 4.46±0.07 4.37±0.09 4.27±0.10 4.36±0.11 4.51±0.07 0.00 4.27 4.91 3.95 64 414
44 claude_3_haiku 4.33±0.08 4.25±0.09 4.33±0.11 4.41±0.07 4.45±0.09 4.37±0.09 4.45±0.10 4.54±0.07 0.00 4.45 4.79 4.13 64 589
44 gemma2_9b_it_sppo_iter3 4.32±0.09 4.26±0.10 4.38±0.10 4.34±0.10 4.32±0.09 4.26±0.09 4.38±0.09 4.34±0.10 0.00 4.54 4.38 4.06 64 226
51 mistral_small_24b_2501 4.30±0.10 4.15±0.11 4.33±0.11 4.44±0.09 4.32±0.10 4.17±0.11 4.34±0.11 4.45±0.09 0.00 4.39 4.85 3.71 64 368
51 magnum_v2_123b 4.29±0.10 4.23±0.10 4.30±0.12 4.36±0.09 4.39±0.10 4.32±0.11 4.39±0.12 4.46±0.09 0.00 4.39 4.66 4.11 64 506
51 mistral_nemo_12b 4.28±0.11 4.16±0.12 4.28±0.12 4.42±0.10 4.28±0.11 4.16±0.12 4.29±0.13 4.42±0.10 0.03 4.28 4.80 3.77 64 313
51 gemma2_ataraxy_gemmasutra_9b 4.28±0.10 4.15±0.11 4.31±0.11 4.40±0.09 4.28±0.10 4.15±0.12 4.31±0.11 4.40±0.09 0.00 4.36 4.75 3.74 64 256
51 qwen25_14b_it 4.27±0.11 4.18±0.11 4.29±0.12 4.34±0.10 4.27±0.12 4.18±0.11 4.29±0.13 4.35±0.12 0.00 4.35 4.58 3.89 64 278
51 aya_expanse_8b 4.27±0.11 4.22±0.11 4.23±0.13 4.38±0.09 4.39±0.11 4.34±0.10 4.35±0.13 4.51±0.09 0.00 4.20 4.84 4.15 64 585
51 llama31_vikhr_8b 4.26±0.11 4.20±0.11 4.29±0.12 4.30±0.12 4.29±0.12 4.23±0.11 4.33±0.12 4.34±0.12 0.00 4.41 4.45 4.03 64 396
58 gigachat_max_preview 4.23±0.12 4.11±0.14 4.19±0.15 4.40±0.09 4.23±0.12 4.11±0.12 4.19±0.15 4.40±0.09 0.09 4.06 4.90 3.75 64 286
58 phi_4_14b 4.22±0.10 4.11±0.11 4.22±0.11 4.35±0.08 4.32±0.10 4.22±0.11 4.32±0.12 4.46±0.08 0.00 4.28 4.84 3.87 64 534
58 phi_4_14b_unsloth 4.22±0.10 4.11±0.12 4.21±0.12 4.36±0.08 4.32±0.10 4.21±0.11 4.31±0.12 4.46±0.08 0.00 4.25 4.87 3.86 64 530
58 llama32_11b_it 4.21±0.11 4.11±0.11 4.24±0.10 4.28±0.11 4.21±0.11 4.11±0.11 4.25±0.11 4.29±0.11 0.08 4.34 4.51 3.80 64 361
58 command_r_plus_104b_0424 4.21±0.08 4.15±0.09 4.21±0.10 4.28±0.08 4.34±0.09 4.27±0.09 4.34±0.11 4.42±0.08 0.00 4.32 4.63 4.07 64 615
58 command_r_35b_0824 4.20±0.11 4.07±0.11 4.19±0.13 4.35±0.08 4.20±0.10 4.07±0.11 4.19±0.12 4.35±0.09 0.00 4.14 4.78 3.67 64 209
58 gemma2_9b_it_simpo 4.20±0.11 4.16±0.12 4.26±0.11 4.17±0.12 4.20±0.11 4.16±0.11 4.26±0.11 4.17±0.12 0.00 4.45 4.10 4.05 64 322
58 deepseek_chat_v2_0628 4.18±0.12 4.06±0.12 4.19±0.13 4.30±0.10 4.18±0.11 4.06±0.12 4.19±0.13 4.31±0.11 0.00 4.20 4.66 3.68 64 337
66 wizardlm_2_8x22b 4.13±0.11 4.09±0.12 4.13±0.12 4.17±0.10 4.30±0.12 4.27±0.12 4.30±0.13 4.35±0.11 0.00 4.28 4.49 4.14 64 832
66 yandexgpt_4_pro 4.11±0.11 3.92±0.11 4.11±0.13 4.32±0.09 4.11±0.10 3.92±0.10 4.11±0.13 4.31±0.09 0.03 4.10 4.92 3.33 64 218
66 llama31_8b_it 4.09±0.12 4.02±0.12 4.14±0.12 4.11±0.13 4.09±0.12 4.02±0.11 4.14±0.12 4.11±0.13 0.00 4.30 4.17 3.80 64 325
69 magnum_v4_72b 4.02±0.14 3.92±0.15 4.01±0.15 4.14±0.13 4.14±0.15 4.03±0.15 4.13±0.15 4.26±0.13 0.00 4.10 4.61 3.71 64 579
69 gemma2_9b_it 4.02±0.12 3.97±0.13 4.11±0.12 4.00±0.14 4.03±0.12 3.98±0.13 4.11±0.12 4.00±0.13 0.00 4.34 3.92 3.81 64 224
69 gemma2_9b_it_abl 4.02±0.11 3.95±0.11 4.07±0.11 4.06±0.12 4.02±0.11 3.95±0.10 4.07±0.11 4.06±0.13 0.00 4.19 4.17 3.71 64 162
69 jamba_1_5_large 3.98±0.13 3.84±0.12 4.01±0.14 4.12±0.11 3.98±0.12 3.83±0.12 4.01±0.14 4.12±0.12 0.00 4.07 4.50 3.39 64 203
69 mini_magnum_12b_v1_1 3.97±0.14 3.89±0.15 3.96±0.17 4.07±0.14 4.08±0.16 3.99±0.15 4.07±0.16 4.19±0.14 0.00 4.03 4.50 3.72 64 575
74 ruadapt_llama3_kto_abl 3.95±0.13 3.86±0.13 3.97±0.13 4.03±0.13 3.95±0.13 3.86±0.13 3.98±0.14 4.04±0.14 0.00 4.02 4.26 3.59 64 357
74 qwen2_7b_it 3.94±0.13 3.81±0.14 3.89±0.15 4.11±0.11 3.93±0.13 3.81±0.13 3.90±0.15 4.10±0.11 0.00 3.78 4.61 3.43 64 276
74 saiga_llama3_8b 3.94±0.11 3.79±0.11 3.94±0.12 4.10±0.10 3.94±0.10 3.79±0.11 3.94±0.12 4.10±0.09 0.00 3.93 4.57 3.32 64 207
74 gigachat_pro_102615 3.90±0.13 3.72±0.13 3.84±0.15 4.16±0.09 3.90±0.12 3.71±0.14 3.85±0.15 4.16±0.09 0.12 3.66 4.92 3.14 64 229
78 yandexgpt_pro 3.83±0.11 3.66±0.11 3.82±0.12 4.03±0.10 3.83±0.10 3.66±0.11 3.82±0.12 4.03±0.09 0.14 3.76 4.60 3.14 64 226
79 eurollm_9b_it 3.61±0.13 3.47±0.15 3.59±0.14 3.78±0.13 3.68±0.14 3.54±0.15 3.66±0.15 3.85±0.14 0.00 3.60 4.35 3.11 64 489
80 llama31_euryale_70b_v2_2 3.50±0.18 3.51±0.17 3.58±0.18 3.43±0.19 3.55±0.17 3.56±0.17 3.64±0.18 3.48±0.19 0.00 3.85 3.25 3.57 63 439
81 vikhr_gemma_2b_it 2.82±0.13 2.87±0.12 2.84±0.13 2.75±0.15 2.89±0.14 2.95±0.12 2.92±0.14 2.83±0.16 0.00 2.99 2.60 3.09 63 576
81 phi_35_mini_4b_it 2.82±0.11 2.85±0.11 2.84±0.12 2.76±0.12 2.85±0.11 2.88±0.11 2.87±0.12 2.79±0.12 0.00 2.94 2.62 2.99 64 417