pingpong

A benchmark for role-playing LLMs

View on GitHub

Russian learderboard, v2

Last updated: 2025-01-17 23:08:28

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 claude_3_5_sonnet_20241022 4.77±0.04 4.70±0.05 4.80±0.05 4.82±0.03 4.78±0.04 4.71±0.05 4.81±0.04 4.82±0.04 0.02 4.89 4.94 4.51 64 348
2 gpt_4o_2024_11_20 4.66±0.06 4.56±0.08 4.71±0.06 4.74±0.04 4.67±0.07 4.57±0.07 4.71±0.06 4.74±0.05 0.00 4.82 4.95 4.24 64 349
2 claude_3_5_sonnet 4.63±0.07 4.58±0.08 4.67±0.08 4.67±0.06 4.68±0.07 4.62±0.08 4.71±0.08 4.71±0.07 0.30 4.80 4.80 4.44 64 388
2 deepseek_v3 4.63±0.07 4.54±0.08 4.67±0.06 4.70±0.06 4.64±0.07 4.55±0.08 4.68±0.07 4.71±0.06 0.00 4.79 4.90 4.26 64 360
5 sainemo_remix_12b 4.57±0.07 4.50±0.07 4.58±0.08 4.65±0.06 4.61±0.07 4.54±0.08 4.62±0.08 4.69±0.06 0.00 4.64 4.91 4.30 64 392
5 saiga_nemo_12b_v3 4.57±0.06 4.52±0.07 4.55±0.07 4.63±0.04 4.68±0.06 4.63±0.06 4.67±0.07 4.75±0.05 0.00 4.63 4.93 4.49 64 524
5 grok_2_1212 4.55±0.06 4.41±0.08 4.60±0.06 4.65±0.05 4.55±0.06 4.41±0.08 4.60±0.06 4.65±0.05 0.00 4.74 4.94 3.98 64 269
5 gemini_2_0_flash_exp 4.54±0.07 4.39±0.09 4.60±0.06 4.64±0.05 4.54±0.07 4.39±0.09 4.60±0.07 4.64±0.06 0.00 4.76 4.93 3.94 64 254
5 mistral_nemo_vikhr_dostoevsky_slerp_12b 4.54±0.06 4.44±0.08 4.56±0.07 4.65±0.05 4.55±0.07 4.44±0.07 4.56±0.07 4.65±0.05 0.00 4.58 4.95 4.11 64 337
5 minimax_01 4.53±0.07 4.44±0.09 4.54±0.08 4.62±0.06 4.59±0.07 4.50±0.08 4.60±0.09 4.69±0.06 0.00 4.62 4.96 4.20 64 423
11 gemini_pro_1_5_002 4.51±0.10 4.40±0.11 4.56±0.09 4.58±0.09 4.51±0.09 4.40±0.11 4.56±0.10 4.58±0.08 0.00 4.69 4.79 4.06 64 223
11 aya_expanse_32b 4.50±0.07 4.42±0.07 4.51±0.08 4.59±0.06 4.58±0.07 4.50±0.07 4.59±0.09 4.67±0.06 0.00 4.60 4.92 4.23 64 450
11 gemini_pro_1_5 4.49±0.08 4.40±0.08 4.52±0.08 4.56±0.06 4.49±0.07 4.40±0.08 4.52±0.08 4.56±0.07 0.02 4.60 4.75 4.13 64 213
11 gpt_4o_mini 4.49±0.06 4.38±0.07 4.52±0.07 4.58±0.05 4.49±0.06 4.38±0.07 4.52±0.06 4.57±0.05 0.00 4.62 4.82 4.04 64 329
11 gpt_4o 4.47±0.08 4.35±0.09 4.51±0.08 4.56±0.06 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.07 0.02 4.61 4.82 3.99 64 301
11 t_pro_it_1_0 4.45±0.09 4.35±0.09 4.46±0.10 4.57±0.07 4.47±0.09 4.36±0.10 4.47±0.10 4.59±0.07 0.00 4.47 4.94 4.03 64 364
11 qwen25_72b_it 4.45±0.07 4.35±0.08 4.48±0.07 4.54±0.06 4.45±0.07 4.35±0.08 4.48±0.08 4.54±0.06 0.02 4.55 4.80 4.02 64 326
18 nous_hermes_3_405b 4.44±0.09 4.34±0.09 4.46±0.10 4.52±0.08 4.44±0.09 4.35±0.09 4.46±0.10 4.52±0.08 0.00 4.54 4.74 4.05 62 286
18 mistral_nemo_vikhr_12b 4.44±0.08 4.35±0.08 4.45±0.09 4.53±0.07 4.44±0.07 4.35±0.08 4.45±0.08 4.53±0.06 0.00 4.48 4.79 4.07 64 315
18 gemma2_ataraxy_9b 4.44±0.07 4.39±0.07 4.49±0.07 4.47±0.08 4.44±0.07 4.39±0.08 4.49±0.07 4.47±0.08 0.00 4.61 4.53 4.22 64 302
18 claude_3_opus 4.44±0.06 4.41±0.06 4.47±0.07 4.46±0.06 4.62±0.06 4.59±0.06 4.65±0.07 4.64±0.06 0.05 4.72 4.67 4.48 64 753
18 llama33_70b_it 4.43±0.09 4.35±0.09 4.48±0.08 4.48±0.09 4.50±0.09 4.41±0.09 4.55±0.09 4.54±0.09 0.00 4.70 4.67 4.14 64 429
18 gemma2_ifable_9b 4.43±0.08 4.38±0.09 4.47±0.09 4.44±0.08 4.43±0.08 4.38±0.08 4.47±0.09 4.44±0.08 0.00 4.60 4.46 4.24 64 314
18 qwen25_32b_it 4.42±0.08 4.32±0.09 4.45±0.09 4.49±0.08 4.42±0.08 4.32±0.09 4.45±0.09 4.49±0.08 0.00 4.55 4.72 4.00 64 267
18 llama31_405b_it 4.42±0.06 4.36±0.07 4.45±0.07 4.46±0.07 4.53±0.06 4.47±0.07 4.56±0.07 4.57±0.06 0.00 4.66 4.69 4.26 64 536
18 qwen2_72b_it 4.41±0.08 4.30±0.09 4.41±0.09 4.52±0.07 4.41±0.08 4.30±0.10 4.42±0.10 4.52±0.07 0.00 4.43 4.85 3.96 64 242
18 gemma2_27b_it 4.41±0.07 4.28±0.09 4.46±0.07 4.49±0.07 4.40±0.07 4.28±0.09 4.46±0.08 4.49±0.07 0.00 4.63 4.73 3.88 64 210
18 nova_pro_v1 4.40±0.08 4.28±0.09 4.43±0.09 4.52±0.07 4.46±0.09 4.34±0.09 4.48±0.09 4.58±0.07 0.02 4.53 4.92 3.95 64 419
29 command_r_plus_104b_0824 4.38±0.08 4.31±0.08 4.40±0.09 4.45±0.07 4.46±0.08 4.39±0.08 4.48±0.10 4.54±0.07 0.00 4.52 4.73 4.16 64 470
29 mistral_nemo_gutenberg_12b_v2 4.36±0.09 4.31±0.09 4.37±0.09 4.42±0.08 4.51±0.09 4.46±0.09 4.52±0.10 4.57±0.08 0.00 4.52 4.73 4.30 64 661
29 recoilme_gemma_2_9B_v0_5 4.33±0.10 4.18±0.12 4.37±0.11 4.46±0.09 4.33±0.10 4.18±0.12 4.36±0.10 4.46±0.09 0.02 4.45 4.83 3.72 64 264
29 llama31_70b_it 4.33±0.09 4.31±0.08 4.38±0.09 4.33±0.10 4.43±0.09 4.40±0.08 4.48±0.08 4.42±0.11 0.00 4.61 4.38 4.31 64 499
29 gemma2_9b_it_sppo_iter3 4.32±0.09 4.26±0.10 4.38±0.10 4.34±0.10 4.32±0.10 4.26±0.09 4.38±0.10 4.34±0.10 0.00 4.54 4.38 4.06 64 226
29 claude_3_haiku 4.32±0.09 4.25±0.09 4.32±0.10 4.41±0.07 4.45±0.08 4.38±0.09 4.45±0.10 4.54±0.07 0.00 4.45 4.79 4.13 64 589
29 t_lite_it_1_0 4.32±0.09 4.22±0.10 4.30±0.10 4.46±0.08 4.37±0.09 4.27±0.10 4.35±0.11 4.51±0.07 0.00 4.27 4.91 3.95 64 414
36 magnum_v2_123b 4.29±0.10 4.22±0.10 4.29±0.12 4.36±0.09 4.39±0.11 4.32±0.10 4.39±0.12 4.46±0.10 0.00 4.39 4.66 4.11 64 506
36 mistral_nemo_12b 4.28±0.11 4.16±0.12 4.29±0.13 4.41±0.09 4.28±0.11 4.16±0.13 4.29±0.12 4.42±0.10 0.03 4.29 4.80 3.78 64 313
36 gemma2_ataraxy_gemmasutra_9b 4.28±0.11 4.15±0.12 4.31±0.11 4.40±0.09 4.28±0.10 4.15±0.11 4.31±0.11 4.40±0.09 0.00 4.37 4.75 3.74 64 256
36 aya_expanse_8b 4.27±0.10 4.21±0.10 4.22±0.12 4.38±0.09 4.39±0.11 4.33±0.10 4.35±0.13 4.51±0.09 0.00 4.20 4.84 4.15 64 585
36 qwen25_14b_it 4.26±0.11 4.18±0.11 4.29±0.12 4.35±0.10 4.27±0.11 4.17±0.12 4.29±0.12 4.35±0.11 0.00 4.35 4.58 3.88 64 278
36 llama31_vikhr_8b 4.25±0.11 4.19±0.11 4.28±0.12 4.30±0.12 4.29±0.12 4.23±0.11 4.33±0.12 4.34±0.12 0.00 4.41 4.45 4.03 64 396
36 gigachat_max_preview 4.23±0.12 4.12±0.12 4.19±0.15 4.40±0.09 4.23±0.12 4.11±0.12 4.19±0.15 4.40±0.10 0.09 4.06 4.90 3.75 64 286
43 phi_4_14b 4.22±0.10 4.11±0.10 4.21±0.11 4.34±0.08 4.33±0.10 4.21±0.11 4.32±0.11 4.46±0.08 0.00 4.29 4.84 3.87 64 534
43 phi_4_14b_unsloth 4.21±0.10 4.10±0.11 4.20±0.12 4.35±0.08 4.32±0.10 4.21±0.11 4.31±0.12 4.46±0.08 0.00 4.24 4.86 3.86 64 530
43 llama32_11b_it 4.20±0.11 4.10±0.11 4.23±0.11 4.27±0.11 4.21±0.11 4.11±0.12 4.25±0.11 4.29±0.12 0.08 4.34 4.51 3.80 64 361
43 command_r_35b_0824 4.20±0.11 4.07±0.11 4.19±0.13 4.35±0.08 4.20±0.10 4.07±0.10 4.19±0.13 4.34±0.08 0.00 4.14 4.79 3.67 64 209
43 command_r_plus_104b_0424 4.20±0.09 4.14±0.09 4.20±0.11 4.28±0.08 4.34±0.09 4.27±0.09 4.34±0.11 4.41±0.08 0.00 4.33 4.63 4.07 64 615
43 gemma2_9b_it_simpo 4.19±0.12 4.16±0.11 4.27±0.12 4.18±0.12 4.19±0.12 4.16±0.12 4.26±0.12 4.18±0.12 0.00 4.45 4.10 4.05 64 322
43 deepseek_chat_v2_0628 4.18±0.12 4.06±0.12 4.19±0.13 4.31±0.10 4.18±0.12 4.06±0.12 4.19±0.13 4.30±0.10 0.00 4.21 4.67 3.69 64 337
50 wizardlm_2_8x22b 4.12±0.12 4.09±0.11 4.13±0.13 4.17±0.11 4.30±0.12 4.27±0.12 4.30±0.13 4.35±0.11 0.00 4.29 4.49 4.15 64 832
50 yandexgpt_4_pro 4.11±0.11 3.92±0.11 4.11±0.12 4.31±0.09 4.11±0.10 3.92±0.11 4.11±0.13 4.31±0.09 0.03 4.10 4.91 3.33 64 218
50 llama31_8b_it 4.09±0.12 4.02±0.12 4.15±0.12 4.11±0.13 4.09±0.12 4.02±0.12 4.15±0.12 4.11±0.13 0.00 4.30 4.17 3.80 64 325
53 gemma2_9b_it 4.03±0.12 3.97±0.12 4.11±0.13 4.00±0.13 4.03±0.13 3.98±0.12 4.11±0.13 4.00±0.14 0.00 4.35 3.93 3.81 64 224
53 magnum_v4_72b 4.02±0.14 3.92±0.14 4.01±0.16 4.14±0.13 4.13±0.15 4.04±0.15 4.13±0.15 4.25±0.15 0.00 4.10 4.61 3.71 64 579
53 gemma2_9b_it_abl 4.02±0.11 3.94±0.11 4.07±0.11 4.07±0.12 4.02±0.12 3.94±0.11 4.07±0.11 4.06±0.12 0.00 4.18 4.18 3.71 64 162
53 jamba_1_5_large 3.98±0.11 3.83±0.12 4.01±0.14 4.11±0.11 3.98±0.12 3.83±0.12 4.01±0.13 4.12±0.11 0.00 4.07 4.50 3.38 64 203
57 mini_magnum_12b_v1_1 3.96±0.15 3.88±0.16 3.96±0.16 4.07±0.14 4.08±0.15 3.99±0.16 4.07±0.17 4.19±0.15 0.00 4.03 4.50 3.73 64 575
57 ruadapt_llama3_kto_abl 3.94±0.13 3.85±0.13 3.96±0.14 4.02±0.13 3.95±0.13 3.86±0.13 3.97±0.13 4.04±0.13 0.00 4.03 4.26 3.59 64 357
57 saiga_llama3_8b 3.94±0.11 3.79±0.11 3.94±0.12 4.10±0.09 3.94±0.10 3.79±0.11 3.94±0.12 4.10±0.09 0.00 3.93 4.57 3.32 64 207
57 qwen2_7b_it 3.93±0.13 3.81±0.13 3.90±0.14 4.11±0.11 3.93±0.13 3.81±0.14 3.89±0.15 4.11±0.11 0.00 3.78 4.61 3.42 64 276
61 gigachat_pro_102615 3.90±0.12 3.72±0.13 3.84±0.15 4.16±0.09 3.90±0.12 3.71±0.13 3.84±0.15 4.16±0.09 0.12 3.65 4.92 3.15 64 229
62 yandexgpt_pro 3.83±0.11 3.66±0.11 3.81±0.12 4.02±0.10 3.83±0.10 3.66±0.10 3.81±0.11 4.03±0.10 0.14 3.75 4.60 3.14 64 226
63 eurollm_9b_it 3.61±0.14 3.47±0.15 3.59±0.15 3.77±0.14 3.68±0.14 3.54±0.15 3.66±0.15 3.85±0.13 0.00 3.60 4.35 3.11 64 489
64 llama31_euryale_70b_v2_2 3.50±0.18 3.50±0.17 3.58±0.18 3.43±0.18 3.55±0.18 3.56±0.17 3.63±0.19 3.48±0.18 0.00 3.85 3.26 3.57 63 439
65 vikhr_gemma_2b_it 2.82±0.13 2.86±0.12 2.84±0.13 2.75±0.15 2.90±0.14 2.94±0.13 2.92±0.14 2.83±0.15 0.00 2.99 2.60 3.09 63 576
65 phi_35_mini_4b_it 2.81±0.11 2.85±0.11 2.84±0.13 2.76±0.13 2.85±0.11 2.89±0.12 2.87±0.12 2.79±0.12 0.00 2.94 2.62 2.99 64 417