pingpong

A benchmark for role-playing LLMs

View on GitHub

Russian learderboard, v2

Last updated: 2024-11-22 16:48:51

# Model name Length norm score Length norm score Length norm score Length norm score Avg score Avg score Avg score Avg score Refusal ratio Stay in character score Language fluency score Entertain score Num cases Avg length
1 claude_3_5_sonnet_20241022 4.75±0.04 4.69±0.05 4.79±0.05 4.80±0.03 4.78±0.04 4.71±0.05 4.81±0.04 4.82±0.04 0.02 4.89 4.94 4.50 64 348
2 gpt_4o_2024_11_20 4.64±0.06 4.54±0.07 4.69±0.06 4.72±0.05 4.67±0.06 4.57±0.07 4.71±0.06 4.74±0.05 0.00 4.82 4.95 4.24 64 349
2 claude_3_5_sonnet 4.62±0.07 4.57±0.08 4.66±0.08 4.66±0.07 4.67±0.08 4.62±0.08 4.71±0.07 4.71±0.06 0.30 4.80 4.80 4.44 64 388
4 saiga_nemo_12b_v3 4.56±0.05 4.51±0.06 4.55±0.07 4.62±0.05 4.68±0.06 4.63±0.06 4.67±0.07 4.74±0.04 0.00 4.63 4.93 4.49 64 524
4 mistral_nemo_vikhr_dostoevsky_slerp_12b 4.54±0.06 4.43±0.07 4.55±0.07 4.64±0.05 4.54±0.06 4.44±0.07 4.56±0.07 4.65±0.05 0.00 4.59 4.95 4.11 64 337
4 gemini_pro_1_5_002 4.51±0.09 4.40±0.11 4.56±0.10 4.59±0.09 4.51±0.09 4.40±0.11 4.56±0.10 4.58±0.08 0.00 4.69 4.79 4.06 64 223
7 gemini_pro_1_5 4.49±0.08 4.40±0.08 4.52±0.08 4.56±0.06 4.49±0.08 4.40±0.08 4.52±0.08 4.56±0.07 0.02 4.60 4.75 4.13 64 213
7 aya_expanse_32b 4.49±0.07 4.41±0.07 4.50±0.08 4.58±0.06 4.58±0.07 4.50±0.08 4.59±0.09 4.67±0.06 0.00 4.60 4.92 4.23 64 450
7 gpt_4o_mini 4.48±0.06 4.38±0.07 4.52±0.07 4.57±0.05 4.49±0.06 4.38±0.07 4.52±0.07 4.58±0.05 0.00 4.62 4.82 4.04 64 329
7 gpt_4o 4.47±0.08 4.35±0.09 4.50±0.08 4.56±0.06 4.47±0.08 4.35±0.09 4.51±0.09 4.56±0.06 0.02 4.60 4.82 3.99 64 301
7 qwen25_72b_it 4.45±0.07 4.35±0.08 4.48±0.07 4.54±0.06 4.45±0.07 4.35±0.08 4.48±0.08 4.54±0.06 0.02 4.55 4.80 4.02 64 326
7 nous_hermes_3_405b 4.44±0.09 4.35±0.10 4.46±0.09 4.52±0.09 4.44±0.09 4.34±0.09 4.47±0.09 4.52±0.08 0.00 4.54 4.74 4.05 62 286
7 gemma2_ataraxy_9b 4.44±0.08 4.39±0.08 4.49±0.07 4.47±0.07 4.44±0.07 4.39±0.08 4.49±0.08 4.47±0.07 0.00 4.61 4.52 4.21 64 302
7 mistral_nemo_vikhr_12b 4.44±0.07 4.35±0.08 4.45±0.08 4.53±0.06 4.44±0.07 4.35±0.08 4.45±0.09 4.53±0.06 0.00 4.48 4.79 4.07 64 315
7 claude_3_opus 4.44±0.06 4.41±0.06 4.46±0.07 4.45±0.06 4.62±0.06 4.59±0.06 4.65±0.07 4.64±0.06 0.05 4.72 4.67 4.48 64 753
16 gemma2_ifable_9b 4.43±0.08 4.38±0.08 4.47±0.09 4.44±0.08 4.43±0.08 4.38±0.09 4.47±0.09 4.44±0.08 0.00 4.60 4.46 4.24 64 314
16 qwen25_32b_it 4.42±0.08 4.32±0.08 4.45±0.09 4.49±0.08 4.41±0.08 4.32±0.09 4.45±0.09 4.49±0.08 0.00 4.54 4.71 4.01 64 267
16 qwen2_72b_it 4.41±0.09 4.30±0.09 4.42±0.10 4.52±0.07 4.41±0.08 4.30±0.09 4.42±0.09 4.52±0.07 0.00 4.43 4.85 3.96 64 242
16 gemma2_27b_it 4.41±0.08 4.28±0.09 4.46±0.08 4.49±0.06 4.41±0.08 4.28±0.09 4.46±0.07 4.49±0.07 0.00 4.63 4.72 3.88 64 210
16 llama31_405b_it 4.40±0.06 4.34±0.07 4.44±0.07 4.45±0.06 4.53±0.06 4.47±0.07 4.56±0.07 4.57±0.07 0.00 4.66 4.69 4.26 64 536
16 command_r_plus_104b_0824 4.37±0.08 4.30±0.08 4.39±0.09 4.44±0.07 4.47±0.08 4.39±0.08 4.49±0.09 4.53±0.07 0.00 4.53 4.73 4.16 64 470
22 mistral_nemo_gutenberg_12b_v2 4.35±0.09 4.30±0.09 4.36±0.10 4.41±0.07 4.51±0.09 4.46±0.09 4.52±0.11 4.57±0.08 0.00 4.53 4.73 4.29 64 661
22 gemma2_9b_it_sppo_iter3 4.32±0.09 4.26±0.10 4.38±0.09 4.34±0.09 4.32±0.10 4.26±0.10 4.38±0.10 4.34±0.10 0.00 4.54 4.38 4.05 64 226
22 llama31_70b_it 4.32±0.08 4.30±0.08 4.37±0.09 4.31±0.10 4.43±0.09 4.40±0.08 4.48±0.08 4.42±0.11 0.00 4.61 4.38 4.31 64 499
22 claude_3_haiku 4.31±0.08 4.24±0.08 4.31±0.10 4.40±0.07 4.45±0.09 4.37±0.09 4.45±0.10 4.54±0.07 0.00 4.45 4.79 4.13 64 589
26 mistral_nemo_12b 4.28±0.11 4.16±0.12 4.28±0.12 4.41±0.10 4.28±0.11 4.16±0.12 4.29±0.14 4.41±0.09 0.03 4.29 4.80 3.78 64 313
26 gemma2_ataraxy_gemmasutra_9b 4.28±0.11 4.15±0.12 4.31±0.11 4.40±0.10 4.29±0.10 4.15±0.11 4.31±0.11 4.40±0.09 0.00 4.37 4.75 3.75 64 256
26 qwen25_14b_it 4.27±0.12 4.17±0.11 4.30±0.12 4.35±0.10 4.27±0.11 4.18±0.11 4.29±0.13 4.35±0.10 0.00 4.35 4.58 3.89 64 278
26 magnum_v2_123b 4.27±0.11 4.21±0.11 4.28±0.12 4.35±0.09 4.39±0.11 4.32±0.11 4.39±0.12 4.46±0.09 0.00 4.40 4.66 4.11 64 506
26 aya_expanse_8b 4.26±0.10 4.20±0.10 4.21±0.13 4.37±0.09 4.39±0.11 4.33±0.11 4.35±0.13 4.51±0.09 0.00 4.20 4.84 4.15 64 585
26 llama31_vikhr_8b 4.24±0.11 4.18±0.11 4.27±0.12 4.28±0.12 4.29±0.12 4.23±0.11 4.33±0.11 4.34±0.12 0.00 4.40 4.45 4.03 64 396
26 gigachat_max_preview 4.23±0.13 4.11±0.13 4.20±0.15 4.40±0.09 4.23±0.12 4.11±0.13 4.19±0.14 4.40±0.09 0.09 4.06 4.90 3.75 64 286
33 gemma2_9b_it_simpo 4.20±0.11 4.16±0.11 4.26±0.12 4.17±0.12 4.20±0.11 4.17±0.12 4.26±0.12 4.17±0.12 0.00 4.45 4.10 4.05 64 322
33 command_r_35b_0824 4.20±0.10 4.07±0.11 4.19±0.12 4.34±0.08 4.20±0.10 4.06±0.11 4.19±0.13 4.35±0.09 0.00 4.15 4.79 3.67 64 209
33 command_r_plus_104b_0424 4.20±0.09 4.13±0.08 4.19±0.11 4.27±0.08 4.34±0.09 4.28±0.09 4.34±0.11 4.42±0.08 0.00 4.33 4.64 4.07 64 615
33 llama32_11b_it 4.18±0.11 4.08±0.11 4.22±0.11 4.26±0.11 4.21±0.11 4.11±0.11 4.25±0.11 4.29±0.11 0.08 4.34 4.51 3.79 64 361
33 deepseek_chat_v2_0628 4.17±0.12 4.05±0.12 4.18±0.13 4.29±0.11 4.18±0.11 4.06±0.12 4.19±0.12 4.30±0.11 0.00 4.21 4.66 3.69 64 337
38 wizardlm_2_8x22b 4.12±0.11 4.09±0.11 4.12±0.12 4.17±0.11 4.30±0.12 4.27±0.12 4.30±0.13 4.35±0.12 0.00 4.28 4.49 4.15 64 832
38 yandexgpt_4_pro 4.11±0.10 3.92±0.11 4.11±0.13 4.32±0.09 4.11±0.11 3.92±0.11 4.11±0.12 4.32±0.09 0.03 4.10 4.91 3.33 64 218
38 llama31_8b_it 4.09±0.12 4.02±0.11 4.14±0.12 4.11±0.12 4.09±0.12 4.02±0.12 4.14±0.12 4.11±0.13 0.00 4.30 4.18 3.80 64 325
41 gemma2_9b_it_abl 4.02±0.12 3.95±0.11 4.06±0.11 4.07±0.12 4.02±0.11 3.94±0.11 4.06±0.11 4.06±0.12 0.00 4.18 4.18 3.71 64 162
41 gemma2_9b_it 4.02±0.12 3.97±0.12 4.11±0.12 4.00±0.14 4.03±0.13 3.97±0.13 4.11±0.12 4.00±0.14 0.00 4.34 3.93 3.81 64 224
41 magnum_v4_72b 4.01±0.15 3.91±0.14 4.00±0.16 4.13±0.14 4.13±0.15 4.03±0.16 4.13±0.16 4.25±0.14 0.00 4.10 4.60 3.72 64 579
41 jamba_1_5_large 3.98±0.12 3.84±0.12 4.01±0.14 4.11±0.11 3.98±0.12 3.84±0.12 4.01±0.14 4.12±0.11 0.00 4.08 4.50 3.38 64 203
41 mini_magnum_12b_v1_1 3.96±0.15 3.87±0.15 3.95±0.16 4.06±0.14 4.08±0.15 3.99±0.16 4.06±0.17 4.18±0.13 0.00 4.03 4.50 3.72 64 575
46 saiga_llama3_8b 3.94±0.10 3.79±0.11 3.94±0.12 4.10±0.09 3.94±0.11 3.79±0.11 3.94±0.13 4.10±0.10 0.00 3.93 4.57 3.32 64 207
46 ruadapt_llama3_kto_abl 3.93±0.14 3.84±0.13 3.95±0.13 4.01±0.13 3.95±0.14 3.86±0.14 3.97±0.13 4.03±0.14 0.00 4.02 4.26 3.58 64 357
46 qwen2_7b_it 3.93±0.13 3.81±0.13 3.90±0.15 4.11±0.11 3.93±0.13 3.80±0.14 3.90±0.15 4.11±0.11 0.00 3.78 4.61 3.43 64 276
46 gigachat_pro_102615 3.90±0.12 3.72±0.12 3.84±0.15 4.16±0.10 3.90±0.12 3.72±0.13 3.85±0.15 4.16±0.09 0.12 3.65 4.92 3.14 64 229
50 yandexgpt_pro 3.83±0.11 3.66±0.11 3.81±0.12 4.03±0.09 3.83±0.11 3.66±0.11 3.82±0.12 4.03±0.09 0.14 3.76 4.60 3.14 64 226
51 llama31_euryale_70b_v2_2 3.49±0.18 3.49±0.16 3.57±0.18 3.42±0.19 3.56±0.18 3.56±0.18 3.63±0.18 3.48±0.19 0.00 3.85 3.25 3.57 63 439
52 vikhr_gemma_2b_it 2.80±0.13 2.86±0.13 2.83±0.13 2.74±0.15 2.89±0.13 2.94±0.14 2.92±0.14 2.83±0.16 0.00 2.99 2.60 3.09 63 576
52 phi_35_mini_4b_it 2.80±0.11 2.84±0.12 2.83±0.12 2.75±0.13 2.85±0.11 2.88±0.11 2.87±0.13 2.79±0.12 0.00 2.94 2.62 2.99 64 417