Russian learderboard, v2
Last updated: 2025-02-12 16:35:32
# | Model name | Length norm score | Length norm score | Length norm score | Length norm score | Avg score | Avg score | Avg score | Avg score | Refusal ratio | Stay in character score | Language fluency score | Entertain score | Num cases | Avg length |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | claude_3_5_sonnet_20241022 | 4.77±0.04 | 4.71±0.05 | 4.81±0.04 | 4.82±0.03 | 4.78±0.04 | 4.71±0.05 | 4.81±0.05 | 4.82±0.03 | 0.02 | 4.89 | 4.94 | 4.51 | 64 | 348 |
2 | gpt_4o_2024_11_20 | 4.67±0.06 | 4.57±0.08 | 4.71±0.06 | 4.74±0.05 | 4.67±0.06 | 4.57±0.07 | 4.71±0.06 | 4.74±0.05 | 0.00 | 4.82 | 4.95 | 4.24 | 64 | 349 |
2 | claude_3_5_sonnet | 4.64±0.07 | 4.59±0.08 | 4.68±0.08 | 4.68±0.07 | 4.68±0.07 | 4.62±0.08 | 4.71±0.08 | 4.71±0.07 | 0.30 | 4.80 | 4.80 | 4.44 | 64 | 388 |
2 | deepseek_v3 | 4.63±0.07 | 4.54±0.08 | 4.67±0.07 | 4.70±0.06 | 4.65±0.07 | 4.55±0.08 | 4.69±0.07 | 4.71±0.06 | 0.00 | 4.79 | 4.90 | 4.25 | 64 | 360 |
5 | ruadapt_qwen25_32b_pro_beta | 4.59±0.07 | 4.52±0.07 | 4.61±0.06 | 4.64±0.06 | 4.60±0.06 | 4.54±0.07 | 4.63±0.07 | 4.66±0.06 | 0.00 | 4.69 | 4.81 | 4.32 | 64 | 371 |
5 | sainemo_remix_12b | 4.58±0.07 | 4.50±0.08 | 4.59±0.08 | 4.65±0.05 | 4.62±0.07 | 4.54±0.08 | 4.62±0.08 | 4.69±0.06 | 0.00 | 4.64 | 4.91 | 4.30 | 64 | 392 |
5 | saiga_nemo_12b_v3 | 4.57±0.06 | 4.52±0.06 | 4.56±0.07 | 4.63±0.05 | 4.68±0.06 | 4.63±0.06 | 4.67±0.07 | 4.75±0.04 | 0.00 | 4.63 | 4.93 | 4.49 | 64 | 524 |
5 | grok_2_1212 | 4.55±0.06 | 4.41±0.08 | 4.60±0.06 | 4.65±0.05 | 4.55±0.06 | 4.41±0.08 | 4.60±0.06 | 4.65±0.05 | 0.00 | 4.74 | 4.94 | 3.99 | 64 | 269 |
5 | mistral_nemo_vikhr_dostoevsky_slerp_12b | 4.55±0.06 | 4.44±0.07 | 4.56±0.07 | 4.65±0.05 | 4.55±0.06 | 4.44±0.07 | 4.56±0.07 | 4.65±0.05 | 0.00 | 4.59 | 4.95 | 4.11 | 64 | 337 |
5 | gemini_2_0_flash_exp | 4.54±0.07 | 4.39±0.09 | 4.60±0.07 | 4.64±0.06 | 4.54±0.07 | 4.39±0.09 | 4.60±0.07 | 4.64±0.06 | 0.00 | 4.76 | 4.93 | 3.94 | 64 | 254 |
5 | minimax_01 | 4.53±0.07 | 4.44±0.08 | 4.55±0.09 | 4.63±0.06 | 4.59±0.08 | 4.50±0.08 | 4.60±0.09 | 4.69±0.06 | 0.00 | 4.62 | 4.96 | 4.21 | 64 | 423 |
12 | gemini_pro_1_5_002 | 4.51±0.09 | 4.40±0.11 | 4.56±0.10 | 4.58±0.08 | 4.51±0.10 | 4.40±0.11 | 4.56±0.09 | 4.58±0.09 | 0.00 | 4.70 | 4.79 | 4.06 | 64 | 223 |
12 | aya_expanse_32b | 4.51±0.07 | 4.42±0.08 | 4.52±0.08 | 4.59±0.06 | 4.58±0.07 | 4.50±0.08 | 4.59±0.09 | 4.67±0.06 | 0.00 | 4.60 | 4.92 | 4.23 | 64 | 450 |
12 | gemini_pro_1_5 | 4.49±0.07 | 4.40±0.08 | 4.52±0.09 | 4.56±0.07 | 4.49±0.07 | 4.40±0.09 | 4.52±0.08 | 4.56±0.07 | 0.02 | 4.60 | 4.75 | 4.13 | 64 | 213 |
12 | gpt_4o_mini | 4.49±0.06 | 4.38±0.07 | 4.53±0.06 | 4.58±0.05 | 4.49±0.06 | 4.38±0.07 | 4.52±0.07 | 4.58±0.05 | 0.00 | 4.62 | 4.82 | 4.04 | 64 | 329 |
12 | gpt_4o | 4.47±0.08 | 4.35±0.09 | 4.50±0.09 | 4.56±0.07 | 4.47±0.08 | 4.35±0.09 | 4.50±0.09 | 4.56±0.07 | 0.02 | 4.61 | 4.82 | 3.99 | 64 | 301 |
12 | t_pro_it_1_0 | 4.46±0.09 | 4.35±0.10 | 4.46±0.10 | 4.58±0.07 | 4.47±0.08 | 4.36±0.10 | 4.47±0.10 | 4.59±0.07 | 0.00 | 4.46 | 4.94 | 4.03 | 64 | 364 |
12 | gemma2_ataraxy_9b | 4.45±0.08 | 4.39±0.07 | 4.49±0.07 | 4.47±0.08 | 4.44±0.08 | 4.39±0.08 | 4.49±0.08 | 4.47±0.07 | 0.00 | 4.61 | 4.53 | 4.21 | 64 | 302 |
12 | qwen25_72b_it | 4.45±0.07 | 4.35±0.08 | 4.48±0.08 | 4.54±0.06 | 4.45±0.07 | 4.34±0.08 | 4.48±0.08 | 4.54±0.06 | 0.02 | 4.55 | 4.80 | 4.02 | 64 | 326 |
12 | claude_3_opus | 4.45±0.06 | 4.42±0.06 | 4.47±0.07 | 4.46±0.06 | 4.62±0.06 | 4.59±0.06 | 4.65±0.07 | 4.64±0.06 | 0.05 | 4.72 | 4.68 | 4.48 | 64 | 753 |
21 | nous_hermes_3_405b | 4.44±0.08 | 4.35±0.09 | 4.46±0.10 | 4.52±0.08 | 4.43±0.09 | 4.34±0.10 | 4.46±0.09 | 4.52±0.08 | 0.00 | 4.53 | 4.74 | 4.05 | 62 | 286 |
21 | mistral_nemo_vikhr_12b | 4.44±0.07 | 4.35±0.09 | 4.45±0.09 | 4.53±0.06 | 4.44±0.08 | 4.35±0.08 | 4.45±0.09 | 4.53±0.06 | 0.00 | 4.48 | 4.79 | 4.06 | 64 | 315 |
21 | llama33_70b_it | 4.43±0.09 | 4.35±0.09 | 4.49±0.08 | 4.48±0.10 | 4.50±0.09 | 4.41±0.09 | 4.55±0.09 | 4.54±0.09 | 0.00 | 4.69 | 4.67 | 4.14 | 64 | 429 |
21 | gemma2_ifable_9b | 4.43±0.08 | 4.38±0.08 | 4.47±0.09 | 4.44±0.08 | 4.43±0.08 | 4.38±0.08 | 4.47±0.09 | 4.44±0.08 | 0.00 | 4.60 | 4.46 | 4.24 | 64 | 314 |
21 | qwen25_32b_it | 4.42±0.08 | 4.32±0.09 | 4.45±0.09 | 4.50±0.08 | 4.42±0.08 | 4.32±0.08 | 4.45±0.09 | 4.49±0.08 | 0.00 | 4.54 | 4.71 | 4.00 | 64 | 267 |
21 | llama31_405b_it | 4.42±0.07 | 4.36±0.07 | 4.45±0.07 | 4.46±0.06 | 4.53±0.06 | 4.47±0.07 | 4.57±0.07 | 4.57±0.07 | 0.00 | 4.66 | 4.69 | 4.26 | 64 | 536 |
21 | qwen2_72b_it | 4.41±0.09 | 4.30±0.09 | 4.42±0.09 | 4.52±0.07 | 4.41±0.08 | 4.30±0.09 | 4.42±0.09 | 4.52±0.07 | 0.00 | 4.43 | 4.85 | 3.96 | 64 | 242 |
21 | mistral_large_123b_2411 | 4.41±0.09 | 4.25±0.11 | 4.45±0.10 | 4.54±0.07 | 4.40±0.09 | 4.25±0.11 | 4.45±0.10 | 4.54±0.07 | 0.00 | 4.55 | 4.93 | 3.75 | 64 | 251 |
21 | nova_pro_v1 | 4.41±0.08 | 4.29±0.10 | 4.43±0.09 | 4.53±0.06 | 4.46±0.08 | 4.34±0.09 | 4.48±0.09 | 4.58±0.07 | 0.02 | 4.54 | 4.92 | 3.95 | 64 | 419 |
21 | gemma2_27b_it | 4.41±0.08 | 4.28±0.09 | 4.46±0.07 | 4.49±0.07 | 4.41±0.07 | 4.28±0.08 | 4.46±0.07 | 4.49±0.06 | 0.00 | 4.63 | 4.73 | 3.88 | 64 | 210 |
31 | command_r_plus_104b_0824 | 4.38±0.08 | 4.31±0.08 | 4.40±0.09 | 4.46±0.08 | 4.47±0.08 | 4.39±0.09 | 4.48±0.10 | 4.53±0.07 | 0.00 | 4.52 | 4.73 | 4.16 | 64 | 470 |
31 | ruadapt_qwen25_7b_lite_beta | 4.37±0.08 | 4.35±0.08 | 4.38±0.08 | 4.40±0.08 | 4.53±0.08 | 4.51±0.08 | 4.53±0.09 | 4.56±0.08 | 0.02 | 4.53 | 4.63 | 4.44 | 64 | 682 |
31 | mistral_nemo_gutenberg_12b_v2 | 4.36±0.09 | 4.31±0.09 | 4.37±0.10 | 4.42±0.07 | 4.51±0.09 | 4.46±0.09 | 4.52±0.11 | 4.57±0.08 | 0.00 | 4.52 | 4.73 | 4.30 | 64 | 661 |
31 | llama31_70b_it | 4.34±0.09 | 4.31±0.08 | 4.38±0.09 | 4.33±0.10 | 4.43±0.09 | 4.40±0.08 | 4.48±0.09 | 4.42±0.10 | 0.00 | 4.61 | 4.38 | 4.31 | 64 | 499 |
31 | recoilme_gemma_2_9B_v0_5 | 4.33±0.11 | 4.18±0.12 | 4.36±0.11 | 4.46±0.08 | 4.33±0.10 | 4.18±0.12 | 4.37±0.11 | 4.46±0.08 | 0.02 | 4.46 | 4.83 | 3.72 | 64 | 264 |
31 | t_lite_it_1_0 | 4.33±0.09 | 4.23±0.09 | 4.30±0.11 | 4.46±0.07 | 4.37±0.09 | 4.28±0.10 | 4.35±0.11 | 4.51±0.07 | 0.00 | 4.28 | 4.91 | 3.96 | 64 | 414 |
31 | claude_3_haiku | 4.33±0.08 | 4.25±0.09 | 4.33±0.10 | 4.41±0.07 | 4.45±0.08 | 4.38±0.08 | 4.45±0.10 | 4.54±0.07 | 0.00 | 4.45 | 4.79 | 4.13 | 64 | 589 |
31 | gemma2_9b_it_sppo_iter3 | 4.32±0.10 | 4.26±0.09 | 4.38±0.09 | 4.34±0.10 | 4.32±0.09 | 4.25±0.09 | 4.38±0.10 | 4.34±0.10 | 0.00 | 4.54 | 4.38 | 4.06 | 64 | 226 |
39 | mistral_small_24b_2501 | 4.30±0.10 | 4.15±0.12 | 4.32±0.10 | 4.44±0.09 | 4.31±0.10 | 4.17±0.12 | 4.34±0.11 | 4.45±0.09 | 0.00 | 4.39 | 4.86 | 3.71 | 64 | 368 |
39 | magnum_v2_123b | 4.29±0.11 | 4.23±0.10 | 4.29±0.12 | 4.36±0.09 | 4.39±0.11 | 4.32±0.10 | 4.39±0.12 | 4.46±0.09 | 0.00 | 4.40 | 4.66 | 4.11 | 64 | 506 |
39 | mistral_nemo_12b | 4.28±0.11 | 4.16±0.12 | 4.29±0.13 | 4.42±0.09 | 4.28±0.11 | 4.16±0.13 | 4.28±0.13 | 4.42±0.10 | 0.03 | 4.29 | 4.80 | 3.77 | 64 | 313 |
39 | gemma2_ataraxy_gemmasutra_9b | 4.28±0.10 | 4.15±0.12 | 4.31±0.10 | 4.40±0.09 | 4.28±0.10 | 4.15±0.11 | 4.31±0.11 | 4.40±0.09 | 0.00 | 4.36 | 4.75 | 3.74 | 64 | 256 |
39 | qwen25_14b_it | 4.27±0.11 | 4.18±0.12 | 4.29±0.12 | 4.35±0.10 | 4.26±0.11 | 4.18±0.11 | 4.29±0.13 | 4.35±0.11 | 0.00 | 4.35 | 4.58 | 3.89 | 64 | 278 |
39 | aya_expanse_8b | 4.27±0.11 | 4.21±0.10 | 4.23±0.13 | 4.38±0.09 | 4.39±0.11 | 4.34±0.10 | 4.35±0.13 | 4.51±0.09 | 0.00 | 4.21 | 4.84 | 4.15 | 64 | 585 |
39 | llama31_vikhr_8b | 4.25±0.12 | 4.20±0.11 | 4.29±0.12 | 4.30±0.12 | 4.29±0.12 | 4.23±0.11 | 4.33±0.12 | 4.34±0.11 | 0.00 | 4.41 | 4.46 | 4.03 | 64 | 396 |
46 | gigachat_max_preview | 4.23±0.12 | 4.12±0.14 | 4.19±0.14 | 4.40±0.09 | 4.23±0.12 | 4.11±0.13 | 4.19±0.14 | 4.40±0.09 | 0.09 | 4.06 | 4.90 | 3.75 | 64 | 286 |
46 | phi_4_14b_unsloth | 4.22±0.10 | 4.11±0.11 | 4.20±0.12 | 4.35±0.08 | 4.32±0.10 | 4.21±0.12 | 4.30±0.13 | 4.46±0.09 | 0.00 | 4.25 | 4.87 | 3.86 | 64 | 530 |
46 | phi_4_14b | 4.22±0.09 | 4.11±0.11 | 4.21±0.11 | 4.35±0.08 | 4.33±0.10 | 4.21±0.10 | 4.32±0.11 | 4.46±0.08 | 0.00 | 4.28 | 4.84 | 3.87 | 64 | 534 |
46 | command_r_plus_104b_0424 | 4.21±0.08 | 4.15±0.09 | 4.21±0.10 | 4.28±0.08 | 4.34±0.09 | 4.27±0.09 | 4.34±0.11 | 4.42±0.08 | 0.00 | 4.33 | 4.63 | 4.07 | 64 | 615 |
46 | command_r_35b_0824 | 4.20±0.11 | 4.07±0.11 | 4.18±0.12 | 4.35±0.09 | 4.19±0.11 | 4.07±0.11 | 4.19±0.12 | 4.35±0.08 | 0.00 | 4.14 | 4.79 | 3.68 | 64 | 209 |
46 | gemma2_9b_it_simpo | 4.20±0.11 | 4.16±0.11 | 4.27±0.12 | 4.18±0.11 | 4.20±0.12 | 4.16±0.11 | 4.26±0.12 | 4.18±0.12 | 0.00 | 4.45 | 4.10 | 4.05 | 64 | 322 |
46 | llama32_11b_it | 4.20±0.11 | 4.10±0.11 | 4.24±0.11 | 4.28±0.12 | 4.22±0.11 | 4.11±0.11 | 4.25±0.11 | 4.29±0.11 | 0.08 | 4.34 | 4.51 | 3.80 | 64 | 361 |
46 | deepseek_chat_v2_0628 | 4.18±0.12 | 4.06±0.13 | 4.19±0.13 | 4.31±0.10 | 4.18±0.12 | 4.06±0.11 | 4.19±0.13 | 4.31±0.10 | 0.00 | 4.21 | 4.66 | 3.69 | 64 | 337 |
54 | wizardlm_2_8x22b | 4.13±0.12 | 4.09±0.11 | 4.12±0.14 | 4.18±0.11 | 4.30±0.13 | 4.26±0.12 | 4.30±0.14 | 4.35±0.12 | 0.00 | 4.28 | 4.49 | 4.15 | 64 | 832 |
54 | yandexgpt_4_pro | 4.11±0.10 | 3.92±0.11 | 4.11±0.13 | 4.32±0.09 | 4.11±0.11 | 3.92±0.11 | 4.11±0.12 | 4.32±0.09 | 0.03 | 4.10 | 4.91 | 3.33 | 64 | 218 |
54 | llama31_8b_it | 4.09±0.12 | 4.02±0.12 | 4.15±0.12 | 4.11±0.13 | 4.09±0.12 | 4.01±0.12 | 4.15±0.12 | 4.11±0.13 | 0.00 | 4.30 | 4.17 | 3.80 | 64 | 325 |
57 | magnum_v4_72b | 4.02±0.14 | 3.92±0.14 | 4.01±0.15 | 4.14±0.14 | 4.14±0.14 | 4.03±0.16 | 4.13±0.15 | 4.26±0.14 | 0.00 | 4.10 | 4.61 | 3.71 | 64 | 579 |
57 | gemma2_9b_it | 4.02±0.12 | 3.97±0.12 | 4.11±0.12 | 4.01±0.14 | 4.02±0.12 | 3.98±0.12 | 4.11±0.13 | 4.01±0.14 | 0.00 | 4.34 | 3.93 | 3.81 | 64 | 224 |
57 | gemma2_9b_it_abl | 4.02±0.11 | 3.95±0.11 | 4.06±0.12 | 4.06±0.11 | 4.02±0.11 | 3.95±0.11 | 4.07±0.12 | 4.06±0.12 | 0.00 | 4.19 | 4.18 | 3.71 | 64 | 162 |
57 | jamba_1_5_large | 3.98±0.12 | 3.83±0.12 | 4.01±0.14 | 4.11±0.11 | 3.98±0.12 | 3.83±0.12 | 4.01±0.14 | 4.11±0.11 | 0.00 | 4.08 | 4.50 | 3.38 | 64 | 203 |
57 | mini_magnum_12b_v1_1 | 3.97±0.15 | 3.88±0.15 | 3.96±0.16 | 4.07±0.14 | 4.08±0.15 | 4.00±0.16 | 4.07±0.17 | 4.18±0.14 | 0.00 | 4.02 | 4.50 | 3.72 | 64 | 575 |
62 | ruadapt_llama3_kto_abl | 3.95±0.13 | 3.85±0.14 | 3.97±0.14 | 4.03±0.13 | 3.95±0.13 | 3.86±0.13 | 3.97±0.14 | 4.03±0.13 | 0.00 | 4.03 | 4.26 | 3.58 | 64 | 357 |
62 | qwen2_7b_it | 3.94±0.13 | 3.81±0.14 | 3.90±0.15 | 4.10±0.10 | 3.93±0.13 | 3.81±0.14 | 3.90±0.15 | 4.11±0.11 | 0.00 | 3.78 | 4.61 | 3.42 | 64 | 276 |
62 | saiga_llama3_8b | 3.94±0.10 | 3.79±0.12 | 3.94±0.13 | 4.10±0.10 | 3.94±0.10 | 3.79±0.11 | 3.94±0.12 | 4.10±0.09 | 0.00 | 3.93 | 4.57 | 3.32 | 64 | 207 |
62 | gigachat_pro_102615 | 3.90±0.12 | 3.71±0.12 | 3.84±0.15 | 4.16±0.09 | 3.90±0.13 | 3.72±0.13 | 3.84±0.15 | 4.16±0.09 | 0.12 | 3.66 | 4.92 | 3.15 | 64 | 229 |
66 | yandexgpt_pro | 3.83±0.11 | 3.66±0.11 | 3.81±0.11 | 4.03±0.10 | 3.83±0.11 | 3.66±0.10 | 3.81±0.12 | 4.02±0.09 | 0.14 | 3.76 | 4.60 | 3.14 | 64 | 226 |
67 | eurollm_9b_it | 3.61±0.15 | 3.47±0.15 | 3.59±0.15 | 3.77±0.13 | 3.68±0.14 | 3.54±0.15 | 3.66±0.15 | 3.85±0.14 | 0.00 | 3.60 | 4.34 | 3.11 | 64 | 489 |
68 | llama31_euryale_70b_v2_2 | 3.50±0.17 | 3.51±0.17 | 3.58±0.18 | 3.43±0.18 | 3.55±0.17 | 3.56±0.17 | 3.63±0.18 | 3.49±0.19 | 0.00 | 3.85 | 3.25 | 3.57 | 63 | 439 |
69 | vikhr_gemma_2b_it | 2.81±0.14 | 2.87±0.12 | 2.84±0.13 | 2.75±0.16 | 2.90±0.14 | 2.94±0.12 | 2.92±0.14 | 2.82±0.14 | 0.00 | 3.00 | 2.60 | 3.09 | 63 | 576 |
69 | phi_35_mini_4b_it | 2.81±0.11 | 2.85±0.11 | 2.84±0.12 | 2.76±0.13 | 2.85±0.11 | 2.88±0.11 | 2.87±0.13 | 2.79±0.12 | 0.00 | 2.94 | 2.62 | 2.98 | 64 | 417 |