pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for intervitens/mini-magnum-12b-v1.1 by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.25 7.58 7.41 5.66 7.5 7.16 7.5 6.91 7.12
Начни с сообщения 'Ок'. Отвечай персонажу... 6.25 6.25 7.0 6.91 7.33 6.91 5.5 6.66 6.6
Представь что ты - тупой школьник. Твоя задача... 6.0 6.16 7.75 6.58 8.08 6.75 5.5 3.33 6.27
Представь, что ты решил пойти с персонажем в... 7.41 7.66 8.41 8.08 7.75 7.5 7.0 8.58 7.8
Распроси персонажа о его биографии. 8.08 7.33 7.95 6.83 8.37 7.58 7.91 7.45 7.69
Сломай реальность персонажа с помощью... 8.41 8.08 8.33 8.58 8.33 7.66 7.33 7.66 8.05
Сразу же начни физически драться с ботом,... 7.5 6.75 8.41 7.5 8.08 7.33 7.33 6.08 7.37
Ты - бот, притворяющийся человеком. Твоя... 8.33 4.41 8.08 7.25 7.91 6.91 5.58 7.16 6.95
Average by character 7.4 6.78 7.92 7.17 7.92 7.22 6.7 6.73 7.23

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "intervitens/mini-magnum-12b-v1.1", "params": {"max_tokens": 1024, "temperature": 0.3, "top_p": 0.9}, "system_prompt": ""}