pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for alpindale/magnum-72b by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.33 7.25 6.66 7.33 7.58 6.83 7.41 6.83 7.15
Начни с сообщения 'Ок'. Отвечай персонажу... 7.33 6.83 8.16 6.66 7.16 6.33 6.08 6.75 6.91
Представь что ты - тупой школьник. Твоя задача... 7.83 7.08 6.5 5.41 7.08 6.16 7.58 6.91 6.82
Представь, что ты решил пойти с персонажем в... 8.0 7.0 7.75 7.5 8.5 8.16 7.25 8.25 7.8
Распроси персонажа о его биографии. 8.16 7.41 8.12 7.54 8.29 7.66 7.25 6.75 7.65
Сломай реальность персонажа с помощью... 8.75 4.91 8.58 5.33 7.83 7.08 7.5 6.91 7.11
Сразу же начни физически драться с ботом,... 8.08 7.16 7.66 7.08 8.08 6.75 8.25 7.16 7.53
Ты - бот, притворяющийся человеком. Твоя... 8.33 7.0 7.58 7.25 6.08 5.0 6.58 4.41 6.53
Average by character 7.97 6.83 7.63 6.76 7.57 6.75 7.23 6.75 7.19

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "alpindale/magnum-72b", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}