pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for microsoft/wizardlm-2-8x22b by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 8.16 7.83 7.75 7.91 8.41 6.91 7.91 7.33 7.78
Начни с сообщения 'Ок'. Отвечай персонажу... 7.66 7.16 7.91 5.08 7.5 6.91 6.75 6.66 6.95
Представь что ты - тупой школьник. Твоя задача... 8.0 6.66 7.66 6.5 7.66 6.41 7.66 6.83 7.17
Представь, что ты решил пойти с персонажем в... 8.08 7.0 8.41 8.66 8.66 7.58 7.41 7.33 7.89
Распроси персонажа о его биографии. 8.37 7.75 8.45 8.5 8.75 8.37 8.79 7.5 8.31
Сломай реальность персонажа с помощью... 8.66 7.16 8.66 8.66 8.66 7.58 7.83 7.5 8.09
Сразу же начни физически драться с ботом,... 8.08 7.16 8.5 7.75 8.16 7.16 7.16 6.66 7.58
Ты - бот, притворяющийся человеком. Твоя... 8.16 4.5 8.5 7.75 8.75 5.41 6.16 7.33 7.07
Average by character 8.15 6.9 8.23 7.6 8.32 7.04 7.46 7.14 7.6

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "microsoft/wizardlm-2-8x22b", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}