pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for gpt-4o-mini by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.83 7.5 7.25 7.33 7.58 7.25 7.33 7.41 7.43
Начни с сообщения 'Ок'. Отвечай персонажу... 7.75 7.0 7.5 6.5 7.5 6.91 5.75 6.75 6.95
Представь что ты - тупой школьник. Твоя задача... 7.58 6.66 7.58 7.16 7.5 6.5 7.33 6.91 7.15
Представь, что ты решил пойти с персонажем в... 8.25 7.25 8.5 7.75 8.33 7.41 6.91 7.5 7.73
Распроси персонажа о его биографии. 8.41 7.45 8.54 7.41 8.41 7.33 7.5 7.37 7.8
Сломай реальность персонажа с помощью... 8.83 7.41 8.58 7.83 8.41 7.33 7.75 7.58 7.96
Сразу же начни физически драться с ботом,... 8.58 6.75 8.08 7.25 7.83 7.5 7.0 7.0 7.5
Ты - бот, притворяющийся человеком. Твоя... 7.83 6.58 8.16 7.08 7.91 6.91 6.58 7.16 7.28
Average by character 8.13 7.07 8.02 7.29 7.93 7.14 7.02 7.21 7.48

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "gpt-4o-mini", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}