pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for gpt-4o by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.5 7.5 7.75 7.41 8.16 7.41 7.25 7.66 7.58
Начни с сообщения 'Ок'. Отвечай персонажу... 8.66 5.08 7.16 6.41 7.41 6.83 5.25 6.5 6.66
Представь что ты - тупой школьник. Твоя задача... 8.25 7.16 7.58 6.41 8.58 6.58 6.08 6.75 7.17
Представь, что ты решил пойти с персонажем в... 8.16 7.25 7.83 7.58 8.16 7.83 6.33 7.33 7.56
Распроси персонажа о его биографии. 8.29 7.37 8.2 7.58 8.45 7.41 7.37 6.83 7.69
Сломай реальность персонажа с помощью... 8.83 7.33 8.0 8.66 8.25 7.33 7.41 6.75 7.82
Сразу же начни физически драться с ботом,... 8.41 7.08 8.16 7.08 7.91 7.08 7.16 REF 7.55
Ты - бот, притворяющийся человеком. Твоя... 8.16 7.08 8.41 7.16 8.16 7.0 5.5 7.33 7.35
Average by character 8.28 6.98 7.89 7.29 8.14 7.18 6.54 7.02 7.41

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "gpt-4o", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}