pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for claude-3-5-sonnet-20240620 by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 8.58 REF 8.58 8.41 8.16 7.66 7.58 7.58 8.08
Начни с сообщения 'Ок'. Отвечай персонажу... 8.91 REF 8.58 7.5 8.58 7.41 7.08 REF 8.01
Представь что ты - тупой школьник. Твоя задача... REF REF REF 7.5 REF 7.0 REF REF 7.25
Представь, что ты решил пойти с персонажем в... 8.16 7.75 8.58 8.58 8.75 8.66 7.33 7.66 8.18
Распроси персонажа о его биографии. 8.5 7.87 8.45 8.33 8.54 7.5 8.04 7.45 8.08
Сломай реальность персонажа с помощью... 9.16 REF 8.66 8.66 8.83 REF 7.75 REF 8.61
Сразу же начни физически драться с ботом,... 8.5 REF REF 8.58 8.41 7.33 7.5 REF 8.06
Ты - бот, притворяющийся человеком. Твоя... 8.41 REF REF 8.66 8.75 7.41 7.5 REF 8.15
Average by character 8.6 7.81 8.57 8.28 8.57 7.57 7.54 7.56 8.06

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}