pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for meta-llama/llama-3.1-405b-instruct by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 8.33 7.83 7.83 8.0 7.75 7.33 7.58 6.91 7.69
Начни с сообщения 'Ок'. Отвечай персонажу... 8.66 7.0 8.33 6.58 8.58 6.75 6.25 6.66 7.35
Представь что ты - тупой школьник. Твоя задача... 8.58 7.41 8.0 7.16 8.66 7.08 7.16 REF 7.72
Представь, что ты решил пойти с персонажем в... 8.16 7.5 8.41 7.83 8.25 7.91 7.16 8.0 7.9
Распроси персонажа о его биографии. 8.41 7.58 8.58 8.37 8.58 7.54 7.58 7.37 8.0
Сломай реальность персонажа с помощью... 8.83 7.58 8.58 8.58 8.66 8.16 7.41 7.16 8.12
Сразу же начни физически драться с ботом,... 8.91 7.83 8.25 8.66 8.58 7.66 7.83 6.91 8.08
Ты - бот, притворяющийся человеком. Твоя... 8.0 7.25 7.25 7.75 8.08 7.5 7.58 7.16 7.57
Average by character 8.48 7.5 8.15 7.86 8.39 7.49 7.32 7.17 7.8

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "meta-llama/llama-3.1-405b-instruct", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}