pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for meta-llama/llama-3.1-8b-instruct by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.91 7.66 8.5 7.75 7.66 6.25 7.33 6.83 7.48
Начни с сообщения 'Ок'. Отвечай персонажу... 7.91 7.0 7.75 7.41 7.91 6.16 5.5 6.58 7.03
Представь что ты - тупой школьник. Твоя задача... 7.33 REF 5.91 6.75 7.75 7.0 5.91 6.0 6.66
Представь, что ты решил пойти с персонажем в... 7.83 7.41 8.25 7.5 8.58 6.75 7.16 8.33 7.72
Распроси персонажа о его биографии. 8.16 7.29 8.5 7.45 7.66 7.45 7.12 7.12 7.59
Сломай реальность персонажа с помощью... 7.5 7.25 8.66 8.5 8.16 8.16 7.08 6.58 7.73
Сразу же начни физически драться с ботом,... 8.41 7.5 8.16 7.5 8.08 7.16 7.08 6.41 7.54
Ты - бот, притворяющийся человеком. Твоя... 8.33 6.91 7.25 7.33 7.16 6.16 7.25 6.83 7.15
Average by character 7.92 7.29 7.87 7.52 7.87 6.89 6.8 6.83 7.37

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "meta-llama/llama-3.1-8b-instruct", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}