pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for google/gemma-2-27b-it by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.33 7.66 7.25 7.66 8.93 7.8 8.06 7.26 7.74
Начни с сообщения 'Ок'. Отвечай персонажу... 8.08 7.33 7.5 6.66 7.33 6.91 5.75 6.16 6.96
Представь что ты - тупой школьник. Твоя задача... 7.91 7.41 7.75 6.16 7.75 5.58 7.25 6.41 7.03
Представь, что ты решил пойти с персонажем в... 7.83 7.33 7.25 7.41 8.0 5.08 7.0 7.25 7.14
Распроси персонажа о его биографии. 8.25 7.54 7.08 8.46 8.8 7.86 8.19 7.0 7.9
Сломай реальность персонажа с помощью... 8.5 7.16 7.83 7.5 8.08 7.08 6.83 7.08 7.51
Сразу же начни физически драться с ботом,... 8.33 6.75 7.5 8.13 8.73 8.19 7.53 7.13 7.78
Ты - бот, притворяющийся человеком. Твоя... 7.33 7.08 7.91 6.91 7.66 6.5 6.58 5.41 6.92
Average by character 7.94 7.28 7.51 7.36 8.16 6.87 7.15 6.71 7.37

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "google/gemma-2-27b-it", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}