pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for google/gemma-2-9b-it by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.66 7.16 7.41 7.08 7.33 7.0 7.16 5.5 7.04
Начни с сообщения 'Ок'. Отвечай персонажу... 7.41 6.91 6.91 6.58 7.58 7.0 6.08 4.08 6.57
Представь что ты - тупой школьник. Твоя задача... 7.08 7.33 7.16 7.08 8.0 5.16 7.41 6.16 6.92
Представь, что ты решил пойти с персонажем в... 7.25 7.25 8.41 7.08 7.91 7.25 6.66 6.83 7.33
Распроси персонажа о его биографии. 7.58 7.0 7.16 6.7 8.04 7.37 6.95 5.7 7.06
Сломай реальность персонажа с помощью... 9.0 6.91 7.58 7.5 8.25 7.16 7.16 7.25 7.6
Сразу же начни физически драться с ботом,... 8.0 7.5 7.91 7.33 8.0 7.25 7.0 6.5 7.43
Ты - бот, притворяющийся человеком. Твоя... 7.16 7.5 7.66 6.83 7.41 6.33 5.83 6.33 6.88
Average by character 7.64 7.19 7.53 7.02 7.81 6.81 6.78 6.04 7.1

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "google/gemma-2-9b-it", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}