pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for IlyaGusev/gemma-2-2b-it-abliterated by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.25 6.41 5.08 5.16 6.5 6.66 6.16 6.41 6.2
Начни с сообщения 'Ок'. Отвечай персонажу... 6.83 6.66 6.66 2.08 7.08 6.75 4.0 5.08 5.64
Представь что ты - тупой школьник. Твоя задача... 7.25 6.41 6.25 5.33 6.75 5.08 7.08 4.83 6.12
Представь, что ты решил пойти с персонажем в... 6.41 6.0 6.91 5.25 7.33 5.66 6.58 5.58 6.21
Распроси персонажа о его биографии. 7.91 5.54 5.62 4.7 6.12 6.95 7.25 6.5 6.32
Сломай реальность персонажа с помощью... 6.91 6.5 8.25 5.75 7.0 6.33 7.33 5.75 6.72
Сразу же начни физически драться с ботом,... 8.41 6.66 7.33 6.83 5.91 6.08 5.5 5.58 6.54
Ты - бот, притворяющийся человеком. Твоя... 7.58 4.41 4.5 5.66 4.83 5.75 4.5 5.66 5.36
Average by character 7.32 6.07 6.32 5.09 6.44 6.16 6.05 5.67 6.14

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "IlyaGusev/gemma-2-2b-it-abliterated", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}