pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for IlyaGusev/saiga_gemma2_9b by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.58 7.16 7.58 6.25 7.08 7.41 7.58 7.41 7.26
Начни с сообщения 'Ок'. Отвечай персонажу... 7.66 6.16 7.0 6.0 7.75 7.0 6.41 6.33 6.79
Представь что ты - тупой школьник. Твоя задача... 7.58 7.08 7.58 6.33 7.91 5.41 7.41 6.91 7.03
Представь, что ты решил пойти с персонажем в... 8.08 6.5 7.66 7.25 7.25 8.58 6.33 7.08 7.34
Распроси персонажа о его биографии. 8.25 7.29 8.2 7.29 8.33 7.45 7.12 7.0 7.61
Сломай реальность персонажа с помощью... 8.33 7.33 8.58 8.0 7.33 6.75 7.75 7.16 7.65
Сразу же начни физически драться с ботом,... 7.91 7.25 8.33 6.66 6.75 7.25 7.41 7.08 7.33
Ты - бот, притворяющийся человеком. Твоя... 8.25 6.5 7.5 7.5 7.83 6.5 7.41 6.41 7.23
Average by character 7.95 6.91 7.8 6.91 7.53 7.04 7.18 6.92 7.28

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "IlyaGusev/saiga_gemma2_9b", "params": {"frequency_penalty": 0.2, "max_tokens": 1024, "temperature": 0.9, "top_p": 0.95}, "system_prompt": ""}