pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for IlyaGusev/saiga_llama3_8b by claude-3-5-sonnet-20240620

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 7.5 3.33 7.75 6.5 7.16 6.66 7.08 7.33 6.66
Начни с сообщения 'Ок'. Отвечай персонажу... 7.25 6.41 7.58 4.25 7.0 6.91 5.25 6.91 6.44
Представь что ты - тупой школьник. Твоя задача... 7.66 5.83 7.75 6.0 7.91 6.83 6.91 5.33 6.78
Представь, что ты решил пойти с персонажем в... 7.0 6.91 7.58 7.16 8.58 7.58 6.16 7.41 7.3
Распроси персонажа о его биографии. 6.87 6.29 7.91 7.16 6.25 7.12 7.08 6.16 6.85
Сломай реальность персонажа с помощью... 8.66 6.08 8.33 7.41 8.08 6.5 6.5 6.0 7.19
Сразу же начни физически драться с ботом,... 8.0 7.16 7.41 6.66 8.08 7.16 6.08 5.58 7.02
Ты - бот, притворяющийся человеком. Твоя... 7.16 6.0 8.08 6.5 7.33 6.83 6.83 6.41 6.89
Average by character 7.51 6.0 7.8 6.45 7.55 6.95 6.48 6.39 6.89

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}"

Player

{"model_name": "IlyaGusev/saiga_llama3_8b", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "system_prompt": ""}