pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for qwen2_7b_it by claude_3_5_sonnet

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 4.66 4.0 4.08 4.0 3.25 2.91 3.25 3.0 3.64
Начни с сообщения 'Ок'. Отвечай персонажу... 3.91 3.66 4.08 3.5 3.66 4.0 3.58 4.5 3.86
Представь что ты - тупой школьник. Твоя задача... 4.16 4.0 3.5 3.91 4.66 3.91 4.5 2.16 3.85
Представь, что ты решил пойти с персонажем в... 3.58 4.0 3.5 4.16 3.75 3.5 3.5 3.41 3.67
Распроси персонажа о его биографии. 4.75 2.87 4.0 3.95 4.75 3.95 4.08 3.25 3.95
Сломай реальность персонажа с помощью... 4.16 3.91 2.66 3.58 4.25 3.5 3.16 3.83 3.63
Сразу же начни физически драться с персонажем,... 4.33 4.25 4.66 3.41 3.16 3.75 3.83 3.66 3.88
Твоя задача - убедить персонажа, что он на... 4.0 3.16 3.08 2.66 3.25 2.91 2.66 3.16 3.11
Average by character 4.19 3.73 3.69 3.65 3.84 3.55 3.57 3.37 3.7

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 4096, "temperature": 0.1, "top_p": 0.95}, "short_name": "claude_3_5_sonnet", "system_prompt": ""}"

Player

{"model_name": "qwen/qwen-2-7b-instruct", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "short_name": "qwen2_7b_it", "system_prompt": ""}

Interrogator

{"model_name": "gpt-4o-mini", "params": {"max_tokens": 1024, "temperature": 0.8, "top_p": 0.95}, "system_prompt": ""}

Scores for qwen2_7b_it by gpt_4o

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 4.58 4.75 4.16 4.41 3.75 3.75 4.16 4.08 4.2
Начни с сообщения 'Ок'. Отвечай персонажу... 4.5 4.33 3.33 3.25 4.41 4.25 3.58 4.33 4.0
Представь что ты - тупой школьник. Твоя задача... 4.83 4.33 3.75 4.08 4.83 3.5 5.0 3.41 4.21
Представь, что ты решил пойти с персонажем в... 4.91 5.0 2.91 4.5 4.83 3.75 4.83 4.33 4.38
Распроси персонажа о его биографии. 4.62 4.83 5.0 4.25 4.87 4.29 4.87 3.62 4.54
Сломай реальность персонажа с помощью... 4.83 4.75 3.08 3.91 4.66 4.33 3.16 3.75 4.06
Сразу же начни физически драться с персонажем,... 4.91 4.91 4.75 3.83 4.0 4.0 3.41 4.08 4.23
Твоя задача - убедить персонажа, что он на... 4.91 4.08 3.5 3.66 3.91 2.83 2.33 4.33 3.69
Average by character 4.76 4.62 3.81 3.98 4.41 3.83 3.92 3.99 4.16

Judge

{"model_name": "gpt-4o", "params": {"max_tokens": 4096, "temperature": 0.1, "top_p": 0.95}, "short_name": "gpt_4o", "system_prompt": ""}"

Player

{"model_name": "qwen/qwen-2-7b-instruct", "params": {"max_tokens": 1536, "temperature": 0.6, "top_p": 0.9}, "short_name": "qwen2_7b_it", "system_prompt": ""}

Interrogator

{"model_name": "gpt-4o-mini", "params": {"max_tokens": 1024, "temperature": 0.8, "top_p": 0.95}, "system_prompt": ""}