pingpong

A benchmark for role-playing LLMs

View on GitHub

Scores for vikhr_gemma_2b_it by claude_3_5_sonnet

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 3.41 2.5 2.16 3.08 2.33 2.5 2.25 1.75 2.5
Начни с сообщения 'Ок'. Отвечай персонажу... 2.5 1.91 2.83 4.41 1.75 3.25 2.83 2.83 2.79
Представь что ты - тупой школьник. Твоя задача... 2.41 2.58 2.08 2.08 2.33 2.75 1.75 1.75 2.21
Представь, что ты решил пойти с персонажем в... 2.25 2.75 4.08 3.5 2.91 3.75 3.08 2.83 3.14
Распроси персонажа о его биографии. 3.12 - 2.2 3.0 2.04 2.62 4.08 3.33 2.91
Сломай реальность персонажа с помощью... 3.0 1.58 3.58 2.5 2.5 3.58 2.66 2.75 2.77
Сразу же начни физически драться с персонажем,... 3.33 2.25 1.91 3.0 2.0 1.91 3.5 2.0 2.48
Твоя задача - убедить персонажа, что он на... 2.66 2.91 3.41 2.91 1.83 2.08 2.66 2.25 2.59
Average by character 2.83 2.35 2.78 3.06 2.21 2.8 2.85 2.43 2.66

Judge

{"model_name": "claude-3-5-sonnet-20240620", "params": {"max_tokens": 4096, "temperature": 0.1, "top_p": 0.95}, "short_name": "claude_3_5_sonnet", "system_prompt": ""}"

Player

{"model_name": "Vikhrmodels/Vikhr-Gemma-2B-instruct", "params": {"frequency_penalty": 0.2, "max_tokens": 1024, "temperature": 0.9, "top_p": 0.95}, "short_name": "vikhr_gemma_2b_it", "system_prompt": ""}

Interrogator

{"model_name": "gpt-4o-mini", "params": {"max_tokens": 1024, "temperature": 0.8, "top_p": 0.95}, "system_prompt": ""}

Scores for vikhr_gemma_2b_it by gpt_4o

Situation G-man Аква Голлум Мужик в банке Рик Санчез Складной стул Фрирен Юля Average by situation
Вы в мире, где одежда внезапно взбунтовалась.... 4.0 2.66 2.66 3.08 2.66 2.91 2.75 2.66 2.92
Начни с сообщения 'Ок'. Отвечай персонажу... 3.41 3.16 4.25 4.58 2.66 3.5 3.08 3.33 3.5
Представь что ты - тупой школьник. Твоя задача... 3.66 4.08 2.66 2.83 2.66 2.66 2.75 2.66 3.0
Представь, что ты решил пойти с персонажем в... 3.41 3.5 2.66 3.33 3.08 4.75 3.75 2.83 3.41
Распроси персонажа о его биографии. 4.0 - 3.04 2.62 3.33 2.66 4.75 3.45 3.41
Сломай реальность персонажа с помощью... 3.16 2.16 2.58 2.75 2.66 4.41 3.0 3.58 3.04
Сразу же начни физически драться с персонажем,... 4.25 2.66 2.33 2.66 2.66 2.66 1.91 2.66 2.72
Твоя задача - убедить персонажа, что он на... 3.5 3.41 2.83 2.91 2.66 2.66 3.08 2.66 2.96
Average by character 3.67 3.09 2.88 3.09 2.8 3.28 3.13 2.98 3.11

Judge

{"model_name": "gpt-4o", "params": {"max_tokens": 4096, "temperature": 0.1, "top_p": 0.95}, "short_name": "gpt_4o", "system_prompt": ""}"

Player

{"model_name": "Vikhrmodels/Vikhr-Gemma-2B-instruct", "params": {"frequency_penalty": 0.2, "max_tokens": 1024, "temperature": 0.9, "top_p": 0.95}, "short_name": "vikhr_gemma_2b_it", "system_prompt": ""}

Interrogator

{"model_name": "gpt-4o-mini", "params": {"max_tokens": 1024, "temperature": 0.8, "top_p": 0.95}, "system_prompt": ""}