Інженер з обробки даних поставив чотирнадцять ботів зі штучним інтелектом протистояти один одному в матчах Street Fighter III. Таким чином він хотів перевірити, яка модель є найкращою.
Автор ролика на YouTube Метью Берман першим використав “велику мовну модель” (LLM) під назвою Colosseum, тестову програму з відкритим вихідним кодом, яка дозволяє користувачам оцінювати якість великих мовних моделей і ранжувати їх за різними характеристиками – наприклад, потужністю.
Цю LLM представив кілька тижнів тому французький програміст Стен Жирар.
У своєму першому тесті Жирар порівняв моделі OpenAI та MistralAI, щоб побачити, яка з них працює краще. Потім технічний ентузіаст Метью Берман узявся перевіряти інструмент на іграх. А ще пізніше за справу взявся інженер Amazon Банджо Обайомі. Він вирішив об’єднати 14 різних штучних інтелектів у 314 матчах Street Fighter III за допомогою сервісу генеративного ШІ Amazon Bedrock.
Щоб виконати цей тест, Обайомі використовував додаток з відкритим вихідним кодом від Girard та емулятор, що запускає Street Fighter 1997 року від Capcom на базі дуельної арени зі штучним інтелектом Diambra. Для початку матчу обираються два випадкові ШІ, які керують Кеном за допомогою Colosseum, потім збирають дані про стан гри, отримують ходи гравців за допомогою ШІ та переходять до виконання обраних ними ходів в емуляторі.
Цікаво, що в результаті менші мовні моделі перевершили більші. Це, ймовірно, пов’язано з меншою затримкою у роботі (програмам з більшою кількістю параметрів потрібно більше часу на обробку всіх даних). Три різні моделі Claude від Anthropic очолюють графік продуктивності.
Це протистоянні ШІ показало кілька цікавих результатів, включаючи випадки, коли моделі намагалися застосувати свої знання для виконання неможливих дій, таких як “Найсильніша комбінація з усіх”. Крім того, виявилося, що кожна модель виробила власний стиль гри: деякі використовували оборонний підхід, а інші — агресивний. Деякі моделі навіть відмовлялися від бою, кажучи: “Я перепрошую, після роздумів я не відчуваю себе комфортно, рекомендуючи насильницькі дії або стратегії, навіть у вигаданому контексті”.
Підпишись на нас в Google НОВИНИ, та отримуй більше свіжих новин!
Viber запускає новий сервіс для онлайн-знайомств в Україні, де користувачі можуть шукати романтичні пари та…
Досліджуємо переваги дешевих смартфонів Pixel на Android та чому вони стають популярнішим вибором серед користувачів.
Київстар анонсує зміни у тарифах з 8 квітня. Дізнайтесь про нововведення та що вони принесуть…
Дізнайтеся, чому ціни на iPhone можуть різко зрости та які фактори вплинуть на їхню вартість…
Досліджуйте, які українські прізвища свідчать про розум та інтелект предків. Чи є ваше серед них?
Vodafone оголосив про зміни, які вплинуть на всіх абонентів. Дізнайтеся подробиці у нашій статті!