Інженер з обробки даних поставив чотирнадцять ботів зі штучним інтелектом протистояти один одному в матчах Street Fighter III. Таким чином він хотів перевірити, яка модель є найкращою.
Автор ролика на YouTube Метью Берман першим використав “велику мовну модель” (LLM) під назвою Colosseum, тестову програму з відкритим вихідним кодом, яка дозволяє користувачам оцінювати якість великих мовних моделей і ранжувати їх за різними характеристиками – наприклад, потужністю.
Цю LLM представив кілька тижнів тому французький програміст Стен Жирар.
У своєму першому тесті Жирар порівняв моделі OpenAI та MistralAI, щоб побачити, яка з них працює краще. Потім технічний ентузіаст Метью Берман узявся перевіряти інструмент на іграх. А ще пізніше за справу взявся інженер Amazon Банджо Обайомі. Він вирішив об’єднати 14 різних штучних інтелектів у 314 матчах Street Fighter III за допомогою сервісу генеративного ШІ Amazon Bedrock.
Щоб виконати цей тест, Обайомі використовував додаток з відкритим вихідним кодом від Girard та емулятор, що запускає Street Fighter 1997 року від Capcom на базі дуельної арени зі штучним інтелектом Diambra. Для початку матчу обираються два випадкові ШІ, які керують Кеном за допомогою Colosseum, потім збирають дані про стан гри, отримують ходи гравців за допомогою ШІ та переходять до виконання обраних ними ходів в емуляторі.
Цікаво, що в результаті менші мовні моделі перевершили більші. Це, ймовірно, пов’язано з меншою затримкою у роботі (програмам з більшою кількістю параметрів потрібно більше часу на обробку всіх даних). Три різні моделі Claude від Anthropic очолюють графік продуктивності.
Це протистоянні ШІ показало кілька цікавих результатів, включаючи випадки, коли моделі намагалися застосувати свої знання для виконання неможливих дій, таких як “Найсильніша комбінація з усіх”. Крім того, виявилося, що кожна модель виробила власний стиль гри: деякі використовували оборонний підхід, а інші — агресивний. Деякі моделі навіть відмовлялися від бою, кажучи: “Я перепрошую, після роздумів я не відчуваю себе комфортно, рекомендуючи насильницькі дії або стратегії, навіть у вигаданому контексті”.
Підпишись на нас в Google НОВИНИ, та отримуй більше свіжих новин!
Як вибрати смартфон у 2025 році: головні критерії, на які варто звернути увагу — батарея,…
Як працює мобільний та фіксований зв’язок Київстар під час блекаутів. Чому інколи зникає сигнал, як…
З 1 грудня у тарифах LOVE UA з’являються нові країни для міжнародних дзвінків: Франція, Данія…
Як обрати бюджетний смартфон, який працює як флагман? Розповідаємо, на які функції звернути увагу у…
Як зробити так, щоб смартфон працював довше без підзарядки? ТОП-15 порад, основаних на сучасних технологіях…
Які смартфони у 2025 році стали найкращими за співвідношенням ціни, якості та технологій? Огляд топ-5…