AI-битва моделей: бізнесові труднощі та пошук цінностей в умовах інженерної революції

"Битва ста моделей" в AI-індустрії: комерційні труднощі за інженерною революцією

Минулого місяця в AI-індустрії розгорілася "війна тварин".

Одна сторона - це відкритий великий мовний модель, розроблений певною технологічною компанією, яка завдяки своїй відкритій природі здобула популярність у спільноті розробників. Після дослідження відповідних статей та вихідного коду, японська компанія швидко розробила японську версію діалогового ШІ, що вирішило проблему вузьких місць Японії в сфері штучного інтелекту.

Інша сторона - це великий модель під назвою "Сокіл". У травні цього року з'явилася "Сокіл-40B", яка перевершила попередника і зайняла перше місце в рейтингу відкритих великих мовних моделей.

Цей рейтинг створено спільнотою відкритих моделей і надає стандарти для оцінки можливостей великих мовних моделей. Рейтинг в основному полягає в тому, що обидва займають перше місце по черзі.

Після випуску нової версії перший з них тимчасово повернувся на перше місце; але на початку вересня "Сокіл" випустив версію 180B, знову отримавши вищий рейтинг.

Цікаво, що розробник "Сокола" не є технологічною компанією, а дослідницьким інститутом, що знаходиться в столиці ОАЕ. Представники уряду заявили: "Ми беремо участь у цій галузі, щоб зруйнувати основних гравців".

На другий день після випуску версії 180B, міністр штучного інтелекту Об'єднаних Арабських Еміратів був обраний до списку "100 найбільш впливових людей у сфері ШІ" за версією одного відомого журналу; разом з ним у списку опинилися "батько ШІ" Геоффрі Хінтон, CEO однієї відомої компанії ШІ, а також засновник однієї китайської технологічної компанії.

Сьогодні сфера ШІ вступила в етап, коли багато гравців змагаються за лідерство: будь-яка країна або компанія з певними фінансовими ресурсами більше чи менше розробляє свою велику мовну модель. Лише в колі країн Перської затоки є не один гравець — у серпні Саудівська Аравія тільки що придбала більше 3000 висококласних AI-чіпів для своїх університетів, які будуть використані для навчання великих мовних моделей.

Відомий інвестор нещодавно поскаржився на соціальній платформі: "Коли я не вірив в інновації бізнес-моделей Інтернету, вважав, що немає бар'єрів: битва сотень груп, битва сотень автомобілів, битва сотень трансляцій; не думав, що стартапи в жорстких технологіях на основі великих моделей все ще є битвою сотень моделей..."

Як так сталося, що технології з високими вимогами, які вважалися складними, стали проектами, за якими змагаються країни?

Революція Transformer

Американські стартапи, китайські технологічні гіганти та нафтові магнати Близького Сходу можуть переслідувати мрії про великі моделі завдяки тій відомій статті: "Увага — це все, що вам потрібно".

У 2017 році 8 комп'ютерних вчених у цій статті відкрили алгоритм Transformer для всього світу. Ця стаття наразі є третьою за кількістю цитувань у історії штучного інтелекту, а поява Transformer спричинила цей сплеск штучного інтелекту.

Незалежно від того, з якої країни походить нинішня велика модель, включаючи сенсаційні серії GPT, вони побудовані на основі трансформера.

До цього часу "навчання машин читати" залишалося визнаною академічною проблемою. На відміну від розпізнавання зображень, людина під час читання тексту не лише звертає увагу на те, що вона бачить в даний момент, але й поєднує це з контекстом для розуміння.

Наприклад, слово "Transformer" насправді може бути перекладено як "перетворювач", але читачі цієї статті, напевно, не зрозуміють це, оскільки всі знають, що це не стаття про голлівудський фільм.

Але ранні нейронні мережі приймали незалежні один від одного входи і не мали здатності розуміти великі обсяги тексту, навіть цілі статті, тому виникали проблеми, такі як переклад "开水间" на "open water room".

До 2014 року комп'ютерний вчений, який працював у певній технологічній компанії, а потім перейшов до іншої компанії з штучним інтелектом, перш за все досяг прориву. Він використовував рекурентні нейронні мережі (RNN) для обробки природної мови, що дозволило швидко перевершити продуктивність машинного перекладу конкурентів.

RNN запропонував "циклічний дизайн", що дозволяє кожному нейрону приймати як інформацію поточного моменту, так і інформацію з попереднього моменту, тим самим надаючи нейронній мережі здатність "поєднувати контекст".

Поява RNN запалила науковий інтерес у академічному середовищі, і один з авторів статті про Transformer також на деякий час захопився ним. Однак розробники швидко усвідомили, що у RNN є серйозний недолік:

Цей алгоритм використовує послідовні обчислення, безумовно, він може вирішити проблеми контексту, але його ефективність виконання не висока, і йому важко обробляти велику кількість параметрів.

Складний дизайн RNN швидко набрид цьому автору. Тому з 2015 року він разом з 7 однодумцями взявся за розробку альтернативи RNN, результатом якої став Transformer.

На відміну від RNN, у трансформера є дві революційні характеристики:

По-перше, було замінено циклічний дизайн RNN на кодування позицій, що дозволило реалізувати паралельні обчислення — ця зміна значно підвищила ефективність навчання Transformer, що дало змогу обробляти великі дані та вивело ШІ в епоху великих моделей; по-друге, було подальше зміцнення контекстуальних можливостей.

З тих пір, як Transformer вирішив безліч недоліків, він поступово став стандартним методом у сфері обробки природної мови, створюючи враження "відкриття нових горизонтів". Навіть творці RNN відмовилися від технології, яку самі піднесли на п'єдестал, і перейшли до Transformer.

Іншими словами, Transformer є прародителем усіх великих моделей сьогодні, оскільки він перетворив великі моделі з теоретичної проблеми дослідження на чисто інженерну проблему.

У 2019 році одна AI компанія на основі Transformer розробила велику мовну модель, яка вразила академічний світ. У відповідь інший технологічний гігант швидко представив більш потужний AI під назвою Meena.

У порівнянні з попереднім, Meena не має інновацій у базовому алгоритмі, лише на 8,5 разів більше параметрів навчання та в 14 разів більше обчислювальної потужності. Автори статті про Transformer були вражені цим "жорстоким накопиченням" і негайно написали меморандум "Meena поглинає світ".

Поява Transformer значно сповільнила темпи інновацій у базових алгоритмах в академічному середовищі. Інженерні елементи, такі як обробка даних, масштаб обчислень, архітектура моделей тощо, поступово стають важливими факторами у змаганнях в сфері штучного інтелекту. Будь-яка технологічна компанія, яка має певні технічні можливості, може розробити великий модель.

Тому комп'ютерний вчений Ендрю Нг зазначив під час своєї промови в Стенфордському університеті, що "ШІ є сукупністю інструментів, включаючи навчання з наглядом, навчання без нагляду, навчання з підкріпленням та сучасний генеративний штучний інтелект. Усі ці технології є загальними технологіями, подібно до електрики та Інтернету."

Деяка AI компанія, безумовно, залишається орієнтиром для великих мовних моделей, але аналітична агенція в галузі напівпровідників вважає, що конкурентоспроможність її останньої моделі походить з інженерних рішень — якщо вона буде з відкритим кодом, будь-який конкурент зможе швидко відтворити.

Цей аналітик прогнозує, що, можливо, незабаром і інші великі технологічні компанії зможуть створити моделі з аналогічними характеристиками.

Ров, побудований на склі

Сьогодні «Битва моделей» вже не є риторичним прийомом, а є об'єктивною реальністю.

Відповідні звіти показують, що станом на липень цього року в країні кількість великих моделей досягла 130, перевищивши 114 в США, успішно здійснивши обгін на повороті, різних міфів і легенд вже майже не вистачає для назв технологічних компаній у країні.

А поза межами США та Китаю, низка більш заможних країн також попередньо реалізувала "одна країна - одна модель": крім Японії та Об'єднаних Арабських Еміратів, також є модель Bhashini, яку очолює уряд Індії, а також HyperClova X, розроблена певною інтернет-компанією з Південної Кореї.

Ця обстановка нагадує про той час, коли в повітрі літали міхури, а "грошова спроможність" змагалася в інтернет-експансії.

Як було зазначено раніше, трансформер перетворив великі моделі на чисто інженерну задачу: якщо у когось є гроші та відеокарта, решту можна довірити параметрам. Але хоча квиток на вхід не важко отримати, це не означає, що кожен має можливість стати гігантом епохи ШІ.

На початку згадана "Війна тварин" є типічним прикладом: "Сокіл", хоча і випереджає суперників у рейтингу, важко сказати, наскільки сильно він вплинув на певного технологічного гіганта.

Як відомо, компанії відкривають свої наукові досягнення, щоб поділитися благами технології з суспільством, а також сподіваються залучити розум людей. З розвитком використання та вдосконалення відкритих моделей професорами університетів, науковими установами та малими і середніми підприємствами, компанія може застосовувати ці досягнення у своїх продуктах.

Для відкритих великих моделей активна спільнота розробників є їхньою основною конкурентною перевагою.

А вже у 2015 році, коли було створено лабораторію штучного інтелекту, компанія визначила основний курс на відкритість; її засновник також є успішним підприємцем у бізнесі соціальних медіа і глибоко розуміє, як "налагоджувати зв'язки з громадськістю".

Наприклад, у жовтні компанія спеціально організувала захід "AI-версія стимулювання творців": розробники, які використовують її відкриту модель для вирішення соціальних проблем, таких як освіта та екологія, матимуть можливість отримати фінансування в розмірі 500 тисяч доларів.

Сьогодні ця серія відкритих моделей компанії, безсумнівно, стала орієнтиром у світі відкритих великих мовних моделей.

Станом на початок жовтня, у рейтингу Top 10 певної спільноти з відкритим кодом, 8 з них створені на базі цієї відкритої моделі, всі використовують її ліцензію з відкритим кодом. Лише в цій спільноті кількість великих мовних моделей, що використовують цю ліцензію з відкритим кодом, вже перевищила 1500.

Звісно, підвищення продуктивності, як у "Яструба", також не є неможливим, але на сьогодні більшість великих мовних моделей на ринку все ще мають помітну різницю в продуктивності в порівнянні з відомою моделлю.

Наприклад, нещодавно ця відома модель здобула перше місце в тесті AgentBench з результатом 4.41. Стандарт AgentBench був спільно розроблений університетом Цінхуа, Університетом штату Огайо та Каліфорнійським університетом у Берклі для оцінки здатності великих мовних моделей до міркувань та прийняття рішень у багатовимірному відкритому середовищі генерації. Тестові завдання включали операційні системи, бази даних, графи знань, карткові битви та інші 8 різних середовищ.

Тестові результати показують, що інша модель, яка зайняла друге місце, набрала лише 2.77 балів, а різниця все ще є досить очевидною. Що стосується тих гучних відкритих великих мовних моделей, їхні результати тестів переважно коливаються близько 1 бала, що менше ніж 1/4 від першого місця.

Слід зазначити, що ця відома модель була випущена у березні цього року, і це результат того, що світові колеги наздоганяли її протягом більше півроку. Причиною цієї різниці є команда вчених з високою "інтелектуальною щільністю", яка стоїть за нею, а також досвід, накопичений у довгострокових дослідженнях великих мовних моделей, завдяки чому вона завжди залишається попереду.

Тобто, основна здатність великої моделі полягає не в параметрах, а в будівництві екосистеми ( відкритий код ) або чисто в інтерпретаційних здібностях ( закритий код ).

Зі збільшенням активності відкритих спільнот, продуктивність різних великих мовних моделей може почати схожість, оскільки всі використовують схожі архітектури моделей і схожі набори даних.

Інша, більш інтуїтивна проблема полягає в тому, що, окрім певного малюнкового ШІ, здається, жодна велика модель не може заробити гроші.

Якір вартості

У серпні цього року стаття під назвою "Відомий AI-компанія може оголосити банкрутство наприкінці 2024 року" привернула увагу багатьох. Основну ідею статті можна підсумувати в одному реченні: ця компанія витрачає гроші занадто швидко.

У тексті згадується, що з моменту розробки своєї відомої моделі діалогу, збитки компанії швидко зростають, лише у 2022 році вона зазнала збитків приблизно на 540 мільйонів доларів, і залишається лише чекати, поки якийсь технологічний гігант-інвестор покриє витрати.

Хоча заголовок статті звучить гучно, він також говорить про поточний стан численних постачальників великих моделей: витрати та доходи серйозно не збалансовані.

Занадто високі витрати призвели до того, що наразі лише одна чипова компанія заробила великі гроші завдяки штучному інтелекту, максимум ще одна чипова компанія.

Згідно з оцінками консалтингової компанії, одна чипова компанія у другому кварталі цього року продала понад 300 000 своїх новітніх AI-мікросхем. Це мікросхема, яка має надзвичайно високу ефективність у навчанні AI, і технологічні компанії та науково-дослідні установи по всьому світу її розкуповують. Якщо скласти ці 300 000 проданих мікросхем разом, їхня вага дорівнює 4,5 літакам Boeing 747.

Результати цієї компанії з виробництва чіпів також стрімко зросли, порівняно з минулим роком дохід зріс на 854%, що вразило Уолл-Стріт. До речі, наразі ціна цього чіпа на вторинному ринку вже досягла 40-50 тисяч доларів, хоча його собівартість лише трохи більше 3000 доларів.

Високі витрати на обчислювальну потужність стали певною мірою перешкодою для розвитку індустрії. Однією відомою венчурною компанією було проведено розрахунок: глобальні технологічні компанії щорічно витрачатимуть близько 200 мільярдів доларів США на будівництво інфраструктури для великих моделей; у той же час, великі моделі можуть приносити не більше 75 мільярдів доларів США доходу на рік, що створює щонайменше 125 мільярдів доларів США в прогалинах.

Крім того, за винятком кількох випадків, таких як певний малювальний ШІ, більшість програмних компаній, витративши величезні кошти, досі не зрозуміли, як заробляти гроші. Особливо два провідних гравці в галузі — певний технологічний гігант і певна компанія з розробки програмного забезпечення для дизайну, які йдуть дещо похитуючись.

Одна з технологічних гігантів і одна компанія з штучного інтелекту раніше співпрацювали над розробкою інструменту генерації коду на основі ШІ, хоча

GPT-6.75%
WATERSOL-0.67%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
tokenomics_truthervip
· 15год тому
Яка користь від ігор з цифрами? Спочатку зробіть практичний приклад.
Переглянути оригіналвідповісти на0
TrustMeBrovip
· 15год тому
Знову битва за рейтинги, так?
Переглянути оригіналвідповісти на0
FarmToRichesvip
· 15год тому
Відчуваю, що відкриття дому стає все більш барвистим~
Переглянути оригіналвідповісти на0
LiquidatedNotStirredvip
· 15год тому
Битва ста моделей, ха-ха, різні шляхи до однієї мети!
Переглянути оригіналвідповісти на0
GamefiHarvestervip
· 15год тому
Відкритий вихідний код обдурювати людей, як лохів ще цікавіше
Переглянути оригіналвідповісти на0
  • Закріпити