AI битва моделей: коммерческие трудности и исследование ценности в условиях инженерной революции

"Битва ста моделей" в AI-индустрии: коммерческие трудности за инженерной революцией

В прошлом месяце в индустрии ИИ разразилась "война животных".

С одной стороны, это открытая большая языковая модель, представленная некоторым технологическим гигантом, которая благодаря своей открытости пользуется большой популярностью в сообществе разработчиков. После изучения соответствующих научных статей и исходного кода, одна японская компания быстро разработала японскую версию диалогового ИИ, решив тем самым проблему узкого места Японии в области ИИ.

Другой стороной является большой модель под названием "Сокол". В мае этого года вышла "Сокол-40B", которая превзошла предыдущую и заняла первое место в рейтинге открытых больших языковых моделей.

Этот рейтинг создан сообществом открытых моделей и предоставляет стандарты для оценки возможностей больших языковых моделей. Рейтинг в основном представляет собой чередование двух лидеров.

Первый временно вернул себе первое место после выпуска новой версии; но к началу сентября "Сокол" выпустил версию 180B и снова занял более высокую позицию.

Интересно, что разработчик "Сокол" не является технологической компанией, а представляет собой исследовательский институт, расположенный в столице Объединенных Арабских Эмиратов. Представители правительства заявили: "Мы участвуем в этой области, чтобы подорвать позиции основных игроков".

На второй день после выпуска версии 180B министр искусственного интеллекта ОАЭ был включен в список "100 самых влиятельных людей в области ИИ", составленный известным журналом; вместе с ним в этот список вошли "крестный отец ИИ" Хинтон, генеральный директор известной компании в области ИИ, а также основатель одной из китайских технологических компаний.

Сегодня область ИИ вступила в стадию конкуренции: все страны и компании с определенными финансовыми возможностями в той или иной степени создают свои большие языковые модели. Только в кругу стран Персидского залива не один игрок — в августе Саудовская Аравия только что приобрела более 3000 высококлассных ИИ чипов для своих университетов, чтобы тренировать большие языковые модели.

Известный инвестор однажды пожаловался на социальной платформе: "Когда-то я не воспринимал инновации в бизнес-моделях интернета всерьез, считал, что нет барьеров: битва ста групп, битва ста автомобилей, битва ста трансляций; не ожидал, что стартапы на основе жестких технологий и больших моделей все еще ведут битву ста моделей..."

Как так получилось, что заявленная как сложная высокие технологии стала проектом, который развивают страны по всему миру?

Революция трансформеров

Американские стартапы, китайские технологические гиганты и нефтяные магнаты Ближнего Востока могут преследовать мечты о больших моделях благодаря той знаменитой статье: «Внимание — это всё, что вам нужно».

В 2017 году восемь компьютерных ученых в этой статье открыли миру алгоритм Transformer. Эта статья в настоящее время является третьей по количеству цитирований в истории искусственного интеллекта, а появление Transformer вызвало текущую волну интереса к искусственному интеллекту.

Независимо от того, из какой страны происходит текущая большая модель, включая потрясшую мир серию GPT, она построена на основе Transformer.

До этого момента «научить машины читать» считалась общепризнанной академической проблемой. В отличие от распознавания изображений, люди при чтении текста не только обращают внимание на текущие слова и фразы, но и связывают их с контекстом для понимания.

Например, слово "Transformer" на самом деле можно перевести как "Трансформер", но читатели этой статьи, безусловно, не поймут это так, потому что все знают, что это не статья о голливудском фильме.

Но ранние нейронные сети имели независимые входные данные и не обладали способностью понимать длинные тексты или даже целые статьи, поэтому возникали проблемы, такие как перевод "开水间" как "open water room".

До 2014 года компьютерный ученый, работавший в одной технологической компании, а затем перешедший в другую AI-компанию, впервые добился прорыва. Он использовал рекуррентные нейронные сети (RNN) для обработки естественного языка, что позволило производительности машинного перевода быстро превзойти конкурентов.

RNN предложила "циклический дизайн", позволяя каждому нейрону принимать как информацию текущего момента, так и информацию предыдущего момента, тем самым придавая нейронной сети способность "учитывать контекст".

Появление RNN разожгло исследовательский энтузиазм в академической среде, и один из авторов статьи о Transformer также на некоторое время увлекся этим. Однако разработчики вскоре осознали, что у RNN есть серьезный недостаток:

Алгоритм использует последовательные вычисления, которые, безусловно, могут решить проблемы контекста, но эффективность работы не высока, и ему трудно обрабатывать большое количество параметров.

Сложный дизайн RNN вскоре начал раздражать этого автора. Поэтому с 2015 года он и семь единомышленников приступили к разработке альтернативы RNN, результатом которой стал Transformer.

В сравнении с RNN, у трансформера есть две революционные особенности:

Во-первых, была заменена циклическая структура RNN на способ позиционного кодирования, что позволило реализовать параллельные вычисления — это изменение значительно увеличило эффективность обучения Transformer, что позволило ему обрабатывать большие данные и вывело ИИ в эпоху больших моделей; во-вторых, была дополнительно усилена способность к контексту.

С тех пор как Transformer одним махом решил множество недостатков, он постепенно стал стандартным методом в области обработки естественного языка, чем-то вроде "созидания нового мира". Даже создатели RNN отказались от технологии, которую сами возвели на пьедестал, и перешли к Transformer.

Иными словами, Transformer является прародителем всех современных больших моделей, поскольку он превратил большую модель из теоретической исследовательской проблемы в чисто инженерную задачу.

В 2019 году одна AI-компания разработала крупную языковую модель на основе Transformer, которая поразила академическое сообщество. В ответ другая технологическая корпорация быстро выпустила более мощный AI под названием Meena.

По сравнению с предыдущим, у Meena нет инноваций в базовых алгоритмах, она лишь имеет на 8,5 раз больше обучающих параметров и на 14 раз больше вычислительной мощности. Авторы статьи о Transformer были потрясены этой "жесткой компиляцией" и на месте написали меморандум под названием "Meena поглощает мир".

Появление Transformer значительно замедлило скорость инноваций в базовых алгоритмах в академической среде. Элементы инженерии, такие как обработка данных, масштаб вычислительных мощностей и архитектура моделей, постепенно становятся важными факторами успеха в соревнованиях AI. Любая технологическая компания с некоторыми техническими возможностями может разработать крупную модель.

Таким образом, компьютерный ученый Эндрю Ын, выступая в Стэнфордском университете, упомянул следующую точку зрения: "Искусственный интеллект — это набор инструментов, включая обучение с учителем, обучение без учителя, обучение с подкреплением и современный генеративный искусственный интеллект. Все это является универсальными технологиями, аналогичными электричеству и интернету."

Хотя эта AI-компания по-прежнему является ориентиром для больших языковых моделей, аналитические агентства в области полупроводников считают, что конкурентоспособность ее последней модели исходит из инженерных решений — если она будет открытой, любой конкурент сможет быстро воспроизвести ее.

Этот аналитик ожидает, что, возможно, не пройдет много времени, и другие крупные технологические компании смогут создать модели с аналогичными характеристиками.

Ров, построенный на стекле

На данный момент "битва ста моделей" уже не является риторическим приемом, а объективной реальностью.

Согласно отчетам, по состоянию на июль этого года, количество крупных моделей в стране достигло 130, что выше, чем в США, где их 114, что позволило успешно обойти соперников на повороте, и различных мифов и легенд уже недостаточно для именования отечественных технологических компаний.

А между США и Китаем, ряд более богатых стран также в основном реализовали "одна страна - одна модель": помимо Японии и Объединённых Арабских Эмиратов, есть также модель Bhashini, разработанная правительством Индии, и HyperClova X, созданная одной из интернет-компаний Южной Кореи.

Сейчас все выглядит так, как будто мы вернулись в эпоху интернет-экспансии, когда на горизонте царили мыльные пузыри и соперничество "денежной силы".

Как уже упоминалось ранее, Transformer превратил большие модели в чисто инженерную задачу: если у кого-то есть деньги и видеокарты, остальное можно доверить параметрам. Однако, хотя входной билет не так уж сложно получить, это не означает, что у всех есть возможность стать гигантами эпохи ИИ.

Упомянутая в начале "Война животных" является典型ный пример: "Сокол", хотя и занимает более высокие позиции в рейтинге, трудно сказать, насколько он повлиял на какого-либо технологического гиганта.

Как известно, компании открывают свои научные достижения, чтобы поделиться благами науки с обществом, а также надеются привлечь мудрость народа. С ростом использования и улучшения открытых моделей различными университетскими профессорами, исследовательскими учреждениями и малыми и средними предприятиями, компания может применить эти достижения в своих продуктах.

Для открытых больших моделей активное сообщество разработчиков является их основным конкурентным преимуществом.

А еще в 2015 году, когда была создана лаборатория ИИ, компания уже установила основной тон для открытого исходного кода; ее основатель, который заработал на бизнесе в социальных сетях, прекрасно понимает, как "хорошо наладить отношения с общественностью".

Например, в октябре компания специально организовала мероприятие "AI-версия стимулов для создателей": разработчики, использующие ее открытые модели для решения социальных проблем, таких как образование и окружающая среда, получат возможность получить финансирование в размере 500 000 долларов.

На сегодняшний день серия открытых моделей этой компании, безусловно, стала индикатором направления для открытых больших языковых моделей.

По состоянию на начало октября, в рейтинге Top 10 сообщества открытых моделей, 8 из них были созданы на основе этой открытой модели и использовали ее лицензионное соглашение. Только в этом сообществе уже более 1500 крупных языковых моделей, использующих это лицензионное соглашение.

Конечно, улучшение производительности, как у "Сокола", тоже не помешает, но на сегодняшний день большинство крупных языковых моделей на рынке все еще имеют заметный разрыв в производительности по сравнению с известной моделью.

Например, недавно эта известная модель заняла первое место в тесте AgentBench с результатом 4.41. Стандарт AgentBench был разработан совместно Туньяньским университетом, Университетом штата Огайо и Калифорнийским университетом в Беркли для оценки способности крупных языковых моделей к рассуждениям и принятию решений в многомерной открытой генерационной среде. Тестовые задания включали задачи в восьми различных средах, таких как операционные системы, базы данных, графы знаний, карточные сражения и др.

Результаты тестирования показывают, что у другой модели, занимающей второе место, всего 2,77 балла, разница все еще довольно заметна. Что касается тех громких открытых больших языковых моделей, их результаты тестирования часто колеблются около 1 балла, и это даже не 1/4 от результата первой модели.

Следует отметить, что эта известная модель была выпущена в марте этого года, и это результат работы коллег по всему миру, которые пытались догнать её на протяжении более полугода. Причиной такого отставания является высокая "интеллектуальная плотность" команды ученых, стоящей за ней, а также накопленный опыт долгосрочных исследований больших языковых моделей, что позволяет ей постоянно оставаться на шаг впереди.

То есть, ключевая способность больших моделей заключается не в параметрах, а в создании экосистемы ( открытого исходного кода ) или чисто в способности вывода ( закрытого исходного кода ).

С учетом того, что открытое сообщество становится все более активным, производительность различных крупных языковых моделей может стать схожей, поскольку все используют похожие архитектуры моделей и аналогичные наборы данных.

Другой более наглядной задачей является то, что, помимо определенного графического ИИ, похоже, ни одна большая модель не смогла заработать деньги.

Якорь ценности

В августе этого года статья под заголовком "Известная AI-компания может обанкротиться к концу 2024 года" привлекла немало внимания. Суть статьи можно изложить в одной фразе: эта компания сжигает деньги слишком быстро.

В тексте упоминается, что с тех пор как была разработана их известная модель диалога, убытки компании быстро растут, и только в 2022 году они составили около 540 миллионов долларов, и им остается только ждать, пока какой-либо технологический гигант-инвестор оплатит это.

Хотя заголовок статьи звучит громко, он также рассказывает о текущем состоянии многих поставщиков крупных моделей: серьезный дисбаланс между затратами и доходами.

Слишком высокие затраты привели к тому, что в настоящее время только одна компания по производству чипов заработала большие деньги на искусственном интеллекте, максимум еще одна компания по производству чипов.

По оценкам консалтинговой компании, одна чиповая компания в первом полугодии этого года продала более 300 000 своих новейших AI-чипов. Этот чип обладает высокой эффективностью обучения AI, и все мировые технологические компании и научные учреждения стремятся его купить. Если сложить эти 300 000 проданных чипов вместе, их вес будет равен весу 4,5 самолета Boeing 747.

Выручка этой компании по производству чипов также стремительно возросла, год к году увеличившись на 854%, чем шокировала Уолл-стрит. К слову, в настоящее время цена на этот чип на вторичном рынке достигла 40-50 тысяч долларов, в то время как его производственные затраты составляют всего около 3000 долларов.

Высокие затраты на вычислительные мощности стали в определенной степени препятствием для развития отрасли. Одна известная венчурная компания провела расчет: ожидается, что технологические компании по всему миру будут тратить 200 миллиардов долларов в год на строительство инфраструктуры для больших моделей; в сравнении с этим, большие модели могут приносить максимум 75 миллиардов долларов дохода в год, что создает разрыв как минимум в 125 миллиардов долларов.

Кроме того, за исключением некоторых исключительных случаев, таких как AI для рисования, большинство программных компаний, понеся огромные затраты, все еще не понимают, как зарабатывать деньги. Особенно два главных игрока в отрасли — некий технологический гигант и некая компания по разработке программного обеспечения — идут несколько неуверенно.

Некоторый технологический гигант и одна AI-компания ранее сотрудничали в разработке инструмента генерации кода на основе ИИ, хотя

GPT-1.35%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 7
  • Репост
  • Поделиться
комментарий
0/400
HappyMinerUnclevip
· 08-12 05:23
Инструмент действительно перегружен.
Посмотреть ОригиналОтветить0
tokenomics_truthervip
· 08-11 10:25
Какова польза от игры с числами? Сначала покажите практические примеры.
Посмотреть ОригиналОтветить0
TrustMeBrovip
· 08-11 10:25
Снова битва за рейтинг, да?
Посмотреть ОригиналОтветить0
FarmToRichesvip
· 08-11 10:19
Чувствую, что открытый дом становится все более красивым~
Посмотреть ОригиналОтветить0
LiquidatedNotStirredvip
· 08-11 10:17
Битва стилей, хе-хе, все дороги ведут в Рим.
Посмотреть ОригиналОтветить0
GamefiHarvestervip
· 08-11 10:15
Открытый исходный код разыгрывайте людей как лохов более интересно
Посмотреть ОригиналОтветить0
  • Закрепить