Прорив у генерації відео за допомогою ШІ: багатомодальні технології спричинили зміни в економіці творчості

Перемоги та можливості, що виникають внаслідок прориву технології генерації відео на основі штучного інтелекту

Останніми часами найбільш значущим досягненням у сфері ШІ є прорив у технології генерації мультимедійних відео. Ця технологія вже перейшла від однієї текстової генерації відео до інтеграції тексту, зображень та аудіо в повний ланцюговий генераційний процес.

Деякі вражаючі технологічні прориви включають:

  1. Відкритий фреймворк EX-4D: може перетворити звичайне відео на 4D-контент з вільним кутом зору, рівень схвалення користувачів досягає 70.7%. Ця технологія дозволяє ШІ автоматично генерувати ефект перегляду з будь-якого кута без необхідності в професійній команді 3D-моделювання.

  2. Платформа "绘想": стверджує, що може згенерувати 10-секундне відео "кінематографічної" якості з одного зображення. Конкретні результати ще потребують подальшої перевірки.

  3. Технологія Veo: здатна синхронно генерувати 4K відео та навколишній звук. Ця технологія подолала виклики синхронізації звуку і зображення в складних сценах, такі як точне відповідність між рухами в кадрі та звуком кроків.

  4. ContentV: Має 8 мільярдів параметрів, може генерувати 1080p відео за 2,3 секунди, вартість становить 3,67 юаня/5 секунд. Хоча контроль витрат здійснюється належним чином, все ще є можливості для покращення якості генерації у складних сценах.

Ці технологічні прориви мають велике значення в аспектах якості відео, витрат на виробництво та сценаріїв застосування:

  1. У плані технічної складності генерація мультимодальних відео передбачає експоненціальний зріст обсягу обчислень. Це вимагає обробки однофреймової генерації зображень (близько 10^6 пікселів), забезпечення послідовності часу (принаймні 100 кадрів), синхронізації аудіо (10^4 семплів на секунду) та просторової узгодженості 3D. Зараз завдяки модульному розподілу та спільній праці великих моделей ці складні завдання стали можливими.

  2. Скорочення витрат в основному стало можливим завдяки оптимізації архітектури висновку. Це включає в себе ієрархічну стратегію генерації (спочатку генерується скелет з низькою роздільною здатністю, а потім покращується вміст з високою роздільною здатністю), механізм повторного використання кешу (повторне використання схожих сцен) і динамічне розподілення ресурсів (регулювання глибини моделі залежно від складності вмісту).

  3. У сфері впливу застосувань ШІ змінює традиційний процес виробництва відео. Раніше виробництво 30-секундного рекламного ролика могло коштувати десятки тисяч. Тепер ШІ спростив цей процес до введення підказок і кількох хвилин очікування, водночас забезпечуючи перспективи та ефекти, яких важко досягти традиційною зйомкою. Ця трансформація може призвести до значних змін у всій сфері економіки творців.

Ці технологічні досягнення також мали глибокий вплив на сферу Web3 AI:

  1. Змінюється структура попиту на обчислювальні потужності. Генерація мультимодальних відео вимагає різноманітних комбінацій обчислювальних потужностей, що створює новий попит на розподілені неактивні обчислювальні потужності, різні розподілені моделі доопрацювання, алгоритми та платформи для інференції.

  2. Потреби в розмітці даних посилюються. Для створення професійного рівня відео потрібні точні описи сцен, референсні зображення, аудіо стилі, траєкторії руху камери та умови освітлення тощо. Механізм заохочення Web3 може спонукати професіоналів, таких як фотографи, звукові дизайнери та 3D-художники, надавати високоякісні матеріали, що підвищить можливості генерації відео AI.

  3. Зростає попит на децентралізовані платформи. Штучний інтелект поступово переходить від централізованого масштабного розподілу ресурсів до модульної співпраці, що само по собі є новим попитом на децентралізовані платформи. У майбутньому обчислювальна потужність, дані, моделі та механізми стимулювання можуть утворити самопідтримуваний позитивний цикл, що сприятиме глибокій інтеграції Web3 AI та Web2 AI.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
NftDeepBreathervip
· 08-13 07:05
Спекулянти знову почали розкручувати AI!
Переглянути оригіналвідповісти на0
TopEscapeArtistvip
· 08-12 05:22
Відчувається, що ще одна ринкова бульбашка ось-ось з'явиться. Технічна підтримка команди все ще недостатньо сильна.
Переглянути оригіналвідповісти на0
GasGrillMastervip
· 08-11 18:23
Чесно кажучи, 70% визнання не є чимось особливим.
Переглянути оригіналвідповісти на0
MetaverseMigrantvip
· 08-11 18:19
Знову говорять про технологічну революцію.
Переглянути оригіналвідповісти на0
MidnightSellervip
· 08-11 18:04
Я ж кажу, цей прогрес просто неймовірний.
Переглянути оригіналвідповісти на0
  • Закріпити