Terobosan dalam teknologi generasi video multimodal, peluang apa yang dimiliki AI Web3?

7/9/2025, 10:18:15 AM
Menengah
AITeknologi
Artikel ini menganalisis terobosan dalam teknologi generasi video multimodal (seperti EX-4D dari Byte, Google Veo, dll.) dan membahas dampak mendalamnya pada ekonomi kreator dan Web3 AI.

Selain "penenggelaman" lokalisasi AI, perubahan terbesar di sektor AI baru-baru ini adalah terobosan teknologi dalam generasi video multimodal, yang telah berkembang dari mendukung generasi video berbasis teks murni menjadi teknologi generasi terintegrasi sepenuhnya yang menggabungkan teks, gambar, dan audio.

Berikut adalah beberapa contoh terobosan teknologi yang dapat dialami semua orang:

1) ByteDance mengopen-source kerangka EX-4D: Video monokular langsung berubah menjadi konten 4D titik pandang bebas, dengan tingkat penerimaan pengguna sebesar 70,7%. Ini berarti bahwa untuk video biasa, AI dapat secara otomatis menghasilkan efek tampilan dari sudut mana pun, yang sebelumnya memerlukan tim pemodelan 3D profesional untuk mencapainya.

2) Platform Baidu "Hui Xiang": menghasilkan video 10 detik dari satu gambar, mengklaim mencapai kualitas "level film". Namun, apakah ini terlalu dilebih-lebihkan oleh pemasaran masih harus dilihat sampai pembaruan versi Pro pada bulan Agustus.

3) Google DeepMind Veo: Dapat mencapai generasi video 4K + sinkronisasi suara lingkungan. Sorotan teknologi kunci adalah pencapaian kemampuan "sinkronisasi", karena sebelumnya itu adalah penggabungan dua sistem untuk video dan audio. Untuk mencapai pencocokan pada tingkat semantik yang sebenarnya, tantangan signifikan harus diatasi, seperti dalam adegan kompleks, di mana sinkronisasi tindakan berjalan dalam video dan suara langkah kaki yang sesuai harus ditangani.

4) Konten DouyinV: 8 miliar parameter, 2,3 detik untuk menghasilkan video 1080p, biaya 3,67 yuan/5 detik. Sejujurnya, kontrol biaya ini cukup baik, tetapi saat ini, mengingat kualitas generasi, masih kurang ketika menghadapi adegan yang kompleks.

Mengapa dikatakan bahwa kasus-kasus ini memiliki nilai dan makna yang signifikan dalam hal terobosan kualitas video, biaya produksi, dan skenario aplikasi?

1. Dalam hal terobosan nilai teknologi, kompleksitas menghasilkan video multimodal sering kali bersifat eksponensial. Sebuah gambar tunggal terdiri dari sekitar 10^6 piksel, dan sebuah video harus memastikan koherensi temporal (setidaknya 100 frame), bersama dengan sinkronisasi audio (10^4 titik sampel per detik), sambil juga mempertimbangkan konsistensi spasial 3D.

Singkatnya, kompleksitas teknis tidak rendah. Awalnya, itu adalah model super besar yang menghadapi semua tugas secara langsung. Dikatakan bahwa Sora membakar puluhan ribu H100 untuk mencapai kemampuan generasi video. Sekarang, ini dapat direalisasikan melalui dekomposisi modular dan kerja kolaboratif model besar. Misalnya, EX-4D Byte sebenarnya membagi tugas kompleks menjadi: modul estimasi kedalaman, modul transformasi sudut pandang, modul interpolasi temporal, modul optimisasi rendering, dan seterusnya. Setiap modul mengkhususkan diri dalam satu tugas dan kemudian berkoordinasi melalui mekanisme.

2. Dalam hal pengurangan biaya: ini sebenarnya melibatkan pengoptimalan arsitektur penalaran itu sendiri, termasuk strategi generasi berlapis, di mana kerangka resolusi rendah dihasilkan terlebih dahulu dan kemudian konten citra resolusi tinggi ditingkatkan; mekanisme penggunaan kembali caching, yaitu penggunaan kembali adegan yang serupa; dan alokasi sumber daya dinamis, yang sebenarnya mengatur kedalaman model berdasarkan kompleksitas konten spesifik.

Dengan serangkaian optimasi ini, kami akan mencapai hasil 3,67 yuan per 5 detik untuk Konten Douyin.

3. Dari segi dampak aplikasi, produksi video tradisional adalah permainan yang intensif modal: peralatan, tempat, aktor, pasca produksi; adalah hal yang biasa bagi iklan selama 30 detik untuk menelan biaya ratusan ribu. Sekarang, AI mengompresi seluruh proses ini menjadi sebuah prompt ditambah beberapa menit menunggu, dan dapat mencapai perspektif serta efek khusus yang sulit dicapai dalam pengambilan gambar tradisional.

Ini mengubah hambatan teknis dan finansial asli dari produksi video menjadi kreativitas dan estetika, yang dapat mendorong pengaturan ulang seluruh ekonomi kreator.

Pertanyaannya muncul, apa hubungan antara perubahan di sisi permintaan teknologi AI web2 dan AI web3?

1. Pertama, perubahan dalam struktur permintaan daya komputasi. Sebelumnya, dalam AI, kompetisi didasarkan pada skala; siapa pun yang memiliki lebih banyak kluster GPU yang homogen akan menang. Namun, permintaan untuk generasi video multimodal memerlukan kombinasi daya komputasi yang beragam, yang dapat menciptakan kebutuhan akan daya komputasi idle terdistribusi, serta berbagai model fine-tuning terdistribusi, algoritma, dan platform inferensi.

2. Kedua, permintaan untuk pelabelan data juga akan menguat. Menghasilkan video berkualitas profesional memerlukan: deskripsi adegan yang tepat, gambar referensi, gaya audio, trajektori gerakan kamera, kondisi pencahayaan, dll., yang akan menjadi persyaratan pelabelan data profesional yang baru. Menggunakan metode insentif Web3 dapat mendorong fotografer, insinyur suara, seniman 3D, dan lainnya untuk menyediakan elemen data profesional, meningkatkan kemampuan generasi video AI dengan pelabelan data vertikal yang khusus.

3. Akhirnya, perlu disebutkan bahwa ketika AI secara bertahap beralih dari alokasi sumber daya besar yang terpusat ke kolaborasi modular, itu sendiri mewakili permintaan baru untuk platform terdesentralisasi. Pada saat itu, daya komputasi, data, model, insentif, dll. akan bersama-sama membentuk roda penggerak yang saling memperkuat, yang pada gilirannya akan mendorong integrasi skenario web3AI dan web2AI.

Pernyataan:

  1. Artikel ini dicetak ulang dari [tmel0211tmel0211],Hak cipta milik penulis asli [tmel0211] Jika Anda memiliki keberatan terhadap penerbitan ulang, silakan hubungi Tim Gate LearnTim akan memprosesnya secepat mungkin sesuai dengan prosedur yang relevan.
  2. Pemberitahuan: Pandangan dan pendapat yang diungkapkan dalam artikel ini sepenuhnya merupakan pendapat penulis dan tidak merupakan saran investasi.
  3. Versi bahasa lain dari artikel ini diterjemahkan oleh tim Gate Learn, kecuali disebutkan sebaliknya.GerbangDalam keadaan apa pun, artikel yang diterjemahkan tidak boleh disalin, disebarluaskan, atau dijiplak.

Bagikan

Kalender Kripto

Pembaruan Proyek
Etherex akan meluncurkan token REX pada 6 Agustus.
REX
22.27%
2025-08-06
Peluncuran Produk AI NFT
Nuls akan meluncurkan produk NFT AI pada kuartal ketiga.
NULS
2.77%
2025-08-06
Peluncuran dValueChain v.1.0
Bio Protocol akan meluncurkan dValueChain v.1.0 pada kuartal pertama. Ini bertujuan untuk membangun jaringan data kesehatan terdesentralisasi, memastikan catatan medis yang aman, transparan, dan tidak dapat dirusak dalam ekosistem DeSci.
BIO
-2.47%
2025-08-06
Subtitel Video yang Dihasilkan AI
Verasity akan menambahkan fungsi subtitle video yang dihasilkan oleh AI pada kuartal keempat.
VRA
-1.44%
2025-08-06
Dukungan Multi-Bahasa VeraPlayer
Verasity akan menambahkan dukungan multi-bahasa ke VeraPlayer pada kuartal keempat.
VRA
-1.44%
2025-08-06

Artikel Terkait

Apa Itu Narasi Kripto? Narasi Teratas untuk 2025 (DIPERBARUI)
Pemula

Apa Itu Narasi Kripto? Narasi Teratas untuk 2025 (DIPERBARUI)

Memecoins, token restaking yang cair, derivatif staking yang cair, modularitas blockchain, Layer 1s, Layer 2s (Optimistic rollups dan zero knowledge rollups), BRC-20, DePIN, bot perdagangan kripto Telegram, pasar prediksi, dan RWAs adalah beberapa narasi yang perlu diperhatikan pada tahun 2024.
11/26/2024, 2:13:25 AM
Sentient: Menggabungkan yang Terbaik dari Model AI Terbuka dan Tertutup
Menengah

Sentient: Menggabungkan yang Terbaik dari Model AI Terbuka dan Tertutup

Deskripsi Meta: Sentient adalah platform untuk model Clopen AI, mencampurkan yang terbaik dari model terbuka dan tertutup. Platform ini memiliki dua komponen utama: OML dan Protokol Sentient.
11/18/2024, 3:52:31 AM
Apa itu AIXBT oleh Virtuals? Semua yang Perlu Anda Ketahui Tentang AIXBT
Menengah

Apa itu AIXBT oleh Virtuals? Semua yang Perlu Anda Ketahui Tentang AIXBT

AIXBT oleh Virtuals adalah proyek kripto yang menggabungkan blockchain, kecerdasan buatan, dan big data dengan tren dan harga kripto.
1/7/2025, 6:18:13 AM
Apa itu valuasi terdilusi penuh (FDV) dalam kripto?
Menengah

Apa itu valuasi terdilusi penuh (FDV) dalam kripto?

Artikel ini menjelaskan apa yang dimaksud dengan kapitalisasi pasar sepenuhnya dilusi dalam kripto dan membahas langkah-langkah perhitungan nilai sepenuhnya dilusi, pentingnya FDV, dan risiko bergantung pada FDV dalam kripto.
10/25/2024, 1:37:13 AM
Ikhtisar 10 Koin Meme AI Teratas
Menengah

Ikhtisar 10 Koin Meme AI Teratas

AI Meme adalah bidang yang berkembang yang menggabungkan kecerdasan buatan, teknologi blockchain, dan budaya meme, didorong oleh minat pasar dalam token kreatif dan tren yang dipimpin oleh komunitas. Di masa depan, sektor AI meme mungkin terus berkembang dengan diperkenalkannya teknologi dan konsep baru. Meskipun kinerja pasar yang aktif saat ini, 10 proyek teratas dapat mengalami fluktuasi yang signifikan atau bahkan digantikan karena perubahan sentimen komunitas.
11/29/2024, 7:04:46 AM
EMC: Kekuatan Baru yang Mendorong Integrasi Teknologi AI dan Blockchain
Lanjutan

EMC: Kekuatan Baru yang Mendorong Integrasi Teknologi AI dan Blockchain

Proyek EMC adalah platform kekuatan komputasi AI terdesentralisasi inovatif yang bertujuan untuk mengatasi ketidakseimbangan antara penawaran dan permintaan kekuatan komputasi dengan mengintegrasikan sumber daya GPU yang tidak aktif dari seluruh dunia. Platform ini menawarkan berbagai layanan, termasuk EMC Hub, JarvisBot, dan OmniMuse, untuk memfasilitasi pelatihan dan aplikasi model AI. Model ekonomi ganda-deflasi EMC dan arsitektur terdistribusi memastikan bahwa pengguna dapat mengakses kekuatan komputasi berkinerja tinggi dengan biaya rendah sambil menciptakan lebih banyak kesempatan bagi pengembang untuk berpartisipasi. Di masa depan, EMC akan terus memperluas aplikasinya di bidang-bidang seperti perawatan kesehatan, keuangan, dan Internet of Things, mempromosikan populerisasi dan pengembangan teknologi AI.
10/24/2024, 2:22:30 PM
Mulai Sekarang
Daftar dan dapatkan Voucher
$100
!