Controlling Space and Time with Diffusion Models

Controlling Space and Time with Diffusion Models

4DIM, model difusi kaskade untuk sintesis sudut pandang baru 4D (NVS), yang membutuhkan satu atau lebih gambar adegan umum dan set pose kamera dan cap waktu. Untuk mengatasi masalah tersebut karena terbatasnya penggunaan data pelatihan 4D, kami mengusulkan pelatihan bersama 3D (dengan pose kamera), data 4D (pose + waktu), video (waktu, tidak ada pose). itu mungkin. Selain itu, ia mengusulkan kalibrasi data pose SFM menggunakan perangkat estimasi kedalaman metrik monokular untuk kontrol kamera skala metrik. Memperkenalkan indikator evaluasi baru untuk evaluasi model, mengatasi kelemahan skema evaluasi saat ini, dibandingkan dengan model difusi yang ada untuk NV 3D, hasil paling canggih dalam kontrol yang setia dan berpose. 4DIM juga digunakan untuk peningkatan jahitan panorama, pose, untuk video, dan beberapa tugas lainnya.

1 Introduction

Sintesis tampilan baru (NVS) dan model generasi 3D telah muncul sebagai perbatasan baru dari model yang dihasilkan, dan dapat terdiri dari tampilan baru objek dan adegan 3D sambil mengendalikan pose kamera. Mode l-model ini melengkapi model dari teks ke gambar / video, dan dapat digunakan untuk pembuatan aset 3D, realitas ekspansi, data sintetis untuk pembelajaran model (seperti rekayasa robot), dan interpolasi. Contoh-contoh penting terbaru menggunakan model difusi termasuk 3DIM (Watson dan lainnya, 2022) dan nol-1-ke-3 (Liu dan lainnya, 2023b). Ini bukan adegan 3D secara eksplisit, tetapi gunakan pengetahuan 3D implisit untuk menghasilkan pandangan bersyarat sebagai kondisi gambar pencitraan + pose.

Sejauh ini, model-model ini terutama berfokus pada objek dengan latar belakang putih bersih, bukan pemandangan alam biasa, atau kamera terbatas, seperti pada permukaan bidang pandang yang dipasang pada objek yang berpusat di titik asal pose. Studi terbaru (Wang et al., 2023a; Yu et al., 2023a) telah mencoba melatih model untuk pemandangan umum dan sudut pandang 3D, namun performa zero-shot untuk pemandangan di luar distribusi masih buruk. Tantangan terbesarnya adalah kurangnya data pemandangan 3D. Selain itu, sebagian besar data yang ada didasarkan pada estimasi pose kamera menggunakan COLMAP (Schönberger dan Frahm, 2016; Schönberger dkk. Hal ini karena model harus mengambil sampel dari distribusi skala yang masuk akal saat membuat kesimpulan.

Tujuan dari penelitian ini adalah untuk memperluas model difusi NVS dalam tiga cara: 1) dari objek ke pemandangan, 2) ke pose kamera bentuk bebas yang ditentukan dalam unit fisik yang bermakna, dan 3) secara bersamaan memungkinkan kontrol spasial dan temporal melalui cap waktu pengkondisian. Untuk tujuan ini, kami memperkenalkan 4DiM. 4DiM adalah model difusi NVS, yang dikondisikan pada (satu atau lebih) gambar pemandangan, pose kamera, dan waktu apa pun. 4DiM dilatih pada sumber data campuran, termasuk gambar/video 3D yang diposisikan dan tidak diposisikan, baik pemandangan dalam maupun luar ruangan. Kami mewujudkan hal ini melalui berbagai inovasi yang memungkinkan pembelajaran dari data yang hilang (misalnya gambar tanpa anotasi pose atau waktu) atau pengambilan sampel dengan bobot panduan terpisah untuk berbagai kondisi gambar, pose, dan waktu. Kami juga menyajikan versi kumpulan data video yang dikalibrasi melalui COLMAP. Data yang dikalibrasi memfasilitasi pembelajaran keteraturan metrik dunia, seperti ukuran khas dan hubungan spasial objek sehari-hari, dan memungkinkan penentuan pose kamera dalam unit fisik yang bermakna. Dengan cara ini, 4DiM menghasilkan gambar dan video multi-tampilan yang konsisten 3D dan adegan dinamis. Selain pembuatan sampel, 4DiM dapat digunakan untuk membuka berbagai aplikasi, termasuk konversi video-ke-video, peningkatan jahitan panorama, dan pelatihan model 3D eksplisit dengan pengambilan sampel distorsi skor (Poole et al.

Singkatnya, kontribusi utama kami adalah sebagai berikut:

4DIM adalah model difusi berbasis piksel untuk sintesis tampilan baru, yang mengkondisikan setiap adegan, pose kamera, dan satu atau lebih gambar waktu. 4DIM terdiri dari model dasar yang menghasilkan 32 gambar 64 × 64 × 64 dan model resolusi supe r-vie w-view yang mengunggah hingga 32 × 256 × 256 32 × 256 × 256;

Pencampuran data yang efektif untuk model 4D yang terdiri dari video dengan pose dan tidak ada pose dalam adegan indoor dan outdoor memungkinkan nol aplikasi bidikan dengan pose dan dinamika terperinci;

Elemen arsitektur baru yang memungkinkan pelatihan dengan data yang tidak lengkap, untuk memandu pose kamera dan prangko waktu secara bersamaan, untuk memfasilitasi waktu dan pose.

Versi komparatif RealEstate10K memungkinkan kontrol metrik dengan meningkatkan model kesetiaan;

Dibandingkan dengan metrik berbasis SFM baru untuk lebih banyak kuantifikasi penyelarasan pose dan dinamika, berbagai evaluasi untuk pr a-penelitian, termasuk jarak SFM dan jarak titik kunci.

2 Related work

Selanjutnya, kami akan menjelaskan garis besar kontrol kamera menggunakan model difusi dan pr a-penelitian pada NV 3D. Selain itu, penelitian terbaru tentang ekstraksi 3D menggunakan metode yang memperhitungkan geometri secara singkat dijelaskan. Di sini, penggunaan kondisi pose bebas geometri (seperti 4DIM) adalah komponen penting.

Bidang pancaran saraf (Mildenhall et al., 2021) (NERF) (NERF) (NERF) menggunakan lusinan untuk ratusan gambar sebagai input rekonstruksi 3D, tetapi model penyebaran dengan kondisi pose untuk NV. Sampel yang konsisten 3D beragam dengan hanya satu input gambar. Kondisi model penyebaran untuk gambar dan pose kamera relatif diperkenalkan sebagai alternatif yang efektif untuk Watson et al. Namun, mereka bergantung pada arsitektur saraf yang tidak cocok untuk dua pandangan atau lebih, dan sebagai hasilnya, pengambilan sampel Marcov dalam kondisi stokastik dan jendela konteks terbatas (Yu et al.

Dalam penelitian selanjutnya, mekanisme pencegahan yang menggunakan geometri Epipora diusulkan (Tseng et al., 2023), dan baru-baru ini dihasilkan untuk meningkatkan konsistensi 3D NVS. Wang et al., 2023a), terbatas pada lapisan penghubung waktu atau tumpang tindih untuk memodelkan distribusi tampilan komunal dan ekstrinix kameranya. Tetapi masih ada beberapa masalah dengan mode l-model ini. Dengan kata lain, sulit dalam adegan statis untuk dinamika berkelanjutan dari model video dasar, bahwa itu masih bermasalah dengan inkonsistensi 3D dan loyalitas rendah, dan untuk input gambar di luar distribusi. Meskipun kemampuan untuk memodelkan pose kamera berbentuk bebas dikorbankan, alternatif diusulkan untuk meningkatkan tingkat setia model difusi mult i-view dalam adegan 3D. Misalnya, MVDiffusion dan tindak lanjutnya (Tang et al.

Dalam penelitian ini, ali h-alih mempelajari model difusi secara langsung, itu seperti skor distilasi (SDS) dan distilasi skor variasional: Wang dan VSD). Teknologi baru telah diusulkan untuk tampilan parameter sampel sebagai NERF dengan rendering. Di sini, model difusi yang ada berfungsi sebagai pemrosesan muka yang mendorong proses yang dihasilkan. Akibatnya, misalnya, konversi dari teks ke 3D menggunakan model difusi dari teks ke gambar. Skor ini digunakan dengan menggunakan model difusi yang dikondisikan sebagai pose, seperti yang telah ditunjukkan dalam MVDream (Shi et al., 2023), Reconfusion (Wu et al., 2023), dan Cat3D (Gao* et al., 2024) . Ada keuntungan unik bahwa model difusi dapat menghasilkan sampel dari perspektif akurat yang ditentukan untuk distilasi atau pemrosesan nerf, dan sebagai hasilnya, kualitas sampel secara dramatis ditingkatkan. Semua studi ini akan menetapkan minat lebih lanjut dalam peningkatan model difusi kondisional, yang merupakan fokus penelitian kami, untuk memungkinkan model tersebut meningkatkan metode ekstraksi 3D.

3 4D novel view synthesis models from limited data

4DIM mempelajari beberapa distribusi tampilan menggunakan model difusi waktu kontinu:

Di sini 𝒙 C + 1: n karakter melayani 𝒙:

𝐶 1 𝑁 \bm_ bold_italic_x start_POSTSUBSCRIPT italic_C + 1 : italic_N end_POSTSUBSCRIPT adalah gambar yang dihasilkan, 𝒙 1 : C subscript 𝒙 : 1 𝐶 bold_italic_x start_POSTSUBSCRIPT 1 : italic_C end_POSTSUBSCRIPT adalah gambar kondisi, ᵉ 1 : N subskrip 𝒑 : 1 𝑁 𝐶 bold_italic_p start_POSTSUBSCRIPT 1 : italic_C end_POSTSUBSCRIPT adalah gambar kondisi.

bold_italic_p start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT adalah pose kamera relatif (ekstrinsik dan intrinsik), t 1 : N subskrip ᵆ : 1 𝑁 t italic_t start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT adalah stempel waktu relatif skalar. 1 1 1 4DiM tidak memerlukan urutan waktu berurutan seperti model video karena arsitekturnya dapat diubah pada bingkai. Semua gambar N 𝑁 N Italic_N (pengkondisian dan pembuatan) diproses oleh model difusi. Mengikuti Ho et al. (2020), fungsi kerugian adalah error antara kebisingan yang diprediksi dan kebisingan sebenarnya (L subskrip sederhana 𝐿 L_ sederhana).<\mathrm& gt; italic_L start_POSTSUBSCRIPT roman_simple end_POSTSUBSCRIPT), mirip dengan penelitian sebelumnya (Saharia et al., 2022a; Saxena et al., 2023), kami menggunakan norma L1 daripada norma L2, yang dapat meningkatkan kualitas sampel memahami. Model kami menggunakan “ v 𝑣 v italic_ v-parametrization” (Salimans dan Ho, 2022), yang membantu menstabilkan pembelajaran, dan menggunakan jadwal kebisingan yang diusulkan oleh Kingma et al. Model kami saat ini memproses N = 8 N=8 N=8 italic_N = 8 atau 32 gambar dengan resolusi 256 × 256 256 256 × 256 256 × 256 (N = 8 N=8 256 256 256 × 256 (N adalah angkanya pengkondisian + frame yang dihasilkan). Untuk tujuan ini, kami menggunakan penelitian sebelumnya (Ho et al. Peningkatan jumlah contoh penerapan.

Training data

Sementara aset 3D, data gambar mult i-view, dan data 4D terbatas, data video dapat digunakan dalam skala besar, termasuk banyak informasi tentang dunia 3D, meskipun kurangnya pose kamera. Dengan demikian, salah satu proposisi penting kami adalah melatih 4DIM dalam dataset besar video 30m tanpa pose anotasi bekerja sama dengan data 3D dan 4D. Seperti yang ditunjukkan pada Bagian 5. 1, video memainkan peran penting dalam regularisasi model. Dataset 3D yang digunakan untuk belajar 4DIM termasuk Scannet ++ (Yeshwanth, 2023) dan Matterport3D (2017), yang memiliki skala metrik dan kumpulan data 3D umum lainnya (misalnya, dalam literatur (misalnya, dibandingkan dengan, CO3D (Reizenstein dll. , 2021) dan mvimgnet (yu, 2023b), memiliki pose kamera yang lebih gratis. Selain itu, terdiri dari 1000 1000 1000 adegan 1000 1000 1000 1000 jalan dengan izin dari Google (yaitu, dataset 4D). Selama penelitian, waktu kontinu K ↪LU_1D43E (k ↪lu_1d43e = 5 dalam model 8 tampilan, dan dalam model tampilan k ↪lu_1d43e = 20) diambil sampelnya secara acak dari gambar panoramik yang diatur dalam set gambar panoramik. Video Pos e-Free disampel dengan probabilitas 0, 3, dan tampilan dari set data dengan pose diambil sampelnya dengan probabilitas lainnya. Dataset 3D diambil sampelnya secara proporsional dengan jumlah adegan dari setiap dataset.

Calibrated RealEstate10K

Salah satu set data yang berlimpah untuk mempelajari model 3D adalah Realestate10K (Zhou et al., 2018) (RE10K). Ini terdiri dari 10. 000 segmen video adegan statis yang digunakan oleh SFM (Schönberger dan Frahm, 2016) untuk memperkirakan pose kamera untuk setiap bingkai, tetapi hanya dapat ditebak dengan skala panjang yang tidak diketahui. Karena tidak ada skala metrik, sulit untuk berlatih karena aturan metrik dunia hilang, dan sulit bagi pengguna untuk menentukan pose kamera target dan gerakan kamera dalam unit intuitif. Ini adalah masalah khusus ketika skala itu sendiri ambigu. Oleh karena itu, kami memiliki model kedalaman monokular (lihat Bahan Tambahan A untuk Saxena et al.) CRE10K memiliki dampak signifikan pada kinerja model (lihat bagian 4 berikut).

Architecture

Meskipun sebagian besar data 3D mewakili pemandangan statis, data video jarang menyertakan pose kamera. Sebagian besar data 3D mewakili pemandangan statis, namun data video jarang menyertakan pose kamera. Penting untuk menemukan cara untuk secara efektif mengkondisikan pose dan waktu kamera dengan cara yang dapat menoleransi data pelatihan yang tidak lengkap. Oleh karena itu kami menggunakan lapisan “Masked FiLM” (yang posisinya mengkodekan tingkat kebisingan difus, asal dan arah sinar per piksel, dan stempel waktu video) (Dumoulin dkk.). atau kelalaian acak untuk panduan tanpa pengklasifikasi (Ho dan Salimans, 2022)), lapisan FiLM dirancang untuk mengurangi nilai yang hilang menjadi fungsi yang identik daripada sekadar menyetelnya ke nol data hilang atau hilang. Dalam praktiknya, kami mengganti pergeseran FiLM dengan nol dan skala dengan satu secara keseluruhan (lihat Materi Tambahan B untuk detailnya).

Sampling

Dalam formulasi tanpa pengklasifikasi, ini setara dengan:

Jika Anda ingin melatih model untuk hanya menghapus v k subskrip 𝑣 v_ italic_v start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT atau v k – 1 subskrip 𝑣 1 v_ italic_v start_POSTSUBSCRIPT italic_k – 1 end_POSTSUBSCRIPT dan v k subskrip 𝑣 v_ italic_v start_POSTSUBSCRI PT miring_k end_POSTSUBSCRIPT ,… . atau v 1 : k subskrip 𝑣 : 1 𝑘 v_ italic_v start_POSTSUBSCRIPT 1 : italic_k end_POSTSUBSCRIPT , bobot panduan berbeda untuk setiap variabel kondisi v i subskrip 𝑤 𝑖 w_ italic_w start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT w i subskrip 𝑤 Disampel di v_ it alic_v start_POSTSUBSCRIPT miring_i end_POSTSUBSCRIPT bisa. 4DiM adalah probabilitas 0. 1, dan t 1 : N subskrip 𝑡 : 1 ᵆ t_ italic_t start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT, t 1 : N subskrip 𝑡 : 1 𝑁 t_ italic_t start_POSTSUBSCRIPT 1 : italic_N end_POSTSUBSCRIPT dan 𝒑 1 : dengan Karakter N 𝒑 : 1 𝑁

bold_italic_p start_postsubscript 1: italic_n end_postsubscript, atau t 1: n subskrip 𝑡: 1 𝑁 t_ italic_t start_postsubscript 1: italic_n end_postsubscript, 𝒑 1: n Subscript 𝑁: 1 𝑁 𝑁bm semuanya.

𝒙 1: c terlampir 𝒙 𝒙: 1 𝐶 \ bm_ bold_italic_x start_postsubscript 1: italic_c end_postsubscript. Untuk mendapatkan hasil terbaik, 4DIM menggunakan bobot panduan 2. 0 untuk mengkondisikan gambar, 4, 0 bobot untuk pose kamera, dan bobot 1, 0 untuk perangko waktu.

4 Evaluation

Sulit untuk mengevaluasi model generasi 4D. Secara umum, metode NVS dievaluasi dengan kualitas yang dihasilkan. Selain itu, dalam generasi yang dikondisikan Pose, metrik yang menangkap 3D konsisten (tampilan yang diberikan harus dihubungi dalam adegan 3D yang konsisten) dan berpose (kamera harus bergerak seperti yang diharapkan). Selain itu, untuk mengevaluasi lampiran bersyarat waktu, ukuran konten dinamis diperlukan untuk menangkap pergerakan konten dinamis. Untuk mencakup semua aspek ini, kami menggunakan beberapa metrik yang ada untuk mengusulkan metrik baru. Berikut ini adalah penjelasan terperinci dari masin g-masing.

Image and Video fidelity

FID (Heusel et al., 2017) adalah indikator penting untuk kualitas gambar, tetapi jika digunakan sendiri, ada sedikit informasi, dan mungkin tidak cukup untuk pemilihan parameter hiper. Sebagai contoh, Saharia dan lainnya (2022b) menemukan bahwa skor FID dari model gambar optimal (Ho dan Saliman, 2022), tetapi dalam pengaturannya, penyelarasan gambar teks menderita. Berikut ini menunjukkan peningkatan jarak feset (FDD) (OQUAB et al. Kualitas video, skor FVD (Unterthiner et al.

3D consistency

Studi Yu et al. Pertama, gunakan SIFT untuk menemukan poi n-poin penting antara sepasang tampilan. Untuk setiap titik kunci pada gambar pertama, garis Epipola dari gambar kedua dan jarak minimum ke titik kunci yang sesuai dapat dihitung. Ulangi titik kunci ini di gambar kedua dan temukan skor SED. Persentase pasangan gambar dengan ambang batas hyperspameter dipilih dan median sed di bawah ambang batas. Berikut ini, ambang batas dilaporkan sebagai 2. 0, dan skor TSED dari data grand trousth disertakan.

Pose alignment (new metric: SfM distances)

Kami mengusulkan satu set metrik bernama SFM Distance. Di sini, estimasi pose Colmap dieksekusi untuk tampilan yang dihasilkan, dan bentuk luar yang diprediksi oleh Colmap dan pose target dibandingkan. Berikan tampilan masukan untuk mendapatkan hasil terbaik dari Colmap. Kesalahan relatif di posisi kamera (SFMD)Pos) Deviasi sudut rotasi kamera (SFMD (SFMD)memutar) Seperti dalam kasus skor TSED, ia juga melaporkan jarak SFM dari data grand troused. Colmap memiliki skala unik dan ambiguitas rotasi, jadi bahkan sebelum membandingkan perbedaan antara keduanya seperti yang dijelaskan di atas, perlu lebih memperhatikan pencocokan pose yang diperkirakan dengan pose asli. Lihat Dokumen Tambahan D untuk detailnya.

Metric scale pose alignment

Standar pengukuran konsistensi dan pos e-pos e-alignment yang dijelaskan di atas tidak berubah untuk skala pose kamera karena tergantung pada jarak Epipola dan SFM. Untuk mengevaluasi penyelarasan skala metrik 4DIM, kami melaporkan PSNR, SSIM (Wang, 2004) dan LPIPS (Zhang, 2018). Metrik yang direkonstruksi ini umumnya memiliki model yang dihasilkan berbeda, tetapi dapat menghasilkan sampel yang masuk akal, sehingga tidak cocok untuk mengukur kualitas sampel. Namun, dari alasan yang sama (yaitu, metrik yang direkonstruksi lebih memilih penyelarasan konten) tidak melampaui / di bawah tembak dalam posisi dan rotasi.

Dynamics (new metric: keypoint distance)

Salah satu mode Gagal Umum yang diamati dalam penelitian kami adalah bahwa model cenderung menyalin bingkai input ali h-alih menghasilkan dinamika waktu, jadi itu baik dalam pr a-studi. et al., 2024). Oleh karena itu, kami mengusulkan standar pengukuran baru yang disebut jarak titik kunci (KD). Untuk mengevaluasi apakah gambar yang dihasilkan memiliki distribusi gerakan yang sama, hasil dari tampilan yang dihasilkan dan tampilan referensi dilaporkan.

5 Experiments

Sebagai perbandingan antara ablasi dan pr a-penelitian kami, kemampuan NV 3D menjadi distribusi dan evaluasi OOD. Dataset RealEstate10K (untuk memaksimalkan jumlah Zhou et al. Data pelatihan digunakan sebagai divisi verifikasi. Dalam perpecahan ini, semua inferensi garis dasar disediakan pada semua baris dasar. Perhatikan bahwa data uji kami mungkin menguntungkan karena data uji kami mungkin ada Dalam data pelatihan mereka (dalam kasus PNV, semua data uji kami adalah pelatihan mereka. Ini adalah bagian dari dataset dan memberi mereka keunggulan yang jelas). Telah ditunjukkan bahwa pr a-studi dapat mendapatkan skor FVD yang baik bahkan dalam video statis (GE ET).

Sebagai perbandingan antara ablasi dan pr a-penelitian kami, kemampuan NV 3D menjadi distribusi dan evaluasi OOD. Dataset RealEstate10K (untuk memaksimalkan jumlah Zhou et al. Data pelatihan digunakan sebagai divisi verifikasi. Dalam perpecahan ini, semua inferensi garis dasar disediakan pada semua baris dasar. Perhatikan bahwa data uji kami mungkin menguntungkan karena data uji kami mungkin ada Dalam data pelatihan mereka (dalam kasus PNV, semua data uji kami adalah pelatihan mereka. Bagian dari dataset, memberi mereka keuntungan yang jelas) adalah salah satu mode kegagalan umum yang diamati dalam penelitian kami. Model cenderung menyalin bingkai input ali h-alih menghasilkan dinamika waktu, dan sebelumnya studi, skor FVD yang baik dapat diperoleh dalam video statis (Ge et al., 2024) kami mengusulkan standar pengukuran baru yang disebut jarak titik kunci (KD ). Laporan.

Dibandingkan antara ablasi dan pr a-penelitian kami, kemampuan NV 3D masuk ke dalam distribusi dan evaluasi OOD. Dataset RealEstate10K (untuk memaksimalkan jumlah Zhou et al. Data pelatihan digunakan sebagai divisi verifikasi. Dalam perpecahan ini, semua inferensi garis dasar disediakan pada semua baris dasar. Perhatikan bahwa data uji kami mungkin menguntungkan karena data uji kami mungkin ada Dalam data pelatihan mereka (dalam kasus PNV, semua data uji kami adalah pelatihan mereka. Ini adalah bagian dari dataset dan memberi mereka keuntungan yang jelas (Mildenhall et al.

5.1 3D datasets significantly affect NVS quality

Tabel 1 dan Gambar. 3 menunjukkan hasil utama sintesis tampilan baru 3D dengan satu kondisi gambar. Di PNVs, jendela geser Marcov digunakan untuk pengambilan sampel sesuai dengan Yu dan lainnya. (Yu et al. 2023a) (pnvs) dan motionctrl (wang dll., 2023b). Keduanya adalah adegan 3D terkuat model difusi NVS yang dapat menggunakan kode dan pos pemeriksaan. LLFF memuat lintasan input dari tampilan secara berurutan, mensyaratkan bingkai secara merata, dan menghasilkan tujuh tampilan dari satu gambar input. Lintasan realeState10K cukup panjang, jadi ikuti PNV untuk su b-sampel dengan langkah 10. Untuk menghindari melemahnya baseline, gunakan tugas NVS 7-View yang bersyarat pada satu gambar: MotionCtrl hanya dapat diprediksi hingga 14 frame, dan PNV adalah model antara gambar, sehingga panjang urutan dilakukan bersama dengan tersebut Panjang urutan. MotionCtrl hanya dapat diprediksi hingga 14 frame, dan karena PNV adalah model gamba r-T o-mage, kinerja berkurang seiring dengan panjang urutan. Untuk alasan ini, versi 4DIM yang memproses 8 frame dilatih (berbeda dengan menggunakan model 4DIM 3 2-frame untuk output submamin), dan perbandingan yang lebih mirip. Metrik kuantitatif dihitung dalam 128 adegan split uji realestate10K dan semua adegan 44 llfff.

More diverse 3D data is helpful

4DIM telah mencapai hasil yang sangat baik (FID, FDD, FVD) dan pose skala meter (LPIPS, PSNR, SSIM) dibandingkan dengan model difusi baseline. Secara kualitatif, MotionCtrl sulit diselaraskan dengan pose pengkondisian. Selain itu, PNV menunjukkan lebih banyak arsip, menunjukkan bahwa kualitas berkurang secara signifikan dalam pengaturan di luar distribusi. Anehnya, PNVS mencapai TSED terbaik dengan LLFF, tetapi jika Anda mengamatinya dengan baik, ditemukan bahwa jumlah poin kunci mirip dengan 4DIM-ke-SIM hingga 3 kali lebih sedikit. Ini adalah kemungkinan perbaikan TSED, seperti meningkatkan ambang batas jumlah minimum poi n-poin penting, atau meningkatkan cakupan spasial dari poi n-poin penting untuk menghancurkan kasus di mana pertandingan terlalu lokal.

Scale-calibrated data resolves ambiguity

Salah satu faktor terpenting dalam NV 3D, terutama di luar distribusi, adalah pelatihan dataset. Kami menghapus ini dalam tiga cara:

Large-scale video data improves generalization

Tabel 1 menunjukkan bahwa menambahkan data 3D yang lebih beragam daripada RealEstate10K ke dalam campuran pelatihan akan meningkatkan penyelarasan pose (jarak SfM) pada LLFF (zero shot). Evaluasi ini menunjukkan bahwa ada kehilangan fidelitas saat menggunakan campuran penuh, yang diharapkan karena campurannya lebih beragam dan mencakup pemandangan di dalam dan luar ruangan.

5.2 Emergence of temporal dynamics

5.3 Multiframe Conditioning

Untuk menentukan dampak data pelatihan skala metrik yang konsisten, kami membandingkan model yang dilatih berdasarkan data RE10k asli dengan model yang dilatih berdasarkan pose skala metrik yang dikalibrasi. Tidak ada model yang menyertakan sumber data 3D lain yang digunakan untuk melatih model 4DiM dalam data pelatihannya. Hal ini karena data tersebut merupakan skala yang dikalibrasi dan sebaliknya akan mengacaukan penelitian ini. Hasil kuantitatif untuk NVS 3D dari gambar pengkondisian tunggal ditunjukkan pada Tab. 2 (termasuk kinerja zero-shot LLFF dan ScanNet++) dan hasil kualitatif ditunjukkan pada Gambar 4. Kami menemukan bahwa ketika skala bersifat ambigu, model yang dilatih pada data yang tidak dikalibrasi sering kali melampaui atau di bawah, dan model yang dilatih pada data yang dikalibrasi skala dapat mengatasi masalah ini.