architecture - a emjay73 Collection

emjay73 's Collections

video generation

3D Animatable Face

Audio generation

architecture

updated Jun 21, 2025

TCNCA: Temporal Convolution Network with Chunked Attention for Scalable Sequence Processing

Paper • 2312.05605 • Published Dec 9, 2023 • 3
VMamba: Visual State Space Model

Paper • 2401.10166 • Published Jan 18, 2024 • 40
Rethinking Patch Dependence for Masked Autoencoders

Paper • 2401.14391 • Published Jan 25, 2024 • 26
Deconstructing Denoising Diffusion Models for Self-Supervised Learning

Paper • 2401.14404 • Published Jan 25, 2024 • 18
LN3Diff: Scalable Latent Neural Fields Diffusion for Speedy 3D Generation

Paper • 2403.12019 • Published Mar 18, 2024 • 10
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

Paper • 2404.02905 • Published Apr 3, 2024 • 74
On the Scalability of Diffusion-based Text-to-Image Generation

Paper • 2404.02883 • Published Apr 3, 2024 • 19
ViTAR: Vision Transformer with Any Resolution

Paper • 2403.18361 • Published Mar 27, 2024 • 55
When Do We Not Need Larger Vision Models?

Paper • 2403.13043 • Published Mar 19, 2024 • 26
Phased Consistency Model

Paper • 2405.18407 • Published May 28, 2024 • 48
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels

Paper • 2406.09415 • Published Jun 13, 2024 • 51
MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Paper • 2407.08083 • Published Jul 10, 2024 • 32
FAN: Fourier Analysis Networks

Paper • 2410.02675 • Published Oct 3, 2024 • 29
Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 180
Align Your Flow: Scaling Continuous-Time Flow Map Distillation

Paper • 2506.14603 • Published Jun 17, 2025 • 19