Allocation Before Ranking: Decoupled Token Compression for OmniLLMs

Zhenghui Guo, Yilin Yang, Yuanbin Man, Miao Yin, Weidong Shi, Rabimba Karanjai, Omprakash Gnawali, Chengming Zhang Jan 1, 2026

Read Paper

Paper coming soon. Check back or search on Google Scholar.

Preprint: We decouple token compression from routing in multi-modal systems, improving processing speeds by up to 30%.

Type Preprint

Venue NeurIPS 2026 (Under Review)

Date Jan 2026

LLMs Token Compression Efficiency