Publications | Visual Intelligence Lab

Jiahao Nie, Guanqiao Fu, Wenbin An, Yap-Peng Tan, Alex C Kot, Shijian Lu (2026). Cross-Domain Few-Shot Segmentation via Multi-view Progressive Adaptation . In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Bo Li, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing (2026). LongVT: Incentivizing "thinking with long videos" via native tool calling . In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

Yun Xing, Xiaobin Hu, Qingdong He, Jiangning Zhang, Shuicheng Yan, Shijian Lu, Yu-Gang Jiang (2026). Boosting Reasoning in Large Multimodal Models via Activation Replay . In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

Duo Li, Zuhao Yang, Xiaoqin Zhang, Ling Shao, Shijian Lu (2026). A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [Findings]. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR Findings), 2026.

Sicong Leng, Jing Wang, Jiaxi Li, Hao Zhang, Zhiqiang Hu, Boqiang Zhang, Hang Zhang, Yuming Jiang, Xin Li, Deli Zhao, Fan Wang, Yu Rong, Aixin Sun, Shijian Lu (2026). Mmr1: Advancing the frontiers of multimodal reasoning [Findings]. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR Findings), 2026.

Quan Liu, Xiaoqin Zhang, Ling Shao, Shijian Lu (2026). L3DR: 3D-aware LiDAR Diffusion and Rectification . In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

Quan Liu, Weihao Xuan, Junjue Wang, Naoto Yokoya, Ling Shao, Shijian Lu (2026). Direction-aware 3D Large Multimodal Models . In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026.

Kunhao Liu, Wenbo Hu, Jiale Xu, Ying Shan, Shijian Lu (2026). Rolling Forcing: Autoregressive Long Video Diffusion in Real Time . In International Conference on Learning Representations (ICLR), 2026.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu (2026). On The Generalization Capabilities of MLLMs for Spatial Intelligence [Oral]. In International Conference on Learning Representations (ICLR), 2026. Congrats to Zhang Gongjie!

Jiaxing Huang, Jingyi Zhang, Kai Jiang, Han Qiu, Xiaoqin Zhang, Ling Shao, Shijian Lu, Dacheng Tao (2025). Visual Instruction Tuning towards General-Purpose Multimodal Large Language Model: A Survey . In International Journal of Computer Vision (IJCV), 2025.

Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, Nicu Sebe (2025). H2OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers . In IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025.

Hui Lu, Yi Yu, Shijian Lu, Deepu Rajan, Boon Poh Ng, Alex C Kot, Xudong Jiang (2025). MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection . In IEEE Transactions on Multimedia (TMM), 2025.

Muyu Xu, Fangneng Zhan, Xiaoqin Zhang, Ling Shao, Shijian Lu (2026). MuSASplat: Efficient Sparse-View 3D Gaussian Splats via Lightweight Multi-Scale Adaptation . In AAAI Conference on Artificial Intelligence (AAAI), 2026.

Wenbin An*, Jiahao Nie*, Feng Tian, Mingxiang Cai, Yaqiang Wu, Xiaoqin Zhang, Shijian Lu (2026). Enhancing Retrieval-Augmented Large Vision Language Models via Knowledge Conflict Mitigation . In AAAI Conference on Artificial Intelligence (AAAI), 2026.

Wenbin An, Jiahao Nie, Feng Tian, Haonan Lin, Yaqiang Wu, QianYing Wang, Xiaoqin Zhang, Shijian Lu (2025). Boosting Knowledge Utilization in Multimodal Large Language Models via Adaptive Logits Fusion and Attention Reallocation [Oral]. In Advances in Neural Information Processing Systems (NeurIPS), 2025. Congrats to Wenbin An, Jiahao Nie!

Youwei Pang, Xiaoqi Zhao, Lihe Zhang, Huchuan Lu, Georges El Fakhri, Xiaofeng Liu, Shijian Lu (2025). Rethinking Evaluation of Infrared Small Target Detection . In Advances in Neural Information Processing Systems (NeurIPS), 2025.

Sicong Leng, Yun Xing, Zesen Cheng, Yang Zhou, Hang Zhang, Xin Li, Deli Zhao, Shijian Lu, Chunyan Miao, Lidong Bing (2025). The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio . In Advances in Neural Information Processing Systems (NeurIPS), 2025.

Xiaoqi Zhao, Youwei Pang, Chenyang Yu, Lihe Zhang, Huchuan Lu, Shijian Lu, Georges El Fakhri, Xiaofeng Liu (2025). UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation . In Advances in Neural Information Processing Systems (NeurIPS), 2025.

Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao (2025). R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization. In International Conference on Computer Vision (ICCV), 2025.