Bo Zhang

Orcid: 0000-0001-8052-782X

Affiliations:

Shanghai AI Laboratory, China
Fudan University, MoE Key Laboratory for Information Science of Electromagnetic Waves, Shanghai, China (PhD 2022)

According to our database¹, Bo Zhang authored at least 94 papers between 2016 and 2025.

Collaborative distances:

Dijkstra number² of four.
Erdős number³ of four.

Timeline

Legend:

Book

In proceedings

Article

PhD thesis

Dataset

Other

Bibliography

2025

SPOT: Scalable 3D Pre-Training via Occupancy Prediction for Learning Transferable 3D Representations.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., November, 2025

OmniQuality-R: Advancing Reward Models Through All-Encompassing Quality Assessment.

[BibT_eX]

[DOI]

CoRR, October, 2025

DualResearch: Entropy-Gated Dual-Graph Retrieval for Answer Reconstruction.

[BibT_eX]

[DOI]

CoRR, October, 2025

FlowSearch: Advancing deep research with dynamic structured knowledge flow.

[BibT_eX]

[DOI]

CoRR, October, 2025

AutoMLGen: Navigating Fine-Grained Optimization for Coding Agents.

[BibT_eX]

[DOI]

CoRR, October, 2025

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding.

[BibT_eX]

[DOI]

CoRR, October, 2025

PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System.

[BibT_eX]

[DOI]

CoRR, September, 2025

MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing.

[BibT_eX]

[DOI]

CoRR, September, 2025

Building Self-Evolving Agents via Experience-Driven Lifelong Learning: A Framework and Benchmark.

[BibT_eX]

[DOI]

CoRR, August, 2025

Wisdom of the Crowd: Reinforcement Learning from Coevolutionary Collective Feedback.

[BibT_eX]

[DOI]

CoRR, August, 2025

Open-Source LLMs Collaboration Beats Closed-Source LLMs: A Scalable Multi-Agent System.

[BibT_eX]

[DOI]

CoRR, July, 2025

BridgeNet: Comprehensive and Effective Feature Interactions via Bridge Feature for Multi-Task Dense Predictions.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., May, 2025

MME-Reasoning: A Comprehensive Benchmark for Logical Reasoning in MLLMs.

[BibT_eX]

[DOI]

CoRR, May, 2025

Doc-CoB: Enhancing Multi-Modal Document Understanding with Visual Chain-of-Boxes Reasoning.

[BibT_eX]

[DOI]

CoRR, May, 2025

NovelSeek: When Agent Becomes the Scientist - Building Closed-Loop System from Hypothesis to Verification.

[BibT_eX]

[DOI]

CoRR, May, 2025

LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models.

[BibT_eX]

[DOI]

CoRR, May, 2025

Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression.

[BibT_eX]

[DOI]

CoRR, May, 2025

GDI-Bench: A Benchmark for General Document Intelligence with Vision and Reasoning Decoupling.

[BibT_eX]

[DOI]

CoRR, May, 2025

TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving.

[BibT_eX]

[DOI]

CoRR, April, 2025

Lumina-Image 2.0: A Unified and Efficient Image Generative Framework.

[BibT_eX]

[DOI]

CoRR, March, 2025

LeX-Art: Rethinking Text Generation via Scalable High-Quality Data Synthesis.

[BibT_eX]

[DOI]

CoRR, March, 2025

Temporal Overlapping Prediction: A Self-supervised Pre-training Method for LiDAR Moving Object Segmentation.

[BibT_eX]

[DOI]

CoRR, March, 2025

Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback.

[BibT_eX]

[DOI]

CoRR, January, 2025

Hyperspectral Image Classification via Cascaded Spatial Cross-Attention Network.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2025

ChartX and ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2025

SSPNet: Spatial-Spectral Perception Network for Mineral Hyperspectral Image Classification.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2025

DF<sup>2</sup>RQ: Dynamic Feature Fusion via Region-Wise Queries for Semantic Segmentation of Multimodal Remote Sensing Data.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2025

A Spatial and Semantic Alignment Fusion Network for SeaLand Port Segmentation.

[BibT_eX]

[DOI]

IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens., 2025

DSF2-NAS: Dual-Stage Feature Fusion via Network Architecture Search for Classification of Multimodal Remote Sensing Images.

[BibT_eX]

[DOI]

IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens., 2025

SE-Merging: A Self-Enhanced Approach for Dynamic Model Merging.

[BibT_eX]

[DOI]

Proceedings of the International Joint Conference on Neural Networks, 2025

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency.

[BibT_eX]

[DOI]

Proceedings of the Forty-second International Conference on Machine Learning, 2025

GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training.

[BibT_eX]

[DOI]

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text.

[BibT_eX]

[DOI]

et al.

Proceedings of the Thirteenth International Conference on Learning Representations, 2025

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2025

Dolphin: Moving Towards Closed-loop Auto-research through Thinking, Practice, and Feedback.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

SURVEYFORGE : On the Outline Heuristics, Memory-Driven Generation, and Multi-dimensional Evaluation for Automated Survey Writing.

[BibT_eX]

[DOI]

Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2025

2024

Few-Shot Cross-Domain Object Detection With Instance-Level Prototype-Based Meta-Learning.

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., October, 2024

Push-and-Pull: A General Training Framework With Differential Augmentor for Domain Generalized Point Cloud Classification.

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., August, 2024

SANet: A Self-Attention Network for Agricultural Hyperspectral Image Classification.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2024

Multi-View Vision Fusion Network: Can 2D Pre-Trained Model Boost 3D Point Cloud Data-Scarce Learning?

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., 2024

Chimera: Improving Generalist Model with Domain-Specific Experts.

[BibT_eX]

[DOI]

CoRR, 2024

TREND: Unsupervised 3D Representation Learning via Temporal Forecasting for LiDAR Perception.

[BibT_eX]

[DOI]

CoRR, 2024

HyperDet: Generalizable Detection of Synthesized Images by Generating and Merging A Mixture of Hyper LoRAs.

[BibT_eX]

[DOI]

CoRR, 2024

MinerU: An Open-Source Solution for Precise Document Content Extraction.

[BibT_eX]

[DOI]

CoRR, 2024

CDM: A Reliable Metric for Fair and Accurate Formula Recognition Evaluation.

[BibT_eX]

[DOI]

CoRR, 2024

DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models.

[BibT_eX]

[DOI]

CoRR, 2024

OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text.

[BibT_eX]

[DOI]

CoRR, 2024

UniMERNet: A Universal Network for Real-World Mathematical Expression Recognition.

[BibT_eX]

[DOI]

CoRR, 2024

ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning.

[BibT_eX]

[DOI]

CoRR, 2024

OASim: an Open and Adaptive Simulator based on Neural Rendering for Autonomous Driving.

[BibT_eX]

[DOI]

CoRR, 2024

Cross-Task Linearity Emerges in the Pretraining-Finetuning Paradigm.

[BibT_eX]

[DOI]

CoRR, 2024

How far are we to GPT-4V? Closing the gap to commercial multimodal models with open-source suites.

[BibT_eX]

[DOI]

Sci. China Inf. Sci., 2024

Training-Free Adaptive Diffusion with Bounded Difference Approximation Strategy.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Continuously Learning, Adapting, and Improving: A Dual-Process Approach to Autonomous Driving.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

ZOPP: A Framework of Zero-shot Offboard Panoptic Perception for Autonomous Driving.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, 2024

Realistic Rainy Weather Simulation for LiDARs in CARLA Simulator.

[BibT_eX]

[DOI]

Proceedings of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2024

On the Emergence of Cross-Task Linearity in Pretraining-Finetuning Paradigm.

[BibT_eX]

[DOI]

Proceedings of the Forty-first International Conference on Machine Learning, 2024

ReSimAD: Zero-Shot 3D Domain Transfer for Autonomous Driving with Source Reconstruction and Target Simulation.

[BibT_eX]

[DOI]

Proceedings of the Twelfth International Conference on Learning Representations, 2024

On Reducing the Execution Latency of Superconducting Quantum Processors via Quantum Job Scheduling.

[BibT_eX]

[DOI]

Proceedings of the 43rd IEEE/ACM International Conference on Computer-Aided Design, 2024

Reg-TTA3D: Better Regression Makes Better Test-Time Adaptive 3D Object Detection.

[BibT_eX]

[DOI]

Proceedings of the Computer Vision - ECCV 2024, 2024

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024

Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models.

[BibT_eX]

[DOI]

Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2024

2023

Performance-Aware Approximation of Global Channel Pruning for Multitask CNNs.

[BibT_eX]

[DOI]

IEEE Trans. Pattern Anal. Mach. Intell., August, 2023

A Closer Look at Few-Shot 3D Point Cloud Classification.

[BibT_eX]

[DOI]

Int. J. Comput. Vis., March, 2023

Rethinking Cross-Domain Pedestrian Detection: A Background-Focused Distribution Alignment Framework for Instance-Free One-Stage Detectors.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2023

MATNet: A Combining Multi-Attention and Transformer Network for Hyperspectral Image Classification.

[BibT_eX]

[DOI]

IEEE Trans. Geosci. Remote. Sens., 2023

PAN-Guided Multiresolution Fusion Network Using Swin Transformer for Pansharpening.

[BibT_eX]

[DOI]

Lu Hou

Bo Zhang

Bin Wang

IEEE Geosci. Remote. Sens. Lett., 2023

Rethinking of Feature Interaction for Multi-task Learning on Dense Prediction.

[BibT_eX]

[DOI]

CoRR, 2023

Towards Knowledge-driven Autonomous Driving.

[BibT_eX]

[DOI]

CoRR, 2023

REVO-LION: Evaluating and Refining Vision-Language Instruction Tuning Datasets.

[BibT_eX]

[DOI]

CoRR, 2023

StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding.

[BibT_eX]

[DOI]

CoRR, 2023

SPOT: Scalable 3D Pre-training via Occupancy Prediction for Autonomous Driving.

[BibT_eX]

[DOI]

CoRR, 2023

Multi-view Vision-Prompt Fusion Network: Can 2D Pre-trained Model Boost 3D Point Cloud Data-scarce Learning?

[BibT_eX]

[DOI]

CoRR, 2023

AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset.

[BibT_eX]

[DOI]

Proceedings of the Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, 2023

Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic Segmentation.

[BibT_eX]

[DOI]

Proceedings of the 31st ACM International Conference on Multimedia, 2023

SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification.

[BibT_eX]

[DOI]

Proceedings of the 31st ACM International Conference on Multimedia, 2023

Uni3D: A Unified Baseline for Multi-Dataset 3D Object Detection.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

Bi3D: Bi-Domain Active Learning for Cross-Domain 3D Object Detection.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

Generative Diffusion Prior for Unified Image Restoration and Enhancement.

[BibT_eX]

[DOI]

Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023

2022

Joint Distribution Alignment via Adversarial Learning for Domain Adaptive Object Detection.

[BibT_eX]

[DOI]

IEEE Trans. Multim., 2022

Sample-Centric Feature Generation for Semi-Supervised Few-Shot Learning.

[BibT_eX]

[DOI]

IEEE Trans. Image Process., 2022

Curriculum-Style Local-to-Global Adaptation for Cross-Domain Remote Sensing Image Segmentation.

[BibT_eX]

[DOI]

Bo Zhang

Tao Chen

Bin Wang

IEEE Trans. Geosci. Remote. Sens., 2022

Densely Semantic Enhancement for Domain Adaptive Region-Free Detectors.

[BibT_eX]

[DOI]

IEEE Trans. Circuits Syst. Video Technol., 2022

Few-Shot Object Detection With Self-Adaptive Global Similarity and Two-Way Foreground Stimulator in Remote Sensing Images.

[BibT_eX]

[DOI]

Yuchen Zhang

Bo Zhang

Bin Wang

IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens., 2022

ADAS: A Simple Active-and-Adaptive Baseline for Cross-Domain 3D Semantic Segmentation.

[BibT_eX]

[DOI]

CoRR, 2022

Instance-aware Model Ensemble With Distillation For Unsupervised Domain Adaptation.

[BibT_eX]

[DOI]

CoRR, 2022

Learning Cross-Image Object Semantic Relation in Transformer for Few-Shot Fine-Grained Image Classification.

[BibT_eX]

[DOI]

Proceedings of the MM '22: The 30th ACM International Conference on Multimedia, Lisboa, Portugal, October 10, 2022

2021

Coarse-to-Fine Joint Distribution Alignment for Cross-Domain Hyperspectral Image Classification.

[BibT_eX]

[DOI]

Jiajia Miao

Bo Zhang

Bin Wang

IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens., 2021

Scale-Aware Anchor-Free Object Detection via Curriculum Learning for Remote Sensing Images.

[BibT_eX]

[DOI]

Wandi Cai

Bo Zhang

Bin Wang

IEEE J. Sel. Top. Appl. Earth Obs. Remote. Sens., 2021

Domain adaptive detection system for concealed objects using millimeter wave images.

[BibT_eX]

[DOI]

Neural Comput. Appl., 2021

Object-aware Long-short-range Spatial Alignment for Few-Shot Fine-Grained Image Classification.

[BibT_eX]

[DOI]

Proceedings of the MM '21: ACM Multimedia Conference, Virtual Event, China, October 20, 2021

2017

Fast Deep Matting for Portrait Animation on Mobile Phone.

[BibT_eX]

[DOI]

Proceedings of the 2017 ACM on Multimedia Conference, 2017

2016

Virtual experiment teaching and research oriented to college computer curriculum.

[BibT_eX]

[DOI]

Proceedings of the 11th International Conference on Computer Science & Education, 2016

Bo Zhang

Timeline

Legend:

Links

Online presence:

On csauthors.net:

Bibliography

Loading...