PlanGPT-VL

Enhancing Urban Planning with Domain-Specific Vision-Language Models

He Zhu*,1,2 , Junyou Su*,1,2 , Minxin Chen*,1,2 , Wen Wang1,2 , Yijie Deng1,2 , Guanhua Chen3, , Wenjia Zhang†,1,4

1Behavioral and Spatial AI Lab, Tongji University 2Behavioral and Spatial AI Lab, Peking University 3Southern University of Science and Technology 4College of Architecture and Urban Planning, Tongji University

†Corresponding Author: wenjiazhang@tongji.edu.cn

🔔News

🔥[2025-05-20] 我们已经在Modelscope上开源了PlanGPT-VL,并开放了测试通道

Introduction

尽管城市规划地图对规划专业人员和教育工作者至关重要,但现有视觉-语言模型(VLMs)在解读和评估这类专业地图时往往表现欠佳。这些规划地图通过可视化呈现土地用途、基础设施布局和功能分区等关键信息,理解它们需要特定领域知识,而普通VLMs通常缺乏这种专业能力。针对这一问题,我们开发了PlanGPT-VL,这是首个专为城市规划地图设计的领域特定视觉-语言模型,具有三大创新:(1)PlanAnno-V框架:用于生成高质量规划地图视觉问答数据;(2)关键点思维机制:通过结构化验证方法有效减少模型幻觉;(3)PlanBench-V评测基准:首个全面评估规划地图理解能力的系统测试标准。实验结果显示,与开源和商业VLMs相比,PlanGPT-VL在专业规划任务上的平均性能提升了59.2%。值得注意的是,尽管我们的模型仅有70亿参数,属于轻量级规模,但其表现已能媲美超过720亿参数的大型模型,为城市规划师提供了一个既可靠又具高事实准确性的专业地图分析工具。

Framework Design

目标: 为城市规划领域合成高质量、低幻觉的视觉指令调优数据。

三阶段方法:

  • 数据预处理:收集1000份规划图,专家标注1K高质量样本。
  • 指令-响应合成:基于种子数据生成多样化指令,采用关键点思维(CPT)减少幻觉。
  • 模型特定重写:使用目标模型重写响应,符合专业语言模式。
关键创新:
  • 分布式指令合成:15种任务类型,10K问答对。
  • 关键点思维:结构化验证减少事实错误。
  • 训练方法:监督微调+强化学习+推理时拒绝采样。

framework

Figure 1: PlanAnno-V Architecture.

Performance

framework

Figure 2 PlanANNO-V Dimensions Distribution.


framework

Figure 3 UMAP_Visualization.


framework

Figure 4 Examples of Attention Distribution in Beijing.


Results

framework

Figure 5 Performance comparison on PlanBench with detailed and main categories.


framework

Figure 6 Comprehensive ablation study results on PlanBench and general vision-language benchmarks.


Note: This content is part of a manuscript under submission. Please do not cite until it is officially published. The arxiv article will be launched soon.