🔥[2025-05-20] 我们已经在Modelscope上开源了PlanGPT-VL,并开放了测试通道
尽管城市规划地图对规划专业人员和教育工作者至关重要,但现有视觉-语言模型(VLMs)在解读和评估这类专业地图时往往表现欠佳。这些规划地图通过可视化呈现土地用途、基础设施布局和功能分区等关键信息,理解它们需要特定领域知识,而普通VLMs通常缺乏这种专业能力。针对这一问题,我们开发了PlanGPT-VL,这是首个专为城市规划地图设计的领域特定视觉-语言模型,具有三大创新:(1)PlanAnno-V框架:用于生成高质量规划地图视觉问答数据;(2)关键点思维机制:通过结构化验证方法有效减少模型幻觉;(3)PlanBench-V评测基准:首个全面评估规划地图理解能力的系统测试标准。实验结果显示,与开源和商业VLMs相比,PlanGPT-VL在专业规划任务上的平均性能提升了59.2%。值得注意的是,尽管我们的模型仅有70亿参数,属于轻量级规模,但其表现已能媲美超过720亿参数的大型模型,为城市规划师提供了一个既可靠又具高事实准确性的专业地图分析工具。
目标: 为城市规划领域合成高质量、低幻觉的视觉指令调优数据。
三阶段方法:
Figure 1: PlanAnno-V Architecture.
Figure 2 PlanANNO-V Dimensions Distribution.
Figure 3 UMAP_Visualization.
Figure 4 Examples of Attention Distribution in Beijing.
Figure 5 Performance comparison on PlanBench with detailed and main categories.
Figure 6 Comprehensive ablation study results on PlanBench and general vision-language benchmarks.
Note: This content is part of a manuscript under submission. Please do not cite until it is officially published. The arxiv article will be launched soon.