以深度学习为代表的人工智能技术已被应用于多种遥感图像解译任务中。遥感数据幅宽大、场景内容复杂,一幅标准景图像往往就可达数十亿像素,覆盖上万平方公里,与自然场景数据存在较大差异。大多数现有的深度神经网络模型是利用自然场景图像预训练的权重来进行初始化,在遥感数据解译任务上的性能和普适性有待进一步提升。
明升中国app院空天信息创新研究院(以下简称“空天院”)牵头研制首个面向跨模态遥感数据的生成式预训练大模型“空天·灵眸”(RingMo,Remote Sensing Foundation Model),旨在构建一个通用的多模态多任务模型,为遥感领域多行业应用提供一套通用便捷、性能优良的解决方案。
该团队深入结合光学、SAR等跨模态遥感数据的成像机理和目标特性,在模型设计、模型训练、推理优化等方向开展技术创新,并在场景分类、检测定位、细粒度识别、要素提取及变化检测等典型下游任务中进行了验证。该模型在8个国际标准数据集上达到了同类领先水平,有效填补了跨模态生成式预训练模型在遥感专业领域的空白。同时,空天院与华为公司深度技术合作,基于昇腾AI基础软硬件平台,尤其是昇思MindSpore AI框架,将联合打造灵活易用的自监督预训练通用套件,可高效支撑大模型并行训练及下游任务的开发。
以遥感特性为研发驱动
不同于现有遥感预训练方法通常进行有监督或者对比式学习的范式,“空天·灵眸”模型依托掩膜自编码结构,是面向复杂场景且更具通用表征能力的遥感生成式自监督预训练模型。
例如,针对来自不同平台的遥感数据成像机理和目标特性不一、遥感图像观测面积大而目标相对较小、目标尺寸差异较大且分布不均匀等问题,“空天·灵眸”模型采用目标特性引导的自监督学习方法,通过引入几何、电磁、目标结构等多特性约束,使得模型自动提取遥感地物通用特征,对新任务有较强的泛化能力。值得一提的是,“空天·灵眸”大模型采用了最近比较流行的ViT和Swin Transformer等Transformer类骨干网络,可有效建模遥感数据的局部和全局特征的依赖关系。
拥有跨模态遥感数据集
现有遥感样本库在标注上依赖于专业人员的手工标绘,人力和时间成本极高,难以满足大模型训练所需的大规模、高丰富度、易快速扩充的遥感数据需求。
为了提升遥感预训练模型的特征表达能力,“空天·灵眸”模型的训练数据集包含了200多万幅分辨率为0.1m到30m的遥感影像,分别来源于明升中国遥感卫星地面站、航空遥感飞机等平台,以及高分系列卫星、吉林卫星、QuickBird卫星等传感器。同时,在数据集中包含了1亿多具有任意角度分布的目标实例,覆盖全球150多个典型城市、乡镇以及常用机场、港口等场景。所用样本数据具备遥感专业特色,且整个样本集都无需标注,能大幅节省训练数据标注成本。
具有应用任务泛化能力
由于不同应用任务的难点不同,所用的数据、目标也各异,现有解译方法需针对不同下游任务设计专用网络结构,利用大量带标签数据进行微调,同时得到的遥感模型也常常通用性不足,没有较强的任务泛化能力,只适用于特定应用任务。
“空天·灵眸”模型具备遥感数据理解、复原能力,可实现对跨模态遥感数据的共性语义空间表征。针对不同的下游任务仅需修改预测头部网络,即可灵活快速迁移到不同领域下游任务,简单微调可适应多目标细粒度分类、小目标检测识别、复杂地物提取等任务。
实现国产化适配
为实现自主创新,空天院与华为深度合作,由北京昇腾人工智能生态创新中心提供技术保障,依托“东数西算”样板工程成都智算中心算力支持,基于昇腾底座和昇思MindSporeAI框架对已有模型和训练方法进行了国产化适配,并针对自监督大数据训练方面进行性能优化,为各行各业研究者基于国产化软硬件平台进行遥感预训练以及下游任务开发提供有力支撑,推动业务上的应用和落地。
目前,“空天·灵眸”模型的相关成果已在遥感领域顶刊IEEE Transactions on Geoscience and Remote Sensing公开发表。同时,该模型在国防安全、三维重建等多个领域已开展试用,在目标检测识别、地物要素分类等方面的实测结果较通用视觉模型有显著提升。后续拟进一步推广至国土资源、交通、水利等更多行业,为天临空地一体化应用提供一套解决方案。
相关论文信息:
Xian Sun, Peijin Wang, Wanxuan Lu, Zicong Zhu, Xiaonan Lu, Qibin He, Junxi Li, Xuee Rong, Zhujun Yang, Hao Chang, Qinglin He, Guang Yang, Ruiping Wang, Jiwen Lu, Kun Fu*. "RingMo: A Remote Sensing Foundation Model with Masked Image Modeling," in IEEE Transactions on Geoscience and Remote Sensing, 2022, doi: 10.1109/TGRS.2022.3194732.
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。