http://www.swcyyl.com

21世纪地球都有哪些变化?AI“天眼”带您回溯

  卫星虽被形象地称为“天眼”,事实上卫星数据的应用,却难以做到“尽收尽用”。

  中国工程院院士杨小牛就曾经表示,卫星在天上飞来飞去,效能其实并不高,每天只有几十分钟时段内采集到的数据是地面需要的。

  “我们利用高性能的云计算和建模的方法,构建了全中国范围内2000年1月1日到2018年12月31日逐日的无缝数据立方体,基本上填补了同时实现高空间分辨率和高时间频率遥感观测的空白。”4月15日,清华大学理学院院长、地球系统科学系主任宫鹏在线介绍,清华大学地球系统科学系通过公共数据资源和时空遥感技术,制作完成首套中国30米逐日无缝遥感观测数据集,以及逐季节土地覆盖和逐年土地利用的数据集。

  “传统的对地卫星观测,拍下来的一景一景的照片是不同时间采集的数据,拼在一起并不完整,使用门槛很高。”宫鹏解释,“卫星直接获得的图片不能拿来直接用的,因为卫星图片不会是自然连续的,很可能像100块的拼图,少了50块的效果,但也有可能同样的拼图来了好几块。”

  不止如此,卫星轨道的偏差会造成同一地方不同时间拍摄的图片难以重叠,云彩的遮挡、雾气不均匀的散射都会导致大量的卫星遥感数据难以反映地表的真实情况,而成为难用的“废片”。

  基于此前完成的世界上唯一一个10米分辨率全球地表覆盖制图数据处理过程中积累的经验,清华大学地球系统科学系团队自主研发了时空数据融合重建的技术。

  “我们构建了人工智能需要的知识库,其中包括世界首套全球全季节普适样本库和相关领域知识。库中分为训练样本库和完全独立的验证样本库。”清华大学博士生刘涵介绍,结合亚马逊云服务(AWS)上面一整套完善的人工智能和机器学习的套件和服务,团队设计和训练了一套适应遥感大数据的深度遥感特征学习和分类模型。

  运用大量计算和图像时空融合技术,把不完整的“拼图”重建成时空一致的图像库,应用人工智能技术识别例如路面是沥青、土路还是水泥路面等地表覆盖类型,通过模型训练,完成高性能的推理,建立起这一深度遥感制图模型的“超能力”。

  这个模型根据知识库不断学习,利用人工智能算法,能够完成不合格“废片”的补片工作,甚至可以补足缺失的部分。

  “所得到的结果,最后经过遥感专业化的变化检测和时空一致性后处理方法,最终得到了中国30米逐日无缝遥感观测数据集和这套全国逐季节土地覆盖和逐年土地利用图。”刘涵说,团队从原始数据到多维时空数据库以及最终的制图产品中的所有数据都统一存放在云服务平台的遥感数据湖中,方便进行数据统一的处理和分析。

  “地球系统科学使用和产生的数据是极其巨大的,例如气候模拟和预测会生成时间间隔在小时级、地面分辨率是3公里的气候数据,产生的数据量和卫星遥感数据类似,量级都在PB级以上,相当于数百万集高清电影的量级。”宫鹏介绍,因此需要超强算力来完成。

  如果进行数据中心建设的话,需要三、四百个机柜,占地成本和时间成本都是巨大的。据介绍,亚马逊云服务(AWS)为项目的完成提供了10万核左右的云上高性能计算资源。

  此外,卫星数据使用的是AWS公共数据集中的数据。据宫鹏介绍,公共数据集中存储了很多公共数据,包括美国联邦地质调查局的陆地卫星Landsat数据、中等分辨率的成像光谱议MODIS的数据等。

  对这些数据集中的数据进行AI处理,如果不在云上进行而是搬运下载后再运算,那搬运的时间也可能需要几个月。据介绍,通过云上高性能计算,能够把算力部署在公共数据集周边,围绕数据进行计算。AWS在全球有22个区,开放数据集分布在不同的区域,需要欧洲的数据,就可以把算力开到欧洲,如果需要用美国的数据,算力就可以开到美国。

  “中学生、小学生想拿数据做点什么,从里面抠出来,拉几条曲线,或者把一个区域拿出来做一些探测、变化、趋势的分析,都已经变得非常容易。”宫鹏说,对于卫星公共数据的梳理、重建,让卫星遥感图的使用门槛大大降低,如果说之前只有专业用户能从数据中获得价值,那么以后更多的普通用户也能看懂和利用这些数据,这将开辟中国卫星遥感数据处理和信息提取的新的范式。

  “未来我们希望继续开发全球逐日无缝遥感观测数据库。”宫鹏说,到时人们不用再去美国联邦地质调查局或者欧空局的网站上下载原始数据了,那些数据的处理也非常的艰难,所有的数据需求都可以更容易地实现,在经处理后的有效数据中进一步分析和应用,并将衍生出更多地应用可能。

  基于遥感观测数据集,宫鹏教授团队进行了相关的土地利用分析,他介绍,研究发现,我国的耕地确实在减少,但目前耕地的面积比18亿亩的耕地红线还高很多。此外对于中国森林面积的数据也进行了时空一致性的计算,呈现了21世纪我国森林面积不断增加的趋势,也印证了我国森林保护工程的有效性。研究还发现我国保护区有较好的土地保护效应,但保护区周围却出现了较大的干扰,出现了较强的土地利用和破坏的情况。

  “针对这次疫情,我们的城市土地利用数据能够明确指出居住区在哪,高密度的居住区在哪,这样的地区对疾病的传播有助长的作用,或者说承担更大的风险。”宫鹏说,期待能够为更丰富的数据利用提供研究基础。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。