方法学
PM2.5 10-km模型 >
TAP建立了两级的机器学习模型,用于反演逐日完整覆盖的PM2.5浓度,技术路线图如下所示。所用数据包括PM2.5观测数据、卫星遥感AOD数据、业务化的CMAQ模拟、气象再分析资料、土地利用数据、海拔数据和人口数据等。在第一级模型中,基于观测数据定义高污染事件指数,并用综合少数类过采样技术(SMOTE)对训练数据集进行重采样,提高高污染事件在训练数据集中的占比。基于重采样后的训练数据集和随机森林算法(Random Forest)建模,实现对高污染事件的预测。在第二级模型中,利用CMAQ模拟的PM2.5浓度和PM2.5观测浓度之间的残差建立第二个随机森林模型,用残差取代PM2.5观测浓度作为学习目标值可以加强各参数对PM2.5浓度变化的响应,提高模拟精度。在两级模型中,都利用基于决策树的方法建立缺失数据与其他参数之间的关联,弥补卫星数据的缺失。

参考文献:
- Geng, G., Xiao, Q., Liu, S., Liu, X., Cheng, J., Zheng, Y., Xue, T., Tong, D., Zheng, B., Peng, Y., Huang, X., He, K., & Zhang, Q. (2021). Tracking Air Pollution in China: Near Real-Time PM2.5 Retrievals from Multisource Data Fusion. Environ Sci Technol, 55, 12106-12115. [链接] [PDF]
- Xiao, Q., Zheng, Y., Geng, G., Chen, C., Huang, X., Che, H., Zhang, X., He, K., & Zhang, Q. (2021). Separating emission and meteorological contribution to PM2.5 trends over East China during 2000–2018. Atmos Chem Phys, 21, 9475-9496.[链接] [PDF]
- Xiao, Q., Geng, G., Cheng, J., Liang, F., Li, R., Meng, X., Xue, T., Huang, X., Kan, H., Zhang, Q., & He, K. (2021). Evaluation of gap-filling approaches in satellite-based daily PM2.5 prediction models. Atmos Environ, 244, 117921.[链接] [PDF]
PM2.5 10-km组分模型 >
在10km分辨率数据集的基础上,TAP研发了PM2.5组分浓度数据产品,技术路线图如下所示。以PM2.5浓度为总约束,从业务化CMAQ模拟获取PM2.5组分信息。其中,为修正CMAQ模型模拟偏差,首先改进了沙尘排放模拟模块,其次基于PM2.5组分观测数据和极端梯度提升(XGBoost)算法构建模型修正模拟PM2.5组分浓度相对贡献,获得更准确的PM2.5向PM2.5组分的转换因子,进而得到PM2.5组分浓度数据。TAP发布的PM2.5组分浓度数据包括硫酸盐(SO42-)、硝酸盐(NO3-)、铵盐(NH4+)、有机物(OM)和黑碳(BC)等。

参考文献:
- Geng, G., Zhang, Q., Tong, D., Li, M., Zheng, Y., Wang, S., & He, K. (2017). Chemical composition of ambient PM2.5 over China and relationship to precursor emissions during 2005–2012. Atmos Chem Phys, 17(14), 9187-9203. [链接] [PDF]
- Liu, S., Geng, G., Xiao, Q., Zheng, Y., Liu, X., Cheng, J., & Zhang, Q. (2022). Tracking daily concentrations of PM2.5 chemical composition in China since 2000. Environ Sci Technol, 56, 16517–16527. [链接] [PDF]
PM2.5 1-km模型 >
在10km分辨率数据集的基础上,通过融合高分辨率卫星遥感AOD数据和路网等环境空间数据,建立了机器学习模型,用于反演逐日完整覆盖的1km分辨率PM2.5浓度,其技术路线图如下所示。为了准确表征与污染物排放密切相关的空间特征数据的时空变化,首先通过建立地理信息模型和统计模型融合统计数据及网格化公开数据,构建了逐年连续的环境空间数据集,包括人口分布,路网,植被覆盖,地表类型以及海拔。之后利用10km分辨率PM2.5浓度和PM2.5观测浓度之间的残差建立了随机森林模型,从而加强各参数对PM2.5浓度变化的响应,最终获得完整时空覆盖的1km分辨率PM2.5浓度数据。

参考文献:
- Xiao, Q., Geng G., Liu, S., Liu, J., Meng, X., & Zhang, Q. (2022). Spatiotemporal continuous estimates of daily 1 km PM2.5 from 2000 to present under the Tracking Air Pollution in China (TAP) framework. Atmos Chem Phys, 22, 13229–13242. [链接] [PDF]
O3模型 >
TAP建立了机器学习模型融合多源数据,用于反演逐日完整覆盖的O3浓度,技术路线图如下所示。所用数据包括O3观测数据、卫星遥感O3垂直廓线、CMAQ模拟、WRF模拟、植被指数、夜间灯光和人口数据等。首先分别建立两个随机森林模型,一个用于关联O3观测值、CMAQ模拟O3浓度及其他变量,另一个在上个模型的基础上增加卫星遥感O3垂直廓线。由于卫星遥感数据存在缺失,第二个随机森林模型的预测值在时空上不连续。其次建立“弹性网”回归模型将两个随机森林模型的预测结果融合,既提高精度,又实现完整时空覆盖。最后,利用时空方差-协方差函数来模拟残差的相关性,在此基础上,利用时空克里金插值,进一步把站点观测的信号融合到最终的预测值中。

参考文献:
- Xue, T., Zheng, Y., Geng, G., Xiao, Q., Meng, X., Wang, M., Li, X., Wu, N., Zhang, Q., & Zhu, T. (2020). Estimating spatiotemporal variation in ambient ozone exposure during 2013–2017 using a data-fusion model. Environ Sci Technol, 54, 14877-14888. [链接] [PDF]
- Xiao, Q., Geng, G., Xue, T., Liu, S., Cai, C., He, K., & Zhang, Q. (2021). Tracking PM2.5 and O3 Pollution and the Related Health Burden in China 2013–2020. Environ Sci Technol. [链接] [PDF]
全球10-km PM2.5模型 >
TAP建立了三层的机器学习模型,用于近实时反演全球10-km分辨率的逐日PM2.5浓度,技术路线图如下所示。模型通过融合多源数据,包括PM2.5地面观测、卫星遥感AOD数据、业务化的GEOS-Chem化学传输模拟、气象场数据、大气成分再分析资料、野火烟雾以及人口分布等,实现完整覆盖的全球网格化PM2.5浓度反演。具体来说,第一层模型利用综合少数类过采样技术(SMOTE)与随机森林算法,针对高污染事件进行预测,以修正传统反演模型对高污染事件PM2.5浓度的低估。在第二层随机森林模型中,基于GEOS-Chem模拟和其他数据对PM2.5浓度进行反演。在第三层模型中,针对野火区域PM2.5浓度被低估的问题,对PM2.5反演浓度和PM2.5观测浓度之间的残差进行模拟,分别为有野火和无野火区域的数据构建残差校正模型,从而提升模拟精度。

全球10-km 野火PM2.5模型 >
在全球10-km PM2.5浓度数据集的基础上,TAP研发了全球10-km分辨率近实时野火PM2.5浓度数据产品。基于近实时的GEOS-FP气象场数据和Global Fire Assimilation System version 1.2(GFAS v1.2)排放清单数据,业务化部署GEOS-Chem模型,同时模拟输出有野火排放输入和无野火排放输入两种情景下的PM2.5浓度。通过对比两种情景下的PM2.5浓度差异作为野火贡献PM2.5浓度,并计算野火贡献PM2.5浓度在总PM2.5浓度(即有野火排放情景下的模拟浓度)中的占比来量化野火贡献比例因子。最后,将野火贡献比例因子与多源数据融合反演得到的PM2.5浓度相乘获得完整时空覆盖的野火PM2.5浓度数据。
全球气溶胶-气象耦合预报AI大模型 >
由中国气象科学研究院研制的全球首个气溶胶-气象耦合预报AI大模型(AI-GAMFS),已在TAP平台实现业务化部署,技术路线图如下所示。该模型参数规模达13亿,采用视觉变换器(Vision Transformer)与U-Net网络融合的创新架构。通过集成全局注意力机制、时空编码模块和接力预报策略等多项关键技术,AI-GAMFS精准刻画了气溶胶与气象之间复杂的相互作用,显著提升了对高维环境气象数据的特征提取能力。模型训练依托42年全球先进气溶胶再分析数据集,并以GEOS-FP(GEOS Forward Processing)分析数据进行初始化预报。AI-GAMFS具备快速高效的预报能力:每日可完成8次滚动预报,每次仅需36秒(单张GPU卡),即可实现对沙尘、硫酸盐、黑碳、有机碳、海盐等气溶胶关键组分的光学特性、地面浓度及相关气象要素的全球范围5天、逐3小时预报。模型涵盖54个预报变量,空间分辨率达50公里,显著提升了全球气溶胶与气象耦合预报的业务能力与时效水平。

参考文献:
- Gui K., Zhang X., Che H., Li L., Zheng Y., An L., Miao Y., Zhao H., Dubovik O., Holben B., Wang J., Gupta P., Lind E S., Toledano C., Wang H., Wang Z., Wang Y., Huang X., Dai K., Xia X., Xu X., Zhang X. (2024). Advancing global aerosol forecasting with artificial intelligence. arXiv, 2412, 02498. [链接] [PDF]