方法学 – TAP

方法学

顶部

PM_2.5 10km模型 >

TAP建立了两级的机器学习模型，用于反演逐日完整覆盖的PM_2.5浓度，技术路线图如下所示。所用数据包括PM_2.5观测数据、卫星遥感AOD数据、业务化的CMAQ模拟、气象再分析资料、土地利用数据、海拔数据和人口数据等。在第一级模型中，基于观测数据定义高污染事件指数，并用合成少数类过采样技术（SMOTE）对训练数据集进行重采样，提高高污染事件在训练数据集中的占比。基于重采样后的训练数据集和随机森林算法（Random Forest）建模，实现对高污染事件的预测。在第二级模型中，利用CMAQ模拟的PM_2.5浓度和PM_2.5观测浓度之间的残差建立第二个随机森林模型，用残差取代PM_2.5观测浓度作为学习目标值可以加强各参数对PM_2.5浓度变化的响应，提高模拟精度。在两级模型中，都利用基于决策树的方法建立缺失数据与其他参数之间的关联，弥补卫星数据的缺失。

参考文献：

Geng, G., Xiao, Q., Liu, S., Liu, X., Cheng, J., Zheng, Y., Xue, T., Tong, D., Zheng, B., Peng, Y., Huang, X., He, K., & Zhang, Q. (2021). Tracking Air Pollution in China: Near Real-Time PM_2.5 Retrievals from Multisource Data Fusion. Environ Sci Technol, 55, 12106-12115. [链接] [PDF]

Xiao, Q., Zheng, Y., Geng, G., Chen, C., Huang, X., Che, H., Zhang, X., He, K., & Zhang, Q. (2021). Separating emission and meteorological contribution to PM_2.5 trends over East China during 2000–2018. Atmos Chem Phys, 21, 9475-9496.[链接] [PDF]

Xiao, Q., Geng, G., Cheng, J., Liang, F., Li, R., Meng, X., Xue, T., Huang, X., Kan, H., Zhang, Q., & He, K. (2021). Evaluation of gap-filling approaches in satellite-based daily PM_2.5 prediction models. Atmos Environ, 244, 117921.[链接] [PDF]

PM_2.5组分10km模型 >

在10km分辨率数据集的基础上，TAP研发了PM_2.5组分浓度数据产品，技术路线图如下所示。以PM_2.5浓度为总约束，从业务化CMAQ模拟获取PM_2.5组分信息。其中，为修正CMAQ模型模拟偏差，首先改进了沙尘排放模拟模块，其次基于PM_2.5组分观测数据和极端梯度提升（XGBoost）算法构建模型修正模拟PM_2.5组分浓度相对贡献，获得更准确的PM_2.5向PM_2.5组分的转换因子，进而得到PM_2.5组分浓度数据。TAP发布的PM_2.5组分浓度数据包括硫酸盐（SO₄^2-）、硝酸盐（NO₃^-）、铵盐（NH₄⁺）、有机物（OM）和黑碳（BC）等。

参考文献：

Geng, G., Zhang, Q., Tong, D., Li, M., Zheng, Y., Wang, S., & He, K. (2017). Chemical composition of ambient PM_2.5 over China and relationship to precursor emissions during 2005–2012. Atmos Chem Phys, 17(14), 9187-9203. [链接] [PDF]

Liu, S., Geng, G., Xiao, Q., Zheng, Y., Liu, X., Cheng, J., & Zhang, Q. (2022). Tracking daily concentrations of PM_2.5 chemical composition in China since 2000. Environ Sci Technol, 56, 16517–16527. [链接] [PDF]

PM_2.5 1km模型 >

在10km分辨率数据集的基础上，通过融合高分辨率卫星遥感AOD数据和路网等环境空间数据，建立了机器学习模型，用于反演逐日完整覆盖的1km分辨率PM_2.5浓度，其技术路线图如下所示。为了准确表征与污染物排放密切相关的空间特征数据的时空变化，首先通过建立地理信息模型和统计模型融合统计数据及网格化公开数据，构建了逐年连续的环境空间数据集，包括人口分布，路网，植被覆盖，地表类型以及海拔。之后利用10km分辨率PM_2.5浓度和PM_2.5观测浓度之间的残差建立了随机森林模型，从而加强各参数对PM_2.5浓度变化的响应，最终获得完整时空覆盖的1km分辨率PM_2.5浓度数据。

参考文献：

Xiao, Q., Geng G., Liu, S., Liu, J., Meng, X., & Zhang, Q. (2022). Spatiotemporal continuous estimates of daily 1 km PM_2.5 from 2000 to present under the Tracking Air Pollution in China (TAP) framework. Atmos Chem Phys, 22, 13229–13242. [链接] [PDF]

O₃模型 >

TAP建立了机器学习模型融合多源数据，用于反演逐日完整覆盖的O₃浓度，技术路线图如下所示。所用数据包括O₃观测数据、卫星遥感O₃垂直廓线、CMAQ模拟、WRF模拟、植被指数、夜间灯光和人口数据等。首先分别建立两个随机森林模型，一个用于关联O₃观测值、CMAQ模拟O₃浓度及其他变量，另一个在上个模型的基础上增加卫星遥感O₃垂直廓线。由于卫星遥感数据存在缺失，第二个随机森林模型的预测值在时空上不连续。其次建立“弹性网”回归模型将两个随机森林模型的预测结果融合，既提高精度，又实现完整时空覆盖。最后，利用时空方差-协方差函数来模拟残差的相关性，在此基础上，利用时空克里金插值，进一步把站点观测的信号融合到最终的预测值中。

参考文献：

Xue, T., Zheng, Y., Geng, G., Xiao, Q., Meng, X., Wang, M., Li, X., Wu, N., Zhang, Q., & Zhu, T. (2020). Estimating spatiotemporal variation in ambient ozone exposure during 2013–2017 using a data-fusion model. Environ Sci Technol, 54, 14877-14888. [链接] [PDF]

Xiao, Q., Geng, G., Xue, T., Liu, S., Cai, C., He, K., & Zhang, Q. (2021). Tracking PM_2.5 and O₃ Pollution and the Related Health Burden in China 2013–2020. Environ Sci Technol. [链接] [PDF]

PM_2.5 及野火PM_2.5 - 10km >

首先利用全球高时空分辨率野火排放清单驱动大气化学模式GEOS-Chem，获得野火排放对全球PM_2.5日均浓度的相对贡献。同时融合多套地面观测数据、再分析资料、卫星遥感观测和野火排放清单，基于随机森林算法、合成少数类过采样技术和残差校正模型构建三层机器学习模型，构建了全球10公里分辨率PM_2.5日均浓度反演方法。进一步通过业务化数据预处理、在线数值模拟和机器学习模型滚动训练，实现了对全球10公里分辨率日均PM_2.5浓度和野火PM_2.5浓度的同步近实时反演。

参考文献：

Zhang, Q., Wang Y., Xiao Q., Geng G., S. J. Davis, Liu,X., J. Yang, J. J. Liu, W. Y. Huang, C. P. He, B. H. Luo, R. V. Martin, M. Brauer, J. T. Randerson, and K. B. He (2025), Long-range PM_2.5 pollution and health impacts from the 2023 Canadian wildfires. Nature. [链接]

全球气溶胶人工智能预报大模型AI-GAMFS >

由中国气象科学研究院研制的全球首个气溶胶人工智能预报大模型（AI-GAMFS），已在TAP平台实现业务化部署，技术路线图如下所示。该模型参数规模达13亿，采用视觉变换器（Vision Transformer）与U-Net网络融合的创新架构。通过集成全局注意力机制、时空编码模块和接力预报策略等多项关键技术，AI-GAMFS精准刻画了气溶胶与气象之间复杂的相互作用，显著提升了对高维环境气象数据的特征提取能力。模型训练依托42年全球先进气溶胶再分析数据集，并以GEOS-FP（GEOS Forward Processing）分析数据进行初始化预报。AI-GAMFS具备快速高效的预报能力：每日可完成8次滚动预报，每次仅需36秒（单张GPU卡），即可实现对沙尘、硫酸盐、黑碳、有机碳、海盐等气溶胶关键组分的光学特性、地面浓度及相关气象要素的全球范围5天、逐3小时预报。模型涵盖54个预报变量，空间分辨率达50公里，显著提升了全球气溶胶与气象耦合预报的业务能力与时效水平。

参考文献：

Gui, K., Zhang, X., Che, H., Li, L., Zheng, Y., An, L., Miao, Y., Zhao, H., Dubovik, O., Holben, B., Wang, J., Gupta, P., Lind, E S., Toledano, C., Wang, H., Wang, Z., Wang, Y., Huang, X., Dai, K., Xia, X., Xu, X., & Zhang, X. (2026). Advancing operational global aerosol forecasting with machine learning. Nature. [链接]

PM2.5 10km模型 >

PM2.5组分10km模型 >

PM2.5 1km模型 >

O3模型 >

PM2.5 及 野火PM2.5 - 10km >

全球气溶胶人工智能预报大模型AI-GAMFS >

PM_2.5 10km模型 >

PM_2.5组分10km模型 >

PM_2.5 1km模型 >

O₃模型 >

PM_2.5 及野火PM_2.5 - 10km >