方法学
PM2.5 10-km模型 >
TAP建立了两级的机器学习模型,用于反演逐日完整覆盖的PM2.5浓度,技术路线图如下所示。所用数据包括PM2.5观测数据、卫星遥感AOD数据、业务化的CMAQ模拟、气象再分析资料、土地利用数据、海拔数据和人口数据等。在第一级模型中,基于观测数据定义高污染事件指数,并用综合少数类过采样技术(SMOTE)对训练数据集进行重采样,提高高污染事件在训练数据集中的占比。基于重采样后的训练数据集和随机森林算法(Random Forest)建模,实现对高污染事件的预测。在第二级模型中,利用CMAQ模拟的PM2.5浓度和PM2.5观测浓度之间的残差建立第二个随机森林模型,用残差取代PM2.5观测浓度作为学习目标值可以加强各参数对PM2.5浓度变化的响应,提高模拟精度。在两级模型中,都利用基于决策树的方法建立缺失数据与其他参数之间的关联,弥补卫星数据的缺失。
参考文献:
- Geng, G., Xiao, Q., Liu, S., Liu, X., Cheng, J., Zheng, Y., Xue, T., Tong, D., Zheng, B., Peng, Y., Huang, X., He, K., & Zhang, Q. (2021). Tracking Air Pollution in China: Near Real-Time PM2.5 Retrievals from Multisource Data Fusion. Environ Sci Technol, 55, 12106-12115. [链接] [PDF]
- Xiao, Q., Zheng, Y., Geng, G., Chen, C., Huang, X., Che, H., Zhang, X., He, K., & Zhang, Q. (2021). Separating emission and meteorological contribution to PM2.5 trends over East China during 2000–2018. Atmos Chem Phys, 21, 9475-9496.[链接] [PDF]
- Xiao, Q., Geng, G., Cheng, J., Liang, F., Li, R., Meng, X., Xue, T., Huang, X., Kan, H., Zhang, Q., & He, K. (2021). Evaluation of gap-filling approaches in satellite-based daily PM2.5 prediction models. Atmos Environ, 244, 117921.[链接] [PDF]
PM2.5 10-km组分模型 >
在10km分辨率数据集的基础上,TAP研发了PM2.5组分浓度数据产品,技术路线图如下所示。以PM2.5浓度为总约束,从业务化CMAQ模拟获取PM2.5组分信息。其中,为修正CMAQ模型模拟偏差,首先改进了沙尘排放模拟模块,其次基于PM2.5组分观测数据和极端梯度提升(XGBoost)算法构建模型修正模拟PM2.5组分浓度相对贡献,获得更准确的PM2.5向PM2.5组分的转换因子,进而得到PM2.5组分浓度数据。TAP发布的PM2.5组分浓度数据包括硫酸盐(SO42-)、硝酸盐(NO3-)、铵盐(NH4+)、有机物(OM)和黑碳(BC)等。
参考文献:
- Geng, G., Zhang, Q., Tong, D., Li, M., Zheng, Y., Wang, S., & He, K. (2017). Chemical composition of ambient PM2.5 over China and relationship to precursor emissions during 2005–2012. Atmos Chem Phys, 17(14), 9187-9203. [链接] [PDF]
- Liu, S., Geng, G., Xiao, Q., Zheng, Y., Liu, X., Cheng, J., & Zhang, Q. Tracking PM2.5 chemical composition in China since 2000. To be submitted.
PM2.5 1-km模型 >
在10km分辨率数据集的基础上,通过融合高分辨率卫星遥感AOD数据和路网等环境空间数据,建立了机器学习模型,用于反演逐日完整覆盖的1km分辨率PM2.5浓度,其技术路线图如下所示。为了准确表征与污染物排放密切相关的空间特征数据的时空变化,首先通过建立地理信息模型和统计模型融合统计数据及网格化公开数据,构建了逐年连续的环境空间数据集,包括人口分布,路网,植被覆盖,地表类型以及海拔。之后利用10km分辨率PM2.5浓度和PM2.5观测浓度之间的残差建立了随机森林模型,从而加强各参数对PM2.5浓度变化的响应,最终获得完整时空覆盖的1km分辨率PM2.5浓度数据。
参考文献:
- Xiao, Q., Geng, G., Liu, S., Liu, J., Meng, X., & Zhang, Q. Spatiotemporal continuous estimates of daily 1-km PM2.5 from 2000 to present under the Tracking Air Pollution in China (TAP) framework. To be submitted.
O3模型 >
TAP建立了机器学习模型融合多源数据,用于反演逐日完整覆盖的O3浓度,技术路线图如下所示。所用数据包括O3观测数据、卫星遥感O3垂直廓线、CMAQ模拟、WRF模拟、植被指数、夜间灯光和人口数据等。首先分别建立两个随机森林模型,一个用于关联O3观测值、CMAQ模拟O3浓度及其他变量,另一个在上个模型的基础上增加卫星遥感O3垂直廓线。由于卫星遥感数据存在缺失,第二个随机森林模型的预测值在时空上不连续。其次建立“弹性网”回归模型将两个随机森林模型的预测结果融合,既提高精度,又实现完整时空覆盖。最后,利用时空方差-协方差函数来模拟残差的相关性,在此基础上,利用时空克里金插值,进一步把站点观测的信号融合到最终的预测值中。
参考文献: