Short-Term Forecasting of Ozone Concentration Using Multivariate Time Series and XGBoost
-
摘要: 开展O3浓度预报是保障人民生命健康安全和有效治理大气污染的重要举措,本文利用O3浓度监测资料及地面气象资料,在时间序列预测的基础上融合XGBoost机器学习算法,提出一种O3浓度短期逐小时预报方法,并就数据处理、预测策略、预报模型构建及优化进行了探讨,结果表明:使用能够利用地面气象资料的直接多步预测策略构建的预报模型性能更优;在输入特征中加入周期化的时间特征能够有效提升预报模型性能;最后对该方法2020年8月—2021年4月O3浓度预报效果进行了检验,其1 h、24 h、48 h及72 h预报的RMSE分别为7.94、16.00、17.49、17.72 μg·m-3,对应的R2为0.94、0.74、0.69、0.68,预报效果良好。该方法可以为O3预警预报、大气污染治理提供区域精细化的技术支撑。Abstract: Accurate ozone (O3) concentration forecasting is crucial for protecting public health and safety and implementing effective air pollution control measures. Using O3 concentration monitoring data and meteorological data from surface stations, the present study proposed a short-term hourly O3 concentration forecasting method by integrating the XGBoost machine learning algorithm into multivariate time series prediction. Data processing methods, forecasting strategies, and model development and optimization were also discussed. The results indicate that the forecast model developed using the direct multi-step prediction strategy, which can utilize meteorological data from surface stations, performed better. The inclusion of periodic temporal features as input variables effectively enhanced the performance of the forecast model. Finally, the proposed method showed robust performance in the evaluation for the period from August 2020 to April 2021. The RMSE for 1-h, 24-h, 48-h, and 72-h forecasts were 7.94, 16.00, 17.49, and 17.72 μg m-3, respectively, with corresponding R2 values of 0.94, 0.74, 0.69, and 0.68. These results indicate that the proposed approach can provide reliable technical support for regional O3 warning and forecasting as well as atmospheric pollution control.
-
Key words:
- ozone concentration /
- short-term forecasting /
- time series /
- XGBoost
-
表 1 外部特征及其定义
序号 特征名称 定义 单位 1~6 观测月份分量1~6 / / 7~18 观测小时分量1~12 / / 19 本站气压 当前本站气压 hPa 20 最高气压 过去1 h内最高气压 hPa 21 最低气压 过去1 h内最低气压 hPa 22 气温 当前气温 ℃ 23 最高气温 过去1 h内最高气温 ℃ 24 最低气温 过去1 h内最低气温 ℃ 25 相对湿度 当前相对湿度 1% 26 是否降水 过去1 h是否有降水 / 27 平均风速 过去1 h内平均风速 m·s-1 28 极大风速 过去1 h内极大风速 m·s-1 29 总辐射辐照度 当前总辐射辐照度 W·m-2 30 净辐射辐照度 当前净辐射辐照度 W·m-2 31 反射辐射辐照度 当前反射辐射辐照度 W·m-2 32 总辐射曝辐量 过去1 h内总辐射总量 MJ·m-2 33 净辐射曝辐量 过去1 h内净辐射总量 MJ·m-2 34 反射辐射曝辐量 过去1 h内反射辐射总量 MJ·m-2 表 2 各模型测试集1~72 h预报回测结果
模型编号 预报策略 滞后窗口 外部特征输入 平均RMSE/(μg·m-3) 平均R2 M1 直接多步 72 周期化观测时间、地面气象 17.54 0.68 M2 递归多步 72 周期化观测时间 20.71 0.55 M3 直接多步 72 周期化观测时间 20.42 0.57 M4 直接多步 72 地面气象 19.04 0.63 M5 直接多步 48 周期化观测时间、地面气象 16.21 0.73 表 3 M5模型主要参数
序号 参数名称 值 1 滞后窗口 48 2 梯度提升树数量 540 3 最大树深度 5 4 学习率 0.017 5 最小划分损失 0.089 6 L1正则化项 0.002 7 L2正则化项 8.462 8 列子采样/树 1 9 列子采样/级 0.5 10 列子采样/节点 0.6 表 4 M5模型不同测试子集1 h、24 h、48 h及72 h测试结果
测试集 O3浓度均值/(μg·m-3) 预报时长 评价指标 RMSE/(μg·m-3) R2 2020年8—9月 52.95 1 h 10.93 0.94 24 h 23.06 0.72 48 h 25.82 0.65 72 h 25.51 0.66 2020年10—11月 20.79 1 h 5.96 0.92 24 h 10.96 0.74 48 h 11.95 0.69 72 h 12.19 0.68 2020年12月—2021年1月 12.01 1 h 4.49 0.89 24 h 8.59 0.60 48 h 9.61 0.50 72 h 9.48 0.51 -
[1] 姚芳芳, 王效科, 逯非, 等. 臭氧对农业生态系统影响的综合评估: 以长江三角洲为例[J]. 生态毒理学报, 2008, (2): 189-195. [2] 仲少鑫, 钱岩, 郭庶, 等. 空气污染物暴露人群活动模式研究进展[J]. 环境与健康杂志, 2019, 36(9): 836-842. [3] ORELLANO P, REYNOSO J, QUARANTA N, et al. Short-term exposure to particulate matter (PM10 and PM2.5), nitrogen dioxide (NO2), and ozone (O3) and all-cause and cause-specific mortality: Systematic review and meta-analysis[J]. Environment international, 2020, 142: 105876. [4] 楚翠姣, 梁进, 孙旭光, 等. 高温热浪下江苏省典型臭氧污染过程的特征及成因分析[J]. 气象科学, 2022, 42(6): 742-753. [5] 杨文夷, 皮冬勤, 汪琦, 等. 2019年江苏省PM2.5和O3多模式集合预报算法效果评估[J]. 中国环境监测, 2022, 38(4): 198-206. [6] CHENG M, FANG F, NAVON I M, et al. Assessing uncertainty and heterogeneity in machine learning-based spatiotemporal ozone prediction in Beijing-Tianjin-Hebei region in China[J]. Science of The Total Environment, 2023, 881: 163146. [7] 周建国, 王剑宇, 韦斯悌. 基于VMD-CEEMD分解和LSTM的PM2.5和O3浓度预测模型[J]. 环境工程, 2023, 41(6): 157-165+221. [8] 李颖若, 韩婷婷, 汪君霞, 等. ARIMA时间序列分析模型在臭氧浓度中长期预报中的应用[J]. 环境科学, 2021, 42(7): 3 118-3 126. [9] SALAZAR L, NICOLIS O, RUGGERI F, et al. Predicting hourly ozone concentrations using wavelets and ARIMA models[J]. Neural Computing and Applications, 2019, 31(8): 4 331-4 340. [10] ALJANABI M, SHKOUKANI M, HIJJAWI M. Ground-level ozone prediction using machine learning techniques: A case study in Amman, Jordan[J]. International Journal of Automation and Computing, 2020, 17: 667-677. [11] 吕婧, 杨震, 吴卫东, 等. 耦合观测数据-模型计算-案例分析的臭氧综合预报方法[J]. 环境科学研究, 2022, 35(9): 2 026-2 036. [12] 刘建, 吴兑, 范绍佳, 等. 前体物与气象因子对珠江三角洲臭氧污染的影响[J]. 中国环境科学, 2017, 37(3): 813-820. [13] 丁愫, 陈报章, 王瑾, 等. 基于决策树的统计预报模型在臭氧浓度时空分布预测中的应用研究[J]. 环境科学学报, 2018, 38(8): 3 229- 3 242. [14] 王馨陆, 黄冉, 张雯娴, 等. 基于机器学习方法的臭氧和PM2.5污染潜势预报模型--以成都市为例[J]. 北京大学学报(自然科学版), 2021, 57(5): 938-950. [15] JUMIN E, ZAINI N, AHMED A N, et al. Machine learning versus linear regression modelling approach for accurate ozone concentrations prediction[J]. Engineering Applications of Computational Fluid Mechanics, 2020, 14(1): 713-725. [16] ATIYA, AMIR F, SUZAN M. A comparison between neural-network forecasting techniques-case study: river flow forecasting[J]. IEEE Transactions on neural networks, 1999, 10(2): 402-409. [17] CHEVILLON G. Direct multi‐step estimation and forecasting[J]. Journal of Economic Surveys, 2007, 21(4): 746-785. [18] CHEN S H, SUN W Y. A one-dimensional time dependent cloud model[J]. Journal of the Meteorological Society of Japan. Ser. II, 2002, 80 (1): 99-118. [19] 周恒左, 陈恒蕤, 廖鹏, 等. 兰州市CMAQ近地面臭氧模拟结果的订正方法--基于机器学习方法[J]. 中国环境科学, 2022, 42(12): 5 472-5 483. [20] JEWSON S, ZIEHMANN C, BRIX A. Use of meteorological forecasts in weather derivative pricing[J]. Climate Risk and the Weather Market, 2002: 169-184. [21] EMENOGU N G, ADENOMON M O, NWAZE N O. Modeling and forecasting daily stock returns of Guaranty Trust Bank Nigeria Plc using ARMA-GARCH models, persistence, half-life volatility and backtesting[J]. Science World Journal, 2019, 14(3): 1-22. [22] RUSDAH D A, MURFI H. XGBoost in handling missing values for life insurance risk prediction[J]. SN Applied Sciences, 2020, 2(8): 1-10. [23] 侯梦琪, 明镇洋, 付虹, 等. 成都市臭氧生成对气象因素的敏感性分析[J]. 中国资源综合利用, 2022, 40(9): 160-167. [24] 姚青, 孙玫玲, 刘爱霞. 天津臭氧浓度与气象因素的相关性及其预测方法[J]. 生态环境学报, 2009, 18(6): 2 206-2 210. [25] 陈戴荣, 崔玉祥, 苏悦侬, 等. 考虑周期性的深度学习臭氧预测模型研究[J]. 环境监控与预警, 2023, 15(3): 21-28. [26] 赵洁, 丁俊傑, 刘芮伶, 等. 重庆市臭氧污染特征分析及天气分型研究[J]. 环境科学与技术, 2022, 45(11): 62-69. -