PREDICTION PRACTICE OF OZONE CONCENTRATION LEVEL BASED ON MACHINE LEARNING CLASSIFICATION ALGORITHM
-
摘要: 为准确预报臭氧浓度等级,基于EC_THIN全球天气模式产品和我国自主研发的CMA_GFS全球天气数值预报产品以及华南GRACEs大气成分模式输出产品,融合气象和环境观测数据,使用6种机器学习智能算法,构建耦合数值预报模式和机器学习的混合模型,旨在充分发挥数值预报与机器学习智能算法的优势和互补协同作用,实现臭氧浓度等级预报准确度的跨越式提升。共设置4个控制试验,选取不同的特征产品,依次使用机器学习经典分类算法对长沙市未来4天的臭氧浓度等级进行分类预报,取测试准确度最高的模型输出结果作为结果统计。发现:最优模型1~4天的测试准确度分别为81.7%、81.7%、78.3%、60.9%,大大高于大气成分模式预报和预报员经验,达到预期设计目标;高质量的天气模式产品对模型贡献大,而大气成分模式产品对模型贡献有限;模型3天以内预测性能较好,低等级预测性能较好,高等级预测性能一般。提出解决方案供讨论:增加高等级样本数量,增强模型对此类事件的识别能力;加强高等级臭氧污染的机理分析,组合出更精炼的因子供模型使用。Abstract: In order to accurately predict the ozone concentration level, this paper used the EC_ Thin global weather model products, global numerical weather prediction products from GRAPES_GFS, which are the graphs independently developed in China, and South China GRACEs atmospheric composition model output products to integrate meteorological and environmental observation data, and used six machine learning intelligent algorithms to build a hybrid model that coupled numerical prediction models with machine learning, in order to give full play to the advantages, complementarity and synergy of numerical prediction and machine learning intelligent algorithms, and improve the accuracy of ozone concentration level prediction by leaps and bounds. Four control experiments were set up for which different characteristic products were selected and the classical classification algorithm of machine learning was used to classify and predict the ozone concentration level in Changsha for any four days to come. The model output with the highest test accuracy was taken as the result statistics. It is found that the test accuracy of the optimal model in 1 to 4 days is 81.7%, 81.7%, 78.3% and 60.9% respectively, which is much higher than the atmospheric composition model prediction and forecaster experience, and achieves the expected design goal. The contribution of high-quality weather model products to product quality is large while that of atmospheric composition model products is limited. The prediction performance of the model within 3 days is good, and low-level prediction performance is good, and high-level prediction performance is general. The following solutions for discussion are proposed: the number of high-level samples is to be increased; the recognition ability of the model is to be enhanced for such events; the mechanism analysis of high-grade ozone pollution is to be strengthened; and more refined factors for the use of the model are to be combined.
-
Key words:
- machine learning /
- classification /
- ozone /
- atmospheric composition /
- numerical model
-
表 1 因子以及因子的重要性
类型 编号 因子 重要性 重要性标准化 类型 编号 因子 重要性 重要性标准化 环境观测 1 月份 0.01 21.80% 天气数值模式产品 29 MSLyb_20s 0.015 32.80% 2 AQI_0d 0.027 59.60% 30 Tmaxyb_24 0.017 38.20% 3 PM25_0d 0.04 87.00% 31 TCCyb_14s 0.01 21.30% 4 Pm10_0d 0.006 14.00% 32 TCWyb_14s 0.01 22.10% 5 CO_0d 0.021 46.60% 33 TCWVyb_14s 0.017 36.70% 6 SO2_0d 0.01 21.50% 34 降水yb08_20 0.046 100.00% 7 NO2_0d 0.021 45.50% 35 散度1000_14s 0.021 46.30% 8 O38h_0d 0.042 92.60% 36 PV1000_14s 0.025 55.00% 气象观测 9 平均气压_0d 0.01 21.90% 37 R1000_14s 0.029 64.50% 10 平均气温_0d 0.007 16.20% 38 低层逆温08_20s 0.016 34.80% 11 高温_0d 0.02 44.20% 39 W1000_14s 0.015 32.40% 12 低温_0d 0.013 27.80% 40 W925_14s 0.008 17.40% 13 相对湿度_0d 0.01 22.10% 41 24h变压_1D 0.012 26.50% 14 最小湿度_0d 0.011 23.60% 42 对流降雨8_20 0.028 62.40% 15 总云量_0d 0.011 24.10% 43 GP_RH2M_14s 0.014 30.50% 16 能见度_0d 0.016 36.10% 44 fg1_14s 0.022 48.00% 17 降水20_20 0.031 68.70% 45 Mpv1_1000_14s 0.014 29.90% 18 降水08_08 0.013 27.80% 46 Mpv2_1000_14s 0.031 67.50% 19 平均风速 0.028 61.30% 47 Plcl_925_14s 0.007 16.00% 20 最大风速 0.021 47.00% 48 Rhcl_925_14s 0.031 67.40% 21 最高地面温度 0.011 23.40% 49 Tdpl_1000_14s 0.018 39.30% 22 日照时数 0.007 16.10% 50 thse_1000_14s 0.007 15.10% 23 TmaxYB_1d 0.019 41.60% 51 FS_925_14s 0.02 43.30% 24 FG6YB_14s 0.01 21.70% 52 Shear_14s 0.008 18.00% 25 CAPEyb_14s 0.018 38.80% 53 Sweat_14s 0.024 51.50% 26 PBL_yb_20s 0.022 47.30% 华南模式产品 54 CMAQ_O3_8h_1d 0.021 45.00% 27 Kszs_yb_20s 0.018 39.40% 55 CMAQ_O3_max_1d 0.012 26.40% 28 LCCyb_14s 0.005 11.60% 56 CMAQ_O3_min_1d 0.024 52.70% 表 2 四个控制试验的训练准确度和测试准确度
特征选择 试验1 试验2 试验3 试验4 环境观测√气象观测√
气象模式√环境模式√环境观测√气象观测√
气象模式√环境观测√气象观测√ 环境模式√ 1D 训练准确度 83.80% 训练准确度 80.20% 训练准确度 75.50% 训练准确度 69.02% 总代价 不适用 总代价 75 总代价 93 测试准确度 81.70% 测试准确度 81.70% 测试准确度 69.60% 测试准确度 60% 总代价 不适用 总代价 22 总代价 35 模型 宽神经网络 模型 双层神经网络 模型 粗略树 2D 训练准确度 82.10% 训练准确度 81.30% 训练准确度 73.40% 全部准确度 71.05% 总代价 68 总代价 71 总代价 101 测试准确度 78.30% 测试准确度 81.70% 测试准确度 67% 测试准确度 62.60% 总代价 25 总代价 21 总代价 38 模型 二次SVM 模型 高斯SVM 模型 二次SVM 核函数 二次 高斯 二次 3D 训练准确度 79.70% 训练准确度 79.40% 训练准确度 72.60% 全部准确度 67% 总代价 77 总代价 78 总代价 104 测试准确度 75.70% 测试准确度 78.30% 测试准确度 61.70% 测试准确度 61.70% 总代价 28 总代价 25 总代价 44 模型 高斯SVM 模型 二次SVM 模型 二次SVM 4D 训练准确度 71.80% 训练准确度 71.80% 训练准确度 67.00% 全部准确度 65.40% 总代价 107 总代价 107 总代价 125 测试准确度 60.90% 测试准确度 52.20% 测试准确度 51.30% 测试准确度 56.50% 总代价 45 总代价 55 总代价 56 模型 粗略树 模型 粗略树 模型 高斯SVM -
[1] 唐文苑, 赵春生, 耿福海, 等. 上海地区臭氧周末效应研究[J]. 中国科学: 地球科学, 2009, 39(1): 99-105. [2] 殷永泉, 单文坡, 纪霞, 等. 济南大气臭氧浓度变化规律[J]. 环境科学, 2006, 27(11): 2 299-2 302. [3] 严文莲, 刘端阳, 康志明, 等. 江苏臭氧污染特征及其与气象因子的关系[J]. 气象科学, 2019, 39(4): 477-487. [4] 吴锴, 康平, 于雷, 等. 2015—2016年中国城市臭氧浓度时空变化规律研究[J]. 环境科学学报, 2018, 38(6): 2 179-2 190. [5] 孙银川, 严晓瑜, 缑晓辉, 等. 中国典型城市O3与前体物变化特征及相关性研究[J]. 环境科学研究, 2020, 33(1): 44-53. [6] 环境保护部, GB3095-2012环境空气质量标准[S]. 2012. GB3095-2012 Ambient air quality standards. [7] 毛敏娟, 刘厚通, 杜荣光. 不同时间尺度下杭州市O3污染特征及控制因素[J]. 环境科学研究, 2019, 32(11): 1 844-1 851. [8] LI Q, GABA M, RUBIN Y, et al. Investigation of ozone deposition to vegetation under warm and dry conditions near the Eastern Mediterranean coast[J]. Science of The Total Environment, 2019, 658: 1 316-1 333. [9] MONKS P S, ARCHIBALD A T, COLETTE A, et al. Tropospheric ozone and its precursors from the urban to the global scale from air quality to short-lived climate forcer[J]. Atmospheric Chemistry and Physics, 2015, 15(15): 8 889-8 973 [10] 潘文琪, 肖国杰, 孟林夕, 等. 杭州市臭氧污染特征及其气象成因分析[J]. 成都信息工程大学学报, 2019, 34(6): 664-670. [11] 谈建国, 陆国良, 耿福海, 等. 上海夏季近地面臭氧浓度及其相关气象因子的分析和预报[J]. 热带气象学报, 2007, 23(5): 515-520. [12] 周广强, 瞿元昊, 余钟奇. 长江三角洲城市臭氧数值预报与释用[J]. 中国环境科学, 2021, 41(1): 28-36. [13] HAN W, BORMANN N. Constrained adaptive bias correction for satellite radiance assimilation in the ECMWF 4D-Var system[R]. //ECMWF Technical Memorandum. Reading: ECMWF, 2016. [14] 沈学顺, 陈起英, 孙健, 等. 中央气象台全球中期数值预报业务系统的发展[J]. 气象, 2021, 47(6): 645-654. [15] 李江涛, 安兴琴, 李清勇, 等. 基于XGBoost算法的WRF-Chem模式优化模拟[J]. 中国环境科学, 2021, 41(12): 5 457-5 466. [16] 王茜, 吴剑斌, 林燕芬. CMAQ模式及其修正技术在上海市PM2.5预报中的应用检验[J]. 环境科学学报, 2015, 35(6): 1 651-1 656. [17] 邓雪娇, 邓涛, 麦博儒, 等. 华南区域大气成分业务数值预报GRACEs模式系统[J]. 热带气象学报, 2016, 32(6): 900-907. [18] 李婷苑, 吴乃庚, 邓雪娇, 等. 华南区域大气成分数值模式GRACEs预报性能评估[J]. 热带气象学报, 2021, 37(2): 207-217. [19] 谢建新, 宿彦京, 薛德桢, 等. 机器学习在材料研发中的应用[J]. 金属学报, 2021, 57(11): 1 343-1 361. [20] 李雪清, 郑航, 刘悦忆, 等. 基于多源数据机器学习的区域水质预测方法研究[J]. 水利水电技术(中英文), 2021, 52(11): 152-163. [21] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016. [22] 周志华. 集成学习: 基础与算法[M]. 李楠译. 北京: 电子工业出版社, 2020. [23] GAO W, TIE X, XU J, et al. Long-term trend of O3 in a mega City (Shanghai), China: Characteristics, causes, and interactions with precursors [J]. Science of the Total Environment, 2017, 603-604: 425-433. [24] GU Y, LI K, XU J, et al. Observed dependence of surface ozone on increasing temperature in Shanghai, China [J]. Atmos Environ, 2020, 221: 117108. [25] 苏筱倩, 安俊琳, 张玉欣, 等. 支持向量机回归在臭氧预报中的应用[J]. 环境科学, 2019, 40(4): 1 697-1 704. [26] HARRINGTON P. 机器学习实战[M]. 北京: 人民邮电出版社, 2013. [27] 李航. 统计学习方法(第2版)[M]. 北京: 清华大学出版社, 2019. [28] MOHAMMADI S, AMIRI F. An efficient hybrid self-learning intrusion detection system based on neural networks[J]. Inter-national Journal of Computational Intelligence and Applications, 2019, 18: 1950001. [29] 唐科, 秦敏, 赵星, 等. 基于Stacking集成学习模型的气态亚硝酸预测[J]. 中国环境科学, 2020, 40(2): 582-590. [30] KABACOFFR I. R语言实战[M]. 王小宁, 刘撷芯, 黄俊文, 等, 译. 北京: 人民邮电出版社, 2016. [31] 吕红燕, 冯倩. 随机森林算法研究综述[J]. 河北省科学院学报, 2019, 36(3): 37-41. -