ISSN 1004-4965

CN 44-1326/P

用微信扫描二维码

分享至好友和朋友圈

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于机器学习分类算法的臭氧浓度等级预报在长沙的应用

李细生 张华 喻雨知 邓新林 谢倩雯 舒磊

李细生, 张华, 喻雨知, 邓新林, 谢倩雯, 舒磊. 基于机器学习分类算法的臭氧浓度等级预报在长沙的应用[J]. 热带气象学报, 2023, 39(4): 453-461. doi: 10.16032/j.issn.1004-4965.2023.041
引用本文: 李细生, 张华, 喻雨知, 邓新林, 谢倩雯, 舒磊. 基于机器学习分类算法的臭氧浓度等级预报在长沙的应用[J]. 热带气象学报, 2023, 39(4): 453-461. doi: 10.16032/j.issn.1004-4965.2023.041
LI Xisheng, ZHANG Hua, YU Yuzhi, DENG Xinlin, XIE Qianwen, SHU Lei. PREDICTION PRACTICE OF OZONE CONCENTRATION LEVEL BASED ON MACHINE LEARNING CLASSIFICATION ALGORITHM[J]. Journal of Tropical Meteorology, 2023, 39(4): 453-461. doi: 10.16032/j.issn.1004-4965.2023.041
Citation: LI Xisheng, ZHANG Hua, YU Yuzhi, DENG Xinlin, XIE Qianwen, SHU Lei. PREDICTION PRACTICE OF OZONE CONCENTRATION LEVEL BASED ON MACHINE LEARNING CLASSIFICATION ALGORITHM[J]. Journal of Tropical Meteorology, 2023, 39(4): 453-461. doi: 10.16032/j.issn.1004-4965.2023.041

基于机器学习分类算法的臭氧浓度等级预报在长沙的应用

doi: 10.16032/j.issn.1004-4965.2023.041
基金项目: 

湖南省气象局2020年重点课题 XQKJ20A001

详细信息
    通讯作者:

    李细生,男,湖南省人,硕士,高级工程师,主要从事环境气象研究。E-mail:lxs123@163.com

  • 中图分类号: X513

PREDICTION PRACTICE OF OZONE CONCENTRATION LEVEL BASED ON MACHINE LEARNING CLASSIFICATION ALGORITHM

  • 摘要: 为准确预报臭氧浓度等级,基于EC_THIN全球天气模式产品和我国自主研发的CMA_GFS全球天气数值预报产品以及华南GRACEs大气成分模式输出产品,融合气象和环境观测数据,使用6种机器学习智能算法,构建耦合数值预报模式和机器学习的混合模型,旨在充分发挥数值预报与机器学习智能算法的优势和互补协同作用,实现臭氧浓度等级预报准确度的跨越式提升。共设置4个控制试验,选取不同的特征产品,依次使用机器学习经典分类算法对长沙市未来4天的臭氧浓度等级进行分类预报,取测试准确度最高的模型输出结果作为结果统计。发现:最优模型1~4天的测试准确度分别为81.7%、81.7%、78.3%、60.9%,大大高于大气成分模式预报和预报员经验,达到预期设计目标;高质量的天气模式产品对模型贡献大,而大气成分模式产品对模型贡献有限;模型3天以内预测性能较好,低等级预测性能较好,高等级预测性能一般。提出解决方案供讨论:增加高等级样本数量,增强模型对此类事件的识别能力;加强高等级臭氧污染的机理分析,组合出更精炼的因子供模型使用。

     

  • 图  1  实况臭氧浓度与风速(a)、低层散度(b)、相对湿度(c)最高气温(d)散点图

    图  2  试验1测试混淆矩阵(1D)

    图  3  试验1与试验2臭氧预测与实况对比

    图  4  四个控制试验的训练准确度(a)和测试准确度(b)

    表  1  因子以及因子的重要性

    类型 编号 因子 重要性 重要性标准化 类型 编号 因子 重要性 重要性标准化
    环境观测 1 月份 0.01 21.80% 天气数值模式产品 29 MSLyb_20s 0.015 32.80%
    2 AQI_0d 0.027 59.60% 30 Tmaxyb_24 0.017 38.20%
    3 PM25_0d 0.04 87.00% 31 TCCyb_14s 0.01 21.30%
    4 Pm10_0d 0.006 14.00% 32 TCWyb_14s 0.01 22.10%
    5 CO_0d 0.021 46.60% 33 TCWVyb_14s 0.017 36.70%
    6 SO2_0d 0.01 21.50% 34 降水yb08_20 0.046 100.00%
    7 NO2_0d 0.021 45.50% 35 散度1000_14s 0.021 46.30%
    8 O38h_0d 0.042 92.60% 36 PV1000_14s 0.025 55.00%
    气象观测 9 平均气压_0d 0.01 21.90% 37 R1000_14s 0.029 64.50%
    10 平均气温_0d 0.007 16.20% 38 低层逆温08_20s 0.016 34.80%
    11 高温_0d 0.02 44.20% 39 W1000_14s 0.015 32.40%
    12 低温_0d 0.013 27.80% 40 W925_14s 0.008 17.40%
    13 相对湿度_0d 0.01 22.10% 41 24h变压_1D 0.012 26.50%
    14 最小湿度_0d 0.011 23.60% 42 对流降雨8_20 0.028 62.40%
    15 总云量_0d 0.011 24.10% 43 GP_RH2M_14s 0.014 30.50%
    16 能见度_0d 0.016 36.10% 44 fg1_14s 0.022 48.00%
    17 降水20_20 0.031 68.70% 45 Mpv1_1000_14s 0.014 29.90%
    18 降水08_08 0.013 27.80% 46 Mpv2_1000_14s 0.031 67.50%
    19 平均风速 0.028 61.30% 47 Plcl_925_14s 0.007 16.00%
    20 最大风速 0.021 47.00% 48 Rhcl_925_14s 0.031 67.40%
    21 最高地面温度 0.011 23.40% 49 Tdpl_1000_14s 0.018 39.30%
    22 日照时数 0.007 16.10% 50 thse_1000_14s 0.007 15.10%
    23 TmaxYB_1d 0.019 41.60% 51 FS_925_14s 0.02 43.30%
    24 FG6YB_14s 0.01 21.70% 52 Shear_14s 0.008 18.00%
    25 CAPEyb_14s 0.018 38.80% 53 Sweat_14s 0.024 51.50%
    26 PBL_yb_20s 0.022 47.30% 华南模式产品 54 CMAQ_O3_8h_1d 0.021 45.00%
    27 Kszs_yb_20s 0.018 39.40% 55 CMAQ_O3_max_1d 0.012 26.40%
    28 LCCyb_14s 0.005 11.60% 56 CMAQ_O3_min_1d 0.024 52.70%
    下载: 导出CSV

    表  2  四个控制试验的训练准确度和测试准确度

    特征选择 试验1 试验2 试验3 试验4
    环境观测√气象观测√
    气象模式√环境模式√
    环境观测√气象观测√
    气象模式√
    环境观测√气象观测√ 环境模式√
    1D 训练准确度 83.80% 训练准确度 80.20% 训练准确度 75.50% 训练准确度 69.02%
    总代价 不适用 总代价 75 总代价 93
    测试准确度 81.70% 测试准确度 81.70% 测试准确度 69.60% 测试准确度 60%
    总代价 不适用 总代价 22 总代价 35
    模型 宽神经网络 模型 双层神经网络 模型 粗略树
    2D 训练准确度 82.10% 训练准确度 81.30% 训练准确度 73.40% 全部准确度 71.05%
    总代价 68 总代价 71 总代价 101
    测试准确度 78.30% 测试准确度 81.70% 测试准确度 67% 测试准确度 62.60%
    总代价 25 总代价 21 总代价 38
    模型 二次SVM 模型 高斯SVM 模型 二次SVM
    核函数 二次 高斯 二次
    3D 训练准确度 79.70% 训练准确度 79.40% 训练准确度 72.60% 全部准确度 67%
    总代价 77 总代价 78 总代价 104
    测试准确度 75.70% 测试准确度 78.30% 测试准确度 61.70% 测试准确度 61.70%
    总代价 28 总代价 25 总代价 44
    模型 高斯SVM 模型 二次SVM 模型 二次SVM
    4D 训练准确度 71.80% 训练准确度 71.80% 训练准确度 67.00% 全部准确度 65.40%
    总代价 107 总代价 107 总代价 125
    测试准确度 60.90% 测试准确度 52.20% 测试准确度 51.30% 测试准确度 56.50%
    总代价 45 总代价 55 总代价 56
    模型 粗略树 模型 粗略树 模型 高斯SVM
    下载: 导出CSV
  • [1] 唐文苑, 赵春生, 耿福海, 等. 上海地区臭氧周末效应研究[J]. 中国科学: 地球科学, 2009, 39(1): 99-105.
    [2] 殷永泉, 单文坡, 纪霞, 等. 济南大气臭氧浓度变化规律[J]. 环境科学, 2006, 27(11): 2 299-2 302.
    [3] 严文莲, 刘端阳, 康志明, 等. 江苏臭氧污染特征及其与气象因子的关系[J]. 气象科学, 2019, 39(4): 477-487.
    [4] 吴锴, 康平, 于雷, 等. 2015—2016年中国城市臭氧浓度时空变化规律研究[J]. 环境科学学报, 2018, 38(6): 2 179-2 190.
    [5] 孙银川, 严晓瑜, 缑晓辉, 等. 中国典型城市O3与前体物变化特征及相关性研究[J]. 环境科学研究, 2020, 33(1): 44-53.
    [6] 环境保护部, GB3095-2012环境空气质量标准[S]. 2012. GB3095-2012 Ambient air quality standards.
    [7] 毛敏娟, 刘厚通, 杜荣光. 不同时间尺度下杭州市O3污染特征及控制因素[J]. 环境科学研究, 2019, 32(11): 1 844-1 851.
    [8] LI Q, GABA M, RUBIN Y, et al. Investigation of ozone deposition to vegetation under warm and dry conditions near the Eastern Mediterranean coast[J]. Science of The Total Environment, 2019, 658: 1 316-1 333.
    [9] MONKS P S, ARCHIBALD A T, COLETTE A, et al. Tropospheric ozone and its precursors from the urban to the global scale from air quality to short-lived climate forcer[J]. Atmospheric Chemistry and Physics, 2015, 15(15): 8 889-8 973
    [10] 潘文琪, 肖国杰, 孟林夕, 等. 杭州市臭氧污染特征及其气象成因分析[J]. 成都信息工程大学学报, 2019, 34(6): 664-670.
    [11] 谈建国, 陆国良, 耿福海, 等. 上海夏季近地面臭氧浓度及其相关气象因子的分析和预报[J]. 热带气象学报, 2007, 23(5): 515-520.
    [12] 周广强, 瞿元昊, 余钟奇. 长江三角洲城市臭氧数值预报与释用[J]. 中国环境科学, 2021, 41(1): 28-36.
    [13] HAN W, BORMANN N. Constrained adaptive bias correction for satellite radiance assimilation in the ECMWF 4D-Var system[R]. //ECMWF Technical Memorandum. Reading: ECMWF, 2016.
    [14] 沈学顺, 陈起英, 孙健, 等. 中央气象台全球中期数值预报业务系统的发展[J]. 气象, 2021, 47(6): 645-654.
    [15] 李江涛, 安兴琴, 李清勇, 等. 基于XGBoost算法的WRF-Chem模式优化模拟[J]. 中国环境科学, 2021, 41(12): 5 457-5 466.
    [16] 王茜, 吴剑斌, 林燕芬. CMAQ模式及其修正技术在上海市PM2.5预报中的应用检验[J]. 环境科学学报, 2015, 35(6): 1 651-1 656.
    [17] 邓雪娇, 邓涛, 麦博儒, 等. 华南区域大气成分业务数值预报GRACEs模式系统[J]. 热带气象学报, 2016, 32(6): 900-907.
    [18] 李婷苑, 吴乃庚, 邓雪娇, 等. 华南区域大气成分数值模式GRACEs预报性能评估[J]. 热带气象学报, 2021, 37(2): 207-217.
    [19] 谢建新, 宿彦京, 薛德桢, 等. 机器学习在材料研发中的应用[J]. 金属学报, 2021, 57(11): 1 343-1 361.
    [20] 李雪清, 郑航, 刘悦忆, 等. 基于多源数据机器学习的区域水质预测方法研究[J]. 水利水电技术(中英文), 2021, 52(11): 152-163.
    [21] 周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.
    [22] 周志华. 集成学习: 基础与算法[M]. 李楠译. 北京: 电子工业出版社, 2020.
    [23] GAO W, TIE X, XU J, et al. Long-term trend of O3 in a mega City (Shanghai), China: Characteristics, causes, and interactions with precursors [J]. Science of the Total Environment, 2017, 603-604: 425-433.
    [24] GU Y, LI K, XU J, et al. Observed dependence of surface ozone on increasing temperature in Shanghai, China [J]. Atmos Environ, 2020, 221: 117108.
    [25] 苏筱倩, 安俊琳, 张玉欣, 等. 支持向量机回归在臭氧预报中的应用[J]. 环境科学, 2019, 40(4): 1 697-1 704.
    [26] HARRINGTON P. 机器学习实战[M]. 北京: 人民邮电出版社, 2013.
    [27] 李航. 统计学习方法(第2版)[M]. 北京: 清华大学出版社, 2019.
    [28] MOHAMMADI S, AMIRI F. An efficient hybrid self-learning intrusion detection system based on neural networks[J]. Inter-national Journal of Computational Intelligence and Applications, 2019, 18: 1950001.
    [29] 唐科, 秦敏, 赵星, 等. 基于Stacking集成学习模型的气态亚硝酸预测[J]. 中国环境科学, 2020, 40(2): 582-590.
    [30] KABACOFFR I. R语言实战[M]. 王小宁, 刘撷芯, 黄俊文, 等, 译. 北京: 人民邮电出版社, 2016.
    [31] 吕红燕, 冯倩. 随机森林算法研究综述[J]. 河北省科学院学报, 2019, 36(3): 37-41.
  • 加载中
图(4) / 表(2)
计量
  • 文章访问数:  123
  • HTML全文浏览量:  58
  • PDF下载量:  48
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-10-27
  • 修回日期:  2023-04-08
  • 网络出版日期:  2023-10-24
  • 刊出日期:  2023-08-20

目录

    /

    返回文章
    返回