国家标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210843164.5 (22)申请日 2022.07.18 (71)申请人 国网上海市电力公司 地址 200120 上海市浦东 新区源深路1 122 号 (72)发明人 张大维 尹渭 贾慧 胡征宇  章迅  (74)专利代理 机构 济南克雷姆专利代理事务所 (普通合伙) 37279 专利代理师 张祥明 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/06(2012.01) G06K 9/62(2022.01) (54)发明名称 一种基于 XGBoost和随机森林算法的申校概 率预测方法 (57)摘要 本发明属于电力拓扑大数据分析领域, 尤其 涉及一种基于XGBoo st和随机森林算法的申校概 率预测方法。 其特征在于包括一下步骤: S1: 数据 特征筛选; S2: 用户申校概率预测模型构建。 本发 明针对申校行为中数据量大、 数据关联链路较 长, 申校行为难预测的问题, 提出一种构基于 XGBoost+随机森林(Random  Forest)多种算法预 测申校行为概率的技术方案, 通过构建标签体 系, 精准挖掘潜在申校行为, 助力供电公司等单 位降低服 务和运营成本 。 权利要求书2页 说明书5页 附图1页 CN 115186909 A 2022.10.14 CN 115186909 A 1.一种基于XGBo ost和随机森林算法的申校概 率预测方法, 包括以下步骤: S1: 数据特 征筛选; S2: 用户申校概 率预测模型构建; 所述数据特 征筛选具体为: S11: 数据导入: 依次导入申校用户工单、 申校设备信息、 申校用户换表信息、 电量电费 表、 用户信息表信息; S12: 数据处理: 对采集到的上述各类数据, 通过数据统计方法进行数据转换, 并对数据 缺失值、 异常值进行填充处 理, 为后续申校概 率预测模型构建提供支撑; S13: 特征筛选: 通过相关系数方式计算, 筛选出与因变量有较强相关关系的特征, 以此 作为预测模型构建的依据。 2.根据权利 要求1所述的一种基于XGBoost和随机森林算法的申校概率预测方法, 其特 征在于: 所述 步骤S2用户申校概 率预测模型构建, 具体步骤为: S21: 客观预测算法技术体系构建: 针对申校概率预测业务需求, 选择客观预测算法用 于预测模型的构建, 按照算法的技术类型, 对客户预测算法进行分类, 并形成算法技术体 系; S22: 内外部数据计算: 计算近3年各月内外部数据的特征, 主要包含包括重复申校行为 特性、 重复申校 行为时间 间隔特征、 重复申校 行为结果特 征、 用电区域特 征维度; S23: 申校概率预测模型优化及迭代: 采用随机森林和XGBoost模型分析各特征对用户 申校的重要程度, 进一步筛选对用户申校概率影响较大的t op重要性特征集合, 重新优化预 测模型; 基于预测的效果对不同算法进行加权融合, 进行迭代; S24: 申校概 率预测模型效果评估, 评估预测模型的准确率; S25: 申校概率自动预测: 按一定周期(如: 月)调用随机森林、 XGBoost模型, 预测未来三 个月申校概 率情况。 3.根据权利 要求1所述的一种基于XGBoost和随机森林算法的申校概率预测方法, 其特 征在于: 所述的S12: 数据处理是指对采集到的各类数据, 通过数据统计方法进 行数据转换, 并对数据缺失值、 异常值进行填充处 理, 具体包括 一下步骤: S121: 值和异常值数据观测: 根据数据的业务含义和数据类型, 对存在的明显的异常或 者错误进行分析, 对空值进行填充处理, 并结合箱型图、 折线图等方法识别数据的异常值, 并进行前后均值 填充处理; S122: 数据完整性检验: 主要检查所提供的数据表中所有业务字段是否均有数据, 字段 缺失情况等, 如果存在缺失情况结合业务进行相应处理, 如: 均值填充、 中位数填充、 插补 等; S123: 业务准确性检验: 根据业务逻辑和基础数据情况, 判断涉及的业务逻辑字段数据 是否准确; S124: 数据有效性检验: 检查所提供的数据的正负情况以及数据中是否有特殊字符、 乱 码、 极大/小值、 异常值等出现, 如有特殊数据出现, 需结合业务进行相应处理, 使用标准编 码的字段 须有中文字段进行对照, 以便更好的了解数据; S125: 数据加工处理: 对基础数据指标进行统计和观测, 对存在的明显的问题进行核对 和处理。权 利 要 求 书 1/2 页 2 CN 115186909 A 24.根据权利 要求1所述的一种基于XGBoost和随机森林算法的申校概率预测方法, 其特 征在于: 所述的S13: 特征筛选是指通过Pearson相关系数计算, 筛选出与因变量有较强相关 关系的特 征, 以此作为用户申校概 率模型构建的依据; 其中, 假设特征变量为上月用电量PQ1、 因变量为月用电量PQ, 那么两 特征间的皮尔逊相 关系数可通过以下公式计算: 当相关系数为1时, 表明变量之间呈现完全正相关; 当相关系数小于0时, 表明上月变量 之间呈负相关关系; 当相关系数为 ‑1时, 表明变量之间呈完全负相关, 即, 相关系数绝对值 越接近1, 变量之间的相关性越强。 5.根据权利 要求2所述的一种基于XGBoost和随机森林算法的申校概率预测方法, 其特 征在于: 所述的S2 4: 申校概率预测模 型效果评估, 评估 预测模型的准确率, 采用MAP E方法其 中, 平均绝对 百分比误差计算值范围为[0,+∞), 当MAPE值越接近于0, 模 型效果越好, 反之, 具体计算逻辑如下: 权 利 要 求 书 2/2 页 3 CN 115186909 A 3

.PDF文档 专利 一种基于XGBoost和随机森林算法的申校概率预测方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于XGBoost和随机森林算法的申校概率预测方法 第 1 页 专利 一种基于XGBoost和随机森林算法的申校概率预测方法 第 2 页 专利 一种基于XGBoost和随机森林算法的申校概率预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 16:55:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。