王少科,王培光,张照彦*,田亚茹
(1. 河北大学电子信息工程学院,河北 保定 071002;
2. 河北大学保定市风力发电数字化智能运维重点实验室,河北 保定 071002)
风能作为一种可再生能源,近些年一直处于蓬勃发展阶段[1-3]。根据世界风能协会(WWEA)初步统计,2018年全球新增53.9 GW的风电装机,中国以新增25.9 GW继续大幅度领跑[4]。风电机组长期运行在恶劣的自然环境中,各部件的故障率显著增加[5],采用合理高效的监测手段和准确的故障诊断方法对提高风电机组可靠性具有重要意义[6]。
风电机组运行数据来源丰富,其中机组本身所配备的数据采集与监视控制系统(supervisory control and data acquisition,SCADA)每天会产生大量的运行数据,合理利用这些信息丰富的SCADA数据可以实现对风电机组的故障预警,提高机组可靠性和电能质量[7-8]。非线性状态估计是由Singer等人提出的一种基于数据驱动的非参数、非线性经验建模法[9]。郭鹏[10-12]等人率先将此方法用于风电机组的故障预警中。李洋[13]等人在此基础上将改进的信息熵使用范畴进一步限定,提出了递进式故障预警等级。但他们在使用SCADA数据之前并未进行深度处理。而在实际工作中,由于设备故障、机组停机以及在测量、传输、保存数据时出现错误等原因,SCADA数据中会包含大量异常值。这些数据不能反映机组的真实状况和实际性能,因此在使用SCADA数据建模之前需要进行数据清洗,剔除异常值。
为提高数据质量,风电机组异常数据识别和清洗已经成为风电机组故障检测工作中必不可少的一步,并已取得大量研究成果[14-17]。文献[18]采用四分位法进行数据清洗,当异常数据占比较多时,识别效果不佳。文献[19]提出一种变点分组法与四分位法联合使用的异常值识别算法,这种方法建模复杂、清洗时间长,并且会损失大量正常数据。文献[19]利用Thompson tau法和四分位法来完成异常值的清洗与删除。在使用Thompson tau法时,每次只能检测出一个异常数据。每当剔除一个异常值后,需要重新计算区间内的平均值和标准差,运算量大,清洗效率低。文献[20]提出一种k-means与四分位联合算法进行数据清洗,但k-means中的k值难以确定,且k-means属于聚类算法,会造成大量数据误删。鉴于以上各种问题,该文提出一种3σ-中位数准则组合法对SCADA数据进行数据清洗,然后利用NSET法建立风电齿轮箱温度预测模型。当齿轮箱的运行状态偏离正常的工作空间时,其温度残差将发生较大改变,通过对验证集的残差序列分析确定残差阈值,当残差多次、持续地超出阈值时判定为齿轮箱工作异常,从而实现了齿轮箱的故障预警。
假设一组数据服从或近似服从正态分布且只含随机误差,计算这组数据的标准偏差,按一定概率确定一个区间,认为在该区间外的误差是粗大误差而非随机误差,应予以剔除。
(1)
则认为xb为异常值,应给予剔除。
中位数往往更能代表一组数据的整体水平,也能更准确地划分出正常数据范围。因此中位数准则可有效克服3σ准则在处理数据时要求数据服从正态分布或近似服从正态分布的局限性,提高算法的通用性和异常值的识别精度。
按照一定大小将风速划分为若干个风速区间,假设第i个风速区间的发电机有功功率为
Pi={Pi,1,Pi,2,…,Pi,m}(i=1,2,…,n)
(2)
式中,m为发电机功率数量,n为风速区间个数,且Pi,2≤Pi,2≤…≤Pi,m。
1)求发电机功率中位数
(3)
式中,k=0,1,2,…,MED为中位数。
2)计算中位数偏差
|δj|=|Pj-MED|(j=1,2,…,m)
(4)
式中,Pj为发电机功率,|δj|为中位数偏差。
3)计算中位数偏差δj的中位数
(5)
当MED-3Mδ≤Pj≤MED+3Mδ时,Pj为正常数据;
反之为异常数据。
在使用中位数准则进行数据清洗时也存在一定问题,对于功率分布较为集中的风速区间,该方法会错误识别出大量正常数据。因此在实际运用时要与3σ准则联合使用,这样可以更准确地识别出各风速区间内的异常数据。
该方法使用机组或设备在正常工况下采集到的数据建立系统的状态模型,将建立好的模型用于数据的预测,进一步可以得到实际值和预测值之间的残差,依据残差大小、范围、变化情况等信息对机组或设备运行状态进行判定。当机组或设备出现异常时,其动态特性将偏离正常的工作空间从而导致残差增大,由此可实现对机组或设备故障预警的目的。
NSET建模主要用到的参量有观测矩阵Xobs、预测输出矩阵Xest、总体观测矩阵P、训练矩阵K和过程记忆矩阵D。
设某机组或设备在某一时刻i的观测向量为
X(i)=[x1x2…xn]T
(6)
式中,x1,x2,…,xn为相互关联的数据,n为观测向量中相关变量个数。
系统总体观测矩阵Pn×b如下所示
(7)
式中,b为观测向量的时间标签,n为观测向量的参数个数。
在构造过程记忆矩阵D之前,需要先得到NSET建模所使用的训练矩阵K,它是从总体观测矩阵P中选取出来的,其中被选取出来的所有参数均是在设备正常工作状况下产生的数据。K的表示形式为
K=[X(1)X(2) …X(k)]
(8)
式中,k为训练矩阵的时间标签。
在机组或设备的不同工作条件下,从训练矩阵K中选出m个观测向量组成过程记忆矩阵D。
(9)
过程记忆矩阵D可覆盖风电机组全部正常工作状态。
NSET模型的输入为某一时刻观测向量Xobs,输出为预测向量Xest。对于任意一个输入的观测向量Xobs,NSET模型都将产生一个m维的权值向量W。权值向量W是一个列向量且维数于输入的观测向量相同,W形式如下
D=[w1w2…wm]T
(10)
使得
Xest=D·W
(11)
由此,可得观测向量与预测向量之间的差值,即NSET模型输入与输出的残差ε
ε=[Xobs-Xest]
(12)
对残差进行极小化处理
minε=min(|Xobs-Xest|)=min(|Xobs-D·W|)
(13)
W=(DT·D)-1·(DT·Xobs)
(14)
由式(14)可知,DT·D可逆是权值向量W存在的先决条件,为增强NSET模型可用性,将点乘运算代替为非线性运算符⊗,本文选择DT和D间的Eucliden距离,即
(15)
因此,式(14)可改写为
W=(DT⊗D)-1·(DT⊗Xobs)
(16)
将式(16)代入式(11)可得NSET模型的预测向量为
Xest=D·(DT⊗D)-1(D⊗Xobs)
(17)
由式(17),可根据典型的历史数据重构出当前输入数据的预测值,最终得到机组或设备的潜在故障预警信息。
为建立风电机组齿轮箱NSET模型,需要合理地选择出建模所用到的变量。由于要预测齿轮箱的温度,所以被选取出的建模变量必须是直接决定和影响齿轮箱温度的相关参数。
该文以张家口某地区的A12号风电机组为研究对象,使用其运行期间2018年9月26日~2019年1月26日的SCADA参数作为数据源。该数据源共包含70种,17713条信息量丰富的10分钟采样数据变量。
经变量相关性分析,直接决定和影响风电机组齿轮箱温度的相关参数有5个,分别为:齿轮箱温度、上一时刻齿轮箱温度、风速、发电机功率、环境温度。
将上述5个与风电机组齿轮箱温度密切相关的变量重新组合,形成新的矩阵作为原始数据空间。已知该A12号机组在2018年12月26日6时00分发生故障报警,因此有建模意义的数据区间为2018年9月26日0时10分~2018年12月26日6时00分,共13142条数据。
将数据划分成3部分,分别是训练集、验证集、试验集,这3部分数据之间的比例为6:3:1。
1)训练集数据共7885条,涵盖区间为:2018年9月26日0时10分~2018年11月19日18时00分。训练集的风速-功率趋势如图1所示。
由图1可知,训练集前3127条数据的发电机功率都为零,这些点大多为异常数据。当然,训练集中还包含大量其它的异常值,这些异常数据的识别和处理在预处理部分详细说明。
图1 训练集风速-功率趋势图
这些异常值的存在会严重干扰故障预警的精度,因此在使用NSET方法建立齿轮箱温度模型之前要对训练集数据进行深度处理。
2)验证集数据共1315条,涵盖区间为:2018 年11月19日18时10分~2018年11月28日21时00分。
这1315条数据用于验证所生成的故障预测模型是否能够很好地覆盖机组运行状态达到预测输出的目的,同时,齿轮箱温度残差阈值也是根据此区间的温度残差所确定的。验证集的风速-功率的趋势图如图2所示。
从图2可以看出,风电机组发电机的有功功率能够很好地跟随风速的变化,并且曲线的形状极为相似。由此可推断,在本区间内风电机组运行并未出现故障或异常,该分析与SCADA系统故障记录日志相符。
图2 验证集风速-功率趋势图
由以上分析可得,使用此验证集数据不仅可以验证模型的有效性和预测精度,而且得到的齿轮箱温度残差序列对确定残差阈值有很强的参考价值与可信度。
3)试验集共3944条数据,涵盖区间为:2018年11月28日21时10分~2018年12月26日6时00分。试验集风速-功率趋势如图3所示。
由于A12号机组在2018年12月26日6时00分发出故障报警,所以在此数据区间内风电机组必然已经出现异常。由图3也可以看出,风力发电机功率曲线与风速曲线的形状已经有了较大差别。因此,利用NSET模型对试验集区间的机组齿轮箱温度进行预测,将得到的时间序列残差用于预警策略,可实现齿轮箱的状态监测。
图3 试验集风速-功率趋势图
4.1.1 数据预处理
风电机组在运行过程中,由于弃风限电、通信设备故障、计划外停机检修等因素,会产生一种特殊的异常类型数据。这类异常数据堆积在风速-功率曲线底部,是一条横向的密集数据带,该数据带的功率均为零。如图4所示。
这类异常数据的存在,会使各风速区间发电机功率的均值和中位数变小,进而影响数据清洗效果。因此,在数据清洗工作开展之前,对于风速大于机组切入风速(3 m/s)且功率为零的数据点应给予剔除。剔除后的风速-功率曲线如图5所示。
图4 数据预处理前风速-功率曲线图
经统计,本次对训练样本的预处理共剔除2600个异常数据点。
图5 数据预处理后风速-功率曲线图
4.1.2 风速区间划分
训练集数据经过预处理之后,参照IEC61400-12-1“分箱”划分法,以风速0.5 m/s为一个区间,将风速-功率曲线划分成若干个区间,如图6所示。
4.1.3 异常值检测
图6 风速区间划分图
1)3σ准则检测异常值
使用3σ准则对各风速区间进行异常值检测。结果如图7所示。
由图7可以看出,利用3σ准则仅识别出了风速-功率曲线左侧异常值和右侧少量离散型异常数据,对于曲线右侧的大部分游离异常点和底部堆积型异常数据并未检测出来。
图7 3σ准则异常检测结果
2)中位数准则检测异常值
使用中位数准则对各风速区间进行异常值检测并标记。结果如图8所示。
由图8可知,尽管中位数准则可有效识别出风速-功率曲线左、右两侧游离异常点和底部堆积型异常数据,但在风速小于5 m/s的风速区间有大量正常数据被错误地识别为异常值。因此,若单独使用以上两种方法中的一种,检测效果均不理想。由此,该文提出一种3σ-中位数准则组合法对数据进行清洗。
图8 中位数准则异常检测结果
3)3σ-中位数准则组合法检测异常值
对风速小于等于5 m/s的风速区间采用3σ准则检测异常值,而对风速大于5 m/s的风速区间使用中位数准则检测异常数据。如图9所示:
从图9可以看出,该文所提出的3σ-中位数准则组合法可准确识别出训练集中异常数据的全部类型。经统计,共识别出279个异常值。
图9 3σ-中位数准则组合法检测结果
4)删除负功率值
风电机组在正常工作时,由于某些原因会产生部分负功率值。如:在风电机组切入风速附近,因为风速较低,导致发电机输出功率非常小,如果风向突然改变或风速突然变小,由于惯性等原因,风电机组并不会马上停止,将持续运行一段时间,此时就容易产生负功率值。
这些负功率值也属于异常数据,因此也应做删除处理。实验结果表明,共有78个负功率值被删除。最终得到的NSET建模数据集如图10所示。
经上述处理,共剔除2957条异常数据占训练集数据的37.5%,最终得到4928条建模数据条目。该文利用这4928条风电机组数据建立了NSET模型。
图10 NSET建模数据集
4.2.1 齿轮箱NSET模型预测效果验证
1)训练集预测有效性验证。
使用训练集数据分别对未经预处理和经过以上一系列预处理后得到的NSET模型进行齿轮箱温度预测验证。训练集验证结果如图11所示:
由图11可知,训练数据经预处理后建立的NSET模型比未经预处理建立的NSET模型的预测精度要高很多,可见数据预处理的必要性。
图11 训练集温度预测结果
2)验证集预测有效性验证。
验证集齿轮箱温度预测结果如图12所示。
由图12可知,尽管齿轮箱温度的预测值大部分高于实际值,但预测值的曲线走势和形状与实际值曲线一致,即实际值能较好地跟随预测值。
图12 验证集数据预测图
4.2.3 风电机组齿轮箱故障预警
使用建立好的NSET模型对试验集齿轮箱温度进行预测。如图13所示:
从图13可以看出,齿轮箱温度的原始值与预测值发生了较大偏离,这是由设备状态衰退所引起的,原始的NSET模型与当前设备运行状态失配,导致两者出现较大偏差,据此可检测出风电机组齿轮箱的潜在故障,到达预警的目的。
图13 试验集数据预测图
为清楚示意预警流程,该文使用固定阈值作为范例,与动态阈值思路十分类似。
将验证集原始值减去预测值得到齿轮箱温度残差
ε={ε1,ε2,…,εN}
(18)
式中,N为验证集数据个数。
(19)
根据式(20)求残差阈值Hε
(20)
求得阈值上限为:8.1019℃,阈值下限为:
-11.6593℃。
验证集残差统计图如14所示。
由图14得,超过阈值的点仅有20个,且残差的波动有一定规律。由此,本文所建立的NSTE模型能够很好地描述风电机组的运行状态。通过逐点分析,发现超出预警线的时刻最多连续了两次,说明此警戒线具有很强的统计意义。
图14 验证集残差图
使用验证集残差阈值作为两条预警线,可得试验集的预警图。如图15所示。
由图15看出,试验集的齿轮箱温度残差在第309点左右首次超出阈值下限,在第1000点左侧开始频繁超出预警线。经逐点分析,在第900~1000点之间共有26个残差数据超过预警线,之后频繁超出预警线,并在第2207点以后反向超出阈值上限。
图15 试验集残差图
综上所述,在试验集的第1000点(即2018年12月5日)就应该对风电机组进行登舱检查,此时距离SCADA系统报警(2018年12月26日)、停机(2018年12月27日)尚有充裕检修时间,并且在这期间也有多次预警,依然存在预测性维护的可操作性。
该文首先利用3σ-中位数准则对SCADA数据进行数据清洗,然后用非线性状态估计方法建立了齿轮箱NSET温度预测模型,最后通过固定温度残差阈值的方法验证了模型的可行性与预警策略的可实施性。由于该文使用的数据样本较少,导致所得到的风电机组齿轮箱温度残差序列整体幅值较大,后续可通过增加训练样本数量的方式降低温度残差序列的幅值。同时SCADA数据的覆盖周期只有4个月,未能体现风电机组运行数据的长周期特性,并且高风速区间的数据参数严重缺失,这些问题均可以通过提高数据采样频率、加大训练样本数量、增加数据覆盖时间范围等方法克服。
猜你喜欢中位数齿轮箱残差风电齿轮箱轴承用钢100CrMnSi6-4的开发山东冶金(2022年3期)2022-07-19基于双向GRU与残差拟合的车辆跟驰建模网络安全与数据管理(2022年3期)2022-05-23基于残差学习的自适应无人机目标跟踪算法北京航空航天大学学报(2020年10期)2020-11-14基于递归残差网络的图像超分辨率重建自动化学报(2019年6期)2019-07-23中位数计算公式及数学性质的新认识统计与决策(2018年9期)2018-05-22提高齿轮箱式换档机构可靠性的改进设计制造技术与机床(2017年4期)2017-06-22杭州前进齿轮箱集团股份有限公司风能(2016年12期)2016-02-25平稳自相关过程的残差累积和控制图河南科技(2015年8期)2015-03-11导学案不能沦落为“习题单”:以“中位数和众数”的导学案为例中学数学杂志(2014年6期)2014-03-01基于遗传退火优化MSVM的齿轮箱故障诊断振动、测试与诊断(2014年4期)2014-03-01扩展阅读文章
推荐阅读文章
老骥秘书网 https://www.round-online.com
Copyright © 2002-2018 . 老骥秘书网 版权所有