本文亮點:1.對實際場景下的大規(guī)模的鋰電池組數據進行SOC多步預測,研究了不同算法的應用效果 2.根據算法預測結果,進一步分析了數據分布多樣性對模型的泛化能力的影響規(guī)律
摘 要 數據驅動模型預測荷電狀態(tài)(SOC)依賴高質量的實驗數據,在應用于實際使用場景下的分布多樣的鋰電池組數據時會出現預測的準確性不穩(wěn)定即泛化能力差的情況,限制了模型的實際應用。研究實際場景下的大規(guī)模數據的分布多樣性對SOC預測模型的泛化性影響具有重要意義。因此,對32個鋰電池組的實際運行數據集進行研究,采用經典算法與多輸入多輸出(MIMO)策略結合來預測多步SOC,對每份數據分別建立模型進行SOC預測,研究了不同算法的應用效果并分析了數據分布多樣性對模型的泛化能力的影響規(guī)律。結果表明:對大規(guī)模的鋰電池組數據,LR-MIMO模型訓練精度普遍優(yōu)于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,其預測未來0.5 h的SOC的R2一般在0.98及以上,MAPE基本低于0.05。與其他模型相比,LR-MIMO模型有優(yōu)秀的預測性能,預測其他數據集的R2基本在0.95以上。而KNN-MIMO模型的預測精度與RF-MIMO模型相當,R2大致在0.7以上,LSTM-MIMO模型的預測性能因數據集不同存在較明顯的差異;當數據滿足SOC與電壓的相關系數≥0.9、SOC和電壓分布范圍廣、核密度曲線呈左偏趨勢、分布較均勻時,可使模型訓練精度提高。
關鍵詞 鋰離子電池;荷電狀態(tài);數據驅動;分布多樣性;泛化性
鋰電池需要高效智能的電池管理系統確保其安全穩(wěn)定運行,荷電狀態(tài)(state of charge, SOC)估計是其中一項關鍵技術。數據驅動方法估計SOC具有靈活性和建模簡單的特點,在復雜的電池運行情況下有潛在的優(yōu)勢,受到學者的廣泛關注。數據驅動方法是根據大量的測量數據,將輸出變量和輸入變量之間的關系直接映射到數據驅動模型中。
目前的研究利用鋰電池的實驗數據進行SOC的估計,包含線性回歸、樹模型及神經網絡等方法。線性回歸(linear regression, LR)算法用于探索自變量與因變量之間的線性關系,結構簡單,計算量少,對實現在線SOC預測非常有利。基于樹的方法是通過對特征空間進行劃分,逐步建立決策樹模型,來預測因變量。其中,隨機森林(random forest, RF)是通過隨機選擇特征和樣本,構建多個決策樹,并將其集成,提高模型預測SOC的精度和魯棒性。RF方法在處理多特征、高維度的鋰電池數據的任務時,效果良好。K近鄰(K-nearest neighbors, KNN)是基于相似性的技術,將測試點的數值估計為k個最近訓練點的某屬性數值的加權平均值,能捕捉鋰電池特征與預測目標之間的復雜關系,獲得準確的預測結果。神經網絡通過輸入層接收數據,再通過隱藏層的線性和非線性變換進行特征提取和表達,最后由輸出層輸出結果。長短期記憶網絡(long short-term memory, LSTM)是常用的預測SOC的神經網絡方法,具有捕獲時間序列數據中的信息的優(yōu)勢、較強的建模和分析能力,被廣泛研究。為了拓展數據驅動模型在不同類型鋰電池的SOC估計中的應用,研究者們利用不同類型的鋰電池實驗數據,進行了模型的遷移學習研究。
盡管使用數據驅動方法進行鋰電池SOC估計的研究發(fā)展迅速,但目前仍存在一些問題:
(1)數據驅動模型普遍利用高質量且大量的鋰電池實驗數據,而實際使用的鋰電池數據由于生產工藝、環(huán)境條件、使用習慣等因素,在概率密度等方面分布多樣,數據質量不同。不同質量的實際數據進一步影響模型內部的參數確定,可能出現過擬合,難以得到可靠的預測結果。
(2)對數據的依賴可能會導致數據驅動模型的泛化能力差,即模型在未見過的新數據上的表現能力差。面對分布差異大的鋰電池數據時,模型在原數據上學到的知識的適用性低,使得預測的準確性不穩(wěn)定,預測精度下降。
這些問題降低了數據驅動方法的實用性和可靠性,因此研究實際場景下的大規(guī)模鋰電池數據的分布多樣性對SOC預測模型的泛化性影響具有重要意義。本工作對32個鋰電池組實際運行數據集進行研究,分別建立模型進行SOC預測,并考慮到先進電池管理技術的需求,將經典算法與多輸入多輸出(multi-input multi output, MIMO)策略多步預測結合來預測未來一段時間的SOC,對比研究不同算法的應用效果。在此基礎上,分析了數據分布多樣性對多步SOC預測模型的泛化能力的影響,有助于數據驅動方法的實際應用發(fā)展。
1 研究方法
研究的主要框架如圖1所示,主要包含4個部分。首先,采集了不同情況下的32份鋰電池組實際數據集,選取電池組總電壓、電流、SOC、溫度作為特征,對數據進行預處理。其次,建立SOC的多步預測模型,包含線性回歸、K近鄰、隨機森林、長短期記憶網絡4種方法。然后,將數據輸入到參數尋優(yōu)后的模型中,對每份數據分別進行訓練并預測除本身外的其他數據集,統計每種方法的訓練和預測結果。最后,分析數據分布多樣性對模型泛化性的影響規(guī)律,分析結果可評估鋰電池組數據集是否有利于得到高準確性的荷電狀態(tài)預測模型。
圖1 研究框架
2 模型建立及預測流程
2.1 模型算法
本工作將經典算法拓展至SOC的多步預測,采用4種典型的算法:線性回歸、K近鄰回歸、隨機森林、長短期記憶。這4種算法的基本原理,如圖2所示。
圖2 經典算法原理圖:(a) LR;(b) KNN;(c) RF;(d) LSTM
2.1.1 線性回歸算法
線性回歸算法LR是研究一個因變量與多個自變量的線性方法,它的一般形式如式(1)所示:
式中,x=[x1,x2,x3…xk]是輸入特征,β=[β1, β2…βk]是輸入特征的回歸系數,可以采用最小二乘法獲得,滿足實際值與預測值的殘差平方和最小的要求。
2.1.2 K近鄰回歸算法
K近鄰回歸算法是一種非參數回歸方法,首先在歷史數據中提取數據特征即狀態(tài)向量,然后選取k個與當前數據特征最相似的歷史數據用于預測,預測結果為k個最鄰近樣本的某個屬性平均值,見式(2)。
式中,ωi為第i個樣本的權重,一般可將鄰近樣本的距離作為屬性的權值。
衡量相似度的函數為距離函數,采用歐氏距離,即:
2.1.3 隨機森林算法
隨機森林是一種基于決策樹的集成學習算法,加入了bagging套袋和隨機子空間的思想來解決決策樹模型精度不高、易過擬合的問題。隨機森林采用自助法重抽樣技術從數據中有放回地隨機抽樣來構成自助樣本集,根據CART(classification and regression trees, 分類與回歸樹)算法構建決策樹,每個樹具有根節(jié)點、中間節(jié)點和葉子節(jié)點,如圖2(c)所示。CART算法的屬性選擇量度是基尼指數,假設數據集D包含m個類別,其基尼指數GD的計算見式(4)。
式中,pj為j類元素出現的頻率。
對于每個屬性,考慮每種可能的二元劃分,選擇該屬性產生的最小基尼指數的子集作為其分裂子集,在此規(guī)則下,由上至下不斷分裂,直到生成決策樹,最終取每個樹結果的平均值作為預測值,即
式中,hk表示決策樹,K為樹的數量。
2.1.4 LSTM算法
LSTM網絡是一類特殊的RNN,是為了解決RNN在建模長期依賴關系時存在梯度消失或爆炸問題而提出的。常用的單個LSTM單元如圖2(d)所示,LSTM主要包括3個門,即輸入門、輸出門和遺忘門,它們用來決定一個單元是應該記住還是忘記新獲得的信息。另外,利用tanh函數和sigmoid函數對信息進行過濾。單元的每個部分如式(6)所示。
式中,σ表示sigmoid激活函數;xk為網絡在時間步長k時的輸入;hk-1為前一個時間步長k-1時的輸出;W代表權重;i、f、o、c分別表示輸入門、遺忘門、輸出門和存儲單元;b是偏置。sigmoid函數的輸出范圍在0~1之間,它決定了將傳遞多少信息,例如,如果一個門的值接近0,則輸入門不會記住新的輸入信息,過去的記憶應該被遺忘門忘記,所以對于輸出門來說,記憶不會影響后續(xù)的輸出。為了防止過擬合,在模型的LSTM層之間添加了dropout層。
2.2 模型策略
k時刻的SOC是電池參數的函數,可以用式(7)來表達,Φk代表k時刻的電池參數,而k=1,2…tE,tE代表最后的時刻。為了進行時間序列的SOC估計,顯然,需要確定輸入時刻的范圍tw,即輸入步長,SOC可表示為式(8),而此時k≥tw>0。若要進行多時刻的估計,輸出步長不止一個時刻,SOC可用式(9)表示。
多輸入多輸出策略即通過建立一個多輸出模型來一次預測多步SOC值,不僅利用了輸入的多時刻的電池參數的相關性,并且考慮了輸出的多時刻的SOC的相關性,有效減少了遞歸策略中的誤差累積問題,總的原理圖如圖3所示。
圖3 多步預測策略原理圖
2.3 模型預測流程
本工作鋰離子電池SOC多步預測的流程框架如圖4所示,主要步驟包括:數據采集和處理、模型訓練與優(yōu)化、預測結果評價。
圖4 基于大規(guī)模數據的SOC多步預測研究框架
2.3.1 數據采集及預處理
本工作數據來源于某共享電動自行車實際運行的歷史數據,該電動自行車電池組由14個電池單體串聯組成,其基本參數見表1。電動自行車的電池管理系統的傳感器將電池的相關數據通過無線傳輸組件上傳到云服務器進行存儲,利用計算機可下載和提取數據。共采集32個實際運行數據集,內存大小總共1.66 GB,最大的數據集包含近80萬條數據。每個數據集中包含的傳感信息有電池溫度、電池組總電壓、電池單體電壓、電池容量、SOC等,電池的運行狀態(tài)通過電流的正負來反映充放電,圖5為部分數據集的SOC曲線,可以看出不同數據集的SOC分布情況不同。每個數據集采樣間隔都為10 s,記為一個時間步長??紤]到電池的SOC預測主要與溫度、電池組總電壓、電流、SOC 4個變量相關,所以本工作選取這些變量作為特征進行探究。
表1 鋰離子電池主要參數
圖5 SOC曲線:(a)數據集1;(b)數據集2;(c)數據集3
數據采集過程中由于傳輸不穩(wěn)定、傳感器故障等,實際數據通常存在缺失值、異常值等,這不僅會影響模型的訓練,也會極大地影響SOC的預測結果,所以需對數據進行預處理。數據預處理包括數據清洗和數據標準化。
(1)數據清洗。經統計,每個數據集的缺失值占總的數據量的比例很小,所以采用簡單的線性插值法來填補數據集中的缺失值,使用四分位數范圍規(guī)則過濾異常值。由于共享電動車使用是隨機的,數據采集過程中電動車的空閑時間較多,可能存在較多電流為0的數據,這些數據視為正常數據,不做處理。
(2)數據標準化。數據標準化是對數據進行規(guī)范化處理,本工作使用min-max方法進行數據標準化:
式中,x為初始數據;xmax、xmin分別表示數據中的最大值和最小值;xscale為數據標準化結果。
2.3.2 模型訓練及優(yōu)化
將預處理后的電池數據集按8∶2的比例劃分為訓練集和測試集,利用訓練集訓練多步預測模型。為減少誤差累積,利用少量的電池信息預測較長時間段的SOC,輸入步長設定為10,輸出步長設定為180,在此基礎上,利用多個實際數據集,采用網格搜索方法優(yōu)化模型超參數。
2.3.3 模型評估
利用測試集對多步預測模型的性能進行評估,采用的評價指標為平均絕對百分比誤差(mean absolute percentage error,MAPE)和擬合優(yōu)度R2。平均絕對百分比誤差可以表示為:
式中,yi?表示第i個預測值,yi表示第i個真實值,n表示樣本個數。
擬合優(yōu)度表征模型的預測值與真實值之間的擬合效果,即:
一般而言,MAPE越小,模型預測誤差越小,精度越高;R2越接近1,模型的擬合效果越好,精度越高。當預測誤差遠大于均值基準誤差,R2將出現負值,為了便于展現訓練與預測效果,后續(xù)遇到這樣的特殊情況時,將R2的負值設為0。
3 數據分布多樣性分析
受不同溫度、不同行駛速度、不同使用習慣等因素的影響,鋰電池組數據集的分布存在多樣性,本工作主要從兩個角度探究其對模型泛化性的影響。
3.1 特征相關性
數據集特征之間的相關性強弱可能會對預測模型產生影響,若特征之間相關性強,有助于模型捕捉其內在關系,若相關性弱,模型可能對特征之間的內在聯系作出誤判。皮爾遜相關系數法是常用的準確衡量2個變量之間的關系密切程度的方法,本工作采用其計算特征相關性。
當2組變量分別為X=(x1,x2…xn)、Y=(y1,y2…yn)時,變量X和Y的皮爾遜相關系數ρ(X,Y)根據式(13)計算:
式中,X和Y代表變量;μX為變量X的平均值;μY為變量Y的平均值;ρ(X,Y)的范圍為[-1,1],ρ(X,Y)絕對值越大,特征相關性越高。
3.2 核密度分布
數據的概率密度分布會影響模型的訓練,采用非參數核密度估計方法進行估計。核密度估計的計算見式(14),x1,x2…xn為數據中獨立同分布的n個樣本點。
式中,h為帶寬;K(u)為核函數,通常選取以零為中心的對稱單峰概率密度函數,文獻[32]中指出,當帶寬給定時,核函數的選擇對最終的估計精度影響小,本工作選擇高斯核作為核函數。帶寬h對估計結果有重要影響,采用拇指法則確定最優(yōu)帶寬,即假定圖片屬于某個參數族,當平均積分均方誤差取最小值時,以正態(tài)參考準則求得最優(yōu)帶寬,求解如式(15)所示:
式中,n為數據的樣本量;σ為數據的標準差。
4 實驗結果
4.1 大規(guī)模數據的多步SOC預測結果
4.1.1 模型訓練性能
LR、RF、KNN、LSTM模型結合MIMO策略的32個數據集的訓練結果,如圖6所示。4個模型的多個數據集的R2都在0.95以上,說明每個方法都可以準確預測多步SOC,其中,LR-MIMO模型的R2總體最高,基本維持在0.98以上。而4個模型也都出現了部分數據集精度很低的情況,這可能是受數據分布的影響。在MAPE指標方面,LR-MIMO模型明顯低于其他3個模型,誤差基本在0.05以下。綜合來看,對多個數據集訓練時,LR-MIMO模型精度高于RF-MIMO、KNN-MIMO、LSTM-MIMO模型,低精度的概率較低。
圖6 不同方法的訓練結果: (a) LR-MIMO;(b)KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
4.1.2 模型預測性能
當步長與訓練情況保持一致時,每個數據集的模型預測除本身外的數據集的R2結果如圖7所示。由圖得,LR-MIMO模型在預測所有數據集時,除了第1、17、30個的數據集的預測效果相對較低,其他數據集的R2預測結果下限都在0.95以上,預測精度高。
圖7 不同方法的預測結果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
RF-MIMO、KNN-MIMO和LSTM-MIMO模型的預測數據集的R2結果的中位數基本維持在0.9及以上,整體來看,KNN-MIMO模型的預測精度與RF-MIMO模型相近,R2基本在0.7以上,LSTM-MIMO模型的預測精度下限通常高于RF-MIMO模型,上限通常低于RF-MIMO模型。
LSTM-MIMO模型在不同數據集上的預測結果與其他3個模型存在顯著差異,這種現象的原因可能是由于LSTM-MIMO模型對于數據集的特征分布敏感性較高,導致其在不同數據集上表現出不同的預測能力。經過比較,可以發(fā)現LR-MIMO模型在預測大規(guī)模數據的多步SOC時有優(yōu)秀的預測性能。
4.1.3 模型訓練與預測關系
為了全面地觀察每個方法的每個數據集的SOC 多步預測效果,便于分析訓練和預測的規(guī)律,將每個方法的每個數據集的訓練與預測的所有R2結果繪制成熱力圖,如圖8所示。由圖得,LR-MIMO模型的結果基本都在0.9以上,精度低的結果占比小,而KNN-MIMO、RF-MIMO、LSTM-MIMO模型在0.9以上的結果占比較小。
圖8 不同方法的訓練與預測結果:(a) LR-MIMO;(b) KNN-MIMO;(c) RF-MIMO;(d) LSTM-MIMO
LR-MIMO模型在32個數據集的訓練和預測方面表現的優(yōu)秀性能可能是由于電池的相關特征之間的線性關系更為顯著,而非線性關系較不明顯。
從總體來看,觀察到每個方法在訓練和預測SOC方面呈現出4種類型的情況:訓練精度高且預測精度高、訓練精度高但預測精度低、訓練精度低且預測精度低、訓練精度低但預測精度高。這種現象可以歸因于不同方法對訓練和測試數據的適應程度以及模型的泛化能力不同。高訓練和預測精度表明模型在訓練數據上有效學習并成功預測未知數據,而高訓練但低預測精度可能是由于訓練的模型泛化到新數據的能力低。低訓練和預測精度意味著模型無法捕捉到數據中的關鍵特征或模式。低訓練但高預測精度可能是模型具備一定泛化能力,能夠準確預測未見過的數據。
4.2 數據分布多樣性對模型的泛化性影響
根據圖8的結果,每種方法都出現了高的訓練精度,同時也存在某些數據集的訓練精度低。為了進一步研究,根據R2>0.95和R2<0.55的指標尋找出4種方法基本都訓練精度高、訓練精度低的數據集來進行研究。
4.2.1 數據集特征的相關性
對訓練精度高和訓練精度低的共同數據集特征之間的皮爾遜相關系數進行計算,統計結果表明,數據集中SOC與電流、溫度的相關性對模型訓練沒有呈現出明顯規(guī)律。然而,SOC與電壓的相關性對訓練產生了影響,如圖9所示,在共同數據集中,相關性按照從高到低的順序排列。通常情況下,訓練精度高的數據集中SOC與電壓的相關系數ρ(SOC,電壓)≥0.9,而訓練精度低的數據集中SOC與電壓的相關系數ρ(SOC,電壓)<0.9。
圖9 數據集的相關系數
4.2.2 數據集的核密度分布
鑒于SOC與電壓相關性大小對模型訓練的影響,采用核密度估計方法探究訓練精度高和訓練精度低的共同數據集中SOC和電壓的概率密度分布。圖10是共同數據集SOC和電壓的核密度分布情況。訓練精度高的數據集的SOC和電壓分布范圍廣,模型可學習到的內容多,在SOC和電壓分別為95~100 V、57~58 V時核密度大,其他區(qū)間核密度小,呈現出左偏趨勢,總體上均勻分布,這是由于共享電動單車為了保證使用,常處于滿電狀態(tài),并且良好使用時的采集數據會在各個區(qū)間都有所分布。另外,SOC數據總體均勻分布有助于模型學習到更普適的規(guī)律,提高了模型對新樣本的泛化能力,從而使得模型在新數據上表現更好。
圖10 共同數據集的核密度分布:(a)高精度數據集的SOC分布;(b)低精度數據集的SOC分布;(c)高精度數據集的電壓分布;(d)低精度數據集的電壓分布
而訓練精度低的數據集的SOC和電壓核密度分布如圖10(b)、(d)所示,范圍較窄,某些區(qū)間的核密度極大,SOC和電壓最大值分別在0.14及1.4以上,總體不均勻,數據集分布較極端,這可能是因為共享電動單車使用后未及時進行充電維護或用戶未?;卣军c,導致電池組的SOC和電壓處于部分區(qū)間時的數據多。這使得模型訓練時,可能會更容易受到某些特定部分數據的影響,導致過擬合的風險增加。
5 結 論
研究大規(guī)模實際使用的鋰電池組數據的分布多樣性對數據驅動模型泛化性的影響,可促進數據驅動方法估計SOC的實用性和可靠性發(fā)展。本工作采用經典算法與MIMO策略結合來預測多步SOC,針對32個實際鋰電池組的運行數據建立了多步SOC預測模型,預測時長設定為0.5 h(輸出步長為180),比較了不同算法的應用效果并探究了數據分布多樣性對多步SOC預測模型的影響。具體結論如下所述。
(1)LR-MIMO模型訓練精度表現出較高的穩(wěn)定性,R2基本在0.98以上,MAPE基本在0.05以下,總體優(yōu)于KNN-MIMO、RF-MIMO、LSTM-MIMO模型。
(2)在預測除本身外的數據集時,LR-MIMO模型展現出優(yōu)秀的預測性能,R2基本在0.95以上,而KNN-MIMO模型的預測精度與RF-MIMO模型相當,R2大致在0.7以上,LSTM-MIMO模型的預測性能存在較為明顯的差異。
(3)為了獲得高訓練精度的數據驅動模型,數據集應滿足以下要求:SOC與電壓的相關系數≥0.9,SOC和電壓分布范圍廣,核密度曲線呈左偏趨勢,總體分布均勻。




