CALCE锂电池老化数据集处理与健康因子提取
在新能源汽车与储能系统蓬勃发展的今天,锂离子电池的健康状态(State of Health, 简称 SOH)预测成为了一个至关重要的核心技术。如果把电池比作人体,SOH 就像是它的“生命体征”。随着充放电循环次数的增加,电池不可避免地会发生老化,容量衰减、内阻增大。
要利用机器学习或深度学习来准确预测电池的剩余寿命,我们首先需要从海量的充放电数据中挖掘出能够表征电池老化规律的关键特征——即“健康因子”(Health Factors, HFs)。今天,我们将基于著名的 CALCE 锂电池老化数据集,带大家梳理数据处理流程,并深度解析从中提取出的 12 个关键健康因子。
一、 认识 CALCE 锂电池数据集
CALCE(马里兰大学先进寿命周期工程中心)公开的电池数据集是全球电池健康管理(PHM)领域的“黄金标准”之一。
在该数据集中,研究人员对多节商用锂离子电池进行了长期的充放电循环寿命测试。以常见的 CS2_35 电池为例,数据详细记录了电池在每个充放电循环中的时间、电压、电流等底层运行参数。这些生肉数据(Raw Data)虽然详实,但包含了大量的冗余信息和噪声,机器学习模型很难直接吞下。
因此,我们的首要任务是对充电和放电周期的曲线进行“解剖”,将时间序列数据转化为能直接反映电池内部电化学反应衰退的具象化特征(即特征工程)。
二、 12 个核心健康因子(HF)详解
电池的充放电过程通常包含恒流充电(CC)、恒压充电(CV)以及放电等不同阶段。通过对电压、电流和时间关系的切片分析,我们可以依次提取出以下 12 个对老化极其敏感的健康因子:
📈 1. 局部电压段充电耗时 (HF1)
定义:在充电过程中,电池电压从 3.8V 攀升至 4.0V 所花费的时间。
意义:随着电池老化,极化现象加剧,电池在特定电压区间的充入速度会发生改变。这个局部时间切片能有效反映电池内部阻抗的增加。
📉 2. 局部电压段放电耗时 (HF2)
定义:在放电过程中,电池电压从 4.0V 下降至 3.8V 所花费的时间。
意义:与HF1类似,但发生在高负载的放电阶段。老化的电池在放电时电压平台会下降得更快,这段耗时的缩短是寿命衰减的直接体现。
⏱️ 3. 恒流充电总耗时 (HF3)
定义:从充电开始,直到电压首次达到截止电压(4.2V)所消耗的时间。
意义:锂电池通常采用先恒流(CC)后恒压(CV)的充电策略。电池容量衰减后,达到最高电压阈值的速度会变快,导致恒流充电的时间随循环次数显著缩短。
⏳ 4. 恒压充电总耗时 (HF4)
定义:电压保持在 4.2V,直到充电电流逐渐降至 0(或极小值)所经历的时间。
意义:电池老化后,不仅恒流阶段变短,为了把电池“充满”,其在恒压阶段“涓流”充电的时间往往会被拉长或发生规律性畸变。
🔋 5. 充电总容量特征 (HF5)
定义:整个充电过程中,电流对时间的积分(即充入的总电量/面积)。
意义:这是评估电池健康最直观的物理量,代表了当前循环下电池实际能吞吐的最大电量。
📊 6. 恒流阶段充电容量 (HF6)
定义:充至 4.2V 之前(即恒流阶段)电流对时间的积分。
意义:大部分电量都是在恒流阶段充入的。随着老化,这一阶段能充入的电量会断崖式下跌,是非常强力的 SOH 预测指标。
📉 7. 恒压阶段充电容量 (HF7)
定义:电压在 4.2V 保持阶段期间的电流时间积分。
意义:配合HF6,它反映了电池在充电末端接受电荷的能力变化。
⛰️ 8. 增量容量(IC)曲线最大峰值 (HF8)
定义:通过计算 dQ/dV(电量变化与电压变化的比值)绘制 IC 曲线,并利用卡尔曼滤波(Kalman Filter)平滑除噪后,提取出的曲线最高峰值。
意义:IC 曲线分析是电池机理研究中的高级手段。IC 峰代表了电池内部发生相变的密集区域,峰值的降低直接对应着活性物质的损失(LAM)或锂离子存量的减少(LLI)。
📍 9. IC最大峰对应的电压位置 (HF9)
定义:上述 HF8 峰值出现时,所对应的具体电压值。
意义:随着老化,内阻增加会导致极化,表现为 IC 曲线的峰位不仅会变矮,还会向高电位发生偏移。这个偏移的电压坐标是评估极化程度的关键。
⚡ 10. 恒流阶段最小电压变化率 (HF10)
定义:在充至 4.2V 的恒流阶段,计算相邻时间点的电压变化率(dV/dt),并提取其中的最小值。
意义:反映了充电过程中电压爬升最平缓时刻的状态,该阶段通常代表了电池内部嵌锂反应最顺畅的时期。该指标的变化与电极材料的结构退化密切相关。
⚖️ 11. 充电时间比例特征 (HF11)
定义:恒流充电时间在总充电时间(恒流+恒压)中所占的比例。
意义:一个综合性的比值特征。新电池的大部分时间都在进行恒流充电;而老电池恒压充电的时间占比会逐渐增加。比值特征具有很好的抗噪能力。
⚡ 12. 最小电压变化率对照 (HF12)
定义:在此次提取逻辑中,HF12 也是代表恒流阶段的最小 dV/dt(与 HF10 提取逻辑一致)。
意义:在实际工程应用中,有时会在不同采样频率或不同滤波手段下提取多次 dV/dt 特征互为对照,以保证特征输入的鲁棒性。
三、 数据验证与相关性分析
仅仅提取特征是不够的,我们还需要证明这些特征确实和电池的“健康状态 (SOH)”息息相关。
在处理完上述 12 个健康因子后,通常的做法是将它们与电池真实的 SOH 数据结合,计算它们之间的 皮尔逊相关系数 (Pearson Correlation Coefficient),并绘制成冷暖色调的特征相关性热力图。
通过热力图,我们可以直观地发现:
- 哪些特征(如恒流阶段容量、耗时等)与 SOH 呈现高度正相关(随电池老化而同步下降)。
- 哪些特征与 SOH 呈现负相关(随电池老化而增加)。
- 剔除那些相关系数趋近于 0 的无效特征。
四、运行截图


结语
从原始的电压、电流曲线,到具有明确电化学和物理意义的 12 个健康因子,数据清洗与特征提取是电池寿命预测中最脏但也最重要的一步。这些由 CALCE 数据集孕育出的特征矩阵,将直接决定后续机器学习模型(如 LSTM、随机森林等)预测 SOH 的天花板。
掌握了特征提取的逻辑,你也就掌握了与电池对话的“密码”。