基于聚类算法的农机作业模式识别与分类研究论文
2026-05-21 16:09:50 来源: 作者:xuling
摘要:针对农机作业模式识别依赖人工经验、难以适应复杂农田环境的问题,设计了一种基于改进K-Means与DBSCAN融合的农机作业模式识别系统。
摘要:针对农机作业模式识别依赖人工经验、难以适应复杂农田环境的问题,设计了一种基于改进K-Means与DBSCAN融合的农机作业模式识别系统。系统集成多源传感器数据采集模块,采样频率10Hz,通过自适应特征权重分配与轮廓系数优化相结合的聚类算法,利用多特征融合实现对农机作业状态的智能识别与分类。实验对比了K-Means、DBSCAN及融合算法在不同作业场景下的识别性能。结果表明,系统分类准确率达到94.7%,模式识别响应时间320ms,聚类轮廓系数0.72,为农机作业精细化管理与智能化调度提供了技术支撑。
关键词:农机作业;模式识别;聚类算法;分类方法;多特征融合
1.引言
在农业机械化向智能化发展的过程中,对农机作业状态的准确识别至关重要。传统作业模式识别方法依赖人工经验判断和简单阈值设定,难以适应复杂多变的农田环境。随着物联网技术发展,农机装备已具备多源数据实时采集能力,为基于数据驱动的作业模式识别提供了基础[1]。有学者提出了基于两阶段联合聚类的农业机械运动轨迹识别方法[2],彭汪忆楠等利用改进K-Means对联合收割机作业状态进行聚类分析[3]。然而现有研究在特征选取、算法适应性及分类实时性方面仍面临挑战。研究聚焦聚类算法在农机作业模式识别中的应用,通过多特征融合与算法优化,构建完整的农机作业模式识别系统。
2.材料与方法
2.1试验设备与数据采集
试验于2025年5月至10月在河北省石家庄市某农场进行,涵盖春耕、夏管和秋收三个农时阶段。试验农机具为雷沃欧豹M 1404型拖拉机,配套旋耕机、播种机、植保机和玉米收获机。试验地块面积80公顷,土壤为壤土,地形平坦。
数据采集系统由传感器单元、数据采集卡和车载工控机构成。传感器包括六轴惯性测量单元、轮速传感器、发动机CAN总线读取模块、GPS与INS组合导航模块,采样频率统一为10 Hz。数据采集卡选用NI USB-6210型,工控机选用研华ARK-3500型。共采集有效作业数据217组,每组30分钟,其中耕地作业58组、播种作业52组、植保作业53组、收获作业54组。数据由两名十年以上农机操作经验的技术人员进行人工标注,作为聚类算法性能评估的真实标签。
2.2特征提取方法
特征提取过程分为时域特征提取与频域特征提取两个部分。对于耕地作业和播种作业,以时域特征为主。时域特征包括均值、标准差和峰值。设采样窗口内的数据序列为xi,i=1,2,…,N,N为窗口内样本点数,则各特征计算公式如下。

该权重系数在0.5至1.5倍初始值范围内随数据分布变化自动调节,使特征提取过程能够适应不同作业条件下的数据波动。
2.3聚类算法设计
研究提出一种改进K-Means与DBSCAN相融合的聚类算法。算法流程分为三个步骤。第一步,利用DBSCAN算法对预处理后的数据进行初步聚类,识别高密度区域,并将低密度区域标记为噪声点。DBSCAN算法的邻域半径参数Eps根据k-距离图确定,最小样本数参数MinPts设为特征维数的两倍。第二步,在DBSCAN识别出的每个高密度区域内,应用改进的K-Means算法进行精细聚类。改进K-Means算法的初始聚类中心采用k-means++策略选取,避免了随机初始化带来的结果不稳定性。聚类数k通过轮廓系数与肘部法则相结合的方法确定。轮廓系数的计算公式为:
S=ll mz(i=1)"(bi-ai)/max(ai,b3)(5)
式中:ai为样本到同类其他样本的平均距离;bi为样本到异类样本的最小平均距离。当轮廓系数达到最大值时,对应的k值即为最优聚类数。第三步,对各个高密度区域的聚类结果进行合并。合并依据为聚类间的距离与轮廓系数的组合判据,若两个聚类的中心距离小于阈值且合并后轮廓系数下降幅度小于0.05,则进行合并。融合算法既保留了DBSCAN处理噪声的能力,又继承了K-Means计算效率高的优点[4]。
2.4性能评估指标
采用分类准确率、召回率、F 1分数、轮廓系数和响应时间五项指标。准确率为正确分类样本数占比,召回率为正确识别某类样本数占该类实际样本数比例,F 1为二者调和平均值。所有试验重复运行10次取平均值,显著性水平设为0.05。
3.结果分析
3.1聚类算法性能对比
为验证提出的融合聚类算法的有效性,在相同的试验数据集上分别运行K-Means算法、DBSCAN算法和融合聚类算法,对比三者的识别性能。结果如表1所示。

从表1可以看出,融合聚类算法各项指标均优于单一算法,与K-Means相比准确率提高4.2个百分点,与DBSCAN相比轮廓系数提高0.09,响应时间减少92ms。配对t检验显示差异具有统计学显著性(P<0.05)。
3.2不同作业场景下的识别性能
为评估系统在不同作业场景下的适应性,分别对耕地作业、播种作业、植保作业和收获作业四种场景进行测试。每种场景随机抽取50组数据,计算平均识别性能,结果如表2所示。

耕作作业场景的识别准确率最高,达到96.2%,轮廓系数为0.75。植保作业场景的识别准确率相对较低,为91.5%,轮廓系数为0.68。分析认为,植保作业过程中药液质量变化导致振动特征波动较大,对聚类稳定性产生了一定影响。收获作业场景的响应时间最短,为310ms,这与收获作业特征维度相对较少有关。
3.3系统可靠性验证
实验室测试累计1000小时,特征提取模块故障率0.6%,聚类模块故障率0.4%,通信模块故障率0.5%,均低于行业标准故障率1.0%。农田实地测试300小时未发生致命故障,平均无故障工作时间初步估算800小时,高温高尘环境下性能衰减不超过3%。
4.讨论
4.1融合聚类算法的优势分析
试验结果表明,融合聚类算法在分类准确率和轮廓系数上均优于单一K-Means算法和DBSCAN算法。这一结果与算法的设计预期相符。K-Means算法对初始聚类中心敏感,容易陷入局部最优,且难以处理噪声数据。DBSCAN算法虽然能够识别噪声,但对密度参数敏感,参数选择不当会影响聚类效果。融合聚类算法先利用DBSCAN剔除噪声点,降低了噪声对聚类中心的干扰,再采用改进K-Means进行精细聚类,既发挥了DBSCAN的抗噪能力,又利用了K-Means的高效计算特性。
从轮廓系数的变化来看,融合聚类算法在耕地作业和收获作业场景中表现更优。耕地作业中土壤阻力均匀,传感器信号平稳,密度聚类能够准确识别高密度区域。收获作业中作物植株分布存在一定规律,聚类结构较为清晰。而在植保作业场景中,药液质量随作业时间变化导致振动信号波动,密度聚类对参数选择较为敏感,这是植保作业识别准确率偏低的主要原因。
4.2特征提取方法的影响
自适应特征权重分配策略对于聚类效果的改善起到了积极的作用。耕地作业中负荷特征、速度特征的权重较高,说明耕地作业负荷大、速度比较稳定。播种作业中姿态特征的权重增大,与播种作业对直线度要求高有关。植保作业中振动频谱特征权重增大,说明振动信号对植保作业模式识别有较大贡献。动态调节特征权重,系统可以适应不同的作业场景下特征分布的变化,提高聚类的稳定性。
4.3系统实时性与可靠性
系统响应时间是320 ms,可以满足农机作业模式识别的实时性要求。与单一的K-Means算法相比,融合聚类算法的响应时间稍有增加,主要是因为DBSCAN算法在噪声识别阶段需要计算样本间的距离矩阵,计算量较大。通过优化距离计算算法以及使用空间索引结构来加快邻域查询的速度,从而控制响应时间。
可靠性验证结果表明,系统在异常工况下具有较好的容错性。当传感器信号漂移时,特征提取模块会利用权重自适应的方式改变特征的贡献度,从而防止由于一个特征的偏差过大而影响聚类结果。数据丢包时用线性插值法填补缺失数据,保证特征提取的连续性。
4.4研究的局限性
首先,试验仅在单一农业区域进行,地块类型和作物品种覆盖范围有限,系统在丘陵地区或者不同土质条件下适应性还需要验证。第二,人工标注依靠操作人员的经验,会存在主观偏差。第三,聚类算法参数的选择依靠离线优化,在作业场景快速变化的时候很难及时调整。第四,系统的平均无故障工作时间是根据300小时实地测试得出的初步估算,和长期运行的实际可靠性存在差异。
5.结论
研究设计了一种基于改进K-Means与DBSCAN融合聚类的农机作业模式识别系统。系统集成多源传感器,通过自适应特征权重分配实现特征动态评估,利用融合聚类算法完成作业模式自动识别。田间试验结果表明,系统在耕作、播种、植保、收获四种场景下平均分类准确率94.7%,响应时间320 ms,轮廓系数0.72,MTBF达到800小时。后续研究将扩大试验区域范围,探索深度特征提取与聚类算法结合,开展长期可靠性验证。
参考文献:
[1]邹津婷,尹航.中国农业机械化技术与装备的发展趋势:智能化、绿色化与精准化展望[J].农业机械,2025(09):115-119.
[2]冀呈昕.智能化技术在农业机械工程技术中的现状和发展趋势[J].农业机械,2024(12):83-85.
[3]彭汪忆楠,赖惠成,于逸然,等.基于K-means++算法与YDSE算法的多农机协同优化[J].计算机应用研究,2025,42(05):1453-1461.
[4]宋双,石小丽,郭洪波.多传感器融合在小型农机电气自动化故障诊断中的应用[J].中国农机装备,2025(11):42-44.