面向司法领域的多模态融合聚类算法研究论文
2025-12-09 10:09:01 来源: 作者:xuling
摘要:语音信号中音频特征的选择严重影响司法系统中关键字识别的准确性和计算复杂度,一个更清晰的音频分类有利于执法者更好地归纳案件信息。
摘要:语音信号中音频特征的选择严重影响司法系统中关键字识别的准确性和计算复杂度,一个更清晰的音频分类有利于执法者更好地归纳案件信息。本文介绍了一种利用双峰卷积自编码器提取多模态特征的新方法,包括录音文本特征和语音特征的跨模态融合。该方法的优势在于能够自动提取音频特征,并有效融合文本特征信息,实现模态匹配和对齐。将学习到的嵌入特征输入k-means算法中聚类,有效实现了不同种类录音的归类任务。结果显示,本文方法比其他基准方法的聚类准确率更高,这不仅利于执法者整理案件,更利于加强法制社会的建设。
关键词:自然语言处理;多模态融合;深度聚类算法
0引言
语音信号作为人类交流的自然载体,承载着案件侦破、司法取证和法律裁决等关键环节中不可或缺的信息资源[1]。然而,传统关键字识别系统在应对以上需求时,始终面临双重困境:一方面,单模态音频特征的局限性导致语义表征能力不足,难以适应司法场景下对声纹特征、情感倾向和文本内容的多维度解析要求;另一方面,特征工程过度依赖人工设计的弊端使得系统在噪声干扰、方言差异和会话重叠等实际环境下的鲁棒性显著降低[2]。
针对上述挑战,本文提出了一种基于双峰卷积自编码器的多模态特征融合框架(MRK)。在声学模态分支,设计具有多维度的卷积模块[3],通过动态权重分配强化对语音信号局部扰动(如环境噪声)的鲁棒性;在文本模态分支,采用基于Bert—wwm[4]的预训练模型获得文本编码,突破传统词袋模型对语境信息捕获的局限性。
1基于卷积自编码器的多模态聚类算法
本文所提出的MRK方法体系结构如图1所示。主体由三个主要组件组成:双峰编码器、解码器以及聚类算法[5]部分。其中,双峰编码器分别通过两个卷积层结构学习语音和文本的双模态信息。在训练期间,解码器尝试最小化融合编码的输出误差。这种迭代过程使网络能够自主学习鲁棒的特征,在保留关键信息的同时有效降低噪声的影响。

1.1音频编码器
CNN因其在图像处理方面的有效应用而广为人知,其在语音相关的应用中也同样展现出了较高的价值。该编码器由四个卷积层(CONV2D)组成,作为过滤器,增加最大池化层(MaxPool),以降低输入维数。Conv2D_1、Conv2D_2、Conv2D_3、Conv2D_4的核大小分别为(32×1)、(8×8)、(16×16)、(8×8),通道分别为32、16、2、2。步长等于1,激活函数为双曲正切,如式(1)所示。前三个池化层的池大小为(4×4),最后一个池化层的池大小为(5×4)。

1.2文本编码器
为了保持编码纬度一致,方便模态对齐,文本编码器同样采用CNN结构,编码前通过Bert-wwm得到文本向量B,得到第一层编码器编码Z2l,具体如式(3)所示:
Z2l=y×En2(B)(3)
假设当前层的文本编码特征为Z2l,最终文本编码如式(4)所示:
Z2=y×En2(Z2l-1)(4)
式中,l代表层数;En2代表文本编码器。
最后,通过拼接融合跨模态信息,得到融合编码Z,具体如公式(5)所示:
Z=[Z1;Z2](5)
1.3逆结构解码器
解码器同样由卷积层组成,和编码器结构类似,是逆结构的编码器,用于重建编码数据。
重建部分的损失函数Lr计算如公式(6)所示:
Lr=L1+L2=loss(Z1,Z1')+loss(Z2,Z2')(6)
式中,Z1'和Z2'分别代表重建后的特征,通过sigmoid函数计算得出,如式(7)所示:
Z1'=sigmoid(Z1TZ1)(7)
1.4基于松弛K-means的聚类过程
松弛K-means是一种改进的聚类算法,使融合表征可以被统一表示于内积空间,进一步提升了聚类性能。该步骤中,所有簇的隶属度归一化pij为概率分布,xi为数据点,d()为欧氏距离,ci为xi隶属的簇中心,λ为权重参数。具体如公式(8)所示:

2仿真验证
2.1数据集与基准模型
本文设计选用了Nijmegen Court Proceedings Corpus数据集。实验评估重点考察三个维度,即准确率(ACC)、标准化互信息(NMI)和调整兰德指数(ARI),以验证聚类有效性。
在基准模型的选择上,本文选用多种先进的深度学习类方法,如DED[6]、FBMC[7]、DNB[8]和RECOME[9],以及传统方法DBSCAN、MFCC结合支持向量机(SVM)。
2.2实验结果
实验结果如表1所示,可以清晰地看到本方法MRK比次好的方法MFCC-SVM在ACC、NMI和ARI三个指标上均有提高,其中准确度指标更是提高了2.6%。这证明MRK可以更好地处理文本与语音的融合编码信息,从而学习到更有利于聚类的表征。

2.3消融实验结果
在消融实验中,首先,将松弛k-means算法替换成普通k-means和GAP算法,分别标记为MRK-k和MRK-g。其次,削减模态编码器,只使用单一的模态编码:只使用音频信息的模型标记为MRK-a,只使用文本信息的标记为MRK-t。实验结果如表2所示。

从实验结果可以看出,削减编码器数量对MRK方法整体的影响更大,充分证明了有效的模态信息编码融合才是聚类性能提升的基础。
2.4参数敏感性分析
参数敏感性分析主要探究α的影响。本文通过穷举α参数找寻其合适的取值,α的取值为[0.001,0.01,0.1,1,10,100],实验结果如表3所示。

根据实验结果得出,最适合α的取值为10。即当α=10时,MRK方法达到最佳结果。
3结语
本研究在司法智能化领域具有双重实践意义:其一,该方法通过端到端的特征学习范式,降低了人工特征工程的复杂性,使执法者能够从海量录音中快速定位具有相似指控要点的案件簇,提升案件卷宗的归档效率;其二,语音-文本的多模态融合机制可为庭审证据链的完整性验证提供技术支持,聚类结果的准确映射可深化司法人员对犯罪模式共性的理解,为犯罪预测与法规优化提供数据支持。
参考文献
[1]林矜矜.基于似然率的普通话塞音嗓音起始时间的司法语音比对研究[D].广州:广东外语外贸大学,2024.
[2]赵伟.面向高效语音合成的深度神经网络声学建模研究[D].杭州:浙江大学,2023.
[3]VITOLO P,LIGUORI R,DI BENEDETTO L,et al.Automatic Audio Feature Extraction for Keyword Spotting[J].IEEE Signal Processing Letters,2023,31:161-165.
[4]赵国良,陈亮,王*琳.面向跨提示中文作文自动评分的多尺度BERT-wwm模型[J].通信与信息技术,2025,(1):114-117.
[5]席青云,孙同日,陶佰睿,等.PCA-VQ融合降维的SMO-SVM说话人识别研究[J].传感技术学报,2023,36(2):275-279.
[6]WANG Y,SHI Z,GUO X,et al.Deep Embedding for Determining the Number of Clusters[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2018,32(1):8173-8174.
[7]NIE F,XIE F,WANG J,et al.Fast Adaptively Balanced Min-cut Clustering[J].Pattern Recognition,2025,158:111027.
[8]WANG Z,NI Y,JING B,et al.DNB:A Joint Learning Framework for Deep Bayesian Nonparametric Clustering[J].IEEE Transactions on Neural Networks and Learning Systems,2021,33(12):7610-7620.
[9]GENG Y,LI Q,ZHENG R,et al.RECOME:A New Density-based Clustering Algorithm Using Relative KNN Kernel Density[J].Information Sciences,2018,436:13-30.