基于自然语言处理与行为分析的作业自动批改系统设计论文
2025-12-24 17:21:52 来源: 作者:xuling
摘要:随着高校教育信息化、智能化程度逐渐加深,学生的学习反馈越来越重要,尤其是课程的作业环节。本文设计并实现了一种基于自然语言处理技术与行为分析的作业自动批改系统。
摘要:随着高校教育信息化、智能化程度逐渐加深,学生的学习反馈越来越重要,尤其是课程的作业环节。本文设计并实现了一种基于自然语言处理技术与行为分析的作业自动批改系统。该系统采用行为日志追踪来监控学生的选择题答题行为;采用TF-IDF和余弦相似度来判断填空题的学生答案与标准答案之间的相似程度;采用BERT语义模型与关键词匹配策略对学生的简答题答案进行语意层级的理解与打分。实际应用结果表明,本文提出的系统在评分准确性、响应效率、用户满意度等方面均表现良好,具有很好的推广价值。
关键词:自然语言处理;作业自动批改;行为日志追踪;TF-IDF;BERT
0引言
在智能化技术高速发展的今天,学生获取知识的途径不再单一和局限,因此,如何调整教学过程以契合学生对于知识高速增长的需求,是高校教改研究的重点。在教学过程中,教师与学生之间的互动应该具有高效性,尤其对于作业的反馈,更应该具有及时性。因此,设计一套基于自然语言处理与行为分析的作业自动批改系统对于师生全程参与教学过程、学生的学情分析以及教育资源的提升具有重要意义。
1需求分析
1.1需求动因分析
在教学过程中,学生作业最能反映学生平时学习情况。在处理学生作业的过程中,首先,要解决学生填写内容的不确定性,尤其简答题答案往往具有开放性,面对自然语言的灵活性与模糊性,如何处理复杂的语义信息,仍是研究难点[1]。其次,每一次新体系的建立都需要得到大量的反馈数据、反馈信息,从而对变革过程不断加以完善[2]。因此,收集学生答题过程中的哪些数据,以及如何收集这些数据就变得尤为重要,这些信息就属于学生行为数据。用户行为分析是网络信息检索技术的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一[3]。用户行为特征与规律的发现对系统服务的改进具有重要的参考价值[4]。因此,研究分析学生的行为数据对后续教学过程具有重要的指导价值。BERT模型常被用来做情感分析,通过动态调整词向量语义特征,有效增强了对长距离上下文的情感语义表达能力[5]。但是BERT模型用作语义层级的深度理解没有得到足够重视。本论文基于以上提出的几点问题,提出了一种新的系统,并就可行性、有效性、准确性进行了深度测试和分析。
1.2性能需求分析
系统性能需求有以下几点:准确性,确保学生每道题的得分真实有效;实时性,学生提交后,评分响应时间应尽可能短;安全性与隐私保护,确保学生答题数据与行为日志的加密传输,避免数据泄露或越权访问;完整性,保证学生的作答行为日志记录完整,保证数据传递到教师端是真实有效的;可扩展性,支持后续题库的扩展与模型更新。
2系统设计方案
本文描述的作业系统是一套完整的学生、教师作业提交与反馈的系统。前端是学生的答题界面,后端是自动化的评分模块。模型服务模块主要承担答案评分核心算法的执行与服务化部署。
在整个系统的核心评分模块中,对于选择题,最核心的部分是收集学生在作答过程中的行为数据,包括答题用时、选项修改次数、鼠标悬停等行为,将这些情况以日志形式汇总、分析并报送教师端。对于填空题和简答题,则是比较学生答案与标准答案之间的相似度,在给定的相似度阈值下,超过阈值记为满分,否则不给分。
3系统实现
后端的设计是核心业务,整体架构基于Python语言,借助Flask微框架构建RESTful风格接口,主要负责接收前端传来的数据及日志信息,调用不同的评分模型对对应题型的答案进行分析处理,并将处理后的结果尽快返回给前端用户以及教师端查看。
针对评分机制的实现,选择题部分嵌入了行为追踪机制,基于JavaScript脚本采集学生的答题行为;填空题模块通过scikit-learn工具包提供的TF-IDF算法对标准答案与学生作答内容进行向量化处理,使用余弦相似度算法计算两者之间的相似程度,然后与给定的阈值进行数值比较,从而判断每道题的得分;简答题部分则集成预训练的中文BERT模型,基于给定的关键词,利用语义理解生成上下文向量,然后通过语义匹配分值与关键词匹配率综合得到最终评分。
4系统测试与效果评估
4.1测试环境
为了验证整个系统的可操作性与作业批改结果的准确性及稳定性,在真实有效的教学环境中对本文提出的系统模型进行了搭建与测试,对系统的评分能力、行为追踪能力、数据汇总能力以及运行性能进行了完整的系统性测试与评估。
本文提出的测试平台搭建在阿里云云服务器端,具体配置如下:Ubuntu Server 20.04LTS操作系统,搭载4核vCPU,8GB内存,50GB SSD高速存储,公网带宽10Mbps,运行环境稳定,且具有良好的响应速度。同时平台搭建采用了NVIDIA T4 GPU计算实例,主要针对BERT的高速处理与及时化的响应提供稳定保障服务。
在测试项目运行过程中,前端服务、后端服务与模型服务分别被独立封装进Docker容器中,保证各个部分的隔离性与并行运行能力,并通过Docker Compose进行统一调度与配置管理。后端的处理运算使用Flask通过gunicorn运行,前端的网页呈现及与用户交互通过nginx提供静态文件服务,前端与后端之间通过RESTful API进行数据交互。为了保证运行过程稳定不被打扰,且处理速度快,测试将模型推理服务单独部署在GPU容器中,采用PyTorch+transformers框架加载BERT模型,最后评分通过HTTP异步任务调度触发,以使得请求在后端任务处理过程中被悬挂,可以继续处理其他队列中的请求。
测试中使用的数据采用混合存储方案。题库、答案、评分结果等结构化数据存储于MySQL 8.0数据库中;学生行为日志、答题修正轨迹等非结构化数据存储于MongoDB 5.0数据库中。数据库存储并运行于专用云主机中,可以实现自动备份与审计机制,保障数据安全性与一致性。
测试的前端为Windows 10与macOS双平台环境,浏览器使用了Chrome、Edge及Firefox等主流浏览器,以确保在不同终端环境下前端与后端都能实现良好的兼容性、互动性,并保证数据传输过程中接口协议的一致性与良好的响应速度。学生在前端答题过程中的行为日志通过JavaScript脚本嵌入,实现对学生鼠标行为、点击路径、选项切换次数等行为数据的全程监控与完整记录。
在测试过程中,使用Postman工具对各类后端API接口进行功能验证与异常处理测试,使用Apache Jmeter对系统并发访问与评分性能进行压力测试,借助Chrome DevTools与Wireshark分析系统前端加载效率与网络数据传输性能。在这些工具的配合下,实现对于结构主体的执行稳定性与高可扩展性的需求。
4.2功能测试结果分析
测试方法涉及功能黑盒测试与接口白盒测试,覆盖率达到100%。功能测试结果如表1所示。
测试结果表明,系统整体功能表现稳定,各模块运行正确,页面加载流畅,模型评分接口响应及时,数据记录完整。
4.3性能测试分析
系统采用Apache JMeter工具模拟50~200并发用户提交答案请求的真实情况,以此来测试系统评分响应时间与数据处理能力,同时,使用Linux系统工具htop、iotop与nvidia-smi监控CPU、磁盘与GPU使用率。测试结果如表2所示。

测试结果显示,系统在100并发用户下平均评分响应时间为1.12秒,最大峰值不超过1.8秒,远低于设置的2秒阈值。在TF-IDF模型与BERT模型均正常启用的状态下,系统数据吞吐能力可以达到1460Mbps,GPU利用率维持在53.4%,未出现过载或评分队列阻塞现象,资源调度高效。数据写入数据库的成功率和延迟指标也在可控制的范围内。
5结语
本文围绕高校教学过程中教师批改作业效率较低,且学生答题情况数据收集较难的问题,提出并实际测试了一套作业自动批改的智能化系统。系统基于自然语言处理技术,借助云平台的搭建,采用前后端分离架构,针对答题过程中常见的选择题、填空题、简答题进行分析和优化。从实践数据看来,系统整体完整性很高,评分结果与人工评分一致率超过90%,具有良好的教学实用性与推广价值。
当然,系统还存在一些待改进的问题。主要是当前训练的模型依赖静态文本匹配与与训练语义模型,对于语义模糊、主观性较强的自由回答仍存在偏差。下一步尝试引入ChatGLM等大语言模型以提升系统对于开放型回答的理解与判断能力,达到更高的准确性。
参考文献
[1]张鹤译,王鑫,韩立帆,等.大语言模型融合知识图谱的问答系统研究[J].计算机科学与探索,2023,17(10):2377-2388.
[2]孙晶.互联网时代翻转课堂在新工科中的探索[J].教育信息化论坛,2022(6):33-35.
[3]余慧佳,刘奕群,张敏,等.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007(1):109-114.
[4]王继民,李雷明子,孟凡,等.基于用户日志的移动搜索行为分析[J].图书情报工作,2013,57(19):102-106+120.
[5]游兰,曾晗,韩凡宇,等.基于BERT-BiGRU集成学习的情感语义识别[J].计算机技术与发展,2023,33(5):159-166.