网络爬虫技术在公司审计中的应用研究论文
2026-01-05 17:06:56 来源: 作者:xuling
摘要:在大数据时代背景下,审计工作迎来了新的机遇,审计人员运用大数据技术能够获取更多关键的审计数据,从而更准确地评估审计风险。
[摘要]在大数据时代背景下,审计工作迎来了新的机遇,审计人员运用大数据技术能够获取更多关键的审计数据,从而更准确地评估审计风险。在这一过程中,网络爬虫作为一种自动化信息采集工具,在扩展数据挖掘广度、提升数据挖掘效率等方面发挥着重要作用,能够为审计工作提供有力支持。文章在梳理基于网络爬虫技术的审计流程的基础上,将网络爬虫技术方法应用于KM公司审计案例中,运用网络爬虫技术对其2016—2018年的大数据进行挖掘、处理、分析。研究表明,网络爬虫技术对获取更加充分的审计证据、提高审计效率、控制审计风险具有十分重要的作用。
[关键词]网络爬虫技术;公司审计;审计风险控制;数据挖掘
0引言
近年来,大数据技术的出现促进了各行业数字化发展,引起了政、产、学、研各界的普遍关注。2021年6月22日,中央审计委员会办公室、审计署印发的《“十四五”国家审计工作发展规划》提出,“坚持改革创新。与时俱进,推进审计理念、思路、方法、制度、机制创新,及时揭示和反映经济社会各领域的新情况、新问题、新趋势”[1]。应用大数据技术能够帮助审计人员在有限的时间和资源条件下获取更多关键审计数据,从深层次了解企业实际经营情况,从而更准确地评估审计风险,优化审计流程。在这一过程中,网络爬虫作为一种自动化信息采集工具,能够为审计工作提供有力支持。深入研究现有文献发现,将网络爬虫技术运用于审计行业的研究较少,且相关研究主要集中在网络爬虫对审计的影响、网络爬虫审计框架的构建、审计人员运用网络爬虫技术的不足与应对策略等方面,而将网络爬虫技术应用于具体审计案例中的研究则非常少[2-4]。基于此,本文将以KM公司为例,研究网络爬虫技术在KM公司审计中的应用,希望能够为其他公司提供参考。
1基于网络爬虫技术的审计流程
运用网络爬虫技术展开审计工作主要包括以下5个关键阶段:
第一,确定运用网络爬虫技术挖掘被审计单位大数据的途径和覆盖范围。在完成符合性测试后,确定数据采集的目标网站,并对相应的网页进行解析[5]。
第二,运用网络爬虫技术挖掘被审计单位相关大数据。使用专业网络爬虫软件进行数据采集,抓取被审计单位的多维度信息,包括政策与监管环境、行业环境、经营情况、关联方情况等各方面的大数据,随后对这些海量数据进行清洗、整理。
第三,对网络爬虫抓取的大数据进行分析。系统评估所抓取的被审计单位多维度大数据对被审计单位的影响程度,甄别其作为财务舞弊线索的潜在价值。
第四,进行审计风险评估。将通过网络爬虫获取的有价值的数据与被审计单位提供的财务及业务数据进行交叉比对。通过数据一致性验证,评估企业所提供信息的可信度,进而对其审计风险进行评估。
第五,通过实施风险应对措施,针对已识别出的重大错报风险进行重点核查,从而提升审计工作的精准度和有效性,增强审计结论的可靠性,确保审计风险处于合理可控范围。

2网络爬虫技术在KM公司审计中的应用
2.1 KM公司审计失败案例背景
2020年5月,KM公司在2016—2018年存在系统性财务造假行为,包括虚增营业收入、利息收入及营业利润,虚增货币资金,虚增固定资产、在建工程、投资性房地产,未按规定披露控股股东及其关联方非经营性占用资金的关联交易情况。KM公司2016—2018年财务报告由ZJ会计师事务所开展审计工作,其中2016—2017年出具了“标准无保留意见”的审计报告,2018年出具了“保留意见”的审计报告,揭示了ZJ会计师事务所对KM公司审计失败。
2.2利用网络爬虫技术挖掘KM公司数据的过程
本研究运用Python抓取KM公司的互联网大数据。根据研究目标,本研究编写了网络爬虫审计代码,抓取互联网大数据中有关KM公司2016—2018年的所有信息数据。在执行网络爬虫审计代码后,对数据进行清洗,在过滤无效广告及低质量网站后,最终保留的有效数据记录为562条。数据导出为57页Excel文档,具体包含政策与监管环境数据23条,行业环境数据58条,经营状况数据271条,关联方数据210条。审计人员可依据时间先后顺序,或是按照内容的匹配契合程度,对抓取的数据进行分类筛选并展开查看。同时,从这些数据中提取关键的审计证据,进而开展深入分析工作。将网络爬虫技术运用于整个审计过程中,能够提高审计人员的工作效率,降低审计风险。
2.3利用网络爬虫技术挖掘KM公司数据的结果分析
2.3.1政策与监管环境、行业环境挖掘数据分析
本研究对KM公司2016—2018年的政策与监管环境、行业环境大数据进行挖掘,首先判断KM公司属于医药行业,初步抓取到相关大数据,再进一步针对关键审计证据进行筛选和提炼,发现KM公司存在虚增收入和利润、虚增固定资产的可能,应对其收入、利润和固定资产实施进一步审计,以控制审计风险。
一是存在虚增收入和利润的可能。第一,营业收入指标异常。网络爬虫获取的政策与监管环境大数据表明,在“十三五”规划框架下,我国医药体系经历了深化改革,2016—2018年出台的政策对医药行业产生了系统性冲击。“两票制”实施、仿制药改革等政策“组合拳”,叠加药品关税调整,重塑了行业生态体系,我国医药企业普遍面临收入增长困境。2016—2018年,医药行业平均营业收入增长率分别为9.9%、12.5%、10.2%,而KM公司2016—2018年的营业收入增长率分别为19.79%、22.34%、-26.90%。很显然,KM公司2016年、2017年的营业收入增长率远高于行业平均值,在整个医药行业面临巨大挑战下KM公司能够实现如此高的增长幅度,这不禁让人怀疑其营业收入的真实性。KM公司2018年的年报是在中国证券监督管理委员会2018年12月28日公布对KM公司进行立案调查后披露的,数据显示,2018年KM公司营业收入增长率为-26.90%,营业收入增长率在中国证券监督管理委员会公布立案调查后骤然下降,更能说明KM公司前期的营业收入有问题。第二,净现比指标异常。通过分析KM公司2016—2018年的财务数据发现,其净利润现金含量存在显著异常。作为衡量利润质量的核心指标,净现比(经营活动现金流量净额/净利润)的正常值应当高于100%。网络爬虫数据显示,我国在2016—2018年进行了医药体系的改革,医药企业的净现比均受到影响,但整体都在50%以上。而KM公司2016年、2017年、2018年的净现比分别为48.04%、45.01%、-284.24%,连续三年的净现比都低于50%,甚至在2018年净现比为负数,这说明KM公司的巨额利润主要通过应收账款等非现金形式确认。同时,KM公司的资产负债表呈现出异常充沛的货币资金储备,货币资金曾一度居行业之首。这种既无法通过经营获取现金,净现比长期低于行业均值,又维持高资金存量的财务特征,与医药行业变革期的正常经营波动存在本质差异,强烈指向KM公司的收入和利润存在舞弊。
二是存在虚增固定资产的可能。KM公司的财务报表显示,固定资产在2016年、2017年、2018年分别为59.20亿元、61.06亿元、89.50亿元,显然这三年间固定资产在不断增加,2018年的增长率更是达到了46.58%。然而,网络爬虫抓取的数据显示,KM公司所在行业2018年的固定资产增长率均值是20%。难道是KM公司的固定资产投资效果好使得KM公司不断追加固定资产的投资?在此疑问下,笔者展开了更深入的研究。KM公司的固定资产周转率在2016年、2017年、2018年分别为4.04、4.40、2.57,而KM公司所在行业的固定资产周转率均值在2016年、2017年、2018年分别为4.51、4.53、5.24,很显然KM公司的固定资产周转率连续三年低于行业均值,尤其是2018年,这就说明KM公司2016—2018年间的固定资产投资效果并不好。KM公司低于行业均值的固定资产周转率与高于行业均值的固定资产增长率显然是矛盾的,不得不让人怀疑其固定资产的真实性,中国证券监督管理委员会的调查结果也确实证实KM公司存在虚增固定资产的行为。
2.3.2经营状况挖掘数据分析
通过分析网络爬虫抓取的KM公司经营数据发现,KM公司的货币资金及有息负债在2016—2018年上半年呈现逐渐增长态势,且其占总资产的比重较高,2016年、2017年、2018年上半年货币资金占总资产比重分别为49.84%、49.70%、50.66%,而KM公司所在行业的货币资金占总资产比重为20%左右;2016年、2017年、2018年上半年有息负债占总资产比重分别为39.74%、39.45%、44.1%,而KM公司所在行业的有息负债占总资产比重为10%左右。数据显示,KM公司2016—2018年上半年货币资金占总资产比重、有息负债占总资产比重皆高于行业水平很多,说明KM公司在2016—2018年上半年存在存贷双高的现象。
另外,KM公司2016年、2017年、2018年上半年的货币资金收益率分别为0.79%、0.86%、0.74%,而央行七天通知存款利率为1.35%,央行的七天通知存款利率明显高于KM公司的货币资金收益率;KM公司2016年、2017年、2018年上半年的利息支出率分别为3.88%、3.92%、3.90%,显著高于其货币资金收益率。
由上述数据可知,KM公司2016—2018年上半年存在存贷双高的现象,通常来说,企业在货币资金充足的情况下都会进行投资,以此来提高企业收益,除非企业货币资金存在受限情况。网络爬虫数据显示,KM公司受限货币资金占比不到1%。在这种情况下,KM公司理应进行投资理财,但KM公司的货币资金收益率明显低于央行七天通知存款利率。同时,KM公司的利息支出率显著高于其货币资金收益率。也就是说,KM公司在货币资金充足的情况下仍然大量举借外债,在货币资金收益率较低的情况下不及时还清债务,仍然承担着高昂的融资成本,这与股东财富最大化原则并不相符。另外,网络爬虫数据显示,从2012年开始,多家网站、媒体就对KM公司的存贷双高等问题提出过质疑。KM公司的自然人股东从2014年开始也一度向中国证监会举报货币资金问题。上述种种迹象表明,KM公司的货币资金真实性一定存在问题,而ZJ会计师事务所却没有识别出该项重大错报风险。如果审计人员利用网络爬虫技术获取了此项关键审计证据,就可以准确判断出KM公司的货币资金存在重大错报风险,进而实施进一步审计程序,以降低审计风险或控制审计风险。
2.3.3关联方挖掘数据分析
经过网络爬虫抓取KM公司的关联方数据发现,KM公司的控股股东从2010年开始不断进行股权质押,首次股权质押比例为30.54%,后股权质押比例不断攀升。截至2018年年底,KM公司的控股股东股权质押比例已达到99.53%。并且,KM公司控股股东的股权质押属于循环质押,每当股权质押到期后便立马再次质押。
利用网络爬虫抓取到的行业数据显示,KM公司的控股股东所在行业的平均股权质押比例为48.77%,显然KM公司控股股东的股权质押比例超过行业平均水平。同时,KM公司的控股股东对股权质押时间点把握得很准确。通常来说,股票价格越高,股权质押所能取得的资金就越多。数据显示,KM公司的控股股东每次股权质押都是在KM公司股价大幅上升之后进行,因此,可以合理怀疑KM公司股价有被操纵的可能。
另外,KM公司的财务费用在2016年、2017年、2018年分别为7.22亿元、9.69亿元、18.86亿元。上述不断提高的财务费用及特别高的股权质押比例显示,KM公司的货币资金被控股股东和关联方非经营性占用的概率较大,很可能存在利益侵占风险。
3结束语
上述研究结果显示,KM公司在经营管理中存在多项风险。然而,ZJ会计师事务所在传统审计模式下未能有效识别并评估这些风险,而通过网络爬虫技术在互联网挖掘的数据能够识别评估出KM公司在2016—2018年的大部分重大错报风险。在现代审计工作中,审计人员不仅需要始终保持职业怀疑态度、优化审计流程,更要积极借助大数据和网络爬虫等技术,全面获取并分析被审计单位的多维度信息,以此提高审计证据的质量和完整性,准确判断重大错报的可能性,进而采取针对性的审计措施,实现审计风险的有效管控。
主要参考文献
[1]中国政府网.中央审计委员会办公室、审计署关于印发《“十四五”国家审计工作发展规划》的通知[EB/OL].(2021-06-22)[2025-03-27].
[2]徐超.大数据背景下审计数据采集技术与方法的研究:以互联网金融企业专项审计为例[J].会计之友,2020(19):114-119.
[3]李视磊.基于网络爬虫的审计风险控制体系构建及应用研究[J].商业会计,2022(23):30-33.
[4]陈伟,孙梦蝶.基于网络爬虫技术的大数据审计方法研究[J].中国注册会计师,2018(7):76-80.
[5]董惠林.如何利用网络爬虫插件抓取审计所需数据[J].审计月刊,2021(2):32-33.