学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 经管论文 探究海上油田数据湖转化为知识图谱的算法论文

探究海上油田数据湖转化为知识图谱的算法论文

2

2025-03-24 15:36:04    来源:    作者:xuling

摘要:知识图谱作为人工智能时代的重要基石,为知识提供了一种新型组织与表示形式,而高效构建并合理地把勘探开发数据湖中的数据转化为知识图谱成为技术研究人员的迫切需求。目前,海上石油数据湖在勘探开发领域已经建立比较标准、规范、全面的数据系统。

  摘要:知识图谱作为人工智能时代的重要基石,为知识提供了一种新型组织与表示形式,而高效构建并合理地把勘探开发数据湖中的数据转化为知识图谱成为技术研究人员的迫切需求。目前,海上石油数据湖在勘探开发领域已经建立比较标准、规范、全面的数据系统。聚焦于已有大量数据的情形下,文章对批量转化知识图谱的构建技术、算法进行研究,以期对后续的多种算法性能、效果进行对比,并总结出数据湖转化为知识图谱的新思路,为更加通用、实用、好用的海上石油知识湖平台构建研发提供参考。


  关键词:知识图谱;数据湖;多专业抽取;提取算法


  0引言


  目前,海上石油数据湖的建设已经取得了一定进展,包含五海及陆地中联勘探开发数据。数据湖作为中海油数字化转型的重要基础设施,已经部署了大规模的数据存储和处理系统,具备了数据集中存储、处理、分析和可视化的能力。


  然而,数据湖的建设仍面临一些挑战,例如:数据湖需不断扩展存储容量和处理能力,以满足不断增长的数据需求;需加强数据治理和质量管理,确保数据的准确性和可靠性;需进一步完善数据安全和隐私保护机制,确保数据的安全性和合规性。其中,最重要的挑战之一就是数据的应用,通过知识图谱技术,可以实现数据的关联,以从数据资产中挖掘有用价值。


  1勘探开发数据湖现状


  勘探开发数据湖是一个用于存储和管理勘探开发数据的平台,它以大数据技术为基础,构建一个集中式的数据存储和管理系统,可以存储海量的结构化、半结构化和非结构化数据。


  其中,海上油田数据湖的建设已经取得了一定进展,但仍需不断完善,以支持企业数字化转型和业务创新的需求。数据治理标准建立是按照主业务域进行划分的,主业务域的划分可以根据不同的维度进行:(1)根据地理区域划分,如渤海、南海、西部等;(2)根据产区类型划分,如主要原油产区、天然气产区等;(3)根据业务领域划分,如上游、中游和下游业务领域,或者采购、生产、销售、物流等业务流程;(4)根据数据类型划分,如结构化数据、非结构化数据和时序数据等;(5)根据应用领域划分,如数据仓库、数据挖掘、数据分析等。


  如何从数据湖中挖掘出有用的知识是目前需要解决的难题。数据湖的建模和设计是基于业务驱动因素,包含实体、关系、属性和域,而主业务域的划分有助于更好地组织和管理数据,提高数据治理的效果,也为提升数据的价值、挖掘内在价值提供良好的基础。


  首先,业务模型包含业务活动、业务对象及数据集三个主要要素,其设计流程如图1所示;其次,业务模型与知识图谱的本体、实体、属性有高度契合的技术点,方便业务模型向知识图谱转变,目前在陆地某油田,结构化数据批量生成知识图谱已有相关案例。结合以上两点,数据湖已经具备成为知识湖的基础,因此根据相关知识图谱生成条件,可自动化完成勘探开发知识湖建设工作。

  2批量生成知识图谱构建技术的算法分析


  知识图谱[1]的构建涉及到多种算法和技术,包括但不限于:


  (1)实体抽取(命名实体识别):从文本中提取实体之间的关系;(2)知识图谱的表示学习:利用深度学习技术来学习知识图谱中实体的向量表示,以实现高效的实体链接、信息检索和问答系统;(3)知识推理:通过逻辑推理和规则匹配来丰富和拓展知识图谱;(4)链接预测:预测实体间关系的存在来完善知识图谱,包括基于图的随机游走算法、基于矩阵的奇异值分解算法等;(5)知识图谱的补全:通过预测缺失的三元组来完善知识图谱,包括基于规则、模板的方法和深度学习的方法。常见的深度学习模型包括BiLSTM-CRF模型、Transformer模型、贝叶斯网络[2]等,可以应用于构建技术。


  常见的实体抽取[1]算法:


  (1)基于规则的方法:基于预先定义的规则或模式来识别实体;(2)基于统计的方法:统计模型需要大量的标注数据来进行训练,但可以在不同的数据集上进行泛化,包括最大熵模型、条件随机场模型等;(3)基于深度学习的方法:使用深度学习相关模型进行实体抽取,可自动从大量未标注的数据中学习有用的特征,并提高实体抽取的准确率,包括BiLSTM-CRF模型、Transformer模型、贝叶斯网络[2]等。


  目前,石油行业大部分对象实例均在相应的结构化数据库中,所有抽取技术主要是针对结构化数据表的映射抽取,相对应对象数据的抽取流程如图2所示。

  3勘探开发数据湖转化为知识图谱技术的算法分析


  目前,油气行业知识图谱本体定义为:在石油行业中,资源是由特定业务活动所产生的,归纳为业务活动与业务资源两大核心业务,即本体结构=业务活动+业务资源;相关业务活动一般从五个方面开展,即活动的对象、涉及的业务、开展的工作、从事的专业、工作的过程,业务活动通过五个维度标准化描述后即为最小业务节点,即油气知识图谱本体=对象+业务+工作+专业+过程+最小业务节点+业务资源。


  其构建流程示意图如图3所示。


  上述本体进行进一步的业务化:对象按业务中的工作组织单元或工作对象进行划分;业务按照时间维度对油气勘探开发进行划分;工作在一个时间节点上按工作性质进行划分;过程按业务工作细分的流程节点也就是工作的具体步骤划分;专业按技术方法、石油地质专业等维度划分。

  目前,数据湖转化的整体技术路线为数据预处理与提取、信息抽取、知识表示、实际构建图谱、利用知识图谱进行相关推理与丰富、图谱验证与优化、集成到应用开发等,如图4所示。其中,在实体识别(NER)算法中,采取模板规则类进行识别整理为最优;在应用性能方面,主要通过非结构化文档拆分速度、图数据库性能、机器学习算法的优选等方面,提升用户体验。


  基于以上算法研究,海上油田知识湖按照KG0、KG1、KG2三个层次分步骤建立油田知识图谱。KG0的建立不仅可以为应用提供通用知识查询服务,还是建立KG1的本体模型;KG1的建立能够将油田分散存储的数据及知识全部集中到一个知识图谱中,不仅为油田整个应用提供基础知识服务,还是建立KG2各个专业知识图谱的基础资源;KG2在KG1、KG0基础上,更加个性化地进行知识图谱建设,业务广度更广,复杂度更高。


  各专业、各层次的知识图谱建设均基于最小业务单元坐标建模方法和对应软件工具。目前基于数据湖平台等工作,已经建设了主体业务框架,并且拥有大量的业务应用系统和数据库。因此,通过对现有系统业务和数据库模型的梳理,并结合外部最小业务梳理成果,能够快速构建油田相对完整的业务模型。


  4结语


  在目前海上石油数据环境下,可以实现勘探开发领域知识图谱后台数据库的构成,可以实现知识图谱应用领域海上石油行业机器对话问答以及海上现场措施、作业故障的分类等。但在知识图谱生成转化过程中,还存在着底层数据体不一致、本体构建还需业务专家参与、数据转化成知识存在技术问题等难题。因此,进一步完善基于勘探开发业务域的知识湖体系,通过打通知识湖与数据湖之间的关联,可以实现钻完井提速、机采井提效管理、档案知识管理、工程远程支持应用等功能,更好地为智慧油田、智慧海油作出贡献。

  参考文献:


  [1]肖仰华.知识图谱:概念与技术[M].北京:电子工业出版社,2020.


  [2]宫法明,董文吉,袁向兵.基于知识图谱的潜油电泵井故障诊断[J].计算机系统应用,2023,32(5):87-96.