学术论文投稿/征稿

欢迎您!请

登录 注册

手机学刊吧

学刊吧移动端二维码

微信关注

学刊吧微信公众号二维码
关于我们
首页 > 学术论文库 > 理工论文 产品全生命周期工业大数据采集与管理范式探究论文

产品全生命周期工业大数据采集与管理范式探究论文

9

2024-05-24 15:00:54    来源:    作者:zhoudanni

摘要:随着新一代信息技术与先进制造技术的融合发展,尤其是工业物联网技术和人工智能技术的不断创新,工业制造业向网络化、数字化、知识化、智能化和服务化方向发展,工业大数据日益成为制造业发展的关键生产力要素,成为有效提升制造业的生产效率、产品质量和服务水平的新型核心驱动力[1]。

  摘要:针对工业大数据的多场景数据建模的复杂性以及数据处理过程中分散式与流式、实时式与离线式的数据多模态等特点,通过一般大数据的技术框架范式分析,阐述了产品全生命周期和典型应用场景工业大数据的阶段数据性质和数据结构特点,提出工业大数据离线批处理、实时检索、实时流处理、融合数据仓库的四种大数据采集与管理技术解决方案,从而为在产品生命周期过程中和不同场景下工业大数据的采集、传递、积聚、融合与在线分析提供更加及时、精准、自动化的技术处理框架范式。

  关键词:产品生命周期,工业大数据,采集与管理,框架范式

  0引言

  随着新一代信息技术与先进制造技术的融合发展,尤其是工业物联网技术和人工智能技术的不断创新,工业制造业向网络化、数字化、知识化、智能化和服务化方向发展,工业大数据日益成为制造业发展的关键生产力要素,成为有效提升制造业的生产效率、产品质量和服务水平的新型核心驱动力[1]。

  推动数字的开发利用使之成为企业的数字资产,成为制造业高水平发展的重要支撑,逐步形成数字产业化和产业数字化的双向驱动,催生出新技术、新产业、新模式、新业态。工业大数据无疑将成为未来提升制造业创新能力、竞争力和生产力的关键要素之一[2]。

  大数据环境下,工业大数据应用从复杂的数据集中发现新的模式与知识,挖掘有价值的信息,推动工业企业产品创新、运营提质和管理增效。因此,工业企业的数字价值化转型极为重要,成为数字经济与工业制造业实体经济融合的桥梁[3]。

  1“三驾马车”构建的大数据生态体系

  Google公司于2003年、2004年和2006年分别提出了基于硬件虚拟技术的分布式文件系统GFS[4]、分布式计算框架MapReduce[5]和NoSQL数据库系统BigTable[6],从大数据的分布式文件管理、分布式计算框架和异构多模态分布式大数据的存储3个角度,构筑了大数据基础的“三驾马车”。随着大数据技术生态圈的不断发展和丰富,如目前主流的大数据Hadoop生态圈和新生力量阿里云的MaxCompute大数据平台、华为FusionInsight数据湖等迅速发展。

  Hadoop是Apache软件基金会下的一个开源分布式计算平台,随着Hadoop生态圈的日益繁荣,逐步形成了从数据感知、采集,到数据的预处理、数据的ETL(Extract、Transform、Load),到关系型、非关系型和新型关系型数据库和分布式文件存储管理技术,到大数据的统计分析、数据挖掘、数据建模分析和基于图形、图像技术的多维数据可视化技术,构建出了各类大数据平台的技术总体范式框架,如图1所示[7-9]。

image.png

  由此可见,大数据技术的总体范式包括:从底层的数据感知(传感器、摄像头、Web、App等)→数据获取(ETL、爬虫)→元数据预处理(集成、清洗、变换、规约)→数据存储与发布(3类数据的存储系统及发布组件)→数据管理(数据质量与数据安全)→数据分析(基于数据使用目标的数据建模、数据统计分析、数据挖掘、机器学习、分布式实时计算、交互式分析;可视化等)→数据应用(大数据云平台的数据描述性分析:发生了什么;诊断性分析:为什么会发生;预测性分析:将会发生什么;指令性分析:按照什么方式去做)的整个数据价值化的过程。

  工业大数据的发展,同样也是基于互联网大数据布式文件管理系统(GFS/HDFS)、大数据分布式计算框架(MapReduce/Spark)以及分布式数据库系统(BigTable/Hive/Hbase)这“三驾马车”的大数据技术体系的实现,针对工业大数据的典型应用场景,面对海量的、多种类的、高速增长和处理要求、低密度的大数据,所采用的大数据处理机制的选择就显得十分重要。

  2工业大数据驱动的产品生命周期管理

  产品生命周期管理(Product Life Cycle Management,PLM)是围绕产品数据管理(Product Data Management,PDM)的理念不断发展和完善的一种广泛意义的数据管理模式。如图1所示,工业大数据驱动的PLM管理模式(Industrial Big Data-driven PLM),需要经过产品生命周期的数据获取、数据处理、数据管理、数据分析及数据应用等多个环节,需要对各环节所涉及的相关工业理论、知识、技术等进行基于条件特征的关联、映射等处理,从而构建基于工业特征的数据模型,进而开发系列化和定制化的产品设计、产品制造和产品运维服务的PLM系统。通过搭建基于数据和工业知识机理双驱动的工业大数据管理的架构体系,阐述复杂系统内各组件和各个环节之间的关联关系和协同工作逻辑,以保证双驱动的工业大数据PLM系统的有效性。

  2.1产品生命周期管理

  从产品群体的生命周期和市场存在的角度,PLM分为PLM导入期(Introduction)、PLM增长期(Growth)、PLM成熟期(Mature)、PLM衰退期(Decline)4个阶段;而本文主要探讨的是产品个体存在的生命周期,因此,本文主要参考文献[10-12]采用了PLM 3个阶段的描述:生命初期BOL(Beginning of Life)是指产品的开发制造阶段,包括需求分析、产品概念设计、产品正式设计、生产制造等;生命中期MOL(Middle of Life)是指产品的使用维护阶段,包括产品使用、售后服务、维修保养等;生命末期(End of life,EOL)是指产品的回收利用阶段,包括再利用、回收、处置等。

  2.2各阶段的工业大数据及特点

  在《工业大数据白皮书》[13]中,将工业数据定义为:在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个PLM各个环节所产生的各类数据及相关技术和应用的总称。从数据统计的角度出发,根据PLM 3个阶段(BOL、MOL、EOL)的数据内容、数据特点、数据源、数据采集难易程度等方面分析如下。

  (1)生命初期BOL阶段。该阶段包括产品概念设计、产品正式设计和产品生产制造3个子阶段,产品从概念设计过程通过不断成熟和完善,到达产品正式设计,再经过产品的生产制造环节逐步形成可交付的物理实体过程。其中,产品的数据内容主要包括产品功能/市场/客户群体定位、市场需求描述、产品概念设计、产品详细设计、物料需求、生产制造工艺、制造设备及辅助工具运行状况等数据信息。产品设计和制造企业是该阶段数据产生的主体,主要涉及产品设计的CAX类软件、产品工艺类软件CAPP、制造执行系统MES类软件以及ERP等企业信息系统EIS(Enterprise Information System)支持。因此,该阶段的数据获取相对方便,而且数据质量较高。

  BOL阶段概念设计过程主要数据有产品功能/市场/客户群体定位、需求描述、定制化描述、2D/3D产品初步设计图纸及概念模型等。

  BOL阶段正式设计过程主要数据有产品正式定位、产品2D/3D标准化设计图纸及模型、相关设计标准、零部件BOM、产品结构/功能/材料、产品/服务设计方案、产品/服务方案评价与决策信息、产品设计指标与参数、产品价格/成本/使用规范;生产工艺规划书、工装设备、产品质量性能、核心检测参数、生产线排产负荷、耗能、维修/服务规范;装配规范,拆解规范以及电子版产品设计说明书等。

  BOL阶段生产制造过程主要数据有供应商信息、库存物料BOM、产品订单批次、生产计划、生产调度、制造零部件BOM、制造工艺、装配工艺、质量检测数据、再制造装配信息、车间物流信息、生产设备状态/故障/维护、生产异常/瓶颈信息、生产系统配置信息、销售数据、车间生产环境等数据。

  (2)生命中期MOL阶段。该阶段主要包括产品使用、维护和报废管理三个子阶段,是产品经过生产制造阶段,企业向用户交付使用直至产品报废之前的过程。此阶段的产品数据内容主要包括产品使用信息(运行数据、故障数据)和产品维护信息(维护零部件、维修零部件、备件信息)等。产品终端用户和相关的产品服务企业是该阶段数据产生的主体,由于运维服务阶段产品的所有权属于终端用户,原始设备制造商对终端用户和相关维修企业只存在买卖和委托关系,一般不具备管理权限;同时,由于产品所运行的生命周期时间长,该阶段数据的特点是生成的数据量大、数据内容多样化,而且多数产品缺少维护、维修和运行MRO(Maintenance Repair Operation)信息系统的支持。因此,该阶段数据采集和管理难度较大。

  MOL阶段主要数据包括产品使用手册、使用环境、使用时间、维护信息、备件信息(备件数量、可提供备件方式)、运行日志、故障日志、维修记录(时间/频率/维修人员)、服务支持信息(用户投诉、意见反馈渠道)、客户信息(单位/姓名、地址、联系方式、购买频率、购买价格)、备件备品更换信息(更换时间/频率)、产品报废管理(时间、原因、报废处理方式)等。

  (3)生命末期EOL阶段。该阶段主要包括产品再利用、拆解和回收3个子阶段,是产品离开终端用户不再起到初衷设计功能作用后,整体梯次化再利用、拆解、零部件再利用与材料回收处理的过程。此阶段的产品数据内容主要包括梯次化再利用评估、再利用运行状态信息;产品拆解BOM信息、产品零部件/材料的再利用/回收信息、环境影响评估信息等。这一阶段数据产生的主体是产品梯次化再利用企业、产品拆解企业和产品回收企业等。同样,由于这些企业一般与产品原始制造企业不存在紧密的信息共享机制和义务,且该阶段数据产生的主体、时间、地点等都具有不确定性,造成了该阶段PLM数据的采集和管理难以实现。

  EOL阶段主要数据包括:产品整体梯次化再利用信息/再利用产品运维信息/可回收零部件评估信息、产品/材料环境影响、产品/产品零部件以及拆解BOM信息以及电子版的产品拆解操作说明书。

  3工业大数据采集与管理技术实现

  工业大数据的应用开发过程首先是构建实时、高效、精准的数据采集体系,由前分析可知,工业大数据数据源广泛,因此,往往借助Flume、Sqoop、Golden Gate等大数据采集工具,再通过ETL数据预处理方法把分散在工业企业不同来源的数据进行采集、抽取、转换和加载到分布式的数据库中,如Redis、MongoDB等NoSQL的数据库中,供后续决策的大数据访问、分析、管理等,以实现工业技术、经验、知识的模型化、复用化,最终形成集成高效、资源富集、协同参与的工业企业制造链生态。ETL过程实际上是对数据进行降维、降噪、脱敏等处理过程[14-16]。

  大数据技术体系,是指伴随大数据的采集、存储、处理和分析的相关技术,是一系列使用非传统的工具来对大量的结构化、半结构化和非结构化多模态数据进行处理,从而获得分析和预测结果的一系列处理和分析技术。大数据的采集一般包括了数据的预处理,大数据的存储包括了数据的管理(虚拟化存储节点、虚拟化存储方式),大数据的处理包括数据的质量管理、清洗、规约化处理等。

  分析工业大数据的典型应用场景,根据典型应用场景中不同的应用需求,大数据技术的解决方案选择离线批处理、实时检索、实时流处理、融合数据仓库4种不处理的类型。

  (1)离线批处理。离线批处理对数据处理的时延要求不高,但处理的数据量较大,多为被动获取的数据。如排产数据、产品设计数据、产品工艺数据、合同/协议数据、管理数据、销售数据、材料数据、供应商数据和客户数据等等。实现离线批处理占用的计算存储资源较多,通常通过MR(MapReduce)、Spark/Spark SQL作业或者Hive/Hive SQL(HQL)作业实现。数据源的种类包括流式数据(日志流、日志文件、Socket流、OGG音频流),批量文件数据以及数据库等。通过Flume进行实时数据采集数据文件日志文件,通过Flume、Sqoop、Scribe等进行海量数据采集和传输,再利用加载数据处理工具ETL进行批量数据库数据和第三方数据采集、清洗、转换和加载,通过离线批处理引擎实现高性能的离线批处理作业。

  Flume是一个海量日志采集、聚合和传输的系统,具有高可用、高可靠和分布式的特点。Flume的工作原理是把数据从数据源(Source)收集过来,然后通过管道(Channel)把数据先进行缓存,以保证数据输送的过程的安全性和稳健性,再将收集到的数据送到指定的目的地(Sink),最后再删除缓存的数据。Flume的数据流是以事件(Event)为基本单位,将传输的数据进行封装。也可考虑采用Facebook开源的日志收集系统Scribe,从各种日志源上收集日志。如图2所示为离线批处理技术实现的逻辑框架。

  (2)实时检索。实时检索,包含时序模式检索,是指对系统内的一些信息根据关键词进行即时、快速搜索,实现即搜即得的效果,强调实时及低延迟,例如温度传感器、振动传感器、压力传感器、位移传感器、重量传感器等场景设备、产品运行的产线数据、设备数据、设备/产品维护-使用数据等的时效性数据进行查询掌控等,可以及时了解掌握设备产品的即时数据,可以实现机器设备、产品的故障预警、故障诊断等。

image.png

  实时检索数据源的种类包括文件数据(TXT、CSV等)和流式数据(Socket流、OGG日志流)等。数据采集方式:1)文件数据通过批量加载(flume或者其他第三方加载工具MR)写入数据;2)流式数据通过实时加载(Spark Streaming或者其他第三方采集工具如Storm,Flink)写入数据。

  图数据可以使用华为GraphBase的工具导入数据,GraphBase是基于Hadoop生态的图数据库,底层数据存储在HBase和ElasticSearch中,支持用户对图数据的快速检索。实时检索引擎(ElasticSearch+HBase)适合快速检索;业务应用使用ElasticSearch和HBase API、Rest接口等开发的实时检索应用。

  (3)实时流处理。实时流处理是指对实时数据源进行即时分析,并快速触发下一步动作的场景,如设备运行数据、产线运行状态数据、安全监控数据等时序性数据进行的流处理。由于实时数据对分析处理速度要求极高,而且进行实时的数据处理规模巨大,因此对计算机的CPU计算处理速度和内存的大小要求很高,反而对硬盘存储量要求不高。

image.png

  实时处理通常通过Structured Streaming或者Flink任务实现。实时数据采集是指实时采集数据源产生的信息数据,并将其写入分布式消息系统,所采集的数据格式通常包括实时文件、业务数据库、网络数据流等。实时数据采集一般通过Hadoop自带的采集工具Flume进行数据采集,支持包括日志文件、网络数据流等多种格式的数据源。第三方的专用实时数据采集工具包括数据库实时采集工具Oracle的Golden Gate和定制化自开的采集工具等,如图4所示。

  图4中消息中间件Kafka可实现对实时数据进行缓存,支持高吞吐量的消息订阅和发布。Kafka是一种分布式消息发布订阅系统,具有高吞吐量的特点。它的最大的特性就是它的实时性和批处理大量数据的特性,如Hadoop的日志数据和离线分析,Web/Nginx日志、访问日志、消息服务等,Kafka可以同时满足在线实时处理和批量离线处理。Kafka设计的初衷就是通过Hadoop的并行加载机制来统一线上和离线的消息处理,可以进行海量日志、用户行为以及网站运营统计等数据的处理。

  分布式流计算引擎对实时数据进行快速分析,主要工具有基于Spark的流处理引擎Structured Streaming,支持秒以内的流处理分析以及新一代流处理引擎Flink组件,支持毫秒级的流处理分析。Redis通过其内存高速缓存的特点,提供高速的键/值(key/value)存储查询能力,实施流处理结果数据的高速缓存。

  (4)融合数据仓库:融合数据仓库是随着大数据业务的开展,为了解决企业之间和生产各部门建立一系列孤立的大数据平台、大数据平台之间、大数据平台与数据仓库之间缺乏互联互通和统一规划问题而进行传统的OLTP(on-Line Transaction Processing)数据库和新型的OLAP(on-Line Analytic Processing)数据集市、数据仓库的融合服务作业,是一种为了辅助决策而设计的面向主题的数据服务,主要工具包括分布式数据库HBase、华为云GaussDB等。

image.png

  融合数据仓库实现多源、多模态数据的关联,并使多维分析更加方便,为从多角度多层次地数据分析和决策制定提供的可能,为后续的决策支持系统DSS(Deci‐sion Support System)的作业提供基本的、集成的、面向主题的多模态数据集,为联机在线分析系统OLAP奠定基础。如图5所示数仓融合技术实现的逻辑框架。

image.png

  综上所述,结合大数据技术范式框架和工业大数据的离线批处理、实时检索、实时流处理、融合数据仓库4种不同数据处理模式,可将典型场景下产品生命周期的数据类型和处理要求归纳如表1所示[17-18]。

  4结束语

  本文通过对基于产品升周期的工业大数据典型应用场景的分析归纳梳理,以一般大数据处理框架范式为基础,提出面向工业大数据驱动和机理驱动特点的工业大数据四类解决方案框架方式,对工业大数据采集、存储、处理分析的技术进行了阐述,从而确立了不同应用场景下工业大数据的离线批处理、实时检索、实时流处理、融合数据仓库的技术实现框架,为后期更加高效、精准的数据分析和应用奠定基础,为基于工业大数据的自动化、智能化、知识化的分析提供了底层大数据处理基本思路,同时,对工业大数据有了更深一步的全景认识。

  此外,随着计算机科学和软件技术的发展,工业大数据的处理技术也日益完善和丰富,会有更多、更有针对性的大数据采集、传递和管理技术的出现,迭代出综合性更强、智能化更高的技术,推动工业制造业的发展。

  参考文献:

  [1]罗文.大数据:制造强国建设的新动力[J].中国工业评论,2015,(12):30-34.

  [2]李毅中.工业数字化的探索与实践[EB/OL].(2022-08-11)[2022-08-18].https://mp.weixin.qq.com/s/XOBSTDZzeBYqT‐vThmcFn ZA.

  [3]郑树泉,覃海焕,王倩.工业大数据技术与架构[J].大数据,2017,3(4):67-80.

  [4]GHEMAWAT S,GOBIOFF H,LEUNG S T.The Google file sys tem[J].Operating Systems Review,2003,37(5):29-43.

  [5]DEAN J,GHEMAWAT S.MapReduce:simplified data process‐ing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

  [6]F Chang,J Dean,S Ghemawat,et al.Bigtable:A Distributed Stor‐age System for Structured Data[J].ACM Transactions on Comput‐er Systems,2008.26(2):1-26.

  [7]张颖,刘辉.基于公安大数据平台的数据可视分析技术与应用[J].现代计算机,2022,28(17):79-84.

  [8]胡兵;金睿哲.面向钢铁制造行业的大数据平台架构研究[J].信息技术与标准化,2022(8):69-73.

  [9]舒珏淋,曹杨,迟雪,等.面向物联网应用的大数据平台研究与设计[J].计算机时代,2023(7):127-132.

  [10]GUO Qing,XIE Yingying,LI Qiushi,et al.XDataExplorer:a three-stage comprehensive self-tuning tool for big data plat‐forms[EB/OL].Big Data Research,DOI:10.1016/J.BDR.2022.100329.

  [11]任杉.产品生命周期大数据驱动的设计-运维集成服务方法研究[D].西安:西北工业大学,2019.

  [12]任杉,张映锋,黄彬彬.生命周期大数据驱动的复杂产品智能制造服务新模式研究[J].机械工程学报,2018,55(22):194-203.

  [13]中国电子技术标准化研究院.工业大数据白皮书(2019版)[EB/OL].(2021-07-28)[2022-08-03].http://www.cesi.cn/201904/4955.html.

  [14]王建民.工业大数据技术综述[J].大数据,2017,3(6):3-14.

  [15]任磊,贾子翟,赖李媛君,等.数据驱动的工业智能:现状与展望[J].计算机集成制造系统,2022,28(7):1913-1939.

  [16]张洁,汪俊亮,吕佑龙,等.大数据驱动的智能制造[J].中国机械工程,2019,30(2):127-133.

  [17]YOSRA H,WADII B,FARAH I R,et al.Big data and IoT-based applications in smart environments:a systematic review[J].Computer Science Review,2021(39):1-17.

  [18]ZHONG R Y,NEWMAN S T,HUANG G Q,et al.Big data for supply chain management in the service and manufacturing sec‐tors:challenges,opportunities,and future perspectives[J].Com‐puters&Industrial Engineering,2016,101:572-591.