type
status
date
slug
summary
tags
category
icon
password
《工业大数据分析指南》完本下载:

概论

相关技术

notion image

类型

  • 描述型分析:描述型分析用来回答“发生了什么”、体现的“是什么”知识。工业企业总的周报、月报、商务智能 (BI) 分析等,就是典型的描述型分析。描述型分析一般通过计算数据的各种统计特征,各种数据以便于人们理解的可视化方式表达出来。
  • 诊断型分析:诊断型分析用来回答“为什么会发生这样的事情”针对生产、销售、管理、设备运行等过程中出现的问题和异常,找出导致问题的原因所在,诊断分析的关键是剔除非本质的随机关联和各种假象,有明确的目标和对错
  • 预测型分析:预测型分析用来回到“将要发生什么?”。针对生产、经营中的各种问题,根据现在可见的因素,预测未来可能发生的结果。不仅有明确的目标和对错,还要区分因果和相关
  • 处方型(指导型)分析:处方型(指导型)分析用来回答“怎么办”的问题。针对己经和将要发生的问题,找出适当的行动方案,有效解决存在的问题或把工作做得更好,进一步与实施手段和流程的创新相结合

价值点

  • 设备尺度:提升性能、降低能耗、减少损失;高效维护、预防故障;分析下一代设备优化点。
  • 车间尺度:减少时间、物料、人工资源的浪费。
  • 企业尺度:打通各阶段的数据,加强上下级协同,优化生产与管理计划。
  • 跨企业:企业之间的分工、协作、以及企业业务跨界重新定义等问题。

支撑业务创新

梳理数据分析技术和目标之间的关系,关注业务需求,而不是数据分析能得到什么。
  • 想做什么(业务目标)
  • 为什么这么做(价值存在性)
  • 打算怎么做(技术线路、业务路径)
  • 需要知道什么(信息和知识,数据分析的目标)
  • 怎么才能知道(数据分析过程)
notion image

特殊性

对于数据的变化,非工业领域往往强调数量变化,但在工业领域,数据变化的重点更是数据完整性和质量的提升。
  • 便于模仿(场景下的模仿):大数据常常是全体样本,而不是抽样。在这个前提下,就可以根据历史上成功或者失败的案例,模仿成功的做法、避免失败的做法,而不必通过理解规律来指导行动。这使得近邻算法等简单算法可以起到很好的效果。
  • 便于检验:当已知样本不能涵盖各种复杂的情况和场景时,数据模型很难有较强的泛化性。在大数据的背景下,这种现象可能会有本质性的好转,从而得到泛化性高的模型。
  • 视角全面:数据来源广泛时,有条件从不同的角度观察对象、分析验证,也有更好的条件辨别和剔除虚假的现象。这些都有利于建立可靠性极高的模型、甚至可能挖掘出新的科学规律。
工业大数据分析工作的特点和理念,往往不同于商务大数据分析。
  • 可靠性:工业对象和过程本身的复杂性高,不能满足于似是而非的结论。
  • 创新性:数据分析得到的知识,必须超越人们以往已有的知识,才能创造价值。
  • 因果性:对于复杂的工业过程数据分析,人们往往要强调因果性,而不能仅仅止步于相关关系。
  • 简化性:强调复杂问题简单化,而不是追求算法的复杂和高深。
  • 局限性:已掌握的信息和知识未数字化;模型设计因素多且机理不清晰时难以构建和验证模型。

常见问题

  • 设定不具备价值的目标:分析师缺乏领域常识,分析了不值得研究或已是常识的结果。
  • 业务上难以实施的目标:预测数据不及时;经济可行性差。
  • 分析难度过大的目标:分析结果花费过大,投产比不合适。
  • 不能及时终止目标衡量的失误子目标:未事先对数据的质量进行评估,导致数据质量很低,无法支撑算法的构建。
  • 目标衡量的失误:衡量标准的选择不当,导致分析结果与实际使用时的结果相差甚远。

CRISP-DM 模型

CRISP-DM 模型是欧盟起草的跨行业数据挖掘标准流程(Cross Industry Standard Process for Data Mining)的简称。 这个标准以数据为中心,将相关工作分成业务理解、数据理解、数据准备、建模、验证与评估、实施与运行等六个基本的步骤,如下图所示。
notion image
在该模型中,相关步骤不是顺次完成,而是存在多处循环和反复。虽然反复交替意味着工作的重复和低效,但是由于分析过程存在极大的不确定性,这样的反复往往是不可避免的。然而,当CRISP-DM用于工业过程数据分析时,反复的次数大大增加,导致验证评估不合格从头再来的现象非常普遍,从而显著降低工业大数据分析的效率。

落地难点

  • 工业数据关联关系复杂:从工厂到设备,本质上都是多个要素互相作用所组成的系统,分析时如果不从整体入手,只会得到片面甚至错误的结论。
  • 工业数据质量差:数据往往是工业对象不完整的体现,参数波动中包含大量检测误差、数据的信噪比低。产生极大的不确定性和误导。
  • 工业场景的分析要求高:容易出现各种假象和干扰、分析结果总是难以满足用户的使用需求。

指导思想

在工业大数据分析过程中用好CRISP-DM,关键是减少上下步骤之间的反复、避免单向箭头变成双向,还尤其是要尽量减少模型验证失败后重新进入业务理解这样大的反复。“以终为始”,进行深入研究之前,要进行一个相对全面的调研,从如何应用、如何部署开始,反推需要进行的研究。
“反复”的现象不可能彻底消除,只能尽可能减少不必要的探索,数据分析人员在分析的过程中要主动、有针对性的补充领域知识和相关信息。

应用阶段

  1. 业务理解阶段:明确业务需求和数据分析的目标,将模糊的用户需求转化成明确的分析问题。
  1. 数据理解阶段:建立数据和业务的关联关系,从数据的角度去深度的解读业务。
  1. 数据准备阶段:为数据的建模分析提供干净、有效的输入数据源。
  1. 数据建模阶段:基于业务和数据的理解,选择合适的算法和建模工具进行建模。
  1. 模型的验证和评估阶段:从业务的角度评估模型的精度问题,分析模型的中影响因子的完备性,考察模型的假设条件是否可以实际落地。
  1. 模型的部署阶段:指定使用和部署方案并准备,对可能出现的问题提前做好预案,基于试运行结果指定持续优化方案。

业务理解

目的:避免工作过程中出现方向性错误,进而减少无效和低效的劳动。
难点:高水平的分析结果依赖于领域知识与数据分析的有机融合,但是真正成为一个领域专家需要多年的积累,完整地掌握业务知识是不现实的。

认识工业对象

业务理解中出现的问题或失误往往可以归结为“片面性”。为了防止片面性,就要用系统的观点认识工业对象。

抽象化

设备、生产环境、车间都可以抽象为大小和复杂程度不同的“系统”,大系统可拆分为若干互相作用的子系统。
系统相关要素(相关要素未必能被观测,内部状态未必受控):
  • 外部向系统的输入:控制指令(控制流)、物质(物质流)和能量(能量流)
  • 系统内部状态:工艺参数、设备状态、产品状态、工作模式等
  • 系统向外部的输出:同输入
外部输入通过一定的途径影响(未必是决定)系统的内部状态;系统的内部状态互相关联、形成复杂的结构,并按一定的规律变化;系统的输出则决定于系统的内部状态。

功能描述

系统功能可以用输入输出关系描述,所有的输出都可以看作一种“功能”。一个工业系统可以有多个功能,提供有用功能的同时,往往也会有些负面的作用。功能之间往往是互相关联、相互影响的,应避免技术手段对其他功能产生负面影响。
某些重要功能经常被忽视,是因为它们只在特殊情况下才会发挥作用,这些偶尔发挥作用的功能却可能非常重要(比如安全性功能)。系统设计出来的功能都是有用的、也就是会在某些场景下发挥作用。通过分析系统可能面对的场景,就可以发现一些可能被忽视的功能;通过完整地认识场景,就能够完整地认识功能。
对应工业系统的每个功能,都会对应一套实现逻辑或流程,这里称之为技术原理。要深入了解系统,可以通过流程来认识技术原理。需要特别注意的是场景的变化可能引发流程的变化

理解需求

DMAIC模型:
  1. 界定D(Define):明确问题发生的场景、类型,希望分析得到的输入输出关系等。
  1. 测量M(Measure):用数据来描述业务需求,对问题更加深刻的认识。
  1. 分析A(Analyze):运用统计技术方法找出存在问题的原因。
  1. 改进I(Improve):在数据分析的基础上,找到解决问题的方法(优化数学问题)。
  1. 控制C(Control):具体的实施和落实。
数据分析的目的是创造价值,业务理解要确认两个方面的问题:
  • 价值是真的存在、还是想当然的
  • 价值是否足够大、投入产出是否核算
数据分析之所有应用价值,往往就是因为场景的变化使得经验不再适用、需要用数据来说话。所以,数据分析需坚持的一个原则是分析和应用都要结合具体的流程
梳理方法:5W1H 方法(Why、What、Where、When、Who、How)理解问题,分析并分类与业务目标相关的因素,再把相关因素的相关因素找出并进行分类。

目标评估

知识的作用就是让我们能够从一部分信息推断出另外一部分信息。换句话说,数据分析可以理解为寻找一种映射F,将信息X映射到信息Y:
知识是否合用,与业务目标有关。需要关注:
  • 方法的合理性:控制方法是否会影响其他目标?是否有更简单高效的解决方法?
  • 业务流程和基础手段的约束:把分析结果用恰当的形式(人工、自动化)纳入到合适的业务流程中去。
“复杂多因素”的业务流程,产生了巨大量的组合数据。对于业务问题,人们常常要采取一些“知识重用”的方法,以避免“知识爆炸”、不必要的风险和成本。
专业领域的知识和数据模型的融合方式:
  • 利用专业领域知识识别影响业务问题的关键因子,并加工有效特征,作为工业建模的输入变量来融入工业分析模型中。
  • 利用产品工作机理建立高效的诊断、检测、预测模型,利用数据模型去优化机理模型控制参数,实现机理模型和数据模型的融合。

制造的生命周期

  1. 生命初期(BOL):以设计制造为主,聚焦产品创新、生产制造,其核心是制造资源协同。
  1. 生命中期(MOL):以使用维修为主,关注装备健康与高效使用。
  1. 生命后期(EOL):以回收及再利用为主。
工业大数据分析在产品运维服务领域具有最广阔的应用前景,主要挑战是跨生命周期数据的管理和分析
  • 产品自身复杂性决定了全生命周期制造过程的复杂性,跨企业协同业务过程集成与优化难。
  • 跨阶段、长周期多源异构数据(工程数据、时序数据、关系数据)的双向关联与追溯。
  • 开源与分享经济模式使得制造跨界数据集成与利用水平成为企业竞争的核心竞争能力。
  • 跨生命周期海量数据的质量直接关系到装备制造工程管理与决策质量。

数据理解

  • 企业信息化数据
  • 工业物联网数据
  • 外部跨界数据
业务理解是数据理解的基础和起点,用于全面理解工业对象和业务需求;数据理解是从数据的角度认识对象和业务、是认识的深化,即判断是否有数据解。
业务流程伴随着数据,流程即是数据的消费者,也是数据的生产者。数据跟着业务流程走,流程和数据是对偶关系。实际工作中,不能单纯通过数据,理解工业对象及相关业务,而是要结合一定的专业领域知识,才能理解数据的含义
业务理解是数据理解的基础,数据理解是细致、准确理解对象的要点,数据理解支撑对业务理解的深化。

数据来源

  • 基础自动化(BA)
  • 制造执行系统(MES)
  • 企业资源计划(ERP)
等级越低实时性越高,采集频度越高,保存时间越短;等级越高数据覆盖范围越大,采集频度越低,保存时间越长。大体上所有数据存储周期略长于相关的业务周期。
在流程行业,上下工序之间、人机料法环之间有着密切的关联。分析数据时,数据之间的联系非常重要。要保证数据可对齐,拥有可追溯性,在出现故障时能快速寻找问题的源头。

数据分类

从信息的角度还可以分成结构化数据和非结构化数据。
  • 可检测性:通过可检测的数据来推断无检测的数据。
  • 可控性:系统的输入有控制型输入和干扰型输入之分,利用控制型的变量优化系统运行,抑制干扰型的变量减少对系统运行的不利影响。
  • 数值型变量和上下文变量(逻辑型变量):维修、设备、班组等逻辑变量发生变化时,系统对应不同的场景、实际上可能成为不同的系统;而某些连续变量实际上也成了另外一个变量。
  • 时间变化量和常数(快变量和慢变量):数据变化的速度上区分变量/场景。
  • 设定目标值和实际值:两组数据的偏差情况,可以大体反映系统运行的稳定性。

关联关系

  • 静态对象属性之间的关联:一个对象可以有很多的属性,这些属性之间存在关联。
  • 特定属性变化的关联:一个属性在不同的时间和场景下发生变化,则这些变化之间存在关联。
  • 子对象之间的关联:众多的对象组成一个系统或者一类对象,则对象之间存在关联。
  • 特定流程之间的关联:一个业务场景涉及经过复杂的流程或者多个工业过程,与这些工业过程相关的对象及其属性都是相关的。
  • 因果关系链导致的关联:一个业务问题可能是很多原因导致的,则这些原因都会和结果产生关联,可以导致很多直接或者间接的结果,这些结果之间,往往存在关联。

数据质量

数据质量的本质是满足特定分析任务需求的程度。需求和目标不同,对数据质量的要求就不同。贯彻“以终为始”的思想,从部署和应用开始,评估数据的质量。
衡量标准:
  • 完整性:用来衡量数据是否因各种原因采集失败,有丢失现象。
  • 规范性:用于衡量数据在不同场景下的格式和名称是否一致。
  • 一致性:用于度量数据产生的过程是否有含义上的冲突。
  • 准确性:用来衡量数据的精度和正确性。
  • 唯一性:用于度量哪些数据或者属性是否是重复的。
  • 关联性:用于度量数据之间的关联关系是否是完整、正确的。
  • 分布范围:如果数据的分布相对集中、数据项之间的关联度过高,有些要素的作用就无法被凸显出来。
影响因素:
  • 采集的上下文:测量的手段(人工、自动化)、采集的目的(解决特定时间段的问题)、测量设备自身精度。
  • 物理条件和技术手段的约束:高炉内部的数据难以采集,传感器采集的都是外部的相关信息。
  • 成本的技术的约束:测量频度低、误差大、稳定性差,外部环境影响大。
  • 测量精度不够:数据承载的有效信息和测量误差处于同一个量级,数据的信噪比非常低。
  • 人为因素:误判自动化处理的确认,分析数据时错误转化数据(降低规范性和一致性)。

数据准备

业务系统

以低代价实现跨系统异构数据的标准化与集成管理,实现多源基础数据的按需互通与共享。将信息化建设从传统的碎片式、项目式转变为集约化、效能型。
  1. :将分散的数据汇聚到同一个平台上。
  1. :建立数据共享开放标准和机制。
  1. :主动开展更多应用,使数据形成聚合效应。
保证基础数据的“一数一源”:
  1. 数据资源梳理:领域→系统→表、视图→字段→数据来源,是否能从其他系统直接引用和共享,描述元数据信息,构建信息资源目录。
  1. 建立数据资源标准化和共享交换体系:实现共性数据的全生命周期管理,建立交换标准,提供关键基础信息的发布、变更、映射服务保证基础数据的一致性。

工业企业

成立数据治理委员会,执行现有数据策略、挖掘未被满足的需求以及潜在的安全问题等。平和不同部门之间存在冲突的需求,在安全性和访问需求之间进行协调,确保实施最高效、最安全的数据管理策略。
工业企业数据准备的核心,是实现产品跨生命周期的数据有效集成与溯源

物联网

基于统一的标识解析体系实现数据的互联、互通、共享和溯源。标识及标识解析技术是实现产品追溯的核心关键。

建模分析

由于各类原因产生的出现噪声、缺失值、不一致的数据,不可直接用于建模,需要先进行一定的预处理来消除此类数据可能造成的影响。
  • 异常值:识别并删除。
  • 缺失值:缺失数据比例小→直接删除;连续缺失→插值填充。
  • 规约处理:数据降维、数量归约、数据压缩。

数据建模

对已有知识的辩证否定,对已有知识的清晰化、准确化并提高可靠性。

形式化描述

在很多情况下,应该包含内容、的形式都是已知的。但是,模型所需的很多数据和参数往往并不清楚,数据缺失是一种常态。对此,一般的解决方法是通过可获得的数据找到与之相关的数据,再用间接的手段确定模型。
把自变量分成两部分:可以准确得到的记为,难以准确得到的部分记为。为了获得,我们可以可虑如下三类相关数据,分别记为
  • 是影响的因素之一
    • 其中,是可观测的变量,是难以观测的干扰。
  • 是影响的原因之一
    • 其中,是可观测的变量,是难以观测的干扰。
  • 有共同影响因素。
    • 其中,是可观测的变量,是难以观测的数据。
三种可见数据与不可见数据的关系,如上图所示。于是我们实际上要建立的模型就是:
其中,,是建模时可供选择的数据;是实际上能够建立的模型。
受现实条件约束,模型的结构和参数与理论都有一定的误差,无法得到理想的模型,的替代可能存在局限性,模型的精度和适用范围就可能产生矛盾。因此变量的选择要根据具体的业务需求来定。也就是要根据应用对精度、使用范围、可靠度、计算速度、因果性的要求来定

基本过程

基本思路

  • 选择特征:模型的输入变量。
  • 选择模型结构:用于框定优化范围的模型集合。
  • 选择算法:确定优化目标和实施策略,以便在特性模型集合内找出误差小的模型。
特征和模型结构决定了模型的精度、适用范围和可靠度;算法决定了在特定范围内的优化的目标、执行效率和效果。
决策树能将机理知识和统计算法较好地融合起来,但主要用于寻找特定问题发生的原因,难以建立连续的数学模型。

模型融合

融合领域知识和数据分析过程的基于分解的思路
  1. 建立子模型:针对特定的场景和少数的变量建立简单的子模型。模型的复杂,本质上是场景的复杂,在大数据的背景下,数据有可能具有遍历各种场景的可能性。
  1. 子模型的迭代与综合:为了便于模型应用在各种不同的场景,需要把模型综合起来。综合的过程一般是求精的迭代过程,通过发现问题,不断修正和完善子模型,实现实用化的综合。
经典统计分析方法的问题在于先验知识不足,推荐的方法就是首先在数据分析的过程中确定先验知识,然后用统计分析方法建立子模型
  • 将判断模型是否符合某些先验条件,作为前置性的工作。
  • 通过对数据的选择和处理,让它符合先验条件。
经典统计建模最基本的要求是干扰的随机性,剔除系统干扰(没有纳入模型输入变量的因素):
  • 固定系统干扰因素为“常数”
  • 计算出系统干扰的作用并剔除

优化过程

驱动力是模型在某些场景下出现的“异常”或者“误差”,优化的过程就是找出产生误差的具体原因的过程。大体原因有两种:
  • 间接原因引发的:原因背后隐藏的更加深层次的原因,如检测过程出现差错。
  • 几个因素共同作用的结果:模型遇到一个特殊的奇点时,应该首先与领域专家讨论,然后再用数据来验证可能的情况。

特征工程

  1. 初步筛选:从最基本的因果关系出发,根据领域人员的建议,找到理论上相对重要的变量(不存在的时候,再去找与之相关的变量)。在此基础上,通过简单有效的算法(回归分析、方差分析等),找出相对重要的变量(未必真正重要)。
  1. 特征变换:采用特征提取技术、特征变换技术,基于原始数据字段加工出能有效表征影响因变量属性的高阶特征。主要技术有分层(连续属性划分特定区间)、标准化(同一量纲)和函数变换(改变数据分布特征)
  1. 特征组合:基于原始特征和变换特征,选择两种及其以上的特征、采用某种组合特征得到高阶特征的一种方法。
  1. 特征筛选:在精度允许的情况下,模型应该选择尽量少的变量和特征,以尽量提高模型的可靠性。三种基本方法:基于嵌入(Embed)的方法、基于封装(Wrapper)的方法、基于过滤(Filter)的方法。
  1. 特征迭代:当模型出现较大误差时,我们往往需要考虑增加一些特征,挖掘更深层组合因子。

算法介绍

传统的统计分析类算法

  • 数据的离散趋势描述方法
  • 集中趋势描述方法
  • 多元统计学方法
  • 方差分析
  • 功效分析
  • 假设检验分析
  • 列联表分析
  • 对应分析
🗒️
工业大数据分析算法(一):传统统计分析类

通用的机器学习类算法

  • 分类算法:包括决策树、随机森林、梯度提升树算法、Bayes类算法等
  • 聚类算法:包括基于网格聚类算法、基于距离聚类算法、基于密度的聚类算法、谱聚类算法等
  • 回归算法:线性回归算法、广义线性回归算法、弹性网络回归、岭回归、样条函数回归等
  • 关联规则挖掘算法:Apriori算法,FTP 算法等
  • 数据异常处理算法
  • 缺失值处理算法

针对旋转设备的振动分析类算法

  • 时域分析算法:主要提取设备振动的时域特征,如峭度、斜度、峰度系数等
  • 频域分析算法:主要从频域的角度提取设备的振动特征,包括高阶谱算法、全息谱算法、倒谱算法、相干谱算法、特征模式分解等
  • 时频分析算法:综合时域信息和频域信息一种分析手段,对设备的故障模型有较好的提取效果,主要有短时傅里叶变换、小波分析等

针对时序数据的时间序列类算法

  • 预测算法:ARIMA,GARCH 等
  • 异常变动模式检测算法:包含基于统计的方法、基于滑动窗窗口的方法等
  • 分类算法:包括SAX算法、基于相似度的方法等
  • 分解算法:包括时间序列的趋势特征分解、季节特征分解、周期性分解等
  • 频繁模式挖掘,典型时序模式智能匹配算法(精准匹配、保形匹配、仿射匹配等):包括MEON算法、基于 motif 的挖掘方法等
  • 切片算法:包括 AutoPlait 算法、HOD-1D 算法等

针对非结构化数据的文本挖掘类算法

  • 分词算法
  • 关键词提取算法
  • 词向量转换算法
  • 词性标注算法

统计质量控制类算法

  • 基于SPC的控制方法
  • 基于EWMA控制图的控制方法
  • 六西格玛的方法

排程优化类算法

  • 线性规划
  • 整数规划
  • 混合整数规划
  • 动态规划
  • 分支定界
  • 基于图论的网络模型优化
  • 启发式算法

验证与评估

知识的质量

  1. 知识是信息的关联一部分信息可以推断另外一些信息,但是这些推断有确定性高低之分
      • 确定性高:寒潮→降温
      • 确定性低:打雷→下雨
      确定性的量化:准确性
  1. “真理跨出一步就变成谬误”,研究知识的适用范围避免知识的失效。
  1. 所谓的可靠知识,就是适应范围明确的前提下,知识或模型的精度和确定性足够高。

传统数据分析方法

不同模型精度相近,难以确定孰优孰劣。
  • 平均精度高的模型,偶尔出现严重偏差。
  • 模型精度在使用中莫名其妙地降低。
精度、可靠度和真实性、一致性的丧失。精度和可靠度可能产生矛盾,就不能单凭精度来评估模型是否可用。

原因

  • 变量存在检验误差时,最佳估计往往不是“无偏估计”,而是“有偏估计”。这意味着精度最高的模型,在物理意义上是“错误”且外延性差的。
    • 有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值。 系统误差(Systematic error)是指在重复性条件下,对同一被测量进行无限多次测量所得结果的平均值与被测量的真值之差。
  • 为了提高模型的精度,往往选择复杂模型,但模型复杂程度高时泛化性却可能降低。
  • 特征和变量只能在有限的数据来源中选取,往往不理想。
  • 顾此失彼的问题也可能导致精度和适用范围的矛盾。

方法

  • 依靠先验知识的经典统计方法:用概率的思想和方法来衡量预测结果的可靠性,但是现实的数据是否符合这些假设却常常是无法确认的。
  • 不依靠先验知识的纯数据建模方法:把训练样本和验证样本分开,要求新增样本与建模和验证样本都是独立同分布的,而在现实中这样的条件未必能够满足。

基于领域知识

评估模型在什么范围内有效,而不仅仅看平均精度,需要分场景检验模型
工业大数据分析涉及到很多自变量,它们的变化范围就构成了模型“自然”的范围。构建变量的“超立方体”,对“超立方体”的顶点进行评估,并补充考虑以下几种情况:
  1. 非线性:现实的工业对象往往是非线性的,在某些内部的空间点上可能形成突变或者非单调的影响。对于这样的一些内部区域,必须要单独评估。
  1. 逻辑变量:模型往往会涉及到很多逻辑变量。逻辑变量发生变化时,会引发模型、综合指标或其他变量含义的变化。理论上讲,某个逻辑变量不同时,模型要重新验证。从某种意义上说,就是在不同的场景下验证模型。
  1. 时变检验:反映真实客观规律的模型往往不随时间变化。对于这样的一些模型,一般要验证模型误差的时变性。如果模型的误差与时间关联度太高,就说明模型遗漏了重要的因素。
  1. 次要变量检验:在现实中,影响工业对象的要素非常多,为了便于分析往往不得不忽视一些“次要”的因素。但是,这些“次要”的因素在某些情况下可能变得非常重要。模型完成之后,应该尽可能对地对“次要”变量的影响做一个检验。
当顶点数量过多,或没有样本来支撑某些场景的检验时,就依赖于人对领域知识的认识来确定需要具体分析的场景。
不能计较个别样本的预报精度,而是着眼于某个场景的平均精度。这时,希望某个场景下的所有样本是“独立同分布的”,即误差服从某些统计规律。如果不是这样,则可能需要找出新的影响因素或者把场景进一步细化
如果场景分得粗,有些问题就不容易发现;但如果分得过细,就需要验证太多种场景。
数据分析的本质是提取共性,所以分析过程希望尽量少的分场景建模,除非不分场景会导致很大的误差,一般来说不会分出太多的场景。

模型的部署

部署一般是指从模型中找到知识,并以便于用户使用的方式重新组织起来,其成果可以是研究报告、也可以是可重用的数据挖掘程序或者是模型服务程序

模型部署前应考虑的问题

“知识本身不是力量、会用知识才是力量”。学会部署就是学会应用知识
数据分析是用来发现新知识的。但是,在没有发现新知识之前,人们也能把过去的工作进行下去,只是有了新的知识可能做得更好
新知识的应用应该在标准化的基础上与业务流程相结合,避免旁落在标准的工作流程之外。
最理想的做法是把相关知识纳入管理或者控制流程,实现自动化或者智能化

实施和运行中的问题与解决方法

数据质量

劣化数据无法被剔除。
  • 改善数据收集:通过管理或技术手段,提高数据的质量、防止数据出错。
  • 限制应用范围:当数据出现质量问题的迹象时,停止模型相关的新功能。

运行环境

响应时间(实时性)、计算效率、存储量、稳定性。
  • 实时性:Flink、Spark、Storm流处理框架。
  • 计算效率:近似算法、并行算法和流式算法。
  • 存储量:HDFS、OSS、Swift。
  • 稳定性:集群计算框架,自动分发任务与重试。

精度劣化

建模和应用时样本分布不一致。
  • 采用本质性的关联,让模型与科学原理更好地融合。
  • 定期、不定期地重新修正模型,并尽量争取实现模型自动修正

范围变化

产品、设备、原料、工艺的改变使模型失效。
  • 把模型的应用限制在经过检验的特殊范围内,而范围要结合领域知识来确定。
  • 增强模型的鲁棒性和泛化性,或采用信息融合技术,在面对不同的条件输入下使模型仍能取得满意的效果,或者至少不至于劣化到无法使用。

持续优化

  • 精度的提高:
    • 适用范围的扩大:
      • 知识的增加:
        •  
      GMM高斯混合模型与EM算法Windows下DirectML的不严谨试用与评测