12577 智能数据处理
南京信息工程大学编(2018年)
本课程使用教材为:《物联网大数据处理技术与实践》,王桂玲、王强等编著,电子工业出版社,2017年版。
Ⅰ 课程性质与课程目标
一、课程性质和特点
本课程是针对物联网工程专业开设的专业必修课,是为从事科学研究、理论研究、工程实践提供基本知识储备和基本训练的基础理论性课程。本课程以理论联系实际为特点介绍设计处理、分析和应用方法与技术,是物联网工程学科的重要内容、核心与趋势。课程通过系统地分析物联网中各类感知数据的特点及相应的事务处理特性,针对互联网场景下的物联网数据提出了三层的物联网数据处理技术体系。在此基础上,就相关技术发展进行深入的探讨和分析。通过介绍物联网相关应用产品,以及这些产品在智能交通、智能电厂、教育、安全监控等不同领域的应用,使学生在理论学习的基础上,能够对物联网应用的开发及两化融合、工业4.0环境下的数据处理分析提供重要的指导。通过本课程内容的学习,能够使学生对物联网大数据的发展、处理、分析、服务和应用的工程化方法有较为系统和完整的理解。以这些内容作为对智能数据处理技术的代表和延伸,旨在传递概念、方法和技术内涵与理论,为学生进一步学习和研究面向数据科学的方法和技术提供支撑。
本课程的目的主要是培养学生对数据科学研究的兴趣和数据处理的初步能力。培养学生分析数据与处理数据的基本能力,并提高数据服务实践应用的能力。通过本课程的学习,将使得学生能够对物联网产业及数据处理相关技术有初步的认识,对物联网大数据处理和分析有进一步的理解,并获得更多实践的体会。最后,通过本课程的学习,还将加深物联网工程专业的学生对本专业基本理论的理解及科学解决本专业相关问题的能力。
二、课程目标
作为物联网工程专业的专业主干课,要求学生了解物联网大数据的源起与发展趋势,物联网大数据处理的挑战和相应的计算体系;熟悉感知数据特性与模型,以及相应的物联网感知数控系统;掌握物联网感知数据库系统的设计、关键技术及部署体系;能够面对物联网感知数据处理的实时性需求给出解决办法,对实时性事务的实时调度、并发控制及事务的执行模式与框架有深入的理解,从而为这类系统的开发实现提供有价值的参考;领会物联网大数据在云端的存储管理,了解物联网大数据的计算与分析技术;了解物联网大数据处理的三个层次中对应的产品以及这些产品的成功应用案例,为开展物联网大数据的实际应用工作打下基础。本课程的目标大致包括:
1.掌握物联网大数据的概念、特征、技术体系及相关关键技术;
2.熟悉物联网数据处理的应用背景,对数据处理对象所在的系统完整过程有较全面的认识,对数据处理之前的过程有基本的理解;
3.熟悉智能数据处理的应用情况,在感知数据库系统与云平台的基础上,通过数据处理在智能交通、智能电厂、教育、安全监控等领域的应用案例学习,理解物联网感知、传输、处理三个阶段的特点和详细过程。
三、与相关课程的联系与区别
《智能数据处理》是江苏省高等教育自学考试物联网工程专业(本科段)必修的专业课程,与物联网工程专业的许多其他课程有着密切的关系。《计算机技术基础》、《数据库技术》、《数据通信与网络》等课程是本课程的基础。
四、课程的重点和难点
本课程的重点之一是物联网大数据处理的关键技术,包括物联网大数据技术体系、感知数据特性与模型、感知数据库管理系统、实时事务调度处理技术、物联网大数据存储与管理、物联网大数据技术与分析几部分内容,尤其是物联网大数据存储与管理、物联网大数据技术与分析部分,需要掌握其技术细节。
本课程的重点之二是物联网大数据处理对象的应用产品研发,包括物联网网关CubeOne,ChinaDB感知数据库系统,DeCloud物联网大数据云平台几部分内容。需要熟悉这些产品的组成结构、功能特点及数据处理技术。
本课程的难点是物联网大数据处理的关键技术,包括感知数据库管理系统、实时事务调度处理技术、物联网大数据存储与管理、物联网大数据技术与分析几部分内容。尤其是物联网大数据技术与分析部分,对物联网大数据批处理技术、物联网大数据交互式查询、物联网大数据流式计算、物联网大数据分析等内容,需要深入掌握各类技术细节。
Ⅱ 考核目标
本大纲在考核目标中,按照识记、领会、简单应用和综合应用四个层次规定其应达到的能力层次要求。四个能力层次是递进关系,各能力层次的含义是:
识记(Ⅰ):要求考生能够识别和记忆本课程中有关物联网数据处理的相关名词、概念、知识的含义,并能够根据考核的不同要求,进行正确的表述和选择。
领会(Ⅱ):要求考生能够领悟和理解本课程中有关物联网的概念、理论和方法技巧的内涵及外延,能够鉴别关于概念和特性的似是而非的说法,理解相关物联网知识的区别和联系,能根据考核的不同要求对相关物联网数据处理知识进行论证,做出正确的解释和说明。此外;并能根据考核的不同要求分析各种不同领域或背景下所使用的数据处理和分析技术
简单应用(Ⅲ):要求考生能够根据已知的物联网数据处理对象的一个应用需求或应用背景,提出可以采用的数据处理技术,比如感知数据库管理方面、实时事务调度管理方面、大数据存储与管理方面、大数据分析方法等。能够分析和解决有关的物联网大数据理论问题和实际问题,并得出正确的结论。
综合应用(Ⅳ):要求考生能够根据已知的物联网大数据的多个知识点,分析和解决有关的物联网理论问题和实际问题,并得出解决问题的综合方案。对物联网大数据处理的相关应用具有一定的分析和设计能力,在相关产品的组成结构、功能特点及数据处理技术方面具有一些基本的见解。
Ⅲ 课程内容与考核要求
第一章 物联网与产业发展
一、学习目的与要求
通过本章学习,要求了解物联网产业的发展历史,理解传感器与智能硬件的概念,了解物联网服务平台,了解工业4.0与CPS;理解物联网与大数据的概念及关系;理解物联网产业面临的挑战,理解物联网操作系统与数据库,理解物联网大数据处理与应用。
二、课程内容(考试内容)
1.1联网产业的发展
1.1.1传感器与智能硬件
1.1.2物联网服务平台
1.1.3工业4.0与CPS
1.2物联网与大数据
1.3物联网产业的机遇与挑战
1.3.1物联网产业面临的挑战
1.3.2物联网操作系统与数据库
1.3.3物联网大数据处理与应用
三、考核知识点与考核要求
1. 物联网产业的发展
领会:传感器与智能硬件。
简单应用:物联网服务平台,工业4.0与CPS
2. 物联网与大数据
领会:物联网与大数据的概念、关系、作用意义。
3. 物联网产业的机遇与挑战
领会:物联网产业面临的挑战,物联网操作系统与数据库,物联网大数据处理与应用。
四、本章关键问题
物联网与大数据,物联网操作系统与数据库,物联网大数据处理与应用。
第二章 大数据处理技术的发展
一、学习目的与要求
通过本章学习,掌握大数据的基本概念及其剖析过程,理解大数据的若干关键技术,并进行适当的总结,理解大数据技术对整个产业链的调整和重构,对经济转型的推动作用。理解大数据技术为发展物联网等新兴产业和促进传统产业升级提供的基础作用。了解大数据面临的挑战,尤其是其规模效应给数据存储、管理及分析所带来的巨大压力,了解大数据技术的发展趋势。本章要求从三个方面学习大数据处理技术的发展,包括大数据存储和管理技术,大数据计算技术和大数据分析技术。
二、课程内容(考试内容)
2.1大数据存储和管理技术
2.1.1面向大数据的文件系统
2.1.2面向大数据的数据库系统
2.2大数据计算技术
2.2.1批处理计算模式
2.2.2交互式查询计算模式
2.2.3流处理计算模式
2.2.4大数据实时处理的框架:Lambda架构
2.3大数据分析技术
2.3.1传统结构化数据分析
2.3.2文本数据分析
2.3.3多媒体数据分析
2.3.4社交网络数据分析
2.3.5物联网传感数据分析
2.3.6大数据分析技术的发展趋势
三、考核知识点与考核要求
1. 大数据存储和管理技术
识记:三类面向大数据的数据库系统。
领会:面向大数据的文件系统,面向大数据的数据库系统的基本思想和应用。
2. 大数据计算技术
识记:大数据的两类处理模式;流处理计算模式的概念和两种典型的处理方式。
领会:批量数据的3个特征。
简单应用:MapReduce编程模型,理解其技术优势和局限性;交互式数据处理的代表系统Spark系统、Dremel系统;流式数据处理的典型应用Storm系统、Samza系统、Spark Streaming系统;大数据实时处理的框架:Lambda架构。
3. 大数据分析技术
识记:针对不同数据类型,所采用的大数据分析技术;文本分析技术中的信息提取、主题建模、摘要、分类、聚类、问答系统和观点挖掘技术。
领会:大数据分析技术的必要性;传统结构化数据分析;文本数据分析;多媒体数据分析;社交网络数据分析;物联网传感数据分析;大数据分析技术的发展趋势
四、本章关键问题
面向大数据的数据库系统、批处理计算模式、大数据实时处理的架构Lambda架构、大数据分析技术。
第2篇 技术解析篇
第三章 物联网大数据技术体系
一、学习目的与要求
本章包括物联网中的大数据挑战和技术体系。通过本章学习,对物联网中产生的感知数据发展有较为深入的理解,了解从工业企业自动化生产线及设备上的运行数据,以及随着工业4.0推进而带来的数据爆炸,感知数据呈现几何级数增长的数量对物联网大数据的获取、传输、存储、分析、挖掘及应用面临的各种挑战。理解互联网大数据和物联网大数据的异同,掌握物联网大数据的特征5HV。了解物联网大数据应用面临的技术需求及价值目标,及在此基础上进一步提出的面向物联网大数据进行处理分析的技术体系。掌握感知数据的概念,掌握物联网应用中的两种数据即结构化数据和半结构化数据。掌握物联网中感知数据处理的三个层次,感知数据的采集与传输、感知数据管理与实时计算、物联网平台与大数据中心。
二、课程内容(考试内容)
3.1物联网中的大数据挑战
3.1.1互联网大数据的特征
3.1.2物联网大数据的特征
3.2技术体系
3.2.1感知数据采集与传输
3.2.2感知数据管理与实时计算
3.2.3物联网平台与大数据中心
三、考核知识点与考核要求
1. 物联网中的大数据挑战
识记:互联网大数据的特征5V;物联网大数据的特征5HV。
领会:数据的可视化;工业大数据分析技术所需解决的”3B”问题;物联网大数据的管理与处理分析需要解决的问题与挑战;感知数据管理与实时计算。
2. 技术体系
识记:感知数据采集与传输所实现的功能;物联网网关的分类;物联网网关需要具备的能力。
领会:感知数据处理的三层体系结构;。
简单应用:物联网大数据处理平台的部署;物联网平台。
四、本章关键问题
互联网大数据与物联网大数据的特征、异同点,感知数据采集与传输,物联网平台与大数据中心。
第四章 感知数据特性与模型
一、学习目的与要求
通过本章学习,理解感知数据的特性,掌握感知数据的表示,理解感知数据模型。掌握感知数据库的定义,能够对感知数据库与传统数据库及NoSQL的异同进行简要的分析,掌握感知数据库系统与传统的流数据处理系统共同点和差异之处。
二、课程内容(考试内容)
4.1 感知数据的特性分析
4.1.1 常用的感知数据类型
4.1.2 感知数据的主要特征
4.2 感知数据的表示与组织
4.2.1 物联网数据模型
4.2.2 时态对象模型
4.3 感知数据库的定位
4.3.1 感知数据库的定位
4.3.2 感知数据库的特征
4.4 感知数据库与传统数据库
4.4.1 感知数据库与关系数据库
4.4.2 感知数据库与实时数据库系统
4.4.3 感知数据库与工厂数据库系统
4.4.4 感知数据库与流数据处理系统
三、考核知识点与考核要求
1. 感知数据的特性分析
识记:常用的感知数据类型,感知数据的主要特征。
领会:时态属性带来数据时态一致性要求所包括的两个方面,事件触发中的两类事件。
2. 感知数据的表示与组织
识记:感知对象的属性。
领会:物联网数据模型,时态对象数据模型。
简单应用:OPC对象模型。
3. 感知数据库的定位
识记:感知数据库的定位。
领会:感知数据库的功能定位,感知数据库的基本特征。
4. 感知数据库与传统数据库
识记:流数据的概念,流数据应用需求的例子。
领会:关系数据库和感知数据库的对比,感知数据库与实时数据库系统,感知数据库与工厂数据库系统,感知数据库与流数据处理系统,流数据处理系统的需求来源,感知数据库系统与传统的流数据处理系统共同点和差异之处。
四、本章关键问题
感知数据的特性分析,物联网数据模型,时态对象数据模型,感知数据库的功能定位和基本特征,感知数据库系统与传统的流数据处理系统共同点和差异之处。
第五章 感知数据库管理系统
一、学习目的与要求
基于感知数据的特征需求,本章阐述感知数据库系统的设计、架构及其中的关键技术。通过本章学习,掌握感知数据库系统的设计原则和设计框架。掌握感知数据库的分布部署在系统分级、分区管理的需求,以及在高性能与高可用性上的需求,理解系统高可用性的分布部署模式是整个系统分布部署的基础环节。理解感知数据库所面临的数据多元性及处理需求的特殊性,掌握感知数据库系统设计中多方面的关键技术,从数据采集到数据存储管理,以及数据处理、查询访问的多个方面。在概念掌握之外,要求对各种模型、体系结构、算法等有较多的理解。
二、课程内容(考试内容)
5.1 感知数据库的总体设计
5.1.1 总体设计的主要原则
5.1.2 感知数据库的设计框架
5.2 感知数据库的分布部署体系
5.2.1 系统的集群部署模式
5.2.2 多层级的系统部署体系
5.2.3 服务分布的部署体系
5.3 感知数据库中的关键技术
5.3.1 智能设备及传感器接口技术
5.3.2 流数据实时在线处理技术
5.3.3 事件驱动的高效处理机制
5.3.4 感知数据的压缩存储技术
三、考核知识点与考核要求
1.感知数据库的总体设计
识记:感知数据库系统的设计需要满足及遵循的原则,网闸设计及其结构。
领会:数据采集协调器,数据组织管理器,内存数据管理器,历史数据管理器,实时事务调度中心,数据订阅/发布中心,数据同步服务器,内网处理单元,外网处理单元,隔离与交换控制单元,日志管理器,应用接口服务器。
简单应用:感知数据库的设计框架。
2.感知数据库的分布部署体系
识记:两种不同标准下的集群分类,高性能集群的目的、应用环境,负载均衡集群概念、目的、应用场合,高可用性集群概念、应用领域,数据库集群的实现方式。
领会:几种典型数据库集群如Oracle实时应用集群(RAC)、IBM DB2,MSCS和镜像等,多层次的系统部署体系,服务分布的部署体系。
简单应用:双机热备与镜像,数据库系统的双机部署模式,多点集群,数据库系统的三级部署体系,感知数据库系统的服务分布部署体系。
3. 感知数据库中的关键技术
识记:插件特点,感知数据库工作原理(结合图文),事件驱动系统,事件驱动框架(EDA)概念,给予订阅/发布的实时消息通信体系提供的功能,在线压缩技术更加有效的几种情况。
领会:智能设备及传感器接口技术,感知数据采集协调器的框架和插件模型,感知数据采集协调器的数据交互模型,感知数据的流数据处理典型特征,流数据在线处理过程针对采集的数据进行的常规处理内容,EDA特点,数据的订阅/发布,消息的调度对消息传输的影响,复合事件处理技术,规则语言和持续查询语言的比较,用复杂事件处理技术替代普通编程语言来实现应用的好处,感知数据的压缩存储技术,数据存储管理采用的管理体制,数据在线压缩技术,感知数据的索引技术。
简单应用:系统文件队列支持定制的举例(SEG-Y或SEG-D),数据在线压缩技术中的死去压缩算法,旋转门趋势化(SDT)算法。
四、本章关键问题
感知数据采集协调器的框架和插件模型,感知数据采集协调器的数据交互模型,感知数据库的分布部署体系,感知数据的流数据处理,复合事件处理技术,数据在线压缩技术,感知数据的索引技术。
第六章 实时事务调度处理技术
一、学习目的与要求
本章主要针对物联网、工业4.0、智能制造等理念及产业的发展中物物之间及人与物之间越来越强的的感知与交互需求,分析感知事物的特性,探讨感知事务的调度方法及并发控制方法,基于目前硬件的计算能力与系统架构,提出可行的、优化的实时事务执行框架及模式。通过本章学习,掌握常见事务及其特性,理解事务调度方法和并发控制策略,理解服务器体系结构与发展过程,了解操作系统的多任务机制,理解事务的执行框架与模式,了解系统框架的分析与性能优化。
二、课程内容(考试内容)
6.1 常见事务特性分析
6.1.1 感知事务
6.1.2 触发事务
6.1.3 用户事务
6.2 事务调度与并发控制
6.2.1 事务的调度方法
6.2.2 并发控制策略
6.3 服务器与操作系统
6.3.1 服务器体系结构与发展
6.3.2 操作系统的多任务机制
6.4 事务的执行框架与模式
6.4.1 通用系统模型与调度方法
6.4.2 事务处理框架的设计模式
6.5 系统框架的分析与性能优化
三、考核知识点与考核要求
1.常见事务特性分析
识记:事务分类,感知事务、触发事务、用户事务的概念,触发事务分类。
领会:触发事务的任务和特点。
2.事务调度与并发控制
识记:事务调度的目标,方法的目的,
领会:事务调度和控制的过程,并发控制策略。
3.服务器与操作系统
识记:商用服务器分类,持续、进程与线程的概念。
领会:SMP体系结构的概念及特征,NUMA体系结构的概念及特征,MPP体系结构的概念及特征,NUMA和MPP的比较(异同点),进程与线程的关系。
简单应用:Linux操作系统体系结构,Linux进程调度原理。
4.事务的执行框架与模式
识记:数据分类。
领会:通用的数据库系统模型(结合图文),通用系统模型与调度方法,事务处理框架的设计模式,单进程多线程模式,单进程多线程的事务调度处理框架,基于功能划分的多进程模式,基于功能划分的数据库多进程系统模型,基于数据分区的多进程框架。
简单应用:多进程模型的优点。
5系统框架的分析与性能优化
识记:系统设计模式分类,多线程服务程序中的线程分类。
领会:系统框架的分析过程,性能优化的因素。
四、本章关键问题
本章难点在于事务的执行框架与模式,主要有通用的数据库系统模型(结合图文),通用系统模型与调度方法,事务处理框架的设计模式,单进程多线程模式,基于功能划分的多进程模式,基于数据分区的多进程框架。
第七章 物联网大数据存储与管理
一、学习目的与要求
本章是课程的重点章节之一,在学习本章内容之前,需要对物联网中大量的传感器采集的数据连续不断地向物联网大数据中心传递形成的海量物联网数据之特点有较好的掌握,包括海量性、高纬度和部分稀疏特性、实况相关性、序列性与动态流式特性等,针对这些物联网大数据存储与管理的挑战,本章主要学习利用云文件系统、NoSQL数据库系统来解决问题。通过本章学习,要求掌握云文件系统的关键技术,理解HDFS的目标和基本假设条件,掌握HDFS体系架构,理解HDFS实现中的性能保障;掌握NoSQL数据库关键技术,理解NoSQL数据库的概念,理解NoSQL数据库的优势和劣势,掌握HBase数据库系统概念、HBase数据模型和HBase系统架构。理解基于NoSQL数据库的物联网大数据存储于管理,掌握基于HBase的物联网数据库设计技术,掌握基于HBase的物联网数据库写入技术。
二、课程内容(考试内容)
7.1 云文件系统的关键技术 99
7.1.1 HDFS的目标和基本假设条件 99
7.1.2 HDFS体系架构 100
7.1.3 性能保障 102
7.2 NoSQL数据库关键技术 106
7.2.1 NoSQL数据库概述 106
7.2.2 基于NoSQL数据库的物联网大数据存储与管理
三、考核知识点与考核要求
1.云文件系统的关键技术
识记:系统设计的核心目标。
领会:硬件失败,流式数据存取,大数据集,简单的一致性模型,异构软硬件平台的可移植性,HDFS体系架构(HDFS逻辑分层结构),HDFS的性能保障(HDFS元数据操作、数据块的读/写、错误处理、垃圾回收、访问接口)。
简单应用:HDFS物理部署实例,HDFS系统管理,HDFS的机架感知技术(原理、数据库复制策略、网络距离的计算、节点组织图)。
2.NoSQL数据库关键技术
识记:常见的NoSQL数据库及其分类,HBase数据模型(表,行,版本号,数据项),HBase的表和分区、分区和存储块概念,HBase访问接口。
领会:NoSQL数据库的优势和劣势,HBase数据库系统,HBase系统架构,集群组织架构,基于NoSQL数据库的物联网大数据存储与管理,基于HBase的物联网数据库设计技术(RowKey的设计、列族和列的设计),基于HBase的物联网数据库写入技术,HBase数据数据缓冲。
简单应用:数据存储服务详细设计。
四、本章关键问题
重点和难点:HDFS的机架感知技术,NoSQL数据库的优势和劣势,HBase数据库系统,HBase系统架构,基于HBase的物联网数据库设计技术,基于HBase的物联网数据库写入技术。
第八章 物联网大数据计算与分析
一、学习目的与要求
本章是课程的最重要的章节之一,需要学生从理论上深入学习物联网大数据的计算与分析技术。通过本章学习,要求理解物联网大数据批处理计算,掌握MapReduce的设计思想,理解MapReduce的工作机制,理解MapReduce在物联网大数据中的应用,掌握物联网大数据交互式查询,理解原生SQL on HBase,理解SQL on Hadoop,掌握基于HBase的交互式查询,掌握物联网大数据流式计算,掌握流式计算的需求特点,掌握流数据基本概念,掌握流数据查询操作,掌握基于云计算的流数据聚集查询操作,掌握流数据定制化服务,理解评测基准,理解Spark Streaming及其在物联网大数据中的应用,理解物联网大数据分析计算,理解物联网大数据OLAP多维分析,理解ROLAP方式的交互式大数据分析,理解MOLAP方式的多维交叉大数据分析,理解物联网大数据深层次分析,理解城市交通物联网大数据分析流程和工业物联网大数据分析流程。
二、课程内容(考试内容)
8.1 物联网大数据批处理计算
8.1.1 MapReduce的设计思想
8.1.2 MapReduce的工作机制
8.1.3 MapReduce在物联网大数据中的应用
8.2 物联网大数据交互式查询
8.2.1 原生SQL on HBase
8.2.2 SQL on Hadoop
8.2.3 基于HBase的交互式查询
8.3 物联网大数据流式计算
8.3.1 流式计算的需求特点
8.3.2 流数据基本概念
8.3.3 流数据查询操作
8.3.4 流数据定制化服务
8.3.5 评测基准
8.3.6 Spark Streaming及其在物联网大数据中的应用
8.4 物联网大数据分析 150
8.4.1 物联网大数据OLAP多维分析
8.4.2 物联网大数据深层次分析
三、考核知识点与考核要求
1.物联网大数据批处理计算
识记:MapReduce的设计思想,工业物联网数据类型。
领会:,MapReduce的工作机制,MapReduce的总工作流程。
简单应用:MapReduce在物联网大数据中的应用。
2.物联网大数据交互式查询
识记:Hive概念。
领会:原生SQL On HBase,SQL on Hadoop,基于HBase的交互式查询。
简单应用:基于SQL语句的底层数据库调度过程。
3. 物联网大数据流式计算
识记:流数据基本概念,流数据处理系统分类,固定窗口,界标窗口,华东窗口,窗格式窗口和翻滚式窗口,流式处理规则(转换规则、检测规则),声明式语言和命令式语言,常用的算子运算符。
领会:感知数据流式计算的需求特点,流数据处理的一般功能模型,流数据处理的算子,流管理运算符,Bag集合运算符,聚集操作运算符,“增量式”思想的应用,流数据查询操作,流数据连接查询操作,基于云计算的流数据聚集查询操作,流数据上的滑动窗口聚集操作优化方法,流数据中的高级查询操作,利用云计算环境提升流数据查询处理性能和效率的思想,流数据定制化服务,评测基准。
简单应用:大规模流数据服务模型与传统数据服务模型的比较,Stream Feed流数据服务抽象模型,流数据服务托管案例。
综合应用:Spark Streaming及其在物联网大数据中的应用(优势,场景分析,示例设计,示例实现)。
4. 物联网大数据分析
识记:OLAP的实现方法。
领会:传统数据分析和物联网大数据分析的对比,物联网大数据OLAP多维分析,ROLAP方式的交互式大数据分析,MOLAP方式的多维交叉大数据分析,物联网大数据深层次分析,FP-Growth算法思路,基于Spark的并行FP-Growth处理计算框架及算法的计算步骤。
简单应用:Kylin的方案和架构,Pinot的方案、架构和实时数据分析,Druid的方案和架构。
综合应用:城市交通物联网大数据分析流程(结合图文):问题建模,准备数据,使用算法或训练算法,工业物联网大数据分析流程(结合图文):信号处理,特征提取,健康评估,健康预测与诊断,可视化呈现与可视化分析。
四、本章关键问题
重点和难点:MapReduce的工作机制,流数据查询操作,物联网大数据OLAP多维分析,物联网大数据深层次分析,城市交通物联网大数据分析流程,工业物联网大数据分析流程。
第3篇 产品研发篇
第九章 物联网网关CubeOne
一、学习目的与要求
本章为物联网大数据处理系统的具体应用,主要介绍物联网网关CubeOne,通过本章学习,要求了解工业物联网网关CubeOne的基本情况,理解无线传感器网络网关,了解无线传感器网络概述,理解ZigBee-WiFi网关,理解ZigBee-WiFi网络应用案例。
二、课程内容(考试内容)
9.1 工业物联网网关
9.1.1 CubeOne产品概述
9.1.2 CubeOne功能特点
9.1.3 CubeOne的应用领域
9.2 无线传感器网络网关
9.2.1 无线传感器网络概述
9.2.2 ZigBee-WiFi网关
9.2.3 ZigBee网络应用案例
三、考核知识点与考核要求
1. 工业物联网网关
识记:CubeOne功能特点。
领会:CubeOne产品概述,CubeOne的应用领域。
2. 无线传感器网络网关
识记:无线传感器网络特点。
领会:无线传感器网络概述,无线传感器网络典型结构,ZigBee-WiFi网关。
简单应用,ZigBee-WiFi网络应用案例
四、本章关键问题
重点:无线传感器网络概述,无线传感器网络典型结构,ZigBee-WiFi网络应用案例。
第十章 ChinDB感知数据库系统
一、学习目的与要求
本章为物联网大数据处理系统的实践部分,主要介绍ChinDB感知数据库系统。通过本章学习,要求理解ChinDB概念,理解ChinDB组成与功能特点,理解ChinDB数据组织管理,,理解ECA规则与实时计算,掌握ChinDB的HA方案,了解HA概念及模式分类,理解ChinDB HA的两种部署模式,理解物联网应用平台,了解平台结构和主要特点,了解应用领域与应用案例。
二、课程内容(考试内容)
10.1 ChinDB系统概述
10.2 ChinDB组成与功能特点
10.3 ChinDB数据组织管理
10.3.1 标签点及其属性
10.3.2 标签点的组织方式
10.3.3 关系数据管理
10.3.4 历史数据管理
10.4 ECA规则与实时计算
10.5 ChinDB的HA方案
10.5.1 HA概述及模式分类
10.5.2 ChinDB HA的部署模式
10.6 物联网应用平台
10.6.1 物联网平台概述
10.6.2 平台主要特点
10.6.3 应用领域与应用案例
三、考核知识点与考核要求
1. ChinDB系统概述
识记:ChinDB系统概念。
领会:ChinDB的特点,支持的操作系统,优点,应用情况。
2. ChinDB组成与功能特点
识记:关系数据与断面查询关联,关系数据与历史查询关联。
领会ChinDB系统组成(结合图),ChinDB的主要功能特点,。
3. ChinDB数据组织管理
识记:标签及其属性,标签点的组织方式,传统组织方式中标签点的组织和索引分层。
领会:面向对象组织方式,关系数据管理,ChinDB历史数据管理。
4. ECA规则与实时计算
识记:ECA概念,
领会:基于ECA规则的实时计算主要实现的功能。
5. ChinDB的HA方案
识记:HA概念,定义式,高可用的三种工作模式。
领会:备份服务器系统,ChinDB HA的部署模式,共享存储部署模式(结合图文),非共享存储部署模式(结合图文)。
6.物联网应用平台
识记:ChinPMC概念。
领会:物联网平台概述,平台主要特点。
简单应用:ChinPMC物联网应用平台。
综合应用:应用领域与应用案例,工业企业应用案例(结合图),智慧矿山应用案例(结合图),智能化装备应用案例(结合图),广域监测监控应用案例(结合图)。
四、本章关键问题
重点:ECA规则与实时计算,ChinDB的HA方案,ChinPMC物联网应用平台,应用领域与应用案例。
第十一章 DeCloud物联大数据云平台
一、学习目的与要求
本章为物联网大数据处理的实践部分,主要关注DeCloud物联网大数据的云平台。通过本章学习,要求掌握DeCloud组成,理解DeCloud软件概述,掌握DeCloud通信服务,掌握DeCloud通信服务,掌握DeCloud计算服务,了解DeCloud数据发布/订阅服务,了解DeCloud在智能交通领域的应用,了解DeCloud在教育物联网云服务平台中的应用,了解DeCloud在电梯安全监控中的应用,了解DeCloud在高精度位置服务中的应用。
二、课程内容(考试内容)
11.1 DeCloud组成
11.1.1 软件概述
11.1.2 通信服务
11.1.3 计算服务
11.1.4 存储服务
11.1.5 数据发布/订阅服务
11.2 DeCloud在智能交通领域的应用
11.3 DeCloud在教育物联网云服务平台中的应用
11.4 DeCloud在电厂设备故障预警的应用
11.5 DeCloud在电梯安全监控中的应用
11.6 DeCloud在高精度位置服务中的应用
三、考核知识点与考核要求
1. DeCloud组成
识记:DeCloud软件概述,DeCloud核心功能定位,DeCloud特点,。
领会:DeCloud通信服务(结合图文),DeCloud通信服务的构造,DeCloud计算服务(结合图文),DeCloud计算服务的构造,DeCloud的存储服务,DeCloud数据发布/订阅服务。
2. DeCloud在智能交通领域的应用
领会:DeCloud4ITS的优势,DeCloud4ITS在线运行的任务,违章嫌疑车辆处理,车辆实时布控预警,实时佳通路况及交通流信息服务,城市车辆综合分析。
简单应用:DeCloud4I5S交通数据处理平台,基于DeCloud平台的智能交通应用系统,
3. DeCloud在教育物联网云服务平台中的应用
识记:DeCloud教育物联网云服务平台中传感数据的生命周期。
领会:DeCloud教育物联网云服务平台总体架构,。
4. DeCloud在电厂设备故障预警中的应用
识记:电厂设备故障的常用检测方法,单侧点数据分析中的孤立点检测法,多测点数据分析中的相关性分析,皮尔逊相关系统公式。
领会:单侧点数据分析,多测点数据分析。
5. DeCloud在电梯安全监控中的应用
识记:国家对电梯运行标准出台的重要政策。DeCloud电梯安全监控云服务系统目标。
领会:DeCloud电梯安全监控云服务系统的运行原理、可选配的传感器。
简单应用:DeCloud电梯安全监管应用系统向用户提供的功能。
6. DeCloud在高精度位置服务中的应用
简单应用:大规模差分数据播发服务工作原理,高精度位置服务平台结构
综合应用:基于高精度位置服务的轨迹及手机GPS对比
四、本章关键问题
重点:DeCloud组成,DeCloud在智能交通领域的应用,DeCloud在电厂设备故障预警中的应用。
Ⅳ 关于大纲的说明与考核实施要求
一、自学考试大纲的目的和作用
课程自学考试大纲是根据专业自学考试计划的要求,结合自学考试的特点而确定。其目的是对个人自学、社会助学和课程考试命题进行指导和规定。
课程自学考试大纲明确了课程学习的内容以及深广度,规定了课程自学考试的范围和标准。因此,它是编写自学考试教材和辅导书的依据,是社会助学组织进行自学辅导的依据,是自学者学习教材、掌握课程内容知识范围和程度的依据,也是进行自学考试命题的依据。
二、课程自学考试大纲与教材的关系
课程自学考试大纲是进行学习和考核的依据,教材是学习掌握课程知识的基本内容与范围,教材的内容是大纲所规定的课程知识和内容的扩展与发挥。
本大纲与教材所体现的课程内容完全一致;大纲里面的课程内容和考核知识点, 在教材里都可以找到。
三、关于自学教材
本课程使用教材为:《物联网大数据处理技术与实践》,王桂玲、王强等编著,电子工业出版社,2017年版。
四、关于自学要求和自学方法的指导
本大纲的课程基本要求是依据专业考试计划和专业培养目标而确定的。课程基本要求还明确了课程的基本内容,以及对基本内容掌握的程度。基本要求中的知识点构成了课程内容的主体部分。因此,课程基本内容掌握程度、课程考核知识点是高等教育自学考试考核的主要内容。
根据物联网工程专业(本科段)的要求,以及本课程的特点,考生在进行自学时应注意以下几点:
1.在学习本课程前,应仔细阅读课程大纲的第一部分,了解课程的性质、地位和任务,熟知课程的基本要求以及与本课程有关的课程的联系,以便使以后的学习能紧紧围绕课程的基本要求。
2.在阅读某一章教材内容前,考生应先认真阅读大纲中关于该章的考核知识点、自学要求和考核要求,注意对各知识点的能力层次要求,以便在阅读教材时做到心中有数,有的放矢。
3.阅读教材时,考生应根据大纲要求,要逐段细读,逐句推敲,集中精力,吃透每个知识点,对基本概念必须深刻理解,基本原理必须牢固掌握,在阅读中遇到个别细节问题不清楚,在不影响继续学习的前提下,可暂时搁置。
4.学完教材的每一章内容后,考生应针对考试大纲列出的关键问题认真复习,以便进一步理解、消化和巩固所学知识,增强分析问题、解决问题的能力。
五、应考指导
1.如何学习
很好的计划和组织是你学习成功的法宝。如果考生正在接受培训学习,一定要跟紧课程并完成作业。为了在考试中做出满意的回答,考生必须对所学课程内容有很好的理解,如使用“行动计划表”来监控你的学习进展。考生阅读课本时可以做读书笔记,可以用彩笔来标注需要重点注意的内容,如红色代表重点、绿色代表需要深入研究的领域、黄色代表可以运用在工作之中。此外,还可以在空白处记录相关网站与文章。
2.如何考试
卷面整洁非常重要。书写工整,段落与间距合理,卷面赏心悦目有助于教师评分,教师只能为他能看懂的内容打分。回答所提出的问题。要回答所问的问题,而不是回答你自己乐意回答的问题!避免超过问题的范围。
3.如何处理紧张情绪
正确处理对失败的惧怕,要正面思考。如果可能,请教已经通过该科目考试的人,问他们一些问题。做深呼吸放松,这有助于使头脑清醒,缓解紧张情绪。考试前合理膳食,保持旺盛精力,保持冷静。
4.如何克服心理障碍
这是一个普遍存在的问题!如果你在考试中出现这种情况,可以试试下列方法:使用“线索”纸条。进入考场之前,将记忆“线索”记在纸条上。但你不能将纸条带进考场,因此当你阅读考卷时,一旦有了思路就快速记下。按自己的步调进行答卷。为每个考题或部分合理分配时间,并按此时间安排进行。要做到心理障碍的排除,还可以试着在考试的时候一边浏览试题一边回顾书本大纲,梳理出一个题目分布的框架,这样你就会对答题有进一步的把握。
六、对社会助学的要求
1.社会助学者应根据本大纲规定的考试内容和考核目标,认真钻研指定教材,明确本课程的特点和学习要求,对考生进行切实有效的辅导,避免考生在自学时可能出现的各种偏向,把握社会助学的正确方向。
2.社会助学者应对考生进行学习方法的指导,向考生提倡“认真阅读教材,刻苦钻研教材,主动提出问题,依靠自己学懂”的学习方法。
3.社会助学者应注意对考生自学能力的培养,使考生逐步学会独立学习,在自学过程中善于提出问题、分析问题、做出判断和解决问题。对考生提出的问题,社会助学者应以启发引导为主。
4.社会助学者应努力引导考生将识记、领会、简单应用和综合应用联系起来,将基本知识转化为识记工作能力,全面培养和提升考生的综合素质。
5.社会助学者应指导考生正确处理重点和一般的关系,帮助考生掌握全部考试内容和考核知识点,切勿孤立地抓重点,将考生引向猜题和押题。
七、对考核内容的说明
本课程要求考生学习和掌握的知识点内容都作为考核的内容。课程中各章的内容均由若干知识点组成,在自学考试中成为考核知识点。因此,课程自学考试大纲中所规定的考试内容是以分解为考核知识点的方式给出的。由于各知识点在课程中的地位、作用以及知识自身的特点不同,自学考试将对各知识点分别按四个认知(或叫能力)层次确定其考核要求。
八、关于考试命题的若干规定
1.本课程采用闭卷考试的方法,考试时间的长度为150分钟。对本课程考试过程中除携带必要的答题用的签字笔和橡皮外,严禁携带其他与考试无关的工具。
2.本大纲各章所规定的基本要求、知识点及知识点下的知识细目,都属于考核的内容。考试命题既要覆盖到章,又要避免面面俱到。要注意突出课程的重点、章节重点,加大重点内容的覆盖度。
3、命题不应有超出大纲中考核知识点范围的题,考核目标不得高于大纲中所规定的相应的最高能力层次要求。命题应着重考核考生对基本概念、基本知识和基本理论是否了解或掌握,对基本方法是否会用或熟练。不应出与基本要求不符的偏题或怪题。
4、本课程在试卷中对不同能力层次要求的分数比例大致为:识记占20%,领会占30%,简单应用占30%,综合应用占20%。
5、要合理安排试题的难易程度,试题的难度可分为:易、较易、较难和难四个等级。每份试卷中不同难度试题的分数比例一般为:2:3:3:2。
必须注意,试题的难易程度与能力层次有一定的联系,但二者不是等同的概念,在各个能力层次中都存在着不同难度的试题。
6、课程考试命题的主要题型一般有单项选择题、判断改错题、填空题、名词解释题、简答题和论述题。
在命题工作中必须按照本课程大纲中所规定的题型命制,考试试卷使用的题型可以略少,但不能超出本课程对题型的规定。
附录 题型举例
一、单项选择题(四个备选答案只有一个正确,将其选出,并填入题内括号中)
1、DeCloud电厂设备故障预警系统的核心是:(B)
A. DeCloud存储服务
B. DeCloud计算服务
C. DeCloud数据发布/订阅服务
D. DeCloud通信服务
2、深度学习通常使用的网络是:(C)
A. 电信网络
B. 无线传感器网络
C. 人工神经网络
D. 数据通信网络
二、判断改错题
1、社交网络数据中的联系数据是一类典型的“元数据”。(×)改正:元数据 图数据
2、大数据是第二经济的核心内涵和关键支撑。(√)
三、填空题
1、在Linux中,一个进程在内存中有三部分数据:“数据段”、“”与“代码段”。(堆栈段)
2、Lambda架构是由Strom的作者Nathan Marz提出的一个框架。(实时大数据处理)
四、名词解释
1、MSCS
答:Microsoft SQL Cluster Server,失败转移集群,是一种基于共享磁盘的高可用集群是操作系统级别的集群。
2、EDA
答:Event-Driven Architecture,事件驱动框架,是实时事件处理的软件框架。
五、简答题
1、简述互联网大数据的特征。
答:(1)数据体量巨大;
(2)数据类型繁多;
(3)价值密度大;
(4)处理速度快;
(5)结果的真实性。
2、简述流数据上的滑动窗口聚集操作的并行划分优化方法。
答:基本的滑动窗口划分方法以窗口为单位将其划分到多个节点上执行,这种方法虽然简单,但由于连续的滑动窗口之间存在元组重叠的情况,导致同一元组划分到多个节点上重复处理。基于批量窗口的划分方法将多个窗口的元组作为一个单元划分到节点上进行处理,同一分片中的元组不需重复处理了,减少了计算开销和空间开销。由于划分代价和计算代价都会随重叠元组数目提升而提升,因此,当窗口太大、流数据的达到速度太高时,基本窗口和批量窗口的并行处理方法不具有好的可扩展性。此外,还可以与层次型处理方法结合,在将窗口划分为子窗口再划分多多个节点上执行。
六、论述题
1、基于SQL查询语句“select SensorID, value,Time from tempSensorTable where Time>=todate (‘2016-2-24 00:00:03’,’yyyy-mm-dd hh24:mi:ss’) and Time<=todate (‘2016-2-24 00:00:04’,’yyyy-mm-dd hh24:mi:ss’) and value<=25 and Sensor ID>=’0001’and SensorID<’1001’,论述底层数据库调度过程。
答:(1)判断查询是否为统计查询。SQL中的统计聚合函数包括sum、avg、count、max、min。在底层数据库调度中,是否包含统计查询将影响到HBse查询所使用具体的查询技术。底层数据库调用模块通过解析SQL语法树,判断是否有统计聚合函数的关键字。
(2)调用过滤器或协处理器对HBase进行调度。在该例中的SQL筛选条件中,Time属于HBase中的Rowkey字段的一部分,value为列族中的列。底层数据库调度模块将得到的传感器ID与时间Time进行拼接,得到行键的范围,调用行键与值的组合过滤器对存储在HBase中的传感器数值信息进行过滤,将过滤后的Rowkey与传感器的作为结果返回。
2、试述Twitter的Storm系统。
答:Storm是一套分布式、可靠、可容错的用于处理流数据的系统。其流式处理作业被分发至不同类型的组件,每个组件负责一项简单的、特定的处理任务。Storm可用来实时处理新数据和更新数据库,兼具容错性和扩展性。Storm也可被用于连续计算,对流数据做连续查询,在计算时将结果以流的形式输出给用户。它还可被用于分布式RPC,以并行的方式运行复杂运算。
Storm提供了简单的类似于MapReduce的编程模型,降低了实时处理的复杂性。它也拥有良好的水平扩展能力,其流式计算过程是在多个线程、进程和服务器之间并行进行的。Storm利用ZeroMQ作为消息队列,极大地提高了消息传递的速度,系统的设计也保证了消息能得到快速处理。Storm保证每个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。
中国自考网:建议开通SVIP超级会员更划算,全站所有资源永久免费下载(正版自考网课除外)
1. 本站所有网课课程资料来源于用户上传和网络收集,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,助力考生上岸!
3. 如果你想分享自己的自考经验或案例,可在后台编辑,经审核后发布在“中国自考网”,有下载币奖励哦!
4. 本站提供的课程资源,可能含有水印,介意者请勿下载!
5. 如有链接无法下载、失效或广告,请联系管理员处理(在线客服)!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 星光不问赶路人,岁月不负有心人,不忘初心,方得始终!
中国自考网 » 12577智能数据处理(自考资料)