实验室瞄准物联网环境下的大规模流数据的管理、集成、共享、分析和有效利用,利用云计算、实时处理、并行分析和智能服务等手段缓解工业界和大型应用中时效性很强情形下的关联分析和资源联动相关的难题。事实上,这是行业信息化中和智慧城市等综合系统中突出的大规模数据集成共性问题。核心技术涉及大数据分析、大数据管理、数据融合与集成、感知数据/流数据实时处理、支持大规模流数据处理和管理的云平台相关的方法、技术、基础理论、管理和运营模式等方面。围绕大规模流数据的“接、管、算、用、维”全生命周期,从提供流式实时数据和结构化业务数据的接入、集成、处理相关云服务、实现物联网大数据的快速汇聚、综合管理、高效计算、动态关联,以及支持云模式下的物联网大数据应用建设与运维为靶子,设置了流数据实时处理、流数据挖掘与分析、数据集成与服务计算、流数据系统体系结构与边缘计算、城市大数据协同创新中心五个研究方向。具体设置如下:
(1)流数据实时处理
瞄准大规模流数据实时处理问题,研究功能性和非功能性的数据处理保障。一方面,在功能层面以大规模流数据的表达模型和并行处理技术为主线,研究面向大规模流数据的数据模型、在线处理技术和并行化计算系统结构,研究集群可扩展、计算可扩展的计算框架。研究适于物联流式大数据的服务抽象和编程方法、研究面向服务协同和BPM的流批融合的一体化数据模型及数据管理方法,研究BPM与物联流式大数据系统的交互机制。另一方面,大数据流式计算非功能保障层面,主要是研究可用性保障,这是保证计算服务连续可用的理论与技术,涉及多个层面是必要和必须的。数据质量层面,需要应对数据噪音、自动略过错误;系统能力层面,需要应对系统的故障停止;软件支撑层面,需要应对代码的崩溃;计算性能层面,需要应对系统/节点处理能力不足;计算资源层面,需要权衡保障所带来的开销和延迟
(2)流数据挖掘与分析
瞄准大数据挖掘与分析问题,首先以智能交通数据挖掘需求为出发点,以智能交通流数据为挖掘对象,以高效、准确、可伸缩的挖掘算法为核心关注点,围绕数据流的质量、数据流的优化组织、面向大规模交通数据流的分析以及交通挖掘结果的可视化等开展研究。
(3)流数据集成与服务计算方向
瞄准数据集成、数据服务化和服务计算问题,从交通和工业控制等应用领域中的实际需求出发,合理抽象和归纳研究问题,针对数据的实时性、持续性、大规模特性等特点,研究重点首先放在了大数据集成方法、服务智能关联和演算算法上。重点关注服务协同运行优化及动态演化机制,包括去中心环境下服务协同运行时演化方法、服务协同优化与调度机制、基于云与端的动态服务适配方法等。加强和突出融合业务过程和物联大数据的服务抽象与编程机制研究,研究IoT感知的服务协同机制和应变方法、IoT服务社区的分析挖掘、传统服务协同方法与微流程的集成等。
(4)流数据系统体系结构与边缘计算
瞄准适于大规模流数据处理的支撑系统体系结构问题,首先以海量、持续的流式感知数据存储组织模型和并行计算模型为突破口,按照提高无共享集群节点间数据独立性、减少节点间数据传输和提高数据计算的并行化程度、充分利用多核架构来实现实时处理要求的基本思路,研究面向大规模流数据集成的新型基础设施理论和技术;针对云中心的高负载、带宽压力大、数据隐私保护等问题,研究利用云端融合的边缘计算模式,智能调度计算任务,实现提高系统资源利用率和吞吐量的目标,保证系统响应时间和可靠性。
(5)城市大数据协同创新中心
研究面向智慧城市的行业应用特别是智能交通应用所产生的大规模流数据集成与分析的理论与关键技术,并进一步拓展到日常的政务工作、城乡规划、城市管理、风景名胜区管理、建筑设计与建造、建筑节能等多个领域,打造城市大数据协同创新中心,对大规模流数据信息与分析技术的相关研究成果进行应用实践与检验。加强DeCloud知识产权转移工作,与产业界和用户单位加强合作,提升相关产业核心技术的同时,也注意与背后科学问题和研究成果的紧密关联,走好一条平台和问题牵引的学术创新之路。