一种基于云计算的大数据统一分析处理方法

发明专利有效专利

申请号：
CN201310460030.6
IPC分类号：H04L29/08;G06F17/30
申请日期：
2013-09-30
申请人：
华南理工大学

基础信息

权利要求

说明书

PDF全文

法律信息

引证文献

著录项信息

专利名称	一种基于云计算的大数据统一分析处理方法
申请号	CN201310460030.6	申请日期	2013-09-30
法律状态	暂无	申报国家	中国
公开/公告日	2014-01-01	公开/公告号	CN103491187A
优先权	暂无	优先权号	暂无
主分类号	H04L29/08 ? IPC结构图谱： H 电学 H9 电学 H04 电通信技术 H04L 数字信息的传输，例如电报通信（电报和电话通信的公用设备入H04M）〔4〕 H04L29/00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统〔5〕 H04L29/02 通信控制；通信处理（H04L 29/12，H04L 29/14优先）〔5〕 H04L29/06 以协议为特征的〔5〕 H04L29/08 传输控制规程，例如数据链级控制规程〔5〕	IPC分类号	H;0;4;L;2;9;/;0;8;;;G;0;6;F;1;7;/;3;0查看分类表>
申请人	华南理工大学	申请人地址	湖南省长沙市天心区芙蓉南路一段788号建工新城综合楼6楼612、613号房变更专利地址、主体等相关变化，请及时变更，防止失效
权利人	湖南建工德顺电子科技有限公司	当前权利人	湖南建工德顺电子科技有限公司
发明人	林伟伟;齐德昱
代理机构	广州市华学知识产权代理有限公司	代理人	蔡茂略

摘要

本发明涉及一种基于云计算的大数据统一分析处理方法，该方法包括：基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台；在云计算平台上实现海量异构数据的分布式并行处理，解析异构数据的查询分析请求，按照查询分析的数据对象所在位置调度数据处理计算，将数据分析处理计算分布到各数据存储节点上，实现海量数据的并行分析处理；集成结构化数据查询分析接口与非结构化数据查询分析接口，实现异构数据的并行分析处理，提供统一数据访问接口；基于云服务技术为大数据应用提供结构化数据服务和非结构化数据服务。具有克服了大数据分析处理的复杂性和挑战性，满足大数据处理的规模不断增长和实时性需求等优点。

1.一种基于云计算的大数据统一分析处理方法，其特征在于，包括以下步骤：
(1)基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台；
(2)基于云计算实现并行数据处理，在高可扩展的云计算平台上实现海量结构化、半结构化和非结构化数据的分布式并行分析处理，对异构数据的查询分析请求进行解析并制定数据处理计算的优化分布调度方式，按照查询分析的数据对象所在位置调度数据处理计算，将数据分析处理计算分布到各数据存储节点上，实现海量数据的并行分析处理；
其实施的总体结构包括以下层次：
1)数据服务提供层：利用基于分布式内存缓存的云数据服务提高数据访问的性能，为OLTP类型的大数据应用提供数据服务；
2)统一访问接口层：提供类SQL查询分析接口和JDBC/ODBC驱动接口，支持批处理和实时查询的统一接口；
3)分布并行调度层：解析大数据查询分析请求，在分布式存储节点上调度和协调分布式并行数据查询分析；
4)查询分析执行引擎层：在本地的HDFS或者HBase上执行查询分析处理操作，实现并行分布式数据处理；
5)分布式数据存储层：采用HBase和HDFS实现海量异构数据的分布式存储；
或者，其实施的总体结构包括以下层次：
1)数据服务提供层：为OLAP类型的大数据应用提供云数据服务；
2)集成访问接口层：提供SQL和MapReduce查询分析接口，集成结构化数据查询分析接口和非结构化数据分析处理的编程接口；
3)Hadoop MapReduce层：解析大数据查询分析请求，根据查询请求的类型分别调度到Hadoop上、MPP关系数据库节点上实现并行数据分析处理；
4)集成查询分析执行引擎层：对结构化数据的查询分析请求，在MPP关系数据库的各节点上并行执行结构化查询分析操作；对非结构化和半结构化数据的查询分析请求，在Hadoop数据节点DataNode上执行Map和Reduce函数，实现数据的并行分析处理；
5)分布式数据存储层：使用MPP关系数据库实现海量结构化数据存储，使用Hadoop实现海量非结构化和半结构化数据的分布式存储；
(3)集成结构化数据查询分析接口与非结构化数据查询分析接口，进行异构数据的并行分析处理，提供统一数据访问接口；
(4)基于云服务技术为大数据应用提供结构化数据服务和非结构化数据服务。
2.根据权利要求1所述一种基于云计算的大数据统一分析处理方法，其特征在于：所述步骤(1)中，
所述的基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台为：
(1.1)采用横向扩展的MPP关系数据库实现结构化数据分布式存储；
(1.2)采用NOSQL数据库实现半结构化数据分布式存储；
(1.3)采用分布式文件系统实现非结构化数据的分布式存储；
(1.4)在每个分布式存储节点上同时放置结构化、非结构化和半结构化数据，以便进行异构数据的协同分析处理。

一种基于云计算的大数据统一分析处理方法\n技术领域\n[0001] 本发明涉及分布式数据处理技术，特别涉及一种基于云计算的大数据统一分析处理方法。\n背景技术\n[0002] 随着互联网、移动互联网、物联网等应用的飞速发展，全球数据量出现了爆炸式增长。IDC公司发布的数字宇宙研究报告称，全球信息总量每两年就会增长一倍，2011年全球被创建和被复制的数据总量为1.8ZB。IDC认为，到下一个十年(2020年)，全球所有IT部门拥有服务器的总量将会比现在多出10倍，所管理的数据将会比现在多出50倍。预计到2020年，全球将总共拥有35ZB的数据量。数据量的飞速增长预示着我们现在已经进入了一个大数据的时代。然而，当前不仅仅是数据规模越来越大，而且数据类型多和处理实时性要求都极大地增加了大数据处理的复杂度。IDC的权威定义为：满足4V(Variety,Velocity,Volume,Value，即种类多、流量大、容量大、价值高)指标的数据称为大数据。大数据给传统的数据分析处理技术（例如并行数据库、数据仓库）带来的技术挑战有：1）传统的数据仓库技术一般只能处理TB级别的数据量，然而，大数据往往PB级别甚至EB级别，并行数据库大多支持有限扩展，一般可扩至数百节点的规模，尚未有数千节点规模的应用案例，传统数据分析处理技术无法处理大数据的高扩展性和海量需求；2）大数据涵盖了各种类型的数据，包括结构化、半结构化和非结构化数据，不同类型数据的分析不尽相同，传统数据分析处理往往只针对某一种类型数据和比较单一，大数据分析的方法也是多样化，就有数据挖掘、模式识别、数据融合与集成、时间序列分析等，数据类型的增加导致现有数据空间维度增加，极大地增加了大数据分析处理的复杂度；3）传统数据库处理能力的提高依赖于CPU/内存/存储/网络的更新升级，而大数据的处理模式是一种基于“scale-out”的模式，它的性能提高依赖于连续的往分布式系统上增加低价的计算和存储节点；4）传统的数据处理方法是以处理器为中心，而大数据环境下，需要采取以数据为中心的模式，减少数据移动带来的开销，传统的数据处理方法，已经不能适应大数据的需求。\n[0003] 总之，相比传统的关系数据库，大数据具有数据量巨大、结构复杂、类型众多等特点，这对大数据的存储、处理与分析提出了新的挑战，而且，大数据问题最近才被人们意识到，现有的方法不能很好地实现大数据的分析处理。\n发明内容\n[0004] 本发明的目的在于克服现有技术方法的不足，提供一种基于云计算的大数据统一分析处理方法，该方法以云计算技术来构建海量结构化、非结构化和半结构化数据的横向扩展分布式存储平台和实现海量数据的分布式并行计算，并整合结构化、非结构化和半结构化数据的统一分析处理，克服大数据分析处理的复杂性和挑战性。\n[0005] 为了实现上述目的，本发明所采用的一种基于云计算的大数据统一分析处理方法，包括以下步骤：\n[0006] （1）基于云计算技术构建高可扩展的海量结构化、非结构化和半结构化数据的分布式存储平台；\n[0007] （1.1）采用横向扩展的MPP关系数据库实现结构化数据分布式存储；\n[0008] （1.2）采用NOSQL数据库实现半结构化数据分布式存储；\n[0009] （1.3）采用分布式文件系统实现非结构化数据的分布式存储；\n[0010] （1.4）在每个分布式存储节点上同时放置结构化、非结构化和半结构化数据，以便实现异构数据的协同分析处理；\n[0011] （2）基于云计算实现并行数据处理，在高可扩展的云计算平台上实现海量结构化、半结构化和非结构化数据的分布式并行分析处理，对异构数据的查询分析请求进行解析并制定数据处理计算的优化分布调度方式，按照查询分析的数据对象所在位置调度数据处理计算，将数据分析处理计算分布到各数据存储节点上，实现海量数据的并行分析处理；\n[0012] （3）集成结构化数据查询分析接口与非结构化数据查询分析接口，实现异构数据的并行分析处理，提供统一数据访问接口；\n[0013] （4）基于云服务技术为大数据应用提供结构化数据服务和非结构化数据服务。\n[0014] 本发明与现有的数据分析处理方法相比，具有如下优点与效果：\n[0015] （l）该方法利用云计算的高扩展性和高性能可以克服大数据处理的规模不断增长和实时性需求。\n[0016] （2）该方法整合了面向海量非结构化、半结构化数据的云存储和基于云计算的数据并行处理技术，与面向海量结构化数据的横向扩展的MPP关系数据库存储和无共享大规模并行数据流处理技术，可以实现不同类型的大数据统一分析处理，解决多源异构的大数据处理的复杂性问题。\n[0017] （3）提出的大数据统一分析处理方法可以在查询分析处理中融合异构数据，改进数据的质量，提高数据的价值。\n附图说明\n[0018] 图1是本发明基于云计算的大数据统一分析处理方法的处理流程图。\n[0019] 图2是实施例1的总体结构示意图。\n[0020] 图3是实施例2的总体结构示意图。\n具体实施方式\n[0021] 下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。\n[0022] 实施例1\n[0023] 应用本发明方法到大数据实时查询分析平台：\n[0024] 如图1所示，是本实施例的基于云计算的大数据统一分析处理方法的处理流程图。\n[0025] 应用本发明方法实现大数据实时查询分析平台，可以为OLTP类型的大数据应用提供实时数据查询分析。为了缩短实时数据查询时间，参照传统并行关系数据库的思想实现分布式查询引擎（包括分布并行调度层和查询分析执行引擎层），在分布式数据存储节点上访问数据和进行数据分析处理，其实施的总体结构如图2所示，包括以下层次：\n[0026] 1）数据服务提供层：利用基于分布式内存缓存的云数据服务提高数据访问的性能，为OLTP类型的大数据应用提供数据服务。\n[0027] 2）统一访问接口层：提供类SQL查询分析接口和JDBC/ODBC驱动接口，支持批处理和实时查询的统一接口。\n[0028] 3）分布并行调度层：解析大数据查询分析请求，在分布式存储节点上调度和协调分布式并行数据查询分析。\n[0029] 4）查询分析执行引擎层：在本地的HDFS或者HBase上执行查询分析处理操作（如SELECT、JOIN和统计聚类函数），实现并行分布式数据处理。\n[0030] 5）分布式数据存储层：采用HBase和HDFS实现海量异构数据的分布式存储。\n[0031] 实施例2\n[0032] 应用本发明方法到大数据综合查询分析平台：\n[0033] 应用本发明方法实现大数据综合查询分析平台，可以实现结构化、非结构化、半结构化数据的综合查询分析，为OLAP类型的大数据应用提供基础平台，其实施的总体结构如图3所示，包括以下层次：\n[0034] 1）数据服务提供层：为OLAP类型的大数据应用提供云数据服务。\n[0035] 2）集成访问接口层：提供SQL和MapReduce查询分析接口，集成结构化数据查询分析接口和非结构化数据分析处理的编程接口。\n[0036] 3）Hadoop MapReduce层：解析大数据查询分析请求，根据查询请求的类型分别调度到Hadoop上、MPP关系数据库节点上实现并行数据分析处理。\n[0037] 4）集成查询分析执行引擎层：对结构化数据的查询分析请求，在MPP关系数据库的各节点上并行执行结构化查询分析操作；对非结构化和半结构化数据的查询分析请求，在Hadoop数据节点DataNode上执行Map和Reduce函数，实现数据的并行分析处理。\n[0038] 5）分布式数据存储层：使用MPP关系数据库实现海量结构化数据存储，使用Hadoop实现海量非结构化和半结构化数据的分布式存储。\n[0039] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
1	CN102521405A	2012-06-27	2011-12-26	支持高速加载的海量结构化数据存储、查询方法和系统有效专利	中国科学院计算技术研究所
2	CN101183368A	2008-05-21	2007-12-06	联机分析处理中分布式计算及查询海量数据的方法和系统失效专利	华南理工大学

序号	公开(公告)号	公开(公告)日	申请日	专利名称	申请人
该专利没有被任何外部专利所引用！

我浏览过的专利

专利服务由北京酷爱智慧知识产权代理公司提供