JimoCloud大数据完整解决方案

2015-11-11 14:11
浏览量: 收藏:0 分享

为什么需要JimoCloud

  近年来,大数据(Big Data)也吸引了越来越多的关注。对于众多的政府、企业及其他大中型组织机构来说,在日常工作生活中生成、累积的原始数据及用户网络行为数据的规模是如此庞大,以至于不能用G或T来衡量,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。

  大数据到底有多大?一组名为"互联网上一天"的数据告诉我们,一天之中,互联网产生的全部内容可以刻满1.68亿张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于《时代》杂志770年的文字量);卖出的手机为37.8万台,高于全球每天出生的婴儿数量37.1万……

  这些海量的数据存储于各种OA、ERP、CRM及各种结构各异的传统数据库内。对于它的拥有者来说,这些数据犹如"火星上的金矿",既想使用它开采出财富,又对开发的难度和投入望而却步。在这个大数据需求日益增长的时代背景下,晟淘公司十年磨一剑倾心打造的大数据解决方案平台JimoCloud也就应运而生了。

JimoCloud产品是什么

  内置了高性能存储引擎(JDFS)、快速查询引擎(SnapQuery)、快速数据仓库引擎、高性能多态数据库(JimoDB)、自助式数据分析平台(SnapAnalytics)、积木式开放平台(Jimo)、可视化大数据应用开发平台(JimoRobot)等多个特色功能模块。

  Built for Speed,JimoCloud不只是一个产品,而是多项大数据核心技术重大突破的积累,从各个方面解决了以Hadoop为代表的当前主流大数据产品存在的问题,以High Speed、TotalSolution为核心,打造快速、易用、用得起的大数据完整解决方案。

JimoCloud产品设计理念

  如果不考虑速度,大数据只是小数据的一般扩展,所有的传统数据库理论上都可以处理大数据。但是,当一个查询一个统计需要几个小时,甚至几天几周的时候才能得到结果的时候,显然传统数据库已经完全无法满足人们的需要了。

大数据 速度为王

  速度不只是一个设计,而是一个永衡的追求;JimoCloud 从多个方位解决大数据速度问题:

  (1)Speed for Storage

  JDFS大数据虚拟文件系统专利技术实现高性能大数据存储;

  (2)Speed for Data

  JimoCloud 多维数据库专利技术内置多种专用数据库解决数据库性能问题:DocDB文档型数据库实现高性能非结构化数据处理;SQLExtender实现高性能结构化数据处理;JimoMem实现高性能Hot数据处理;

  (3)Speed for Query

  上海晟淘Dynamic Prunable Index专利技术实现千亿级数据秒级速度(Speed for Query);

  (4)Speed for Analytics

  上海晟淘Sync Data Warehouse专利技术实现千亿级数据秒级数据分析速度;

  (5)Speed for Business

  JimoRobot编程机器人专利技术实现应用开发高速度,去除手工编程,快速响应市场需求。

大数据完整解决方案

  传统手段"分而治之"是大数据系统的潜在杀手。基于批处理的Hadoop的HDFS当用来建索引做统计开发应用时,许多问题暴露出来:HBase只适合一些特定场景,用户不得不集成多个彼此孤立产品,重复着信息孤岛的噩梦。

  JimoCloud坚信在缺乏标准、尚属发展初期的大数据唯有围绕大数据整个生命周期构建完整体系结构,系统数据应考虑包括数据存储、多态数据库、数据库中间件、快速查询、快速统计、开放式平台、应用开发在内的方方面面。只有这样设计的大数据系统才可能不会把用户从一个火坑带到一个更大的火坑,才可能让用户真正拥有具有巨大商业价值的大数据产品。

  JimoCloud是目前市场上唯一提供大数据完整解决方案的大数据平台,详情见下节介绍。

JimoCloud产品特点

  1. 快速查询

  所有数据库产品查询都基于全表逐行扫描法,索引只能对多条件和一些特点Query加速,快速查询至今没有解决。上海晟淘发明Dynamic Prunable Index(DPI)专利技术,对任意Query无需全表逐行扫描,并同时实现了"免排序"技术,从根本上解决了快速查询问题。千亿条数据任意查询几秒内完成,同样的查询在其他大数据系统需要几小时甚至几天才能完成。

  2. 快速统计报表

  数据仓库本来为快速统计而生,但陈旧技术无法面对大数据。上海晟淘 Sync Data Warehouse 专利技术从数学模型入手,专为高性能大数据统计设计,放弃 tables,采用多维向量矩阵存储计算技术、Bicodes技术、和多层叠代统计技术,极大地提升统计速度,实现了千亿级数据秒级速度。

  3. 高性能大数据存储引擎(JDFS)

  高性能大数据存储是所有大数据系统的基石。Hadoop的HDFS虽很大程度解决了大数据存储,但HDFS存在着诸多问题,导致应用开发极为困难。 JDFS是上海晟淘独立研发的一款高性能大数据虚拟文件系统,专注高性能大数据存储核心技术,解决了HDFS诸多问题:

  ● 多级缓存

  ● 高性能索引引擎

  ● 高性能排序引擎

  ● 高性能小块数据(Docs)引擎

  ● 克服了HDFS只写不修改和不支持随机读取限制,支持高性能随机读取、写入和动态更新

  ● 通过Data Connector可以非常容易地集成外部数据,包括Hadoop、关系型数据库数据、HBase等

  4. 云立方体系结构

  云立方剥离运行环境与物理设备的依赖,通过虚拟技术,建立大数据抽象层。云立方"垂直分割"大数据系统,拥有完整的计算能力;每个云立方相互独立,在统一抽象数据层上组成云立方集群,构成强大的高并发计算矩阵。云立方相互多份备份,发生故障时实时切换。数据路由技术"算出"哪个数据保存在哪个云立方上、备份在哪些云立方上,系统任何单点故障源,无系统瓶颈口。当系统硬件发生变化时,云立方检测其变化而做相应调整,实现动态实时扩容。

  5. 可视化大数据应用开发平台

  大数据应用开发极为困难。可视化编程技术极大地简化应用开发的难度,让业务人员可以直接业务数据的分析与应用开发,摆脱对编程人员和开发商的依赖。

  可视化不编程技术无需手工编程,是实现极速应用开发的关键性技术,让我们可以对市场和公司经营出现的新需求做出快速反应,捕捉商机。而Hadoop系统必须手工编程,开发周期长且对开发商的依赖程度大。

  大数据系统的核心

  仅能处理海量数据已不再是核心技术,真正的核心在于如何让终端用户可以像专业人士那样轻松随意地分析数据,可视化编程将成为海量数据系统最重要核心竞争力之一。

  6. 多态数据库(Hybrid Database)

  上海晟淘自主研发的多态数据库(Hybrid Database)有机地结合了关系型数据库与新型数据库的优势,充分发挥关系型数据库的成熟性、可靠性的优势,以及非关系型数据库海量数据处理的优势。

  JimoDB多态数据库有效整合了文档型数据库、关系型数据库、列数据库以及全内存数据库。这些数据库由数据引擎动态组合分配,智能的决定什么时候用什么类型数据库,而不是简单的拼凑在一起。

  7. 大数据 Transactions

  ●Transactions对海量数据系统的特殊意义

  Hadoop仅仅提供数据备份,并不能真正保证系统的可靠性,因为数据备份无法保证数据修改的可靠性。JimoCloud 是第一款支持大数据Transaction的产品,实现真正意义的大数据可靠性。

  ●Transactions极大提高容错纠错能力

  大数据中一个任务可能运行几小时,运行中任何错误都可能导致任务必须重新运行,系统实际性能因此受极大影响。大数据Transactions将有效解决这个问题。

  8. 低成本

  高性能带来低成本。以2000亿条详单(省级运营商3年话单规模)为例,提供查询、分析、挖掘功能,使用传统数据库即使投资上亿也无法处理2000亿数据规模;使用Hadoop需几百台设备,但对稍微复杂的查询,速度仍太慢。而使用JimoCloud只需32台设备,所有查询、所有统计报表基本10秒钟完成。

  Hadoop免费,但使用Hadoop成本极高。以某电商为例,使用Hadoop/HBase,大数据团队约50人。仅人工成本约¥1000万/年。使用JimoCloud只需15人,仅人工每年节省至少¥700万/年,不仅如此,应用开发周期大大缩短。


标签:

责任编辑:管理员
在线客服