传统技术无法胜任大数据集的分析、管理和挖掘。传统时代的BI商业智能基于小数据、死数据的数据仓库进行数据挖掘和分析。随着大数据大爆炸,TB、PB量级数据处理成为常态。传统的Oracle等关系型数据库和单机版BI分析软件处理的结构化数据在GB级别,无法从更大的数据集中发现有意义的信息。需要处理的目标数据量一直在增长,传统技术无法适应这种扩展性。
Hadoop是大数据和云计算的底层技术和基础,谷歌、facebook、淘宝、百度等底层都是采用hadoop分布式架构体系。Hadoop实现了分布式文件系统,充分利用集群的威力高速运算和存储。
Easyhadoop让hadoop更易用、更安全。Easyhadoop是在hadoop开源版本基础上,基于实践经验提供的新版本,是国内第一个推出hadoop汉化版本、可视化界面版本、安全版本。不仅包含开源版的所有功能,而且封装了很多开发工具、API和算法集、安全功能套件、第三方应用,如nexUs非结构化语义数据库、nexUs智能语义分析引擎、 nexUs智能语义搜索引擎、图像和视频分析工具,图形报表工具和各种大数据处理算法包,使得开发上更容易,功能更强大,信息更安全。
集成软件有:
-EasyHadoop 发行版 [解决Hadoop稳定性和兼容性问题]
-EasyHadoop 集群管理 [界面化操作Hadoop管理命令]
-EasyHadoop 用户管理 [管理和配置Hadoop用户权限分配]
-EasyHadoop 管理配置 [方便修改配置和重启服务]
-EasyHadoop 调度系统 [解决资源调度配置问题,资源申请]
-EasyHadoop App store [Hadoop 软件市场,集成各类Hadoop软件]
-Cacti 主机流量监控 [监控主机 cpu 内存 网络等信息]
-Ganglia 集群监控 [提供整个集群负载和健康状态]
-Nagios 主机报警 [提供各类机器资源报警]
EasyHadoop Habase Manager [Hadoop database 管理平台,解决Hadoop易用性]
集成软件有:
-EasyJobs Manager [界面化管理MapReduce任务]
-EasyHDFS Manager [界面化访问 文件系统]
-EasyHive [界面化查询Hive]
-EasyHbase [界面化查询Hbase]
-EasyPig [解决Pig易用性和平台化问题]
-EasyMahout [解决Mahout挖掘 易用性和平台化问题]
-EasyEtl [解决Hadoop和Mysql Oracle 等数据库交换问题]
-EasyCron [解决Hadoop任务调度和工作流问题]
-EasyReport [解决-数据可视化问题]
传统IOE架构与hadoop架构比较
传统IOE架构(IBM小型机+Oracle数据库+EMC存储设备)价格昂贵,而且后续投入和维护成本也非常昂贵。如传统关系型数据库(oracle)的成本:
Facebook的服务器大概1万台,按照oracle的标准10g版本计算大约需要21亿元。中国航空信息服务公司等每年向oracle缴纳授权费和服务费都是上亿。因此中国政府应该抓住Hadoop开源分布式大数据处理的机会,打造自己的分布式架构系统,去IOE架构,减少被IOE垄断后的高额费用支出。
新兴的互联网公司,如谷歌、facebook、淘宝、百度基本都是去IOE化,采用廉价的服务器和免费开源的hadoop搭建大数据处理平台。由于学习和运维hadoop需要一定成本,对于中小型企业而言,采用easyhadoop+云平台方式的可以大大减低初始成本。