当前位置:首页 » Hadoop

Hadoop

4
阅读

大数据之 Hadoop 学习教程分享

接下来分享大数据学习资料,今天的主题是 Hadoop,分为3份教程,各不相关联,读者请自己选择来学习。 贴图 总图  第一份(100天时间)  第二份(7天培训)  第三份(Hadoo...
来源 2018-08-14 08:01
11
阅读

Hadoop老矣,为什么腾讯还要花精力在其开源发布上?

前些日子,腾讯主导开源大数据平台ApacheHadoop2.8.4新版本发布的新闻引起了笔者的注意。自Hadoop从雅虎诞生之日起,已经走过了10来个年头,这期间,尤其是近年来,由华...
来源 2018-07-11 21:45
1
阅读

HBase Shell操作命令

HBase单机配置(官网):HBase下载http://www.apache.org/dyn/closer.cgi/hbase/解压缩,然后进入到那个要解压的目录.$tarxfzhbase-××××.tar.gz$cdhbase-×××××现在你已经...
来源 2017-07-10 09:02
1
阅读

CentOS 7.3 + Server JRE 1.8 + Hadoop-2.8.0 

CentOS7.3+ServerJRE1.8+Hadoop-2.8.02017-06-29景峯Netkiller本文节选自《NetkillerLinux手札》由于工作的关系最近几年没有使用hadoop,今天看了一下版本已经到了2.8,...
来源 2017-06-29 18:42
3
阅读

Apache Hadoop 2.8 完全分布式集群搭建超详细过程,实现NameNode HA、ResourceManager HA高可靠性

最近在自己的笔记本电脑上搭建了ApacheHadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode、ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作。...
来源 2017-06-20 18:03
7
阅读

大数据架构技术

下图是近来学习和用到的大数据方面的技术,现在做一个总结。并且在总结的过程中,也进行更加进一步的学习和了解。以上为个人所接触到的大数据相关的一些技术,后续的章节将围绕这些技术展开,具体的介绍方式是从应用和原理两个方面进行。 大家有其他的相关方面的建议和提议,可以提出来,也一起进行分享一下。   
来源 2017-05-19 12:20
1
阅读

Apache Hive v2.3.0-rc0 发布

Hive是一个基于Hadoop的开源数据仓库,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hi...
来源 2017-04-28 09:20
2
阅读

Avro 序列化操作原理与应用

Avro序列化操作原理与应用内存中的序列化与反序列化Avro提供了序列化与反序列化API,通过这些API我们可以很方便的将Avro集成到现有的系统.Avro的序列化不同于json...
来源 2017-04-15 09:02

阅读

盘点大数据开源软件Google Trends指数

在QCon2016北京站上,Druid开源项目的负责人,Imply联合创始人FangjinYang分享了题为《EvolutionofOpenSourceDataInfrastructure》的主题演讲大数据开源技术演进,探讨了...
来源 2017-04-07 09:02

阅读

Apache Hive release-1.2.2-rc0 发布

Hive是一个基于Hadoop的开源数据仓库,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hi...
来源 2017-04-01 11:20
24
阅读

【Hadoop YARN的发展史与详细解析】

 原来的map-reduce架构是简单明了的,在最初推出的几年,也得到了众多的成功案例,获得业界广泛的支持和肯定,但随着分布式系统集群的规模和其工作负荷的增长,原框架的...
来源 2017-03-28 08:21
2
阅读

HBase数据模型与架构实现

HBase数据模型与架构实现HBase是一个在HDFS上开发的面向列的分布式数据库,特别适合随机访问超大规模数据集.传统的RDBMS在面向超大超大规模数据集时,会...
来源 2017-03-25 07:42
92
阅读

Hadoop技术在商业智能BI中的应用

Hadoop是个很流行的分布式计算解决方案,是Apache的一个开源项目名称,核心部分包括HDFS及MapReduce。其中,HDFS是分布式文件系统,MapReduce是分布式计算引擎。时至今日...
来源 2017-03-08 09:59
19
阅读

Hadoop 中的I/O (2) 压缩/解压缩

压缩文件压缩有两大好处:减少存储文件所需空间,加速数据在网络和磁盘上的传输。在Hadoop中可以使用很多种文件压缩格式,工具和算法,它们各有所长。表1所有压缩算法都...
来源 2017-03-03 15:06
6
阅读

Apache Hive v2.2.1发布

Hive是一个基于Hadoop的开源数据仓库,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hi...
来源 2017-02-22 10:20
1
阅读

Apache Hive v2.2.1rc0发布

Hive是一个基于Hadoop的开源数据仓库,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hi...
来源 2017-02-20 10:20
2
阅读

HDFS分布式文件系统(3) HDFS数据流

数据流HDFS是hadoop最常用的分布式文件系统,分布式文件系统操作的工作对象就是数据,本文主要讲述hadoop中数据流的基本知识概念,了解客户端与HDFS,namenode,datanode...
来源 2017-02-14 08:00
4
阅读

HDFS分布式文件系统(2) HDFS的java接口

HDFS的java接口Hadoop是使用java编写的,通过JAVAAPI可以调用所有Hadoop文件系统的交互操作。例如,文件系统的命令解释器就是一个java应用,它使用JAVA的FileSystem类来...
来源 2017-02-12 21:22
4
阅读

Apache Hive v2.2.0 发布

Hive是一个基于Hadoop的开源数据仓库,用于存储和处理海量结构化数据。它是Facebook2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口,Hi...
来源 2017-02-09 14:25
2
阅读

Hadoop分布式文件系统(1)

Hadoop分布式文件系统当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干单独的计算机上。管理网络中跨多台计算机存...
来源 2017-02-07 14:41
1
阅读

体会 Hadoop 数据节点升级机制中的设计之美

一、前言Hadoop数据节点的升级机制,深入了解下发现设计非常的优美,在此分享给大家。升级机制最重要的部分就是升级过程中的故障恢复。我们来看下它是怎么被解决的。关键...
来源 2017-02-07 14:41
1
阅读

Trafodion null 问题的源码级剖析

一、问题描述无论是通过JDBC还是通过命令行连接Trafodion,总是偶尔出现unabletoevaluateaddressTCP:null的异常。二、错误信息org.trafodion.jdbc.t4.HPT4Exception:Unabl...
来源 2017-01-20 16:39
3
阅读

Spark和Hadoop大决战

Spark作为数据处理的核心应用,有着重要的作用和地位,那么spark能不能取代Hadoop而存在呢?Spark只是分布式计算平台,而hadoop已经是分布式计算、存储、管理的生态系统...
来源 2017-01-10 15:23
5
阅读

精彩解密大数据之精绝古城

Avroschema作为大数据一个项目,它可以算得上精品中的上等品,让学习或者想要学习大数据的人为之倾倒,不断挖掘学习,那么它究竟有着怎样的神秘面纱呢?我们一起来揭开!...
来源 2017-01-10 09:09
5
阅读

工作日记:Hadoop客户端配置需与集群节点保持一致

昨天因为datanode出现大规模离线的情况,初步判断是dfs.datanode.max.transfer.threads参数设置过小。于是将所有datanode节点的hdfs-site.xml配置文件都作了调整。重启集...
来源 2017-01-07 14:53