ThousandHu`s blog

千里之行 始于足下


  • 首页

  • 归档

  • 标签

sqoop的编译安装以及 ivy的jar包升级

发表于 2016-03-31
sqoop编译安装与ivy冲突解决 线上hive系统在用mr做engine时操作parquet格式的表报了org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.NoSuchFieldError: DECIMAL的错误,查了一下是因为parquet包版本的问题,它load时先load到了sqoop的parquet1.4,而hive需要1.6,最简单的方法是直接设置SET mapreduce.job.user.classpath.first=true,不过为了长远考虑决定重新编译sqoop,将冲突的包替换掉。 修改i ...
阅读全文 »

chapter7 how mapreduce works-hadoop The Definitive Guide 4th读书笔记

发表于 2016-03-31
Anatomy a mr job run MR job运行牵扯到5个独立的部分。 client,负责提交mr job yarn resourcemanager。安排mr的计算资源 yarn node manager。集群中启动和监控计算单位(compute containers) MR application master,管理一个mr job的运行。app master和mr task都被rsource manager调度并被node manager管理。 Job init 从resource manager得到一个新的app id(step 2) 检查job的output。如果ou ...
阅读全文 »

hbase权威指南笔记

发表于 2016-03-26
概述数据库CAP定理:一个分布式系统只能实现一致性,可用性和分区容忍性三个中的两个 1.4.5 P22 数据储存在HFile中,是经过排序的键值映射结构,文件内部由连续的块组成,块的索引信息放在文件尾部。每次打开Hfile时块先把索引load到内存,查找时通过块索引定位到块。 跟新数据先将数据提交到日志里(write-ahead log)。 1个regionServer包含一个WAL,一个blockCache和多个HRegion 1个region包含多个Store,每个Store对于一个column family 1个Store对于多个Storefile 1个storeFile对于1各Hf ...
阅读全文 »

虚拟机搭建hadoop集群

发表于 2016-03-15
虚拟机安装虚拟机安装ubuntu:两个节点 hadoop1,hadoop2。2G RAM,40G硬盘 网络模式选择桥接,然后打开混杂模式。就可以自动联网 安装java8: 123sudo add-apt-repository ppa:webupd8team/java sudo apt-get updatesudo apt-get install oracle-java8-installer java path:ls /usr/lib/jvm/java-8-oracle/ 123456#add by ziqian for jdk #set java envrionment export JA ...
阅读全文 »

《hive编程指南》读书笔记

发表于 2016-03-04
hive 一般数据库是写时模式,写入时对数据合法性进行检查,而hive是读时模式,读取数据时进行数据合法性检查 create database可以加comment子句,describe database时会显示comment 而create database时的with dbproperties(’key1’ = ‘val1’,’key2=’val2’)keyiyong describe database extended tablename 显示。 分区表partitiioned by(col1 format, col2 format) 储存时会按照col1=xxx,col2=xxx设置子 ...
阅读全文 »

python做behave test

发表于 2016-03-02
behave test用的python的behave软件 安装使用pip install behave 使用时主要有两个部分。一个是根目录下的.feature,另一个是step文件夹下的.py 123456---project_home---|---1.feature---|---2.feature---|---steps---|---|---1.py---|---|---2.py 每个feature和steps的py是对应的。 先讲一下feature。先给个例子: 123456789Feature: raw api behavior Test Scenario Outline: chec ...
阅读全文 »

maven 几种打包方式小结

发表于 2016-02-29
maven-jar-plugin这个是将该项目本身打成一个jar包。可以设置configuration/includes/include让他只打某一个包之类.dependency可以用org.apache.maven.plugins加进来 1234567891011121314151617181920212223242526272829303132333435363738<build> <plugins> <plugin> <groupId>org.apache.maven.plugins&l ...
阅读全文 »

Hadoop-The-Definitive-Guide-4th读书笔记-chapter-20-hbase.md

发表于 2016-02-04
conceptshbase的数据结构是每行一条数据,列是以column family和column的形式组织的。行数据有一个row key,row key是以byte 数组形式存储的,理论上可以是任何可序列化的数据。数据存储也是按照row key排序的(新加入数据的rowkey可以指定自增也可以自己指定)。column首先被group成column family。在同一个family中的column有相同的prefix。column family prefix必须是printable character组成的。column后缀可以是任何bytes,column family和后缀之间用”:”链 ...
阅读全文 »

mapreduce 内存溢出分析

发表于 2016-01-21
Map端: === 通常是自己的程序逻辑问题,比如map内部的计算需要大量内存。 Reduce端: === map每次只处理一行数据,而reduce每次要处理一个key的集合,如果这个key的集合过大,就会出现oom 比如数据倾斜,或者value对象过大/过多 解决办法: 增加reduce个数,set mapred.reduce.tasks=300,。 在hive-site.xml中设置,或者在hive shell里设置 set mapred.child.java.opts = -Xmx512m 或者只设置reduce的最大heap为2G,并设置垃圾回收器的类型为并行标记回收器, ...
阅读全文 »

hive udtf使用

发表于 2016-01-11
UDTF函数编写如果hive的数据中有这样一类数据,他本身是一个jsonArray,array中储存着数个string(比如taglist)。当我们希望计算每个tag的一些信息时,需要将jsonarray拆开成(xxx,tag)的单独一行。这中将1行变成多行的功能就需要udtf实现。 udtf的功能和udaf正好相反,主要提供将一行拆分成多行的操作。UDTF执行过程是这样的,首先调用initialize函数,该函数每个instance调用一次,主要是准备udtf的列的状态之类的操作。然后会调用process方法,这个方法每次处理输入数据中一行数据。在process中当生成了结果中的一行时,调用 ...
阅读全文 »
1…678…10
ThousandHu

ThousandHu

千里之行 始于足下

91 日志
49 标签
github zhihu 微信公众号:thousandhu学架构
© 2015 - 2017 ThousandHu
由 Hexo 强力驱动
主题 - NexT.Mist