sqoop的编译安装以及 ivy的jar包升级

发表于 2016-03-31

sqoop编译安装与ivy冲突解决线上hive系统在用mr做engine时操作parquet格式的表报了org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.NoSuchFieldError: DECIMAL的错误,查了一下是因为parquet包版本的问题，它load时先load到了sqoop的parquet1.4，而hive需要1.6，最简单的方法是直接设置SET mapreduce.job.user.classpath.first=true，不过为了长远考虑决定重新编译sqoop，将冲突的包替换掉。修改i ...

阅读全文 »

chapter7 how mapreduce works-hadoop The Definitive Guide 4th读书笔记

发表于 2016-03-31

Anatomy a mr job run MR job运行牵扯到5个独立的部分。 client，负责提交mr job yarn resourcemanager。安排mr的计算资源 yarn node manager。集群中启动和监控计算单位（compute containers） MR application master，管理一个mr job的运行。app master和mr task都被rsource manager调度并被node manager管理。 Job init 从resource manager得到一个新的app id（step 2）检查job的output。如果ou ...

阅读全文 »

hbase权威指南笔记

发表于 2016-03-26

概述数据库CAP定理：一个分布式系统只能实现一致性，可用性和分区容忍性三个中的两个 1.4.5 P22 数据储存在HFile中，是经过排序的键值映射结构，文件内部由连续的块组成，块的索引信息放在文件尾部。每次打开Hfile时块先把索引load到内存，查找时通过块索引定位到块。跟新数据先将数据提交到日志里（write-ahead log）。 1个regionServer包含一个WAL，一个blockCache和多个HRegion 1个region包含多个Store，每个Store对于一个column family 1个Store对于多个Storefile 1个storeFile对于1各Hf ...

阅读全文 »

虚拟机搭建hadoop集群

发表于 2016-03-15

虚拟机安装虚拟机安装ubuntu：两个节点 hadoop1，hadoop2。2G RAM，40G硬盘网络模式选择桥接，然后打开混杂模式。就可以自动联网安装java8： 123sudo add-apt-repository ppa:webupd8team/java sudo apt-get updatesudo apt-get install oracle-java8-installer java path：ls /usr/lib/jvm/java-8-oracle/ 123456#add by ziqian for jdk #set java envrionment export JA ...

阅读全文 »

《hive编程指南》读书笔记

发表于 2016-03-04

hive 一般数据库是写时模式，写入时对数据合法性进行检查，而hive是读时模式，读取数据时进行数据合法性检查 create database可以加comment子句，describe database时会显示comment 而create database时的with dbproperties（’key1’ = ‘val1’,’key2=’val2’）keyiyong describe database extended tablename 显示。分区表partitiioned by（col1 format, col2 format）储存时会按照col1=xxx，col2=xxx设置子 ...

阅读全文 »

python做behave test

发表于 2016-03-02

behave test用的python的behave软件安装使用pip install behave 使用时主要有两个部分。一个是根目录下的.feature，另一个是step文件夹下的.py 123456---project_home---|---1.feature---|---2.feature---|---steps---|---|---1.py---|---|---2.py 每个feature和steps的py是对应的。先讲一下feature。先给个例子： 123456789Feature: raw api behavior Test Scenario Outline: chec ...

阅读全文 »

maven 几种打包方式小结

发表于 2016-02-29

maven-jar-plugin这个是将该项目本身打成一个jar包。可以设置configuration/includes/include让他只打某一个包之类.dependency可以用org.apache.maven.plugins加进来 1234567891011121314151617181920212223242526272829303132333435363738<build> <plugins> <plugin> <groupId>org.apache.maven.plugins&l ...

阅读全文 »

Hadoop-The-Definitive-Guide-4th读书笔记-chapter-20-hbase.md

发表于 2016-02-04

conceptshbase的数据结构是每行一条数据，列是以column family和column的形式组织的。行数据有一个row key，row key是以byte 数组形式存储的，理论上可以是任何可序列化的数据。数据存储也是按照row key排序的（新加入数据的rowkey可以指定自增也可以自己指定）。column首先被group成column family。在同一个family中的column有相同的prefix。column family prefix必须是printable character组成的。column后缀可以是任何bytes，column family和后缀之间用”:”链 ...

阅读全文 »

mapreduce 内存溢出分析

发表于 2016-01-21

Map端： === 通常是自己的程序逻辑问题，比如map内部的计算需要大量内存。 Reduce端： === map每次只处理一行数据，而reduce每次要处理一个key的集合，如果这个key的集合过大，就会出现oom 比如数据倾斜，或者value对象过大/过多解决办法：增加reduce个数，set mapred.reduce.tasks=300，。在hive-site.xml中设置，或者在hive shell里设置 set mapred.child.java.opts = -Xmx512m 或者只设置reduce的最大heap为2G，并设置垃圾回收器的类型为并行标记回收器， ...

阅读全文 »

hive udtf使用

发表于 2016-01-11

UDTF函数编写如果hive的数据中有这样一类数据，他本身是一个jsonArray，array中储存着数个string（比如taglist）。当我们希望计算每个tag的一些信息时，需要将jsonarray拆开成（xxx，tag）的单独一行。这中将1行变成多行的功能就需要udtf实现。 udtf的功能和udaf正好相反，主要提供将一行拆分成多行的操作。UDTF执行过程是这样的，首先调用initialize函数，该函数每个instance调用一次，主要是准备udtf的列的状态之类的操作。然后会调用process方法，这个方法每次处理输入数据中一行数据。在process中当生成了结果中的一行时，调用 ...

阅读全文 »