需求是这样的,我们是个数据仓库,线上数据最终查询结果有问题的时候就需要一步一步追溯数据生成。在写hbase的时候,为了提高效率,我们把数据计算和写入分成了两个步骤,第一步是计算数据,然后以key/value的结构写到一个sequenceFile里,然后在用另一个mr把生成的数据load到hbase。
于是为了验证我们中间这个sequence file的结果,我们需要把有问题那条grep出来,因为量非常大,肯定不能hadoop fs -text |grep
,这里就利用了hadoop streaming来进行分布式grep。
hadoop streaming 支持调用各种脚本,也支持调用shell原生命令,grep写法如下
|
|
本文采用创作共用保留署名-非商业-禁止演绎4.0国际许可证,欢迎转载,但转载请注明来自http://thousandhu.github.io,并保持转载后文章内容的完整。本人保留所有版权相关权利。
本文链接:http://thousandhu.github.io/2016/06/24/hadoop-streaming实现分布式grep/