Hadoop: The Definitive Guide 4th 读书笔记—chapter5: Hadoop IO
Data Integrityhadoop使用checksum来验证数据的正确性。
Data integrity in hdfsdatanodes和client都是在读取数据的时候检查checksum
一般是client读取时发现其有错,则client会将这个bad block报告出去。namenode会将这个数据块标记成corrupt,然后从其他地方拷贝一个正确的block。当正确的block成功时,corrupt block replica被删除
Compression使用compression是一个时间和空间的trade off。压缩的时间越长,一般压缩效果越好,传输时间越短。同时要注意压
...