新浪博客

hadoop output 生成 part-r-00000.deflate 用-text  查看数据

2015-05-06 17:10阅读:
其中 打开方式 可用
hadoop dfs -text output5/part-r-00000.deflate
hdfs dfs -text output5/part-r-00000.deflate
用 -text 可以查看数据
我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式

压缩格式 UNIX工具 文件扩展名 支持多文件 可分割
DEFLATE DEFLATE .deflate No No
gzip gzip DEFLATE .gz No No
zip zip DEFLATE .zip YES YES
bzip bzip2 bzip2 .bz2 No YES
LZO lzop LZO .lzo No No

为了支持多种压缩
/解压缩算法,Hadoop引入了编码/解码器,如下表所示
压缩格式 对应的编码/解码器
DEFLATE org.apache.hadoop.io.compress.DefaultCodec
gzip org.apache.hadoop.io.compress.GzipCodec
bzip org.apache.hadoop.io.compress.BZipCodec
Snappy org.apache.hadoop.io.compress.SnappyCodec

我的更多文章

下载客户端阅读体验更佳

APP专享