Hadoop常用的命令汇总

K-seo • 2023-12-16 10:21 • 行业资讯 • 125 views

Hadoop是一个开源的分布式计算框架，它可以处理大量数据并提供高可用性、高扩展性和容错性，在Hadoop中，有许多命令可以帮助我们完成各种任务，例如创建目录、上传文件、运行MapReduce作业等，本文将汇总Hadoop常用的命令，帮助大家更好地理解和使用Hadoop。

基础命令

1、hadoop version

查看Hadoop版本信息。

2、hadoop dfsadmin -report

查看Hadoop集群的详细报告，包括节点状态、存储容量等信息。

3、hadoop fs -ls /path/to/directory

4、hadoop fs -put localfile /path/to/remote/directory

将本地文件上传到HDFS中的指定目录。

5、hadoop fs -get /path/to/remote/file ./localfile

从HDFS中下载文件到本地。

6、hadoop fs -rm -r /path/to/directory

删除HDFS中的指定目录及其内容。

7、hadoop fs -mkdir /path/to/new/directory

在HDFS中创建新目录。

8、hadoop fs -copyFromLocal /path/to/local/file /path/to/hdfs/destination

将本地文件复制到HDFS中的指定目录。

9、hadoop jar <jar-file> [main-class] [args]

运行包含在JAR文件中的Java程序，需要指定主类名和参数。

MapReduce命令

10、hadoop jar <jar-file> org.apache.hadoop.examples.WordCount <input-dir> <output-dir>

运行一个简单的MapReduce WordCount示例程序，输入和输出目录分别由<input-dir>和<output-dir>指定。

11、hadoop jar <jar-file> org.apache.hadoop.examples.Pi <num-reducers> <input-dir> <output-dir>

运行一个计算圆周率的MapReduce程序，需要指定reducer的数量(<num-reducers>),输入和输出目录分别由<input-dir>和<output-dir>指定。

12、hadoop jar <jar-file> org.apache.hadoop.examples.MRJobInfo <job-id> <info-type>

查询指定MapReduce作业的信息，包括运行时间、内存使用情况等，需要指定作业ID(<job-id>)和信息类型(<info-type>)。

HDFS管理命令

13、hdfs dfsadmin -safemode get | grep 'ON' || hdfs dfsadmin -safemode leave

开启或关闭HDFS的安全模式，当安全模式开启时，HDFS只允许进行读操作，以防止数据损坏。

14、hdfs dfsadmin -report | grep 'Live datanodes' || hdfs dfsadmin -addDatanode <datanode-address> <hostname>:<port> [<rack>] [<security-enabled>] [<inode-attributes>] [<storage-info>] [<hosts-allowed>] [<hosts-denied>] [<last-contacted>] [<state>] [<capacity>] [<dfsadmin>] [<http-address>] [<namenoderpc-address>] [<ipc_port>] [<info_port>] [<inode_replication>] [<default_block_size_bytes>] [<replication_factor_for_default_blocks>] [<auto_replicated_imported_blocks_limit_percentage>] [<auto_replicated_exported_blocks_limit_percentage>] [<block_placement_policy_class>] [<max_transfer_threads>] [<max_repl_streams_per_datanode>] [<min_repl_streams_per_datanode>] [<replication_streamcheck_interval_secs>] [<max_underreplicated_blockspct>] [<max_underreplicated_blocksthreshold>] [<min_repl_streamsneeded_thresdhold>] [<blocksizecheckintervalsecs>] [<blocksizecheckintervalmillisecs>] [<blocksizecheckintervalbytes>] [<blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalbytes*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*1024+blocksizecheckintervalfilesizesmb*1024*1024*

原创文章，作者：K-seo，如若转载，请注明出处：https://www.kdun.cn/ask/133935.html

Hadoop常用的命令汇总

基础命令

MapReduce命令

HDFS管理命令

相关推荐

hadoop服务器迁移的步骤是什么

hadoop2.7集群新增datanode节点后报错怎么解决

hbase的存储格式介绍

MapReduce的工作原理是什么？

MapReduce的工作机制是怎样的？

如何通过调优HDFS网络解决路由器稳定性问题？

发表回复