Hadoop是一个用Java编写的用于运行与物理集群中的框架,吸收了GFS和mapreduce编程模型的特性。Hadoop的HDFS是一个高容错的分布式文件系统,并且它被设计运行于低成本的硬件上,能够提供很大的数据吞吐量,很适合那些数据量很大的应用程序。
接下来,开始准备安装hadoop。我用的操作系统是 ubuntu 12.10 server,hadoop的版本是1.2.0。
安装准备
JDK 6
Hadoop需要在JDK1.5以上的环境下才能运行,目前推荐使用JDK 6 。
2 |
$ sudo apt-get install openjdk-6-jdk
|
安装完成之后,文件会被放置在 /usr/lib/jvm/java-6-openjdk-amd64 这个路径下。
配置SSH
Hadoop需要用SSH来管理它的节点。针对单机的情况,我们需要配置SSH让运行hadoop的用户能够登录本机。
首先,我们需要为运行hadoop的用户生成一个SSH key:
1 |
$ ssh -keygen -t rsa -P "" |
然后,让你可以通过新生成的key来登录本地机器。
1 |
$ cp ~/. ssh /id_rsa.pub ~/. ssh /authorized_keys
|
准备结束,下面开始安装hadoop。
Hadoop
在hadoop官网上下载 1.2.0 版本的软件,解压,然后把文件放到 /usr/local/ 路径下:
1 |
$ tar -zxvf hadoop-1.2.0. tar .gz
|
2 |
$ mv hadoop-1.2.0 hadoop
|
3 |
$ cp -r hadoop/ /usr/ local /
|
接下来开始设置一些环境变量,需要在 ~/.bashrc 文件里面添加一下内容:
02 |
export HADOOP_HOME=/usr/ local /hadoop
|
05 |
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
|
08 |
unalias fs &> /dev/null
|
10 |
unalias hls &> /dev/null
|
14 |
hadoop fs - cat $1 | lzop - dc | head -1000 | less
|
18 |
export PATH=$PATH:$HADOOP_HOME/bin
|
在修改完成后保存,重新登录,相应的环境变量就配置好了。
接下来开始配置Hadoop相关的东西,首先来看张图,了解下HDFS的结构:
配置
hadoop-env.sh
在这个配置文件里,你只需要配置 JAVA_HOME 这个环境变量就行了,添加以下内容:
1 |
export JAVA_HOME=/usr/lib/jvm/java-6-openjdk-amd64
|
conf/hdfs-site.xml
在这里需要配置hadoop存放数据文件的路径和hadoop监听的端口,首先来新建目录:
1 |
$ sudo mkdir -p /app/hadoop/tmp
|
2 |
$ sudo chmod 750 /app/hadoop/tmp
|
然后在 conf/core-site.xml 文件里面添加以下内容:
02 |
< name >hadoop.tmp.dir</ name > |
03 |
< value >/app/hadoop/tmp</ value > |
04 |
< description >A base for other temporary directories.</ description > |
08 |
< name >fs.default.name</ name > |
09 |
< value >hdfs://localhost:54310</ value > |
10 |
< description >The name of the default file system. A URI whose |
11 |
scheme and authority determine the FileSystem implementation. The |
12 |
uri's scheme determines the config property (fs.SCHEME.impl) naming |
13 |
the FileSystem implementation class. The uri's authority is used to |
14 |
determine the host, port, etc. for a filesystem.</ description > |
在 conf/mapred-site.xml 添加以下内容
2 |
< name >mapred.job.tracker</ name > |
3 |
< value >localhost:54311</ value > |
4 |
< description >The host and port that the MapReduce job tracker runs |
5 |
at. If "local", then jobs are run in-process as a single map |
在 conf/hdfs-site.xml 添加以下内容
2 |
< name >dfs.replication</ name > |
4 |
< description >Default block replication. |
5 |
The actual number of replications can be specified when the file is created. |
6 |
The default is used if replication is not specified in create time. |
通过 NameNode 来格式化 HDFS 文件系统
在配置结束后,需要来对 HDFS 进行格式化,运行一下命令:
1 |
$ /usr/ local /hadoop/bin/hadoop namenode - format |
会输出一下内容:
02 |
Warning: $HADOOP_HOME is deprecated. |
04 |
13/06/02 10:22:41 INFO namenode.NameNode: STARTUP_MSG: |
05 |
/************************************************************ |
06 |
STARTUP_MSG: Starting NameNode |
07 |
STARTUP_MSG: host = master/192.168.214.128 |
08 |
STARTUP_MSG: args = [- format ] |
09 |
STARTUP_MSG: version = 1.2.0 |
10 |
STARTUP_MSG: build = https://svn.apache.org/repos/asf/hadoop/common/branches/branch-1.2 -r 1479473; compiled by 'hortonfo' on Mon May 6 06:59:37 UTC 2013
|
11 |
STARTUP_MSG: java = 1.6.0_27 |
12 |
************************************************************/ |
13 |
Re- format filesystem in /app/hadoop/tmp/dfs/name ? (Y or N) y
|
14 |
Format aborted in /app/hadoop/tmp/dfs/name
|
15 |
13/06/02 10:22:48 INFO namenode.NameNode: SHUTDOWN_MSG: |
16 |
/************************************************************ |
17 |
SHUTDOWN_MSG: Shutting down NameNode at master/192.168.214.128 |
18 |
************************************************************/ |
下面就来运行hadoop:
1 |
$ /usr/ local /hadoop/bin/start-all.sh |
这个命令会启动机器上的 namenode,datanode,jobtracker 和 tasktracker
有一个简单的工具来检查hadoop的运行状况,jps:
你也可以通过 netstat 命令来检查 hadoop 是否正常运行:
01 |
$ sudo netstat -plten | grep java
|
02 |
tcp 0 0 0.0.0.0:50070 0.0.0.0:* LISTEN 1001 9236 2471/java |
03 |
tcp 0 0 0.0.0.0:50010 0.0.0.0:* LISTEN 1001 9998 2628/java |
04 |
tcp 0 0 0.0.0.0:48159 0.0.0.0:* LISTEN 1001 8496 2628/java |
05 |
tcp 0 0 0.0.0.0:53121 0.0.0.0:* LISTEN 1001 9228 2857/java |
06 |
tcp 0 0 127.0.0.1:54310 0.0.0.0:* LISTEN 1001 8143 2471/java |
07 |
tcp 0 0 127.0.0.1:54311 0.0.0.0:* LISTEN 1001 9230 2857/java |
08 |
tcp 0 0 0.0.0.0:59305 0.0.0.0:* LISTEN 1001 8141 2471/java |
09 |
tcp 0 0 0.0.0.0:50060 0.0.0.0:* LISTEN 1001 9857 3005/java |
10 |
tcp 0 0 0.0.0.0:49900 0.0.0.0:* LISTEN 1001 9037 2785/java |
11 |
tcp 0 0 0.0.0.0:50030 0.0.0.0:* LISTEN 1001 9773 2857/java |
停止运行 hadoop ,运行以下命令:
1 |
$ /usr/ local /hadoop/bin/stop-all.sh |
那么 hadoop 单机模式安装就完成了,下一篇来介绍多物理机模式的安装。
相关推荐
Ubuntu12.04下安装Hadoop2.4.0单机模式详细教程
本文主要介绍了在Ubuntu系统上Hadoop单机版测试环境的搭建过程。
该文档可以帮助您完美地搭建hadoop平台的单机模式
ubuntu环境下hadoop环境搭建(伪分布模式),是本人学习大数据以来对于hadoop环境搭建的一些经验,现在写成文档的形式分享给大家。
虚拟机Ubuntu下hadoop2.6.0的安装与配置 (单机模式,伪分布式,完全分布式)非常详细的安装配置指南
在虚拟机Ubuntu上安装Hadoop单机模式和集群; 编写一个用Hadoop处理数据的程序,在单机和集群上运行程序。
单机模式部署 一、Jdk安装 命令:sudo apt-get install openjdk-6-jdk 目录:/usr/lib/jvm/java-6-openjdk 配置环境变量: sudo gedit /etc/environment 在其中添加如下两行: CLASSPATH=./:/usr/lib/jvm/java-6-...
。。。
。。。
Hadoop安装有三种模式:单机、伪分布式、完全分布式,本文档为完全分布式安装,过程很详细,设计内容包括:在win7上安装虚拟化工具VMware(用于支撑Linux系统),在VMware上安装Ubuntu系统,安装Hadoop前的准备工作...
hadoop环境安装文档。 包括Ubuntu14.04下安装Hadoop2.4.0 (单机模式) 及Ubuntu14.04下安装Hadoop2.4.0 (单机模式)
一、实验目的与要求 1、在虚拟机Ubuntu上安装Hadoop单机模式; 2、在单机上实现wordcount。
详实的记录了搭建Hadoop云计算环境的过程,希望能帮助他人快速搭建Hadoop云计算环境,目录如下: 1引言 1 1.1 编写目的 1 2搭建过程 1 2.1 所需软件 1 ...2.9.1 单机模式 15 4 附录 16 4.1 linux常用命令 16
Ubuntu16.04下Zookeeper集群模式的本地安装与配置 1.安装环境: os : Ubuntu 16.04 LTS 64bit jdk : 1.8.0_161 zookeeper:apache-zookeeper-3.5.6 zookeeper有单机、伪集群、集群三种部署方式。 单机:一个服务器 伪...
本次实验,在 Hadoop 平台上,使用 MapReduce 实现了数据的全局排序。将详细阐述了实现所需环境及过程。用阿里云服务器安装, OS: Ubuntu20.04 LTS . Hadoop 支持用三种模式启动:单机模式、伪分布式模式、分布式...
3.5 ............................................................................................7 单机模式的操作方法 3.6 ..................................................................................