빅데이터
hadoop
(1) 기본 속성
5V : Volume, Variety, Velacity + Veracity, Value
(2) 처리 과정
수집 -> 저장 -> 처리 -> 분석 -> 시각화
하둡
(0) 하둡이란?
아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어
자바 소프트웨어 프레임워크이다.
실습환경 준비 -> master화면에서 slave1,slave2를 접속 했을 때 암호를 묻지않고 즉시 접속되도록 만든다.
(1) HDFS (Hadoop Distributed File System)
1) 마스터 노드
[1] PC 이름 변경
vi /etc/hostname 의 내용을 master로 변경
[2] DNS 설정
vi /etc/hosts 파일에 다음 내용 추가
192.168.240.10 master
192.168.240.20 slave1
192.168.240.30 slave2
[3] SSH 설정
ssh-keygen -t rsa 명령어로 사용자 키 생성 (개인키, 공개키 1쌍, 암호 구문이나 다른 내용들은 그냥 본인 맘대로 설정, 강사는 빈칸으로 함)
chmod 700 ~/.ssh
chmod 600 ~/.ssh/id_rsa
chmod 644 ~/.ssh/id_rsa.pub
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
scp ~/.ssh/id_rsa.pub slave1:id_rsa.pub
slave1의 암호 입력
scp ~/.ssh/id_rsa.pub slave2:id_rsa.pub
slave2의 암호 입력
[4] JDK 설치
[5] Hadoop 다운로드 및 압축 해제
vi /etc/profile
export HADOOP_HOME=~/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[6] Hadoop 멀티 노드 설정 - 마스터
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/hadoop-env.sh 에 JAVA_HOME 절대 경로로 설정하기
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/core-site.xml
<configuration>
<!-- file system default name -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.namenode.edits.dir</name>
<value>file:///home/hadoop/dfs/edits</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:50090</value>
</property>
</configuration>
----------------------------------------------------------------------------------
cp /root/hadoop-2.9.2/etc/hadoop/mapred-site.xml.template /root/hadoop-2.9.2/etc/hadoop/mapred-site.xml
vi mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/slaves
master
slave1
slave2
2) 슬레이브 노드
[1] PC 이름 변경
vi /etc/hostname 의 내용을 slave1, slave2로 각각 변경
[2] DNS 설정
vi /etc/hosts 파일에 다음 내용 추가
192.168.240.10 master
192.168.240.20 slave1
192.168.240.30 slave2
[3] SSH 설정
mkdir ~/.ssh
cat ~/id_rsa.pub >> ~/.ssh/authorized_keys
[4] JDK 설치
yum install java-1.8.0-openjdk-devel.x86_64
vi /etc/profile 파일 맨 밑에 추가
JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.181-3.b13.el7_5.x86_64
export JAVA_HOME
PATH=$PATH:$JAVA_HOME/bin
export PATH
[5] Hadoop 다운로드 및 압축 해제
vi /etc/profile
export HADOOP_HOME=~/hadoop-2.9.2
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
[6] Hadoop 멀티 노드 설정 - 슬레이브
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/hadoop-env.sh 에 JAVA_HOME를 절대 경로로 설정하기
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
----------------------------------------------------------------------------------
vi /root/hadoop-2.9.2/etc/hadoop/hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///home/hadoop/dfs/data</value>
</property>
</configuration>
방화벽 해제
마스터 노드에 다음 디렉토리 생성
/home/hadoop/dfs/edits
/home/hadoop/dfs/name
3) 하둡 실행
hdfs namenode -format
~/hadoop/sbin/start-all.sh
jps로 확인
마스터
11364 DataNode
11828 NodeManager
11718 ResourceManager
11546 SecondaryNameNode
14186 Jps
13615 NameNode
슬레이브
6240 NodeManager
6163 DataNode
6335 Jps
테스트 화면
http://[마스터 IP]:50070
실습 동영상
공감(♥) 과 댓글은 필자에게 큰 힘이 됩니다. 잠시 1초만 내주시면 안될까요? ~~ 로그인 없이도 가능합니당 |
댓글