1. 하둡 & 스파크 친해지기
1) 강의 듣기
[토크ON세미나] 아파치 하둡 입문 3강 - 하둡 분산파일시스템 이해(1)
마스터-슬레이브 구조
- 하둡을 비롯한 대부분의 분산 파일 시스템이 이 구조를 채택
- 항상 마스터의 안정성을 보장하기 위해 마스터에서는 데이터 처리 X
구글 플랫폼의 철학
- 한대의 고가 장비 < 여러 대의 저가 장비
- 데이터는 분산 저장 (parallel vs distributed, parallel은 cpu 코어수, distributed는 데이터 중심)
- 시스템(H/W)은 언제든 죽을 수 있다
- 시스템 확장이 쉬워야 한다
하둡 특성
- 수천대 이상의 리눅스 기반 범용 서버들을 하나의 클러스터로 사용
- 마스터-슬레이브 구조
- 파일은 블록(block) 단위로 저장
- 블록 데이터의 복제본 유지로 인한 신뢰성 보장 (기본 3개의 복제본)
- 높은 내고장성
- 데이터 처리의 지역성
하둡에서 블록(Block) 이란?
- 하나의 파일을 여러 개의 Block으로 저장
- 설정에 의해 하나의 Block은 64MB 또는 128MB 등의 큰 크기로 나누어 저장
- 블록 크기가 128MB보다 적은 경우는 실제 크기 만큼만 용량을 차지함
하둡에서 블록(Block) 하나의 크기가 큰 이유는?
- 탐색 비용을 최소화할 수 있기 때문
- 네트워크 전송에 많은 시간 할당 가능
하둡 1.0 -> 2,0 중요한 부분: 마스터 노드의 이중화
하둡 2.0 -> 3.0 중요한 부분: 복제 3이 아니라 복제 2로 저장
블록의 지역성(Locality)
- 네트워크를 이용한 데이터 전송 시간 감소
- 대용량 데이터 확인을 위한 디스크 탐색 시간 감소
- 적절한 단위의 블록 크기를 이용한 CPU 처리시간 증가
블록 캐싱
- 데이터 노드에 저장된 데이터 중 자주 읽는 블록은 블록 캐시라는 데이터 노드의 메모리에 명시적으로 캐싱할 수 있음
데이터노드(Datanode) 역할
- 물리적으로 로컬 파일시스템에 HDFS 데이터를 저장
- 일반적으로 레이드 구성을 하지 않음
[토크ON세미나] 아파치 하둡 입문 4강 - 하둡 분산파일시스템 이해(2)
HDFS 세이프 모드
- 데이터 노드를 수정할 수 없는 상태
- 주로 missing block이 발생하는 경우, 혹은 클러스터 재 구동 시 블록 리포트를 다 받기 전까지 safe mode로 동작
HDFS 운영자 커맨드
- dfsadmin -report
- dfsadmin -setQuota (용량 제한)
- HDFS Balancers (노드 간 디스크 크기가 다를 수 있고, 전체 데이터의 밸런싱이 되지 않는 문제)
~ 23분
2. 주말 회고
- 목표로 한 맵리듀스 논문은 내일 읽는 것으로....^~^ (이래놓고 새벽에 할 수도 있긴 하다.)
- 입사 일주일 남았는데 생활패턴도 정상적으로 돌리자..!
p.s. 아직 인턴이지만, 그동안 취준했던 노하우를 담아서 천천히 인턴 합격 후기글을 작성하고 있다.
'회고 > TIL' 카테고리의 다른 글
20220628_TIL (0) | 2022.06.28 |
---|---|
20220626_TIL (0) | 2022.06.28 |
20220623_TIL (0) | 2022.06.23 |
20220617_TIL (0) | 2022.06.17 |