2장 - 스파크 배포
스파크 배포 모드
- 로컬모드
- 독립실행형(Standalone) 스파크
- YARN(하둡)에서의 스파크
- 메소스에서의 스파크
스파크 설치하기
pyspark 사용을 위해 필요한 사항
- Java
- Python
- Spark
1. Java 설치
- https://www.oracle.com/kr/java/technologies/javase/downloads/#java8
- https://www.oracle.com/java/technologies/downloads/#jdk18-mac
- 버전 확인 java —version
- 환경변수 설정 vi ~/.zshenv $ export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-18.0.2.1.jdk/Contents/Home $ export PATH=$JAVA_HOME/bin:$PATH
2. Python 설치
- https://www.python.org
- 버전 확인 python3 —version
3. Spark 설치
- https://spark.apache.org/downloads.html or brew install apache-spark * brew search spark 명령어를 통해 설치가능한 패키지 확인 가능
- 환경변수 설정 `$ export SPARK_HOME=/opt/homebrew/Cellar/apache-spark/3.3.0/libexec/sbin $ export PATH=$PATH:$SPARK_HOME
$ export SPARK_HOME=/opt/spark $ export PATH=$SPARK_HOME/bin:$PATH`
- homebrew, cask
Mac OS에서 필요한 패키지 설치 및 관리를 위해 homebrew를 먼저 설치했다.
참고 사이트 - https://whitepaek.tistory.com/3
터미널 창을 열고, Homebrew 페이지에 나와있는 스크립트를 실행한다.
설치 완료 후, brew 명령어를 사용하기 위해 환경변수를 설정해준다. 참고사이트
export HOME_BREW="/opt/homebrew/bin"
export PATH=$PATH:$HOME_BREW
보다 편리한 그래픽 작업을 지원해주는 cask 도 함께 설치한다.
brew install cask
- brew 명령어 실행 전, brew update 명령어를 통해 최신 버전으로 업데이트하고 사용하는 것이 좋다.
pyspark
예제 따라하기 - 1개의 master, 3개의 worker
내부 Data 접근 권한이 생기면, 개인적으로 데이터 활용해서 spark 사용해보기
클라우드와 스파크
AWS에서 클러스터를 생성하는 방법 2가지 - EC2, EMR(Elastic MapReduce)
데이터브릭스
이외 참고할 사항
DAG (Directed Acyclic Graph) : 지시된 비순환 그래프, 데이터 흐름과 그 종속성을 나타내기 위해 컴퓨터 과학에서 일반적으로 사용되는 수학적 구조. 작업(task)과 단계(stage)로 구성.
참고 자료
교재 : 파이썬을 활용한 스파크 프로그래밍
파이썬을 활용한 스파크 프로그래밍
스파크는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나다. 이 책에서는 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과
www.aladin.co.kr
'Programming > Spark' 카테고리의 다른 글
[Spark] 1장 - 빅데이터, 하둡 및 스파크 소개 (0) | 2022.08.19 |
---|
댓글