[Spark] 2장 - 스파크 배포

2장 - 스파크 배포

스파크 배포 모드

로컬모드
독립실행형(Standalone) 스파크
YARN(하둡)에서의 스파크
메소스에서의 스파크

스파크 설치하기

pyspark 사용을 위해 필요한 사항

Java
Python
Spark

1. Java 설치

https://www.oracle.com/kr/java/technologies/javase/downloads/#java8
https://www.oracle.com/java/technologies/downloads/#jdk18-mac
버전 확인 java —version
환경변수 설정 vi ~/.zshenv $ export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-18.0.2.1.jdk/Contents/Home $ export PATH=$JAVA_HOME/bin:$PATH

2. Python 설치

https://www.python.org
버전 확인 python3 —version

3. Spark 설치

https://spark.apache.org/downloads.html or brew install apache-spark * brew search spark 명령어를 통해 설치가능한 패키지 확인 가능
환경변수 설정 `$ export SPARK_HOME=/opt/homebrew/Cellar/apache-spark/3.3.0/libexec/sbin $ export PATH=$PATH:$SPARK_HOME

$ export SPARK_HOME=/opt/spark $ export PATH=$SPARK_HOME/bin:$PATH`

homebrew, cask

Mac OS에서 필요한 패키지 설치 및 관리를 위해 homebrew를 먼저 설치했다.

참고 사이트 - https://whitepaek.tistory.com/3

터미널 창을 열고, Homebrew 페이지에 나와있는 스크립트를 실행한다.

설치 완료 후, brew 명령어를 사용하기 위해 환경변수를 설정해준다. 참고사이트

export HOME_BREW="/opt/homebrew/bin"
export PATH=$PATH:$HOME_BREW

보다 편리한 그래픽 작업을 지원해주는 cask 도 함께 설치한다.

brew install cask

brew 명령어 실행 전, brew update 명령어를 통해 최신 버전으로 업데이트하고 사용하는 것이 좋다.

pyspark

예제 따라하기 - 1개의 master, 3개의 worker

내부 Data 접근 권한이 생기면, 개인적으로 데이터 활용해서 spark 사용해보기

클라우드와 스파크

AWS에서 클러스터를 생성하는 방법 2가지 - EC2, EMR(Elastic MapReduce)

데이터브릭스

이외 참고할 사항

MacOS 환경변수

DAG (Directed Acyclic Graph) : 지시된 비순환 그래프, 데이터 흐름과 그 종속성을 나타내기 위해 컴퓨터 과학에서 일반적으로 사용되는 수학적 구조. 작업(task)과 단계(stage)로 구성.

참고 자료

교재 : 파이썬을 활용한 스파크 프로그래밍

파이썬을 활용한 스파크 프로그래밍

스파크는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나다. 이 책에서는 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과

www.aladin.co.kr

저작자표시 (새창열림)

'Programming > Spark' 카테고리의 다른 글

[Spark] 1장 - 빅데이터, 하둡 및 스파크 소개 (0)	2022.08.19

Thinking Dust

[Spark] 2장 - 스파크 배포

2장 - 스파크 배포

1. Java 설치

2. Python 설치

3. Spark 설치

pyspark

클라우드와 스파크

'Programming > Spark' 카테고리의 다른 글

댓글

티스토리툴바

[Spark] 2장 - 스파크 배포

2장 - 스파크 배포

1. Java 설치

2. Python 설치

3. Spark 설치

pyspark

클라우드와 스파크

'Programming > Spark' 카테고리의 다른 글

관련글

댓글

티스토리툴바