본문 바로가기
Programming/Spark

[Spark] 2장 - 스파크 배포

by HouseDust 2022. 8. 30.
반응형

2장 - 스파크 배포

 

스파크 배포 모드

  • 로컬모드
  • 독립실행형(Standalone) 스파크
  • YARN(하둡)에서의 스파크
  • 메소스에서의 스파크

스파크 설치하기 

더보기

pyspark 사용을 위해 필요한 사항

  1. Java
  2. Python
  3. Spark

1. Java 설치

2. Python 설치

3. Spark 설치

  • https://spark.apache.org/downloads.html or brew install apache-spark * brew search spark 명령어를 통해 설치가능한 패키지 확인 가능
  • 환경변수 설정 `$ export SPARK_HOME=/opt/homebrew/Cellar/apache-spark/3.3.0/libexec/sbin $ export PATH=$PATH:$SPARK_HOME

$ export SPARK_HOME=/opt/spark $ export PATH=$SPARK_HOME/bin:$PATH`

  • homebrew, cask

Mac OS에서 필요한 패키지 설치 및 관리를 위해 homebrew를 먼저 설치했다.

참고 사이트 - https://whitepaek.tistory.com/3

터미널 창을 열고, Homebrew 페이지에 나와있는 스크립트를 실행한다.

설치 완료 후, brew 명령어를 사용하기 위해 환경변수를 설정해준다. 참고사이트

export HOME_BREW="/opt/homebrew/bin"
export PATH=$PATH:$HOME_BREW

보다 편리한 그래픽 작업을 지원해주는 cask 도 함께 설치한다.

brew install cask

  • brew 명령어 실행 전, brew update 명령어를 통해 최신 버전으로 업데이트하고 사용하는 것이 좋다.

pyspark

예제 따라하기 - 1개의 master, 3개의 worker

내부 Data 접근 권한이 생기면, 개인적으로 데이터 활용해서 spark 사용해보기

클라우드와 스파크

AWS에서 클러스터를 생성하는 방법 2가지 - EC2, EMR(Elastic MapReduce)

데이터브릭스

 


이외 참고할 사항

MacOS 환경변수

DAG (Directed Acyclic Graph) : 지시된 비순환 그래프, 데이터 흐름과 그 종속성을 나타내기 위해 컴퓨터 과학에서 일반적으로 사용되는 수학적 구조. 작업(task)과 단계(stage)로 구성.

 


참고 자료

 

교재 : 파이썬을 활용한 스파크 프로그래밍

 

파이썬을 활용한 스파크 프로그래밍

스파크는 빅데이터 분석을 위한 가장 핵심적인 기술 중 하나다. 이 책에서는 스파크의 개념 및 설치, 활용법의 상세한 설명으로 독자들의 이해를 돕는다. 또한 스파크와 통합되는 타 기술들과

www.aladin.co.kr

반응형

'Programming > Spark' 카테고리의 다른 글

[Spark] 1장 - 빅데이터, 하둡 및 스파크 소개  (0) 2022.08.19

댓글