Programming/Spark2 [Spark] 2장 - 스파크 배포 2장 - 스파크 배포 스파크 배포 모드 로컬모드 독립실행형(Standalone) 스파크 YARN(하둡)에서의 스파크 메소스에서의 스파크 스파크 설치하기 더보기 pyspark 사용을 위해 필요한 사항 Java Python Spark 1. Java 설치 https://www.oracle.com/kr/java/technologies/javase/downloads/#java8 https://www.oracle.com/java/technologies/downloads/#jdk18-mac 버전 확인 java —version 환경변수 설정 vi ~/.zshenv $ export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk-18.0.2.1.jdk/Contents/Home $ e.. 2022. 8. 30. [Spark] 1장 - 빅데이터, 하둡 및 스파크 소개 1장 - 빅데이터, 하둡 및 스파크 소개 하둡(Hadoop)의 등장 배경 2000년대 초, 검색엔진 제공 업체에서 인터넷 규모 문제에 직면하고 이를 해결하기 위해 새로운 기능을 독자적으로 개발함. 2003, '더 구글 : 파일 시스템' 2004, '맵리듀스 : 대형 클러스터에서의 단순화된 데이터 처리' 이 과정에서 Lucene 프로젝트 기반 Nutch 웹 크롤러 프로젝트를 마무리하며 저장 처리 원칙을 통합하게 되는데, 이 결과물이 바로 하둡(Hadoop)이다. 하둡이 시작된 시기에 발생한 기술혁신 전자 상거래의 급속한 팽창 모바일 인터넷의 탄생과 빠른 성장 블로그 및 사용자 중심 웹 콘텐츠 소셜 미디어 위와 같은 기술 혁신은 데이터 생성량의 급격한 증가를 초래했고 스파크, 카프카, HBase, 카산드라와.. 2022. 8. 19. 이전 1 다음 반응형