P.HONG DB

At the bottom of the well, it is destined to see only the sky at the wellhead. However, the starting point only affects the process of reaching your peak and does not determine the height you reach.

pyspark 캐싱, partitioning, broadcast, accumulater 설명

[PySpark_#5] 파이썬을 활용한 스파크 프로그래밍, (5장/8장)

5장 - 스파크 코어 API를 사용한 고급 프로그래밍5장에서 다루는 내용은 spark broadcast, accumulater 소개 RDD partitioning, repartitioning RDD 저장옵션 caching, RDD checkpoint를 다룬다고 한다. 스파크 공유변수코드 스니펫으로 따지면12345678sc = SparkConte......

pyspark 스파크 프로그래밍 기초 학습

[PySpark_#4] 파이썬을 활용한 스파크 프로그래밍, (4장/8장)

Summary 챕터4에서는 pyspark의 기본적인 RDD관련 내용이 나옴page수가 많아서 걱정했는데 그냥 … 코드블럭과 기본적인 연산이어떻게 일어나는지에 대한 하나하나의 설명이였다.기초적인 내용이라 뒤의 내용에서 하나씩 참고해서 보면 좋을만한 내용이 있던 장 Keywords & Terms RDD(Resilient Destributed D......

[PySpark_#3] 파이썬을 활용한 스파크 프로그래밍, (3장/8장)

스파크 클러스터 아키텍처의 이해

Summary 챕터3에서는 SPARK의 기본 아키텍처에 대한 설명이 나옴.내용으로는 길어보였는데 flow를 따라서 가보니 각 컴퍼넌트별 역할이 명확하게 있어서…실습 전 가볍게 이해하기에는 무리가 없었던 장. Keywords & Terms RDD(Resilient Destributed Datase DAG(Directed Acyclic Grap......

[PySpark_#2] 파이썬을 활용한 스파크 프로그래밍, (2장/8장)

스파크 배포

Summary 챕터2에서는 OS별 스파크 설치와 언어별 실행 스크립트를 설명함.AWS의 EC2와 EMR 인스턴스에 띄워보는등 on-premise와 cloud모두 설명 Keywords & Terms EMR(Elastic Map-Reduce) YARN(Yet Another Resource Negotiator) RDD(Resilient Destr......

[PySpark_#1] 파이썬을 활용한 스파크 프로그래밍, (1장/8장)

빅데이터, 하둡 및 스파크 소개

소개Spark스터디에 참여할 수 있는 좋은 기회가 생겼다.아래의 책을 여러 명이 읽어보고 정리하면서 서로의 생각을공유하는 스터디 이며 그 첫 장을 여는 포스팅.많이 부족하고 처음 작성해 보는 포스팅이라 서툴 수 있는데열심히 노력해서 다른 분들처럼 멋있는 글을 써보고 싶덩 Keywords & Terms HDFS(Hadoop Distributed......