[Spark] pyspark 3.0 dataframe new function 테스트#1(테스트데이터준비)

2020년 3월에 릴리즈된 spark의 새로운 기능을 실행해보았다.

○ 테스트데이터 준비

1) 테스트 데이터 선택
테스트에 활용할 데이터는 과학기술정보통신부 중앙전파관리소의
중앙전파관리소_국내외 신규위성 발사 현황을 활용했다.
https://www.data.go.kr/data/15002904/fileData.do

다운받은 csv파일의 한글로 된 컬럼명들을 영문으로 간략하게 바꾸었다.
그후 colab의 sample_data 폴더 밑에 new_launch.csv로 저장.

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

파일이 잘 읽힌는 지 확인

df = spark.read.csv("./sample_data/new_launch.csv", inferSchema=True, header=True)
df.show()

잘 읽히는 것 확인.
읽을 때 옵션은 아래와 같다. 자세한 것은 나중에 별도의 포스트를 통해서 업로드예정
- header는 컬럼명이 있는 row를 데이터가 아닌 컬럼명으로 읽을지를 결정하는 옵션
- inferSchema는 데이터들을 샘플로 읽고 data type들을 추론하여 결정하는 옵션

2) 데이터 보정
datainfer옵션을 켰더니 모든 year, month가 integer로 data type이 먹혔다.
따라서 스키마와 데이터를 보정해준다.

from pyspark.sql import functions as func
from pyspark.sql import types
df = df.withColumn("year", df.year.cast('String'))
df = df.withColumn("month", df.month.cast('String'))
df = df.withColumn("month", func.lpad(df.month, 2, '0'))

year -> string 타입, month -> string 타입, lpad로 왼쪽에 0채워넣기
데이터를 한번 더 확인해본다.

df.show()

#스키마확인
df.printSchema()

데이터준비과정이 너무 길어진 것 같아
본격 신규 기능 테스트는 다음 포스트에...

저작자표시 비영리

'Data Science > Spark' 카테고리의 다른 글

[Spark] pyspark 3.0 dataframe new function 테스트#3(transform, overlay) (1)	2020.07.06
[Spark] pyspark 3.0 dataframe new function 테스트#2(csv관련) (0)	2020.07.06
[Spark] Colab에서 Spark 사용하기 (pyspark) (0)	2020.07.03

🌰밤토로

[Spark] pyspark 3.0 dataframe new function 테스트#1(테스트데이터준비)

'Data Science > Spark' 카테고리의 다른 글

댓글

티스토리툴바

[Spark] pyspark 3.0 dataframe new function 테스트#1(테스트데이터준비)

'Data Science > Spark' 카테고리의 다른 글

관련글

댓글

티스토리툴바