[Spark] pyspark 3.0 dataframe new function 테스트#3(transform, overlay)

2020/07/03 - [Data Science/Spark] - [Spark] Colab에서 Spark 사용하기 (pyspark)

○ transform
transform(func)
func : 함수
dataframe을 파라미터로 받아 dataframe을 반환하는 함수를 간단하게 사용할 수 있도록 되었다.
특히, 2개이상의 함수를 한번에 사용할 수 있게 되어 유용할것으로 보인다.

#테스트 데이터프레임 준비
test_df = spark.createDataFrame([(1, 1.0), (2, 2.0)], ["int", "float"])
test_df.show()
test_df.printSchema()

def cast_all_to_int(input_df):
    return input_df.select([func.col(col_name).cast("int") for col_name in input_df.columns])
# test_df.select([func.col(col_name).cast("int") for col_name in test_df.columns]).show()
def sort_columns_asc(input_df):
    return input_df.select(*sorted(input_df.columns))

#이전
as_was_df = cast_all_to_int(test_df)
as_was_df.show()
as_was_df.printSchema()

test_df.transform(cast_all_to_int).show()
test_df.transform(cast_all_to_int).printSchema()

결과가 같다.

def cast_all_to_int(input_df):
    return input_df.select([func.col(col_name).cast("int") for col_name in input_df.columns])

def sort_columns_asc(input_df):
    return input_df.select(*sorted(input_df.columns))

# 이전방식
as_was_df = cast_all_to_int(test_df) 
as_was_df = sort_columns_asc(as_was_df)
as_was_df.show()
as_was_df.printSchema()

# transform적용
test_df.transform(cast_all_to_int).transform(sort_columns_asc).show()
test_df.transform(cast_all_to_int).transform(sort_columns_asc).printSchema()

#동일한 결과

○ overlay
- overlay(col1, col2, pos, len)

#overray test
df.show()
df.select(func.overlay("year", "month", 3, 2)).show()

참고

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html

pyspark.sql module — PySpark 3.0.0 documentation

how – str, default inner. Must be one of: inner, cross, outer, full, fullouter, full_outer, left, leftouter, left_outer, right, rightouter, right_outer, semi, leftsemi, left_semi, anti, leftanti and left_anti.

spark.apache.org

저작자표시 비영리

'Data Science > Spark' 카테고리의 다른 글

[Spark] pyspark 3.0 dataframe new function 테스트#2(csv관련) (0)	2020.07.06
[Spark] pyspark 3.0 dataframe new function 테스트#1(테스트데이터준비) (1)	2020.07.03
[Spark] Colab에서 Spark 사용하기 (pyspark) (0)	2020.07.03

🌰밤토로

[Spark] pyspark 3.0 dataframe new function 테스트#3(transform, overlay)

'Data Science > Spark' 카테고리의 다른 글

댓글

티스토리툴바

[Spark] pyspark 3.0 dataframe new function 테스트#3(transform, overlay)

'Data Science > Spark' 카테고리의 다른 글

관련글

댓글

티스토리툴바