๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

Data Science/Spark4

[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#3(transform, overlay) 2020/07/03 - [Data Science/Spark] - [Spark] Colab์—์„œ Spark ์‚ฌ์šฉํ•˜๊ธฐ (pyspark) โ—‹ transform transform(func) func : ํ•จ์ˆ˜ dataframe์„ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ฐ›์•„ dataframe์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋˜์—ˆ๋‹ค. ํŠนํžˆ, 2๊ฐœ์ด์ƒ์˜ ํ•จ์ˆ˜๋ฅผ ํ•œ๋ฒˆ์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด ์œ ์šฉํ• ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. #ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ์ค€๋น„ test_df = spark.createDataFrame([(1, 1.0), (2, 2.0)], ["int", "float"]) test_df.show() test_df.printSchema() def cast_all_to_int(input_df): return input_df.select([func.c.. 2020. 7. 6.
[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#2(csv๊ด€๋ จ) 2020/07/03 - [Data Science/Spark] - [Spark] spark 3.0 dataframe ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ ์ •๋ฆฌ #1 ์ง์ „ ํฌ์ŠคํŠธ์—์„œ ์ค€๋น„ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์‹ ๊ทœ๊ธฐ๋Šฅ, ๊ฐœ์„ ๊ธฐ๋Šฅ์„ ํ…Œ์ŠคํŠธ โ—‹ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ ํ™•์ธ โ—‹ csv๊ด€๋ จ ( from_csv, to_csv, schema_of_csv ) from_json์˜ csv(comma seperated value)๋Œ€์‘๊ธฐ๋Šฅ, ์ปด๋งˆ(',')๋กœ ๊ตฌ๋ถ„๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ๋•Œ ์‚ฌ์šฉ - to_csv(col, options={}) col : listํ˜•์‹์œผ๋กœ ๋œ ์ปฌ๋Ÿผ [a,b,c,d,1,2,3] options : spark.read.csv์—์„œ ์‚ฌ์šฉํ•˜๋Š” option๋“ค์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ž์„ธํ•œ ์˜ต์…˜๋“ค์€ ์•„๋ž˜ url์ฐธ๊ณ  https://spark.apache.org/docs/la.. 2020. 7. 6.
[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#1(ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ์ค€๋น„) 2020๋…„ 3์›”์— ๋ฆด๋ฆฌ์ฆˆ๋œ spark์˜ ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์„ ์‹คํ–‰ํ•ด๋ณด์•˜๋‹ค. โ—‹ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ ์ค€๋น„ 1) ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์„ ํƒ ํ…Œ์ŠคํŠธ์— ํ™œ์šฉํ•  ๋ฐ์ดํ„ฐ๋Š” ๊ณผํ•™๊ธฐ์ˆ ์ •๋ณดํ†ต์‹ ๋ถ€ ์ค‘์•™์ „ํŒŒ๊ด€๋ฆฌ์†Œ์˜ ์ค‘์•™์ „ํŒŒ๊ด€๋ฆฌ์†Œ_๊ตญ๋‚ด์™ธ ์‹ ๊ทœ์œ„์„ฑ ๋ฐœ์‚ฌ ํ˜„ํ™ฉ์„ ํ™œ์šฉํ–ˆ๋‹ค. https://www.data.go.kr/data/15002904/fileData.do ๋‹ค์šด๋ฐ›์€ csvํŒŒ์ผ์˜ ํ•œ๊ธ€๋กœ ๋œ ์ปฌ๋Ÿผ๋ช…๋“ค์„ ์˜๋ฌธ์œผ๋กœ ๊ฐ„๋žตํ•˜๊ฒŒ ๋ฐ”๊พธ์—ˆ๋‹ค. ๊ทธํ›„ colab์˜ sample_data ํด๋” ๋ฐ‘์— new_launch.csv๋กœ ์ €์žฅ. ๊ณต๊ณต๋ฐ์ดํ„ฐ ํฌํ„ธ ๊ตญ๊ฐ€์—์„œ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผใ€Ž๊ณต๊ณต๋ฐ์ดํ„ฐ์˜ ์ œ๊ณต ๋ฐ ์ด์šฉ ํ™œ์„ฑํ™”์— ๊ด€ํ•œ ๋ฒ•๋ฅ (์ œ11956ํ˜ธ)ใ€์— ๋”ฐ๋ผ ๊ฐœ๋ฐฉํ•˜์—ฌ ๊ตญ๋ฏผ๋“ค์ด ๋ณด๋‹ค ์‰ฝ๊ณ  ์šฉ์ดํ•˜๊ฒŒ ๊ณต์œ โ€ขํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต๊ณต๋ฐ์ดํ„ฐ(Datase www.data.go.kr ํŒŒ.. 2020. 7. 3.
[Spark] Colab์—์„œ Spark ์‚ฌ์šฉํ•˜๊ธฐ (pyspark) #2020.07.06 spark3.0 preview2 ๊ธฐ์ค€์œผ๋กœ ์ž‘์„ฑ๋˜์–ด ์ˆ˜์ • (spark3.0-preview2->spark3.0) spark3.0 / hadoop3.2 ๊ธฐ์ค€์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. 1) Colab ์ ‘์† https://colab.research.google.com/ Google Colaboratory colab.research.google.com 2) ์ƒˆ๋…ธํŠธ์ƒ์„ฑ 3) openjdk8 ์„ค์น˜ !apt-get install openjdk-8-jdk-headless 4) spark3.0 ( hadoop3.2 ) tar ๋‹ค์šด๋กœ๋“œ !wget -q https://www-us.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz 5) ์••์ถ•ํ’€๊ธฐ !t.. 2020. 7. 3.