๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

์ „์ฒด ๊ธ€8

ADP 18ํšŒ ์‹ค๊ธฐ ํ›„๊ธฐ ADP ํ›„๊ธฐ๋„ ๋ถ€์กฑ, ์ž๋ฃŒ๋„ ๋ถ€์กฑ.... 'R์„ ์œ„ํ•œ ์‹œํ—˜์ด๋‹ค'๋ผ๋Š” ํ›„๊ธฐ๋ฅผ ๋ณด๊ณ ๋„ ๋ฌด์‹œํ•˜๊ณ  python์œผ๋กœ ๊ณ„์†ํ•˜๋‹ค๊ฐ€ ์‹ค๊ธฐํ•˜๋ฃจ์ „๋‚ ์—์•ผ R๋กœ ์ „ํ™˜ํ•˜๊ธฐ๋กœ ํ–ˆ๋‹ค. (๊ทธ์ชฝ์ด ์ข€๋” ํ•ฉ๊ฒฉํ™•๋ฅ ์ด ์žˆ์–ด๋ณด์˜€๋‹ค...) ๋ฌธ์ œ๋‚˜ ๋ด…์‹œ๋‹ค..๋ผ๋Š” ์ƒ๊ฐ์œผ๋กœ ๋ดค๋Š”๋ฐ ์—ญ์‹œ ๋˜ฅ๋ง๋„ ์ด๋Ÿฐ ๋˜ฅ๋ง์ด ์—†์—ˆ๋‹ค. 9์›” 11์ผ ๋ฐ์ดํ„ฐ์—๋“€์—์„œ ๋‚˜์˜จ ADP์‹ค๊ธฐ ๋Œ€๋น„๊ต์žฌ์—๋Š” ๋‚˜์˜ค์ง€๋„ ์•Š๋Š” ARIMA, SOM์ด ๋ฌธ์ œ์˜ ๋ฉ”์ธ์ด์—ˆ๋‹ค. ์–ด๋Š ํ›„๊ธฐ์—์„ ๊ฐ€ ๊ทธ๋žฌ๋‹ค. 'ADP ์‹ค๊ธฐ๋Š” ์•ˆ๋‚˜์˜จ๊ฒƒ์„ ๋‚ด๋ ค๊ณ  ๊ตณ์ด ๋…ธ๋ ฅํ•˜๋Š” ๊ฒƒ ๊ฐ™๋‹ค'๋ผ๊ณ .... ๋‹นํ–ˆ๋‹ค. ์–ด์จŒ๋“  ์†Œ๋“์€ ์–ด๋–ค์‹์œผ๋กœ ์ค€๋น„ํ•˜๋ฉด ๋œ๋‹ค.๋ผ๋Š” ๋Š๋‚Œ? ์‚ฌ์‹ค R๋ฌธ๋ฒ• ๊ธฐ์ดˆ๋„ ์—†๋Š” ์ƒํƒœ์—์„œ ์‹œํ—˜์„ ๋ดค๊ธฐ๋•Œ๋ฌธ์— R๋ฌธ๋ฒ• ๊ธฐ์ดˆ๋Š” ํ•œ๋ฒˆ ํ›‘๊ณ  ๋„˜์–ด๊ฐ€์•ผ ํ•˜๊ณ  ์˜คํ”ˆ ๋ถ ์‹œํ—˜์ด๊ธฐ๋•Œ๋ฌธ์— ๊ฐ ๊ธฐ๋ฒ•์— ๋งž๋„๋ก EDA, ๋ชจ๋ธ, ํ•ด์„ค ํ•œ๋ถ€์”ฉ ์†Œ์Šค ์ค€๋น„๋ฅผ .. 2020. 9. 21.
[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#3(transform, overlay) 2020/07/03 - [Data Science/Spark] - [Spark] Colab์—์„œ Spark ์‚ฌ์šฉํ•˜๊ธฐ (pyspark) โ—‹ transform transform(func) func : ํ•จ์ˆ˜ dataframe์„ ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋ฐ›์•„ dataframe์„ ๋ฐ˜ํ™˜ํ•˜๋Š” ํ•จ์ˆ˜๋ฅผ ๊ฐ„๋‹จํ•˜๊ฒŒ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๋˜์—ˆ๋‹ค. ํŠนํžˆ, 2๊ฐœ์ด์ƒ์˜ ํ•จ์ˆ˜๋ฅผ ํ•œ๋ฒˆ์— ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด ์œ ์šฉํ• ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. #ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ์ค€๋น„ test_df = spark.createDataFrame([(1, 1.0), (2, 2.0)], ["int", "float"]) test_df.show() test_df.printSchema() def cast_all_to_int(input_df): return input_df.select([func.c.. 2020. 7. 6.
[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#2(csv๊ด€๋ จ) 2020/07/03 - [Data Science/Spark] - [Spark] spark 3.0 dataframe ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ ์ •๋ฆฌ #1 ์ง์ „ ํฌ์ŠคํŠธ์—์„œ ์ค€๋น„ํ•œ ๋ฐ์ดํ„ฐ๋กœ ์‹ ๊ทœ๊ธฐ๋Šฅ, ๊ฐœ์„ ๊ธฐ๋Šฅ์„ ํ…Œ์ŠคํŠธ โ—‹ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ ํ™•์ธ โ—‹ csv๊ด€๋ จ ( from_csv, to_csv, schema_of_csv ) from_json์˜ csv(comma seperated value)๋Œ€์‘๊ธฐ๋Šฅ, ์ปด๋งˆ(',')๋กœ ๊ตฌ๋ถ„๋œ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃฐ๋•Œ ์‚ฌ์šฉ - to_csv(col, options={}) col : listํ˜•์‹์œผ๋กœ ๋œ ์ปฌ๋Ÿผ [a,b,c,d,1,2,3] options : spark.read.csv์—์„œ ์‚ฌ์šฉํ•˜๋Š” option๋“ค์„ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค. ์ž์„ธํ•œ ์˜ต์…˜๋“ค์€ ์•„๋ž˜ url์ฐธ๊ณ  https://spark.apache.org/docs/la.. 2020. 7. 6.
[Spark] pyspark 3.0 dataframe new function ํ…Œ์ŠคํŠธ#1(ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ์ค€๋น„) 2020๋…„ 3์›”์— ๋ฆด๋ฆฌ์ฆˆ๋œ spark์˜ ์ƒˆ๋กœ์šด ๊ธฐ๋Šฅ์„ ์‹คํ–‰ํ•ด๋ณด์•˜๋‹ค. โ—‹ ํ…Œ์ŠคํŠธ๋ฐ์ดํ„ฐ ์ค€๋น„ 1) ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ ์„ ํƒ ํ…Œ์ŠคํŠธ์— ํ™œ์šฉํ•  ๋ฐ์ดํ„ฐ๋Š” ๊ณผํ•™๊ธฐ์ˆ ์ •๋ณดํ†ต์‹ ๋ถ€ ์ค‘์•™์ „ํŒŒ๊ด€๋ฆฌ์†Œ์˜ ์ค‘์•™์ „ํŒŒ๊ด€๋ฆฌ์†Œ_๊ตญ๋‚ด์™ธ ์‹ ๊ทœ์œ„์„ฑ ๋ฐœ์‚ฌ ํ˜„ํ™ฉ์„ ํ™œ์šฉํ–ˆ๋‹ค. https://www.data.go.kr/data/15002904/fileData.do ๋‹ค์šด๋ฐ›์€ csvํŒŒ์ผ์˜ ํ•œ๊ธ€๋กœ ๋œ ์ปฌ๋Ÿผ๋ช…๋“ค์„ ์˜๋ฌธ์œผ๋กœ ๊ฐ„๋žตํ•˜๊ฒŒ ๋ฐ”๊พธ์—ˆ๋‹ค. ๊ทธํ›„ colab์˜ sample_data ํด๋” ๋ฐ‘์— new_launch.csv๋กœ ์ €์žฅ. ๊ณต๊ณต๋ฐ์ดํ„ฐ ํฌํ„ธ ๊ตญ๊ฐ€์—์„œ ๋ณด์œ ํ•˜๊ณ  ์žˆ๋Š” ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฅผใ€Ž๊ณต๊ณต๋ฐ์ดํ„ฐ์˜ ์ œ๊ณต ๋ฐ ์ด์šฉ ํ™œ์„ฑํ™”์— ๊ด€ํ•œ ๋ฒ•๋ฅ (์ œ11956ํ˜ธ)ใ€์— ๋”ฐ๋ผ ๊ฐœ๋ฐฉํ•˜์—ฌ ๊ตญ๋ฏผ๋“ค์ด ๋ณด๋‹ค ์‰ฝ๊ณ  ์šฉ์ดํ•˜๊ฒŒ ๊ณต์œ โ€ขํ™œ์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ณต๊ณต๋ฐ์ดํ„ฐ(Datase www.data.go.kr ํŒŒ.. 2020. 7. 3.