๋ณธ๋ฌธ ๋ฐ”๋กœ๊ฐ€๊ธฐ

์ „์ฒด ๊ธ€8

[Spark] Colab์—์„œ Spark ์‚ฌ์šฉํ•˜๊ธฐ (pyspark) #2020.07.06 spark3.0 preview2 ๊ธฐ์ค€์œผ๋กœ ์ž‘์„ฑ๋˜์–ด ์ˆ˜์ • (spark3.0-preview2->spark3.0) spark3.0 / hadoop3.2 ๊ธฐ์ค€์œผ๋กœ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. 1) Colab ์ ‘์† https://colab.research.google.com/ Google Colaboratory colab.research.google.com 2) ์ƒˆ๋…ธํŠธ์ƒ์„ฑ 3) openjdk8 ์„ค์น˜ !apt-get install openjdk-8-jdk-headless 4) spark3.0 ( hadoop3.2 ) tar ๋‹ค์šด๋กœ๋“œ !wget -q https://www-us.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz 5) ์••์ถ•ํ’€๊ธฐ !t.. 2020. 7. 3.
[Medium] Python ETL vs. ETL Tools โ—‹ ETL์†”๋ฃจ์…˜์„ ๋‹ค๋ฃฌ๋‹ค๋ฉด ๊ธฐ์กด์˜ ETLํˆด์„ ์‚ฌ์šฉํ• ์ง€ ์•„๋‹ˆ๋ฉด python ETL ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ์‚ฌ์šฉํ• ์ง€ ๊ฒฐ์ •ํ• ์ˆ˜ ์žˆ์Œ โ—‹ ๋ฐ์ดํ„ฐ์›จ์–ด ํ•˜์šฐ์ง• ์ „๋žต์„ ์„ค๊ณ„ ํ•  ๋•Œ ETL ์ „๋žต์€ lock-in ํšจ๊ณผ๋•Œ๋ฌธ์— ์‹ ์ค‘ํ•˜๊ฒŒ ์„ ํƒํ•ด์•ผํ•จ. โ—‹ ์ƒ์šฉ ETL์†”๋ฃจ์…˜์€ DW์— ๋งค์šฐ ์‰ฝ๊ฒŒ ๊ตฌํ˜„ํ•  ์ˆ˜ ์žˆ๋„๋ก ๊ธฐ๋Šฅ์„ ๊ตฌํ˜„ํ–ˆ์Œ. ํ•˜์ง€๋งŒ ์ตœ๊ทผ Python๋˜ํ•œ ETL ํŒŒ์ดํ”„ ๋ผ์ธ์„ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•œ ์ข‹์€ ์˜ต์…˜์œผ๋กœ ๋ถ€์ƒํ–ˆ์Œ. โ—‹ ETL ๋„๊ตฌ - ๋Œ€๋ถ€๋ถ„์€ ์นœ์ˆ™ํ•œ ๊ทธ๋ž˜ํ”ฝ ์‚ฌ์šฉ์ž ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ์ œ๊ณต - ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค ๋ฐ ๋ฐ์ดํ„ฐ ํ˜•์‹์„ ์ง€์› - ์ œํ•œ๋œ BI๊ธฐ๋Šฅ๋„ ๊ฐ„ํ˜น ํฌํ•จ - ์ฃผ์š”์ œํ’ˆ . Informatica PowerCenter . Alooma : ๊ตฌ๊ธ€ ์ธ์ˆ˜ ํ›„ ๊ตฌ๊ธ€ ์ด์™ธ์˜ dw์†”๋ฃจ์…˜์— ๋Œ€ํ•œ ์ง€์› ์ค‘๋‹จ. . Xplenty . AWS Glue : ์„œ๋ฒ„.. 2020. 6. 26.
[Jenkins] #2. ์  ํ‚จ์Šค์˜ ์žฅ์  ๋ฐ ๊ธฐ๋Šฅ โ—‹ Jenkins์˜ ๊ธฐ๋Šฅ - web ui ์ง€์› - reporting ๊ธฐ๋Šฅ - ์ž๋™๋นŒ๋“œ - ์ž๋™ํ™”ํ…Œ์ŠคํŠธ - ์ปค๋ฒ„๋ฆฌ์ง€ ๊ฐ์‹œ - ์ฝ”๋“œํ’ˆ์งˆ ๊ฐ์‹œ - ๋‹ค์–‘ํ•œ ์ธ์ฆ๊ธฐ๋ฐ˜๊ณผ ๊ฒฐํ•ฉํ•œ ์ธ์ฆ ๋ฐ ๊ถŒํ•œ ๊ด€๋ฆฌ ๊ธฐ๋Šฅ - Groovy Script๋ฅผ ์ด์šฉํ•œ ๊ณ ์ˆ˜์ค€์˜ job Scheduling ๊ธฐ๋Šฅ - cli(command line interface)์ œ๊ณต - ์ž๋™ํ™”๋œ ๋ฐฐํฌ๋ผ์ธ - ์œˆ๋„์šฐ ์ปค๋งจ๋“œ ์Šค์ผ€์ฅด๋ง ์‹คํ–‰ ๊ฐ€๋Šฅ โ—‹ Jenkins์˜ ์žฅ์ (ํ•„์š”์„ฑ) ๊ธฐ๋Šฅ = ์žฅ์ ์ด ๋˜๊ฒ ์ง€๋งŒ ์ข€๋” ์ง์„ค์ ์œผ๋กœ ์ด์•ผ๊ธฐํ•˜๋ฉด, ํ”„๋กœ์ ํŠธ์˜ ๋นŒ๋“œ๊ฐ€ ์ •์ƒ์ ์œผ๋กœ ๋˜๊ณ  ์žˆ๋Š”์ง€ ์ฒดํฌํ•  ๋•Œ ํ•„์š”ํ•จ. java ํ”„๋กœ์ ํŠธ์—์„œ ์ž˜๋ชป๋œ ํ”„๋กœ๊ทธ๋žจ๋ณ€๊ฒฝ์ด ์žˆ์—ˆ๊ณ , ํ”„๋กœ์ ํŠธ ์ „์ฒด๋ฅผ ๋นŒ๋“œํ•  ๋•Œ ๋ป‘(error)์ด ๋‚˜๋ฒ„๋ฆผ. ๋ป‘(error)์ด ์•ˆ๋‚œ๋‹ค๊ณ  ์ •์ƒ์ ์œผ๋กœ ํ”„๋กœ๊ทธ๋žจ์„ ๊ฐœ๋ฐœํ–ˆ๋Š๋ƒ๋ฅผ ์˜จ์ „ํžˆ ํŒ๋‹จ.. 2019. 6. 26.
[Jenkins] #1. ๊ฐœ์š” โ—‹ jenkins๋ž€? jenkins(์  ํ‚จ์Šค)๋Š” ์†Œํ”„ํŠธ์›จ์–ด๋ฅผ ์ž‘์„ฑ, ํ…Œ์ŠคํŠธ ๋ฐ ๋ฐฐํฌํ•˜๊ฑฐ๋‚˜ ๋ฐฐํฌํ•˜๋Š” ๊ฒƒ๊ณผ ๊ด€๋ จ๋œ ๋ชจ๋“  ์ข…๋ฅ˜์˜ ์ž‘์—…์„ ์ž๋™ํ™”ํ•˜๋Š” ๋ฐ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋…๋ฆฝ์ ์ธ ์˜คํ”ˆ ์†Œ์Šค ์ž๋™ํ™” ์„œ๋ฒ„. ์ผ๋ช… CI(continuous integration)ํˆด ์ด๋ผ๊ณ ๋„ ํ•จ. โ—‹ CI๋Š”? ๊ฐœ๋ฐœ์ž๋ฅผ ์œ„ํ•œ ์ž๋™ํ™” ํ”„๋กœ์„ธ์Šค์ธ ์ง€์†์ ์ธ ํ†ตํ•ฉ(Continuous Integration)์„ ์˜๋ฏธ. ๋‹ค์ˆ˜์˜ ๊ฐœ๋ฐœ์ž๊ฐ€ ๋‹ค์ˆ˜์˜ ํ”„๋กœ๊ทธ๋žจ์„ ๊ฐœ๋ฐœํ•˜๋ฉด ๊ทธ๊ฒƒ์„ ์ •๊ธฐ์ ์œผ๋กœ ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ์„ ๋งํ•จ. ์ฆ‰, CI๋ฅผ ์„ฑ๊ณต์ ์œผ๋กœ ๊ตฌํ˜„ํ•  ๊ฒฝ์šฐ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ๋Œ€ํ•œ ์ƒˆ๋กœ์šด ์ฝ”๋“œ ๋ณ€๊ฒฝ ์‚ฌํ•ญ์ด ์ •๊ธฐ์ ์œผ๋กœ ๋นŒ๋“œ ๋ฐ ํ…Œ์ŠคํŠธ๋˜์–ด ๊ณต์œ  ๋ฆฌํฌ์ง€ํ† ๋ฆฌ์— ๋ณ‘ํ•ฉ๋˜๋ฏ€๋กœ ์—ฌ๋Ÿฌ๋ช…์˜ ๊ฐœ๋ฐœ์ž๊ฐ€ ๋™์‹œ์— ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜ ๊ฐœ๋ฐœ๊ณผ ๊ด€๋ จ๋œ ์ฝ”๋“œ ์ž‘์—…์„ ํ•  ๊ฒฝ์šฐ ์„œ๋กœ ์ถฉ๋Œํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์Œ.. 2019. 6. 25.