Data Science6 [Spark] Colab์์ Spark ์ฌ์ฉํ๊ธฐ (pyspark) #2020.07.06 spark3.0 preview2 ๊ธฐ์ค์ผ๋ก ์์ฑ๋์ด ์์ (spark3.0-preview2->spark3.0) spark3.0 / hadoop3.2 ๊ธฐ์ค์ผ๋ก ์์ฑ๋์์ต๋๋ค. 1) Colab ์ ์ https://colab.research.google.com/ Google Colaboratory colab.research.google.com 2) ์๋ ธํธ์์ฑ 3) openjdk8 ์ค์น !apt-get install openjdk-8-jdk-headless 4) spark3.0 ( hadoop3.2 ) tar ๋ค์ด๋ก๋ !wget -q https://www-us.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz 5) ์์ถํ๊ธฐ !t.. 2020. 7. 3. [Medium] Python ETL vs. ETL Tools โ ETL์๋ฃจ์ ์ ๋ค๋ฃฌ๋ค๋ฉด ๊ธฐ์กด์ ETLํด์ ์ฌ์ฉํ ์ง ์๋๋ฉด python ETL ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์ง ๊ฒฐ์ ํ ์ ์์ โ ๋ฐ์ดํฐ์จ์ด ํ์ฐ์ง ์ ๋ต์ ์ค๊ณ ํ ๋ ETL ์ ๋ต์ lock-in ํจ๊ณผ๋๋ฌธ์ ์ ์คํ๊ฒ ์ ํํด์ผํจ. โ ์์ฉ ETL์๋ฃจ์ ์ DW์ ๋งค์ฐ ์ฝ๊ฒ ๊ตฌํํ ์ ์๋๋ก ๊ธฐ๋ฅ์ ๊ตฌํํ์. ํ์ง๋ง ์ต๊ทผ Python๋ํ ETL ํ์ดํ ๋ผ์ธ์ ์์ฑํ๊ธฐ ์ํ ์ข์ ์ต์ ์ผ๋ก ๋ถ์ํ์. โ ETL ๋๊ตฌ - ๋๋ถ๋ถ์ ์น์ํ ๊ทธ๋ํฝ ์ฌ์ฉ์ ์ธํฐํ์ด์ค๋ฅผ ์ ๊ณต - ๋ค์ํ ๋ฐ์ดํฐ๋ฒ ์ด์ค ๋ฐ ๋ฐ์ดํฐ ํ์์ ์ง์ - ์ ํ๋ BI๊ธฐ๋ฅ๋ ๊ฐํน ํฌํจ - ์ฃผ์์ ํ . Informatica PowerCenter . Alooma : ๊ตฌ๊ธ ์ธ์ ํ ๊ตฌ๊ธ ์ด์ธ์ dw์๋ฃจ์ ์ ๋ํ ์ง์ ์ค๋จ. . Xplenty . AWS Glue : ์๋ฒ.. 2020. 6. 26. ์ด์ 1 2 ๋ค์