Slide 3
Slide 3 text
Apache Sparkについて/What’s Apache Spark
■ ビックデータをインメモリで高速に分散処理を行うオープンソース
Open Source for processing Big-Data in memory at high speed with distributed environment.
■ Scala製で、JVM上で動作する
Implemented by Scala and Run on Java Vertual Machine.
■ CSVなどの構造データはもちろん、テキストなどの非構造データも扱える
Dealing Not only Structured Data (ex. CSV), but also Non-Structured Data (ex. Text)
■ 使用可能な言語はScala, Python, Java, R等
Write applications in Scala, Python(2 or 3), Java, R and more.
■ Scala, Pythonはインタラクティブシェルが用意されている
Provided Interactive Shell for Scala and Python.
■ PySparkとはApache Spark のPython向けAPI
PySpark Is Apache Spark API for Python.
■ Python2のEOL(2020/1/1)以降のリリースで、Python2のサポート打ち切り
Python2 support will be dropped in a future release after Python2 EOL (2020/01/01).