■著者
TomaszDrabas
DennyLee
玉川竜司
■内容紹介
PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウ。はじめに高速になったSpark2.0の特徴とアーキテクチャを解説し、構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明。GraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学ぶ。ローカルでのSpark+Python+Jupyter環境の構築方法も紹介。
■目次
1章 Sparkを理解する;2章 耐障害性分散データセット;3章 DataFrame;4章 データのモデリングの準備;5章 MLlib;6章 MLパッケージ;7章 GraphFrames;8章 TensorFrames;9章 Blazeによるポリグロットパーシステンス;10章 Structured Streaming;11章 Sparkアプリケーションのパッケージ化