73megane

シチサンメガネ

【Python】JupyterからPrestoに接続する方法

データストアとして、HDFSとPostgreSQLを使っている。
両方のテーブルを結合して結果を出したいため、SQL分散処理エンジンのPrestoを利用している。

Prestoとは
qiita.com

以下のコードの接続設定を変更したら出来た。 JupyterからPresto接続し、取得結果をDataFrameに格納する gist.github.com

複数のデータストアのテーブルを結合することも出来るし、HDFSからデータ取得する時もHiveを使うよりも圧倒的にデータ取得が早いし、Prestoは便利。データ取得して集計したり分析する時に力を大いに発揮してくれる。