次世代データ分析用データフォーマットApache Arrow勉強会

データ分析用次世代データフォーマットApache Arrow勉強会

みなさん、Apache Arrowはご存知ですか！？Apache Arrowは現在主流のOSSのデータ分析ソフトウェアの開発者たちが共同で開発しているデータ分析用の次世代データフォーマットです。データ分析をしている人ならApache Spark、Pandas、Apache Drill、Apache Hadoop、Apache Cassandra、Rの中に知っているプロダクトがあるはずです。これらはApache Arrowの開発に参加しているプロダクトの一部です。いかにOSSのデータ分析ソフトウェアがApache Arrowに期待しているかがわかります。

これらのプロダクトはいずれApache Arrowを使うようになります。これらのプロダクトが使うようになると他のプロダクトも追従し、近いうちにスタンダードなフォーマットになるでしょう。今のうちにApache Arrowを学んでおきましょう！

Apache Arrowが解決する問題

データ分析は多くの技術を活用して実現します。そのため、1つのプロダクトだけでなにもかも実現するのではなく、複数のプロダクトで連携して実現します。適材適所！そのときに課題になるのがデータ交換です。

1つのプロダクトで小さなデータを分析する場合は同一プロセス内でメモリー上のデータをやりとりすれば済みます。しかし、大きなデータを扱う場合、複数のプロダクトで連携する場合はそうもいきません。処理対象のデータを交換する必要があります。

たとえば、JSONにフォーマットしてデータを交換するとしましょう。データを送る側ではJSONにフォーマットする処理が発生し、データを受け取る側ではJSONをパースする処理が発生します。交換するデータ量が多くなればなるほどこの処理コストを無視できなくなります。

その問題を解決するのがApache Arrowです。Apache Arrowはデータのフォーマット・パースコストをほぼ0にします。圧倒的に高速なのです。

Apache Arrowにより、これまでよりも複数のプロダクトで連携してデータ分析できるようになります。既存のプロダクトはもっと効率よく連携できるようになりますし、これまであまり連携できなかった言語でもデータ分析処理の一部を担えるようになります。たとえば、RubyやLuaやGoやRustやJavaScriptなどをもっとデータ分析処理に活用できるようになるでしょう。

対象者

すでにデータ分析をしている人
Ruby・Lua・Go・Rust・JavaScriptなどをでデータ分析をしたい人

クラウド上のサービスでデータ分析をしている人たちはApache Arrowに触れる機会はほとんどないでしょうが、どうして速くデータ分析できるかを知っておくと役に立つことがあるかもしれませんよ！

日時

2017-05-28（金）10:00-12:00

会場

クラスメソッド大阪オフィス

〒550-0002 大阪府大阪市西区江戸堀1丁目9番1号肥後橋センタービル7階

参加費

無料

懇親会について

（要相談：14:00か15:00くらいの新幹線で東京に帰る予定なのでお昼ご飯を食べに連れて行って欲しい！）

持ち物

今回はお名刺を1枚ご持参ください。（無い場合は受付にて必要項目の記入で結構です）

タイムテーブル

9:45-: 開場
10:00-10:05: 会場説明
10:05-11:00: 「Apache Arrow」: 須藤功平
11:00-11:05: 休憩
11:05-11:20: 「クラスメソッドとデータ分析」: 西田将幸
11:20-12:00: 質疑応答または発表者募集または「Apache Arrowの開発に参加しよう！」：須藤功平

セッション概要

Apache Arrow

Apache Arrowが解決したい問題、設計方針、速さの秘密、現在できること、今後できるようになることなど、Apache Arrowを知らない人でもApache Arrowのことがわかるようになる説明をします。

須藤功平

Apache Arrowの公式リポジトリーでRubyサポート関連部分を開発しています。

クラスメソッドとデータ分析

TODO

西田将幸

TODO

注意事項

禁煙

館内は禁煙です。喫煙スペースに関しては別途ご連絡いたします。

その他

立ち入り禁止区域への立ち入りはご遠慮願います。

kou/apache-arrow-study.md

Select an option

No results found