https://gcpug-tokyo.connpass.com/event/128568/
- BigQueryからデータを直接持ってこれる(エクスポートがいらない)
- この金額でここまでしてくれるのは非常にいい
- 処理が終わったらメールで通知してくれる
- 学習の中身は全く見れない。推移のみ見れる
- タイプのしてはGUIでしかできない
- 10時間学習させると2万円かかる
- Excelもいける
- エンジニアがプログラミングを書かずに使える(configが難しいので非エンジニアは無理)
- Hadoop (Dataproc)でできている。Dataflowがいいな?
- QueryだけでTesorflowが使えてしまう
- SQL分の中に、MobleNet V2への問い合わせを書け、取得ができる
- BigQueryのパフォーマンス改善のため、よく使われるデータをメモリ上にのっける
- DataStudio
- クエリーだけでいい感じにクラスタリング
- 顧客クラスタリング
- 通常BigQueryはクエリを投げてしれて取得したデータ容量により課金される
- 固定金額を払えばクエリ使いたい放題
- 500slotから契約可能
データの収集、前処理、可視化、MLまでがノンコーディングでできる
- Apache Beem
- 状態管理はGCEがやってくれる
- 優先度の引くバッチ処理は安価に実行可能に
- SQL文字列をパースして同等の処理を実行する
- MLとApache Beamの連携
- 学習時はバッチで作成する
- 予測時はDataflowをTFのグラフに変換して同じ特徴量を予測にそのまま使用できる
- データの重複の可能性はあるので留意する
- 10分以内ならPKをもたせて、PKが重複したものは除去してくれる