Skip to content

Instantly share code, notes, and snippets.

@muroon
Last active July 31, 2019 13:32
Show Gist options
  • Save muroon/aaeb3572e115965d6735937c1fb03dd4 to your computer and use it in GitHub Desktop.
Save muroon/aaeb3572e115965d6735937c1fb03dd4 to your computer and use it in GitHub Desktop.
Google Cloud Next Extended 2019 BigData Day

https://gcpug-tokyo.connpass.com/event/128568/

BigQuery関連

AutoML Tables(beta)

  • BigQueryからデータを直接持ってこれる(エクスポートがいらない)
  • この金額でここまでしてくれるのは非常にいい
  • 処理が終わったらメールで通知してくれる
  • 学習の中身は全く見れない。推移のみ見れる
  • タイプのしてはGUIでしかできない
  • 10時間学習させると2万円かかる

Cloud Data Fusion

  • Excelもいける
  • エンジニアがプログラミングを書かずに使える(configが難しいので非エンジニアは無理)
  • Hadoop (Dataproc)でできている。Dataflowがいいな?

BQML Tensorflow models for prediction

  • QueryだけでTesorflowが使えてしまう
    • SQL分の中に、MobleNet V2への問い合わせを書け、取得ができる

BI Engine

  • BigQueryのパフォーマンス改善のため、よく使われるデータをメモリ上にのっける
  • DataStudio

BQML k-meansクラスタリング

  • クエリーだけでいい感じにクラスタリング
  • 顧客クラスタリング

Flat-late

  • 通常BigQueryはクエリを投げてしれて取得したデータ容量により課金される
  • 固定金額を払えばクエリ使いたい放題
  • 500slotから契約可能

Clousterd TableがGAに

感想

データの収集、前処理、可視化、MLまでがノンコーディングでできる

Cloud Data flow

  • Apache Beem

Streaming Engine

  • 状態管理はGCEがやってくれる

Flex RS

  • 優先度の引くバッチ処理は安価に実行可能に

BigQuery Dataflow SQL

Apache Beam SQL

  • SQL文字列をパースして同等の処理を実行する

TensorFlow Extended (TFX)

  • MLとApache Beamの連携

TF-Transform

  • 学習時はバッチで作成する
  • 予測時はDataflowをTFのグラフに変換して同じ特徴量を予測にそのまま使用できる

Dataflow SDK Go

Cloud Pub/Sub

  • データの重複の可能性はあるので留意する
  • 10分以内ならPKをもたせて、PKが重複したものは除去してくれる

他の人のメモ

https://nishipy.com/archives/1014

twitter

BigQueryとDataFlowについて

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment