16:00-16:40
-
データ分析とは
- Collecting
- 収集
- リーズナブルな収集。大量なデータの保持
- Reporting
- サービスの状況を報告
- 柔軟なデータの集計。わかりやすいチャートでの可視化
- Analyzing
- サービスの問題や改善点を分析
- 簡便で高速なデータの抽出。
- Collecting
-
ニーズ
- エンジニア
- UIはどうでもいい。生のデータが良い
- プランナー
- KPI。きれいなグラフで見たい。Excelダウンロード
- エンジニア
- For エンジニア
- 凝ったことはしない
- SQLのクエリが実行できる
- APIによるバッチ処理との連携が可能
- システム構成
- ログ収集;Fluentd
- リアルタイム集計処理:Norikra
- Webベースのクエリツール: Shib, ShibUI
-
For プランナー
- データを可視化
- データのダウンロード(Excel)
- No SQL(SQLは書けない)
- システム構成
- 大規模分散データ処理環境:Hadoop
- HDFS, Map/Reduce, YARN
- 大規模データに対するDWH:Hive
- SQLらいくなクエリ言語でデータ集計・問い合わせが可能
- 分散データ処理園児:Presto
- Hiveに比べて高速
- Prestogres:PrestoとBIを接続するためのコネクタ
- Data Ware House:InfiniDB
- MySQLベースのカラム型分散DB
- BIツールやクライアントツールを利用可能
- BIツール:IBM Cognos
- IBM社製のレポートオーサリングソフト
- 複雑な表に対応できる(ヒートマップなど)
- BIツール:Pentaho
- OLAP型の多次元分析用システム
- 大規模分散データ処理環境:Hadoop
-
重要視していること
- API連携がしやすい
- なるべくOSSを採用し、足りないものは自前で
- データはなるべく隠蔽
- 認証をしっかりする
- ユーザ情報は見せない
- ユーザトラッキングはしない
- 人が多すぎるので百苦労あって一利なし
-
サービスの変化
- グローバル化、多様化、長寿化
-
人の変化
- プランナーの増加
-
結果生じること:KPIの増加
- サービス・メジャー・ディメンジョンで爆増
- 訳の分からないフラグ、訳の分からない要望
- => KPIが増加し、忙しくなる
- 誰もKPIを見なくなる
-
多すぎる、ならKPIを人手で見なくてもいい
- KPIの変化を伝えられるようにすることが重要
- KPIモニタリングツールの開発
- トレンドの分析を自動化
- 時系列のトレンドを学習し、予測値を算出
- 異常値を検出してアラート(メール or chat)
- 構成
- Timeseries Producer
- Timeseries Monitor : 予測値と実測値を比較
- Nortification Monitor : 予測値と実測値が大幅に異なるなら、通知する
- Hadoopをベースに基本に忠実に
- OSSベースで対応
- 認証はきちんと
- ユーザ情報は隠蔽
- KPIモニタリングを強化
- 増え続けるKPIを自動的に処理




