Skip to content

Instantly share code, notes, and snippets.

@AKB428
Created January 26, 2015 04:21
Show Gist options
  • Save AKB428/280165d6587edb9cdbbd to your computer and use it in GitHub Desktop.
Save AKB428/280165d6587edb9cdbbd to your computer and use it in GitHub Desktop.
Hadoop NTTDセミナー 午前2
11:06
Twitter日本語データの詳細
どうやってFireforceを処理しているのか
従来型ソーシャルメディアリスニング
プロモーション効果測定
CMの効果測定
ユーザー分析
高度ターゲティング
POS
消費者パネル
Twitterアカウントと購買履歴をひもづきしてみる
タイムライタンで商品関連ツイートをみたひとの購入確率は見ていない人の1.6倍
商品について発言した人の購入率は発言していない人の1・5倍〜3倍
ユーザー行動分析
ワールドカップ戦を見てた人はどんなモノを買って食べているのか
年齢層
思考性
男性・女性
かを分析
クラスタわけ、機械学習
位置の地図をマッピング
地域分析
GPS情報と投稿情報から分析
ネガティブな地域、ポジティブな地域
---
ターゲティング
ID連携
非ID連携
お客様でTwiterIDで結びつけてもらう
TwiterIDの行動履歴がおえるようになる(ECサイト
お客様にあわせてリコメンドができる
ID連携はハードル高い
ID連携しなくてもある程度はつかえる
従来のメルマガよりも効果が出ている
機械的に発言から20代男性っぽいなどを機械学習から判別する
---------------------
次世代CRM基板xオムニチャンネル
被害状況把握 竜巻発生、多くのTweetが投稿されることにより信憑性が高まる
-----
金融センチメント指標
世の中のムードから株価を推測
株式指標<->Tweetセンチメント指標
[2.Tweerデータ提供サービスおよびシステムの概要]
Twiterデータ提供サービス
サンプルホース
フィルターホース
リアルタイムデータ提供API
リアルタイムサーチ
ヒストリカルサーチ
過去データ提供API
2006年のすべての日本語データを保持
-----------
サンプルホース
フィルターホース
リアルタイムサーチ
ヒストリカルサーチ
ヒストリカルサーチはHadoopで実施
オンプレミス環境
RabbitMQ使用 フィルタリングサーバー
PostgreSQL 日本語ユーザーDB(+PeaceMaker HA)
Zookeeperで現用系、待機系の切り替えをやっている
ユーザーのTweetの削除のイベントをうけてちゃんと削除したりしている
受信サーバーで日本語のツイートのみをフィルタして後続に渡す
----------------------
配信部
QMQ
分配サーバー QMQ 配信サーバー(Apaceh Tomcat)
蓄積部
Hadoopクラスタ
クラウド環境
[インテグレーション上の問題と〜]
ツイート1日 5億件つぶやき
6000tweet/per sec
瞬間的つぶやく
一位 14万/sec バルス
データ再取得の難しさ
TWからNW切断されると再接続までに配信されたツイートデータを受け取り損ねてしまう
fireforceには一応過去にさかのぼってツイートをとれるが、それも制限があるので工夫が必要
ー>OSSのインテグレーション活用でかいけつ
トラフィックの継続的な増加に対応ー>スケールアウト構成にする
ツイートの瞬間的な急増 -> システムの適切な位置にバッファやキューを置く
データ再取得の難しさ ->HA構成にする
バルスはRabbitMQで対応している。
数十万〜数百万でツイートの瞬間的な急増を吸収する
2012年9月にTwと提携
2013年12月にTwデータ提供サービス
三ヶ月で設計実装
OSSのよさ
1,導入が用意
サーバーが1台あれば機能の検証はできる
2。情報が手に入りやすいい
3.ソースコードが公開されている
4.不具合やその対応状況が公になってることが多い
5.多数の利用者開発者の目が光っている
質問コーナーなし
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment