Created
January 26, 2015 04:21
-
-
Save AKB428/280165d6587edb9cdbbd to your computer and use it in GitHub Desktop.
Hadoop NTTDセミナー 午前2
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
11:06 | |
Twitter日本語データの詳細 | |
どうやってFireforceを処理しているのか | |
従来型ソーシャルメディアリスニング | |
プロモーション効果測定 | |
CMの効果測定 | |
ユーザー分析 | |
高度ターゲティング | |
POS | |
消費者パネル | |
Twitterアカウントと購買履歴をひもづきしてみる | |
タイムライタンで商品関連ツイートをみたひとの購入確率は見ていない人の1.6倍 | |
商品について発言した人の購入率は発言していない人の1・5倍〜3倍 | |
ユーザー行動分析 | |
ワールドカップ戦を見てた人はどんなモノを買って食べているのか | |
年齢層 | |
思考性 | |
男性・女性 | |
かを分析 | |
クラスタわけ、機械学習 | |
位置の地図をマッピング | |
地域分析 | |
GPS情報と投稿情報から分析 | |
ネガティブな地域、ポジティブな地域 | |
--- | |
ターゲティング | |
ID連携 | |
非ID連携 | |
お客様でTwiterIDで結びつけてもらう | |
TwiterIDの行動履歴がおえるようになる(ECサイト | |
お客様にあわせてリコメンドができる | |
ID連携はハードル高い | |
ID連携しなくてもある程度はつかえる | |
従来のメルマガよりも効果が出ている | |
機械的に発言から20代男性っぽいなどを機械学習から判別する | |
--------------------- | |
次世代CRM基板xオムニチャンネル | |
被害状況把握 竜巻発生、多くのTweetが投稿されることにより信憑性が高まる | |
----- | |
金融センチメント指標 | |
世の中のムードから株価を推測 | |
株式指標<->Tweetセンチメント指標 | |
[2.Tweerデータ提供サービスおよびシステムの概要] | |
Twiterデータ提供サービス | |
サンプルホース | |
フィルターホース | |
リアルタイムデータ提供API | |
リアルタイムサーチ | |
ヒストリカルサーチ | |
過去データ提供API | |
2006年のすべての日本語データを保持 | |
----------- | |
サンプルホース | |
フィルターホース | |
リアルタイムサーチ | |
ヒストリカルサーチ | |
ヒストリカルサーチはHadoopで実施 | |
オンプレミス環境 | |
RabbitMQ使用 フィルタリングサーバー | |
PostgreSQL 日本語ユーザーDB(+PeaceMaker HA) | |
Zookeeperで現用系、待機系の切り替えをやっている | |
ユーザーのTweetの削除のイベントをうけてちゃんと削除したりしている | |
受信サーバーで日本語のツイートのみをフィルタして後続に渡す | |
---------------------- | |
配信部 | |
QMQ | |
分配サーバー QMQ 配信サーバー(Apaceh Tomcat) | |
蓄積部 | |
Hadoopクラスタ | |
クラウド環境 | |
[インテグレーション上の問題と〜] | |
ツイート1日 5億件つぶやき | |
6000tweet/per sec | |
瞬間的つぶやく | |
一位 14万/sec バルス | |
データ再取得の難しさ | |
TWからNW切断されると再接続までに配信されたツイートデータを受け取り損ねてしまう | |
fireforceには一応過去にさかのぼってツイートをとれるが、それも制限があるので工夫が必要 | |
ー>OSSのインテグレーション活用でかいけつ | |
トラフィックの継続的な増加に対応ー>スケールアウト構成にする | |
ツイートの瞬間的な急増 -> システムの適切な位置にバッファやキューを置く | |
データ再取得の難しさ ->HA構成にする | |
バルスはRabbitMQで対応している。 | |
数十万〜数百万でツイートの瞬間的な急増を吸収する | |
2012年9月にTwと提携 | |
2013年12月にTwデータ提供サービス | |
三ヶ月で設計実装 | |
OSSのよさ | |
1,導入が用意 | |
サーバーが1台あれば機能の検証はできる | |
2。情報が手に入りやすいい | |
3.ソースコードが公開されている | |
4.不具合やその対応状況が公になってることが多い | |
5.多数の利用者開発者の目が光っている | |
質問コーナーなし | |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment