Skip to content

Instantly share code, notes, and snippets.

@kentatogashi
Forked from anonymous/kleinberg.md
Last active August 9, 2017 06:42
Show Gist options
  • Save kentatogashi/7ef05d9c8c9c5ef755893f0a2ff93509 to your computer and use it in GitHub Desktop.
Save kentatogashi/7ef05d9c8c9c5ef755893f0a2ff93509 to your computer and use it in GitHub Desktop.
kleinbergのオートマトンモデルを用いたバースト検知

https://www.cs.cornell.edu/home/kleinber/bhs.pdf

オートマトンを用いたモデル。

オートマトンの状態遷移へコストを割り当てることで、状態遷移の頻度をコントロールし、長いバーストを捉えやすくする。

論文では、2状態のオートマトンモデルを用いた手法について述べられていた。

メッセージ到着時間の系列を生成するための単純でランダムなモデルは、指数分布に従うものだろう。

メッセージは、確率的に到着する。
メッセージiとメッセージi+1間の差であるxは、無記憶性を持ち指数分布の確率密度関数に従う。

このモデルの中のギャップの期待値は、 α^−1であり、したがって、メッセージ到着率として計算される。

はじめに、バーストモデルは、この単純な公式を拡張させたものだ。高い到着率と低い到着率を示すことにより。
これを行う自然な方法は、複数状態を持つモデルを構築することだ。ただし、到着率は、現在の状態に依存するものとする。

2状態モデル

もっとも基本的なバーストモデル
2つの状態を持つ確率的なオートマトンから構成される。

オートマトンがq0の中にあるとき、メッセージは遅い到着率で到着し、密度関数hogehogeに従って、独立して分布する連続するメッセージ間のギャップxを持つ。
オートマトンがq1の中にあるとき、メッセージは速い到着率で到着する、密度関数hogehogeに従って、独立して分布する連続するメッセージ間のギャップxを持つ。
最後に、メッセージの間には、以前のメッセージや状態変化とは関係なく、オートマトンは確率pで変化し、確率1−pで現在の状態のままである。

オートマトンは、q0から始まる。それぞれのメッセージが送られる前に、オートマトンは、pの確率で変化する。メッセージが到着すると、次のメッセージが放出される
時間までの差は、オートマトンの現在の状態と関連した分布によって決まる。

この生成モデルを適用して、一連のメッセージを考慮して、可能性のある状態シーケンスを見つけることができる。
特定jの到着時刻を持つn+1個のメッセージを考えてみる。

これは、n個の到着間の差のシーケンスを決定する。
差は、全て正の数である必要がある。

差は、離散分布から引き出されていないので、これは基礎密度関数の観点から行う必要がある。

それぞれの状態シーケンスqは、密度関数fqに従い導き出される。

もしbがqの中の状態遷移数を示すとすると、つまり、i(t)の数、qの確率というのは、〜に等しい。
ここで状態シーケンスqの条件付き確率を決めるベイズの定理を用いることができる。



これは、n個の到着間の差のシーケンスを決定する。
これは、n個の到着間の差のシーケンスを決定する。
指数分布のおさらい
指数分布は、ランダムなイベントの発生間隔を表す分布のこと。
地震が起きる間隔、メールを受信するタイミングの間隔などの確率を求めるときに使う。

n+1個の文書の到着時間間の差をgaps xとして、バースト検知に利用していたが、
単純な1変量のシーケンスを使い、バースト検知に利用する。




Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment