https://www.cs.cornell.edu/home/kleinber/bhs.pdf
オートマトンを用いたモデル。
オートマトンの状態遷移へコストを割り当てることで、状態遷移の頻度をコントロールし、長いバーストを捉えやすくする。
論文では、2状態のオートマトンモデルを用いた手法について述べられていた。
メッセージ到着時間の系列を生成するための単純でランダムなモデルは、指数分布に従うものだろう。
メッセージは、確率的に到着する。
メッセージiとメッセージi+1間の差であるxは、無記憶性を持ち指数分布の確率密度関数に従う。
このモデルの中のギャップの期待値は、 α^−1であり、したがって、メッセージ到着率として計算される。
はじめに、バーストモデルは、この単純な公式を拡張させたものだ。高い到着率と低い到着率を示すことにより。
これを行う自然な方法は、複数状態を持つモデルを構築することだ。ただし、到着率は、現在の状態に依存するものとする。
2状態モデル
もっとも基本的なバーストモデル
2つの状態を持つ確率的なオートマトンから構成される。
オートマトンがq0の中にあるとき、メッセージは遅い到着率で到着し、密度関数hogehogeに従って、独立して分布する連続するメッセージ間のギャップxを持つ。
オートマトンがq1の中にあるとき、メッセージは速い到着率で到着する、密度関数hogehogeに従って、独立して分布する連続するメッセージ間のギャップxを持つ。
最後に、メッセージの間には、以前のメッセージや状態変化とは関係なく、オートマトンは確率pで変化し、確率1−pで現在の状態のままである。
オートマトンは、q0から始まる。それぞれのメッセージが送られる前に、オートマトンは、pの確率で変化する。メッセージが到着すると、次のメッセージが放出される
時間までの差は、オートマトンの現在の状態と関連した分布によって決まる。
この生成モデルを適用して、一連のメッセージを考慮して、可能性のある状態シーケンスを見つけることができる。
特定jの到着時刻を持つn+1個のメッセージを考えてみる。
これは、n個の到着間の差のシーケンスを決定する。
差は、全て正の数である必要がある。
差は、離散分布から引き出されていないので、これは基礎密度関数の観点から行う必要がある。
それぞれの状態シーケンスqは、密度関数fqに従い導き出される。
もしbがqの中の状態遷移数を示すとすると、つまり、i(t)の数、qの確率というのは、〜に等しい。
ここで状態シーケンスqの条件付き確率を決めるベイズの定理を用いることができる。
これは、n個の到着間の差のシーケンスを決定する。
これは、n個の到着間の差のシーケンスを決定する。
指数分布のおさらい
指数分布は、ランダムなイベントの発生間隔を表す分布のこと。
地震が起きる間隔、メールを受信するタイミングの間隔などの確率を求めるときに使う。
n+1個の文書の到着時間間の差をgaps xとして、バースト検知に利用していたが、
単純な1変量のシーケンスを使い、バースト検知に利用する。