統計とは
データを分析して性質を調べて推測する。
また統計は大きく分けて推測統計と記述統計の二つがある
推測統計
全データからサンプルをとり、サンプルの特性から全データの特性を推測する
記述統計
全データから表・グラフを作り平均・傾向などを分析してデータの特徴を把握する
機械学習とは
元々人工知能の分野として研究されていた。
近年ではタスクを解決するツールとして使われている。
ラベルの付いたデータセットを用いて予測する・
機械学習と統計の違いはいまだに明確な答えはない。
機械学習は本質的には統計の応用。
基本的に違いはなく、ほとんど被っている。
実際は統計は知らなくても機械学習は可能だが、
統計の知識は機械学習で使われているので知っておくとよい。
説明するにあたり度数分布表を説明する。
度数分布表とはデータを階級に分け、各階級ごとの度数を表現した表
ドットプロットとは各変数ごとにデータの値を点で表現したグラフ
ヒストグラムとは度数分布表をグラフにしたもの
平均値(mean)
全データをすべて足し合わせて、全体の個数で割ったもの
中央値(median)
あるデータを大きさ順に並べたときの中央の値
中央の値が二つの時はその二つの平均が中央値となる
最頻値(mode)
データの中で最も頻繁にでてくる値
四分位範囲(IQR:interquarite range)
データの散らばりの具合を表している。
求め方はデータを中央値で分けた際の二つのデータ群からさらにそれぞれの中央値を求める。
そして求めた二つの中央値の差が四分位範囲という。
外れ値を求めるときなどに用いる
平均付近が一番高く左右対称の釣り鐘型の分布
68-95-99.7ルール
正規分布のときに中央からの標準偏差に収まる確率(だいたい)
Zテーブル(標準正規分布表)
まずZスコアを使うことでZスコアが全体で見てどれくらいの割合に位置しているのかを見れる
それぞれデータの散らばり具合をあらわしているもの。
母集団、標本
分散(variance)
平均から各データがどれくらい離れているか
求め方
平均を求める。
全データと平均との差を二乗する。
それらの平均を求めたものが分散。
標準偏差
分散の平方根
データのばらつきの範囲は「(平均値 - 標準偏差)〜(平均値 + 標準偏差)」です。
この範囲に、およそ7割のデータが含まれると言われています。
共分散
2 種類のデータの関係を示す指標
片方が増えたらもう片方も増える、または減ったらもう片方も減るようなイメージ
XとYの共分散を求めたいとなった場合
「X の偏差 × Y の偏差」の平均
で求められる
標本分散(sample variance)
標本から計算した分散
不偏分散(unbiased variance)
標本分散から母分散を推測するための分散
標本分散求めるときの個数で割るところを1引いたもので割る
標本標準偏差(sample standard deviation)
不偏分散の平方根
母集団の標準偏差の不偏推定量
他の値とは大きく外れた値のこと。
一般的な外れ値の求め方は
- 外れ値<第一四分位点-1.5×IQR
- 第三四分位点+1.5×IQR<外れ値
の二つとなる
Zスコアとは平均から標準偏差何個分離れているか
(データ - 平均)÷(標準偏差)
機械学習ではあまりでてこない
相対度数とは全体で見たときの割合のこと。
度数を全体の個数で割って求められる
連続する確率分布をグラフ化したもの
データの分布の可視化
密度曲線はマイナスは存在しない
密度曲線の見方は面積を見る
相関関係とは一方が変化すれば他方も変化する関係
相関関係には正か負、強いか弱いなどの種類がある。
相関関係の強い弱いというのを判断するために相関関係を数値化したものが相関係数
相関係数の求め方はまず比べるデータ同士の共分散をまず求める。
その共分散をそれぞれのデータの標準偏差をかけたもので割ると求められる。
-1<=相関係数=>1
統計学の回帰分析の一種。
回帰分析とはある値xが与えられたときにそれと相関関係のあるyの値を説明・予測すること。
線形回帰では線形モデルから予測を行う。
予測の仕方は線形モデル表す数式(例えばy = 2x + 3)に求めたいyに対するxを埋め込むことでyを求めることができる
これらはデータに最適な線形モデルを求めるのに使う。
実際のデータと線形モデルで予測した値との差が残差。
最適なモデルの求め方は二つあり、
- 残差の絶対値の合計が最小になる(絶対値法)
- 残差の二乗の合計が最小になる(最小二乗法)
ただし最小二乗法は値を二乗する関係上、異常値に引っ張られやすくなるため、異常値をきちんと排除しておく必要がある。