Skip to content

Instantly share code, notes, and snippets.

@taise
Last active December 21, 2015 08:48
Show Gist options
  • Select an option

  • Save taise/6280550 to your computer and use it in GitHub Desktop.

Select an option

Save taise/6280550 to your computer and use it in GitHub Desktop.

1つの変数の記述統計

変数の要約

  • 数値要約 ・・・ データの持つ特徴を1つの数値にまとめる
  • ベクトル ・・・ データの集合
c("cat", "dog", "human")

変数の種類
  • 質的変数 ・・・ データを構成する人/モノを分類する変数
  • 量的変数 ・・・ データの大小を表す変数
データの視覚的表現
  • 度数 ・・・ 同じカテゴリに含まれるデータの個数
  • 度数分布 ・・・ 全てのカテゴリについて度数を求めまとめたもの
  • 度数分布表 ・・・ 度数分布を表にしたもの

代表値

  • 代表値 ・・・ 分布の中心位置を示す、そのデータを代表する値
  • 平均 ・・・ データの値を合計してデータの個数で割った値
平均 = (x1 + x2 + x3 + … + xn) / n
mean(data)
sum(data) / length(data) 
  • 中央値 ・・・ データの大きさ順で並べた真ん中に位置する値
data <- c(1, 3, 4, 6, 7,9) 
median(dat) 
#=> 5 (真ん中の2つの値の平均とする場合が多い)
  • 最頻値 ・・・ もっとも頻繁に観測される値
  • 外れ値 ・・・ 他のデータの値から極端に離れた値
table(data)

量的変数については、代表値は平均を使用するのが一般的。 質的変数については、最頻値を使用する。

散布度、分散、標準偏差

  • 散布度 ・・・ データの分布の散らばり

  • 分散 ・・・データ全体の平均からの偏差(データのばらつきをみる)

  • 不偏分散 ・・・ 母集団のデータの偏差をとった分散

  • 標本分散 ・・・ 母集団からサンプリングしたデータで偏差をとった分散

  • 標準偏差 ・・・ 分散の平方根をとった値

  • 平均偏差 ・・・ 「平均からの偏差」の絶対値の平均

  • 範囲(レンジ) ・・・ 最大値から最小値を引いたもの

分散 = (x1 - 平均)^2 + (x2 - 平均)^2 + … + (xn - 平均)^2 / n
標準偏差 = √分散
# 不偏分散
varData <- var(data)

# 標本分散
size <- length(data)
varData * (size -1) / size

# 標準偏差
sd(data)

# 絶対値
abs(data)

# 平均偏差
mean(abs(data - mean(data))) 

# 範囲
max(data) - min(data)

標準化、偏差値

  • 標準化 ・・・ 平均と標準偏差がある特定の値になるように、全てのデータの値を、同じ式を使って変換すること

  • 標準得点 ・・・ 標準化によって変換された得点

  • z得点 ・・・ 平均0、標準偏差1になるように変換した標準得点

  • 偏差値 ・・・ 平均50、標準偏差1になるように標準化した標準得点

z得点 = (データの値 - 平均) / 標準偏差
偏差値 = z得点 * 10 + 50

2つの変数の記述統計

  • 相関 ・・・ 二つの量的変数どうしの関係のこと
  • 連関 ・・・ 二つの質的変数どうしの関係のこと
散布図
  • 正の相関 ・・・ 1つの変数が大きくなるともう1つの変数も大きくなる傾向にあること
  • 負の相関 ・・・ 1つの変数が大きくなるともう1つの変数は小さくなる傾向にあること
  • 無相関 ・・・ 二つの量的変数の大小の変化の間に関係がないこと
共分散
  • 共分散 ・・・ 「平均からの偏差」の積の平均で、相関の強さを示す
  • 不偏共分散 ・・・ 母集団のデータの共分散
  • 標本共分散 ・・・ 母集団からサンプリングしたデータの共分散
sxy = (x1 - x̅ )(y1 - ȳ) + (x2 - x̅ )(y2 - ȳ) + … + (xn - x̅ )(yn - ȳ) / n
#不偏共分散
sum((data1 - mean(data1)) * (data2 - mean(data2)) / length(data1)
cov(data1, data2)

#標本共分散
cov(data1, data2) * (length(data1) -1) / length(data1)
相関係数
  • 相関係数 ・・・ 2つの量的変数で測定単位の影響を受けない相関の指標
相関係数 = 共分散 / 標準偏差x * 標準偏差y 
rxy = sxy / sx * sy
#相関係数
cor(data1, data2)
相関係数 大きさの評価
-0.2 <= r <= 0.2 ほとんど相関無し
-0.4 <= r < -0.2, 0.2 < r <= 0.4 弱い相関あり
-0.7 <= r < -0.4, 0.4 < r <= 0.7 中程度の相関あり
-1.0<= r < -0.7, 0.7 < r <= 1.0 強い相関あり
その他の相関、連関(クロス集計表、ファイ係数)
  • クロス集計表 ・・・ 二つの質的変数の関係についてそれぞれの組み合わせをマトリクス状に表示したもの
  • ファイ係数 ・・・ 1と0の二つの値からなる変数に対して計算される相関係数
#クロス集計表
table(data1, data2)

#ファイ係数
2valData1 <- ifelse(data1=="true", 1, 0)
2valData2 <- ifelse(data2=="like", 1, 0)
cor(2valData1, 2valData2)

母集団と標本

  • 母集団 ・・・ 関心の対象であったデータ全体

  • 標本 ・・・ 母集団の一部を取り出したデータ

  • 母数 ・・・ 母集団の性質を表す統計的指標(比率、平均、分散、相関係数)

  • 推測統計
    ** 推定 ・・・ 具体的な値を用いて母集団の値を導くもの
    *** 点推定 ・・・ 1つの値で推定の結果を表すもの
    *** 区間推定 ・・・ 幅を持った区間で結果を表すもの
    ** 検定 ・・・ 母集団についての異なる2つの仮説から1つを採択するもの

点推定

  • サンプルサイズ = 標本の大きさ ・・・ 標本に含まれるデータの個数
  • 標本等計量 ・・・ 標本データから計算されるもの (標本平均、標本分散など)
  • 推定量 ・・・ ある母数を推定するために用いられる標本統計量 (データを使った計算式・関数)
  • 推定値 ・・・ 標本データを用いて計算された推定量 (計算の結果得られる数値)

標本抽出に伴う誤差

  • 単純無作為抽出 ・・・ 母集団の中のどのデータも平等に選ばれる可能性を持っているような標本抽出

  • 無作為標本 ・・・ 単純無作為抽出によって得られた標本

  • 確率変数 ・・・ 結果が得られるまでどのような値が得られるか決まっていない変数

  • 実現値 ・・・ 確率変数の結果として得られた値

  • 確率分布 ・・・ ある確率変数がどのような値をどのような確率でとるかを表した分布

無作為抽出のポイント
標本として抽出される1つのデータに関する確率分布は、母集団分布と同じになる。
無作為抽出ではない場合、標本として抽出されるデータに関する確率分布は
どのような方法で標本抽出を行うかに依存して決まるため、空なr寿司も母集団分布との対応関係がはっきりしない。

正規分布

  • 正規分布 ・・・ 左右対称の釣り鐘型の分布で、確率を面積で表す

  • 標準正規分布 ・・・ 平均0、分散1の正規分布 N(0, 1)

  • 確率密度 ・・・ 確率変数の範囲の長さ (正規分布の縦軸)

  • 確率密度関数 ・・・ 確率密度を確率変数の値の関数として表したもの

  • 離散変数 ・・・ 整数などの値をとびとびでとり得る変数

  • 連続変数 ・・・ 切れ目なくあらゆる実数値をとり得る変数

  • 正規母集団 ・・・ 母集団分布が正規分布であるような母集団

正規分布の性質 平均と分散(もしくは標準偏差)がわかれば、分布は一意に定まる。 正規分布の平均は分布の山の一番高くなった頂点がくる場所の値で、
平均を境に分布が左右に2等分される。

μ = 母平均
σ = 標準偏差
N = 正規分布

#分散がσ^2(シグマ二乗)の正規分布
N(μ, σ^2)

#ある変数XがN(μ, σ^2)に従うとき
X~N(μ, σ^2)

#確率密度
f(x) = 1/√2πσ * exp ( -(x - μ)^2 / 2σ^2 )
#正規分布(-4 <= x <= 4)
curve(dnorm(x, mean=0, sd=1), from=-4, to=4)

#平均50、標準偏差10の正規母集団からn=5の標本を無作為抽出する
rnorm(n=5, mean=50, sd=10)

#無作為抽出によるヒストグラム(小標本)
標本 <- rnorm(n=5, mean=50, sd=10)
hist(標本)

#無作為抽出によるヒストグラム(大標本)
大標本 <- rnorm(n=10000, mean=50, sd=10)
hist(大標本)

グラフ

  • ヒストグラム ・・・ 棒と棒の隙間をあけずに図にしたもの
  • 散布図 ・・・ 2つの変数をもつデータを二次元の表にプロットしたもの
hist(data)
plot(data1, data2)
curve(dnorm(x, mean=1, sd=1), add=TRUE)
curve(dnorm(x, mean=0, sd=2), add=TRUE)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment