Lesson 10
確率・統計
Lesson 10
Chapter 1
確率
ビッグデータによって学習を行う機械学習において用いられている技術やアルゴリズムには、確率や統計における知識が使われていることが多いです。 したがって当然ながら、それらを理解するには確率や統計について学んでおく必要が出てきます。 Lesson 10 では、確率および統計に関する基礎的な知識を紹介していきます。 なるべく具体例を用いてわかりやすく説明していくので、しっかり身に着けていきましょう。
確率とは
まずは確率について学びます。 確率という言葉は日常生活でもよく登場しますが、ここで改めて説明します。 確率とは、偶然起こるような事象がどのくらいの頻度で発生するかの指標であり、0から1の値をとります。 事象$A$の起こる確率をよく$P(A)$と書きます。 例えば「サイコロを1回投げて5が出る事象」を$A$とおくと、$P(A)=\dfrac{1}{6}$ということになります。 また事象$A$が起こらないという事象を$\overline{A}$、その確率を$P(\overline{A})$と書きます。 なお常に起こらない事象の確率は0であり、常に起こる事象の確率は1です。
また、確率変数とは、取りうる値すべてについて確率が定義されているような変数のことを指し、一般的に大文字のアルファベットで$X$などと書きます。 そして、確率分布とは、ある確率変数が取りうる値に対して、その値を取る確率がどのように分布しているかを表します。 確率変数や確率分布にはそれぞれ離散型・連続型があるので、これからそれらを説明していきます。 このような説明だけではややわかりにくいかもしれませんが、例とともに説明するので安心してください。
離散型確率変数
離散型確率変数とは、その名の通り離散的な値をとる確率変数のことです。 離散的な値というのは、簡単に言ってしまえば「とびとびの値」のことで、例えば整数などがあります。
離散型確率変数の確率分布は、確率質量関数というものによって定義できます。 確率質量関数$f(x)$とは、確率変数$X$の取りうる各値$x$に対して、$x$をとる確率を返す関数で、以下の条件を満たします。 \[ f(x) \geq 0 \\ \sum_{x\in \chi} f(x) = 1 \] ただし$\chi$は確率変数$X$の取りうる値の(離散的)集合です。 上記の式は、1つ目は確率が常に0以上であること、2つ目はすべての値をとる確率の総和は1になるということを言っています。 なお、確率質量関数の定義は次のような式で書けます。 \[ f(x) = P(X = x) \quad (x \in \chi) \]
では離散型確率変数の例を見てみましょう。コインを2回投げたときの表が出る回数を確率変数$X$とします。 このとき$X$の取りうる値は0、1、2のいずれかです。 そして$P(X=0)=\dfrac{1}{4}$、$P(X=2)=\dfrac{1}{2}$、$P(X=2)=\dfrac{1}{4}$であるので、確率質量関数$f(x)$は、 \[ f(x) = \begin{cases} \dfrac{1}{4} & (x=0 または x=2) \\ \dfrac{1}{2} & (x=1) \end{cases} \] となります。
もう一つの例を見てみましょう。サイコロを振ったときに出る目の数を確率変数$Y$とします。 このとき$X$の取りうる値は1から6までの整数ですが、$P(Y=y)=\dfrac{1}{6} \quad(y \in \{1,2,3,4,5,6\})$なので、確率質量関数$g(x)$は、 \[ g(x) = \dfrac{1}{6} \] となります。
連続型確率変数
連続型確率変数は連続的な値をとる確率変数のことです。 例えば確率変数が(ある範囲の)すべての実数をとるときにその確率変数は連続的な値をとるといいます。
連続型確率変数の確率分布は確率密度関数によって定義できます。 これは確率変数$X$とその取りうる値の集合に含まれる任意の2数$a$、$b$($a\leq b$)に対し、以下の式を満たす関数$f(x)$です。 \[ P(a\leq X \leq b) = \int_a^b f(x) dx \] また、以下の条件が満たされなくてはなりません。 \[ f(x) \geq 0 \\ \int_{-\infty}^{\infty} f(x) dx = 1 \] それぞれの式の意味を考えてみましょう。 まず最初の式は、確率変数$X$の値が$a$以上$b$以下になる確率が、確率密度関数$f(x)$を$a$から$b$まで積分した値と等しいということを表します。 2つ目の式は、確率密度関数$f(x)$の値は常に0以上であること、つまり先ほどの定積分の値(=確率)が($a \leq b$である限り)負の値をとらないことを言っています。 そして3つ目は、確率変数$X$が取りうる値すべての範囲($-\infty$ ~ $\infty$は必ずこれを含みます)で確率密度関数$f(x)$を積分した値が1になることを表し、 2つ目の式と合わせると確率は常に1を超えないということになります。
では連続型確率変数の例を見てみましょう。 ある地域での1日の降水量を$X$とすると、$X$は連続型確率変数であるとみなせます。 またその確率密度関数$f(x)$が次の式で与えられているとします。 \[ f(x) = \begin{cases} e^{-x} & (x \geq 0) \\ 0 & (それ以外) \end{cases} \] このとき降水量が1以上10以下である確率$P(1\leq X \leq 10)$を求めましょう。次のようになります。
\begin{align*} P(1 \leq X \leq 10) &= \int_1^{10} f(x) dx \\ &= \int_1^{10} e^{-x} dx \\ &= [-e^{-x}]_{1}^{10} \\ &= (-e^{-10})-(-e^{-1}) \\ &= e^{-1} - e^{-10} \end{align*}ところで、この$f(x)$は確率密度変数としての条件を本当に満たしているのでしょうか。確認してみましょう。 まず$f(x)=e^{-x}\geq 0$なので、$f(x)\geq 0$は成り立ちます。また、
\begin{align*} \int_{\infty}^{\infty} f(x) dx &= \int_{0}^{\infty} e^{-x} dx \\ &= [-e^{-x}]_{0}^{\infty} \\ &= (-0)-(-e^{-0}) \\ &= 1 \end{align*}です。よって確かに確率密度変数としての条件が成り立っていることがわかりました。
確率密度関数の積分
Lesson 8 で学んだことを考えると、$ P(a\leq X \leq b) = \int_a^b f(x) dx$の右辺は確率密度関数$f(x)$のグラフと$x$軸で囲まれた部分の、 $a\leq x \leq b$の部分の面積を表していることになります。また$\int_{-\infty}^{\infty} f(x) dx = 1$は、$f(x)$のグラフと$x$軸で囲まれた部分全体の面積が1ということを表しているといえます。
期待値、分散、標準偏差、共分散
確率分布が与えられたとき、それがどのような性質を持つのか調べるための代表的な指標がいくつかあるので、それらを紹介します。
まずは期待値です。離散型確率変数$X$に対して次のように期待値$E[X]$が定義されます。 \[ E[X] = \sum_{x\in \chi} xf(x) \] これの意味としては、確率変数が取りうる値の集合について、確率によって重み付けした平均を取っていることになります。 なお連続型確率変数$X$に対しては次のように定義されます。 \[ E[X = \int_{-\infty}^{\infty} xf(x) dx \]
ではサイコロの出る目の数を確率変数$X$として、期待値$E[X]$を求めてみましょう。
\begin{align*} E[X] &= \sum_{x\in \chi} xf(x) \\ &= 1\cdot \dfrac{1}{6} + 2\cdot \dfrac{1}{6} + 3\cdot \dfrac{1}{6} + 4\cdot \dfrac{1}{6} + 5\cdot \dfrac{1}{6} + 6\cdot \dfrac{1}{6} \\ &= \dfrac{21}{6} \\ &= 3.5 \end{align*}また先ほどの1日の降水量の例に関しても期待値$E[X]$を求めてみましょう。
\begin{align*} E[X] &= \int_{-\infty}^{\infty} xf(x) dx \\ &= \int_{0}^{\infty} xe^{-x} dx \\ &= [-xe^{-x}]_0^{\infty} - \int_0^{\infty} (-e^{-x}) dx \\ &= 0 - [e^{-x}]_{0}^{\infty} \\ &= 1 \end{align*}次は分散という、確率変数がどれほどばらついているかを表す指標を紹介します。 確率変数$X$に対して分散$V[X]$は次のように定義されます。 \[ V[X] = E[(X-E[X])^2] \] これは次のようにも書けます。 \[ V[X] = E[X^2] - (E[X])^2 \]
サイコロの例について分散を計算してみます。期待値が既に求まっているので、2つ目の式を使います。
\begin{align*} E[X^2] &= \sum_{x \in \chi} x^2f(x) \\ &= 1^2\cdot \dfrac{1}{6} + 2^2\cdot \dfrac{1}{6} + 3^2\cdot \dfrac{1}{6} + 4^2\cdot \dfrac{1}{6} + 5^2\cdot \dfrac{1}{6} + 6^2\cdot \dfrac{1}{6} \\ &= \dfrac{91}{6} \\ V[X] &= E[X^2] - (E[X])^2 \\ &= \dfrac{91}{6} - \left(\dfrac{21}{6}\right)^2 \\ &= \dfrac{35}{12} \end{align*}降水量の例についても計算してみましょう。
\begin{align*} E[X^2] &= \int_{-\infty}^{\infty} x^2f(x) dx \\ &= \int_{0}^{\infty} x^2e^{-x} dx \\ &= [-x^2e^{-x}]_0^{\infty} - \int_0^{\infty} (-2xe^{-x}) dx \\ &= 0 + 2\int_0^{\infty} xe^{-x} dx \\ &= 2\cdot 1 \quad (期待値の計算結果より)\\ &= 2 \\ V[X &= E[X^2] - (E[X])^2 \\ &= 2 - 1^2 \\ &= 1 \end{align*}続いて標準偏差$\sigma$ですが、これは分散の正の平方根として定義されます。 \[ \sigma = \sqrt{V[X]} \] このことから分散を$\sigma^2$と表すこともあります。 標準偏差は確率変数が期待値(平均値)からどれほどばらついているかを表す指標になります。
サイコロの例では次のようになります。
\begin{align*} \sigma &= \sqrt{V[X]} \\ &= \sqrt{\dfrac{35}{12} } \\ &= 1.70\cdots \end{align*}降水量の例では次のようになります。
\begin{align*} \sigma &= \sqrt{V[X]} \\ &= \sqrt{1} \\ &= 1 \end{align*}最後に紹介するのは共分散です。 これまでのものとは異なり、共分散は2つの確率変数$X$と$Y$に対して定義され、$\mathrm{Cov}[X, Y]$と書きます。 共分散は2つの確率変数間の関係を調べたいときに用いられます。 定義は次のようになります。 \[ \mathrm{Cov}[X, Y] = E[(X-E[X])(Y-E[Y])] \]
ただし、2つの確率変数間の関係を調べるには、一般的には共分散をそのまま用いるよりも次の相関係数$\rho_{XY}$(-1~1の値をとる)が用いられることが多いです。 \[ \rho_{XY} = \dfrac{\mathrm{Cov}[X, Y]}{\sigma_X\sigma_Y} \] $\sigma_X$、$\sigma_Y$はそれぞれ$X$と$Y$の標準偏差を表します。 相関係数は、2つの確率変数の間にどのような増減関係があるかを表しています。 具体的には、$\rho_{XY} \gt 0$で1に近いほど$X$と$Y$の間により確かな同傾向の増減が見られ(正の相関)、 $\rho_{XY} \lt 0$で-1に近いほど$X$と$Y$の間により確かな逆傾向の増減が見られる(負の相関)、というような意味があります。 なお$\rho_{XY}=0$のときは$X$と$Y$の間の増減関係はない(相関がない)ということになります。
相関係数の例としては、例えばある集団に属する人々の身長と体重の組がデータとして与えられていた時に、身長と体重をそれぞれ確率変数とみなし、 それらの相関係数を調べて身長と体重の間にどのような増減関係があるのか(ないのか)を調べる、などが考えられます。
ここで、2つの確率変数間に定義される用語として独立という言葉を紹介しておきます。 常に以下の式が成り立つとき$X$と$Y$は独立であるといいます。 \[ P(X=x, Y=y) = P(X=x)P(Y=y) \] 相関係数との間には、「独立ならば相関係数が0」という関係があります。
これまでに紹介してきた指標について成り立つ性質をいくつか並べておきます。$X$、$Y$を確率変数、$c$を定数とします。
- $E[c] = c$
- $E[X+Y] = E[x] + E[Y]$
- $E[cX] = cE[X]$
- $V[c] = 0$
- $V[X+Y] = V[X] + V[Y] + 2\mathrm{Cov}[X, Y]$
- $V[cX] = c^2V[X]$
最後に標準化についても触れておきます。$X$を任意の確率変数として、 \[ Z = \dfrac{X-E[X]}{\sqrt{V[X]} } \] とおくと、$E[Z]=0$、$V[Z]=1$となります。これを標準化といって、単位などの異なるデータを比較するときなどに使われます。
離散型確率分布
離散型確率分布には名前がついているものがいくつかあるので、ここでは2つ紹介します。
二項分布
二項分布は代表的な離散型確率分布です。 二項分布の説明の前に、まずベルヌーイ試行というものを紹介します。 これは取りうる結果が「成功」と「失敗」の2つだけである試行を繰り返し行い、また各回の試行は独立な確率分布に従うような試行のことを指します。 成功の確率を$p$とおくと、失敗の確率は$1-p$と表せます。 例として、表が出ることを「成功」、裏が出ることを「失敗」と考えれば、コインを投げる試行はベルヌーイ試行であることがわかります。
さて、二項分布とは、ベルヌーイ試行を$n$回行ったときの成功する回数$X$の確率分布のことであり、$Bi(n, p)$と表します。 なお$Bi(1, p)$は特別にベルヌー分布と呼ばれます。 $n$回中ちょうど$x$回成功する場合の数は${}_nC_x$通りであるので、 二項分布の確率質量関数$f(x)$は次のようになります。 \[ f(x) = {}_nC_xp^x(1-p)^{n-x} \quad(x\in {0, 1, \cdots, n}) \] 二項分布の期待値および分散は次のようになることが知られています。 \begin{align*} E[X] &= np \\ V[X] &= np(1-p) \end{align*} 興味があれば証明してみましょう(各試行が独立であることに注目すると簡単に示せます)。
ポアソン分布
ある一定の期間に平均して$\lambda$回起こるような事象を考えます。 この事象がその一定期間に$x$回起こる確率はどのようになるでしょうか。 まずは簡単のため、その一定期間を$n$個に等分割し、各期間でベルヌーイ試行が1回行われ、合計の成功の回数が事象が起こる回数であるというように考えてみます。 一定期間に平均して$\lambda$回起こるということは、ベルヌーイ試行の成功確率は$\dfrac{\lambda}{n}$ということになるので、 一定期間内に事象が$x$回起こる確率は、 \[ {}_nC_x\dfrac{\lambda}{n}^x\left(1-\dfrac{\lambda}{n}\right)^{n-x} \] となります。実際には一定期間が$n$個に分割されているのではなく、絶え間なく試行が行われていると考えるべきです。そこで$n\rightarrow \infty$としてみると、実は \[ {}_nC_x\dfrac{\lambda}{n}^x\left(1-\dfrac{\lambda}{n}\right)^{n-x} \rightarrow \dfrac{e^{-\lambda}\lambda^x}{x!} \quad (n\rightarrow \infty) \] となり、これが事象がその一定期間に$x$回起こる確率と解釈できます。
前置きが長くなりましたが、単位時間中に平均して$\lambda$回起こる事象が単位時間中に起こる回数$X$を確率変数とする確率分布はポアソン分布と呼ばれ、$Po(\lambda)$と表します。 その確率質量関数$f(x)$は以下の式で与えられます。 \[ f(x) = \dfrac{e^{-\lambda}\lambda^x}{x!} \] ポアソン分布の期待値および分散は、次のようにいずれも$\lambda$になります。 \begin{align*} E[X] &= \lambda \\ V[X] &= \lambda \end{align*}
連続型確率分布
続いて有名な連続型確率分布を2つ紹介します。
正規分布
正規分布は、実数$\mu$および$\sigma(\gt 0)$に対して以下の確率密度関数$f(x)$によって定義される確率分布で、$N(\mu, \sigma^2)$と表します。 \[ f(x) = \dfrac{1}{\sigma \sqrt{2\pi} }\exp\left(-\dfrac{(x-\mu)^2}{2\sigma^2}\right) \] 正規分布の期待値および分散は次のようになります。
\begin{align*} E[X] &= \mu \\ V[X] &= \sigma^2 \end{align*}なお$N(0,1)$は標準正規分布と呼ばれます。 標準正規分布では、その確率密度関数のグラフの下の部分($x$軸との間の部分)の面積が、$-1\leq x\leq 1$の範囲で全体のおよそ68.3%、 $-2\leq x\leq 2$の範囲で全体のおよそ95.5%になっています。 標準正規分布におけるこのような指標は統計の分野で用いられることが多いので、値を覚えておくと役立つかもしれません。
ガンマ分布
ガンマ分布は、正の実数$\alpha$と$\lambda$に対して次の確率密度関数$f(x)$で定義される確率分布で、$Ga(\alpha, \lambda)$と表します。 \[ f(x) = \begin{cases} \dfrac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x} & (x \geq 0) \\ 0 & (x \lt 0) \end{cases} \] ただし$\Gamma(x)$は以下のように定義されるガンマ関数です。 \[ \Gamma(x) = \int_0^{\infty} t^{x-1}e^{-t} dt \] ガンマ分布の期待値と分散は次のようになります。 \begin{align*} E[X] &= \dfrac{\alpha}{\lambda} \\ V[X] &= \dfrac{\alpha}{\lambda^2} \end{align*}

Lesson 10
Chapter 2
統計
確率に続いて統計について学びます。統計学はデータを扱う学問であり、(主に)ビッグデータを扱う機械学習とは強い関係があります。 統計学の基礎を抑えることで、機械学習に対する理解を深めていきましょう。
標本と母集団
まずは統計学における基本的かつ重要な概念として、標本や母集団について説明します。
母集団とは、ある調査や実験を行うときの対象となる集合全体のことを指します。 母集団は行う調査や実験に対して定義されるもので、例えばある国の人口全体であったり、ある店の顧客全体であったり、あるいはある病気の患者全体であったりします。
さて、母集団は非常に大きな集団であることがしばしばあり、実際にその集団全体に対して調査や実験を行うことは困難なときがあります。 母集団全体に対して調査を行うことを全数調査といいますが、これに対して、母集団から無作為に選んだ部分集合全体に対して調査を行うことを標本調査といいます。 標本とはこの無作為に選ばれた部分集合のことです。 例えば母集団がある国の人口全体であったとき、標本としては無作為に選ばれた1万人の国民とすることができます。 標本調査によって、母集団全体について調べることなく母集団の性質を推定することができます。 ただし、標本の選び方や大きさに問題がある場合、母集団の性質を正しく推定することができなくなるという点に注意しなくてはなりません。 先ほどの例でいえば、国内のある地方の人々に不適切に偏った部分集合を選んでしまうと、調査結果にその地方特有の性質が現れてしまう可能性があります。
先ほども述べましたが、標本や母集団は基本的で重要な概念なので、よく意味を理解しておきましょう。 なお母集団は有限の集合である必要はなく、確率分布として表されることもあります。
グラフの種類
統計学において登場する、代表的なグラフの種類を紹介します。 グラフはデータを可視化するのに有効な手段であり、またどのようなデータを扱うか・データのどのような点に注目するかによってさまざまなグラフが用いられます。
箱ひげ図
箱ひげ図とは、データ中のいくつかの代表的な値をもとにして作る、データの分布を表すためのグラフです。 具体的には、最小値、第1四分位数、第2四分位数、第3四分位数、最大値の5つの値を用いて作成する、以下のような「箱」と「ひげ」からなるグラフです。
箱ひげ図の例
それぞれの値の意味を説明しておきます。 最大値・最小値は、その名の通りデータ中の最大の値及び最小の値を指します。 次に3つの四分位数についてですが、まず第2四分位数は中央値とも呼ばれ、データを小さい順に並べたとき、順位が中央になるデータの値です。 そして、第1四分位数は小さい順に並べたときの前半のみのデータの中央値で、第3四分位数は小さい順に並べたときの後半のみのデータの中央値です。
箱ひげ図を作るには、まず第1四分位数と第3四分位数を両端にとる「箱」をつくり、中央値のところに縦線を入れます。 そして箱の両端から、最小値と最大値それぞれの位置にのびる「ひげ」をつければ完成です。
箱ひげ図はデータのばらつき、特に外れ値を視覚的に確認する野に役立ちます。
散布図
散布図とは、ある2つの量(変数)が組になったデータを、一方の量を横軸に、もう一方の量を縦軸にとって座標平面上にプロットしたものです。 以下はいくつかの散布図の例です。
散布図の例
散布図は、2つの変数の間の相関性を調べたり、データの傾向や分布を確認するために使用されます。 先ほどの例を見てもわかるように、相関があるかどうか、また相関がある場合にそれが正か負かといったことが、視覚的に判断できます。 また相関をわかりやすくするため、散布図上に線形回帰による回帰直線を重ねて表示することもあります。
棒グラフ
棒グラフとは、カテゴリーごとに分かれているデータについて、それぞれのカテゴリーの量を長方形の棒の高さによって表したグラフです。 以下は棒グラフの例です。
棒グラフの例
上記のように、横に各カテゴリーを並べ、縦に目盛りをとることが多いです(全体を90度回転させて横向きの棒グラフを使うこともあります)。 棒グラフは、データが明確にカテゴリー分けされているとき(つまり離散的なカテゴリー)にそれらの量を比較することができ、かつ視覚的にわかりやすくなります。 例えば地域ごとのある月の降水量のデータが与えられれば、各地域の降水量比較のための棒グラフを作ることができます。
折れ線グラフ
折れ線グラフは、棒グラフと同様に横軸にカテゴリー、縦軸にデータの量をとってデータを表現するものですが、 棒グラフと違って各データは点で表現し、またそれらの間を順番に直線(線分)で結びます。以下は折れ線グラフの例です。
折れ線グラフの例
上記の例のように、折れ線グラフでは横軸に時系列をとることが多く、データの時間的な変化を視覚的に表現するのに便利です。 また棒グラフと併用することもあり、例えばある地域の月や年ごとの降水量を棒グラフで、気温を折れ線グラフで表し、それらを重ねたものは雨温図と呼ばれます (このような場合の目盛りは、降水量の目盛りを左側に、気温の目盛りを右側に記すなどとします)。
平均値、中央値
ここでは、Chapter1に関連して、標本調査によって有限個のデータ$x_1$、$x_2$、$\cdots$、$x_n$が与えられたときの平均値および中央値の定義(計算方法)を数式によって述べておきます。
平均値$\bar{x}$は以下のように定義されます。 \[ \bar{x} = \dfrac{1}{n}\sum_{i=1}^{n} x_i \] 中央値$median$は以下のように定義されます。ただし、データを小さい順に並べ直して改めてその順に$x_1$、$x_2$、$\cdots$、$x_n$とします。 \[ median = \begin{cases} x_{\frac{n+1}{2} } & (nが奇数) \\ \dfrac{1}{2}\left(x_{\frac{n}{2} } + x_{\frac{n}{2} + 1 }\right) & (nが偶数) \\ \end{cases} \] 中央値はデータの数が奇数が偶数かによって計算の仕方が異なることに注意しましょう。
期待値、分散、共分散
続いて標本調査における期待値、分散、共分散について説明します。
標本調査を行うときは、期待値$\mu$といえば通常母集団についての平均値を指します。母集団$\chi$の大きさ$N$が有限の場合は次のように表せます。 \[ \mu = \dfrac{1}{N}\sum_{x\in \chi} x \] なお標本を母集団全体とする全数調査においては、平均値(標本の平均値)と期待値(母集団の平均値)は一致することになります。
続いて分散ですが、データ$x_1$、$x_2$、$\cdots$、$x_n$の分散$\sigma^2$は次のようになります。 \[ \sigma^2 = \dfrac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2 \] なおデータの平均値との差$x_i - \bar{x}$を偏差といいます。分散は偏差の二乗の平均値ということができます。
最後は共分散です。$n$個の組として与えられたデータ$(x_1, y_1)$、$(x_2, y_2)$、$\cdots$、$(x_n, y_n)$における$x$と$y$の共分散$\sigma^2_{xy}$は、次のようになります。 \[ \sigma^2_{xy} = \dfrac{1}{n}\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) \]
大数の法則
統計学や確率の分野における重要な定理である、大数の法則という定理を紹介します。 同じ確率分布(期待値$\mu$、分散$\sigma^2$)から独立に$n$個のデータ$X_1$、$X_2$、$\cdots$、$X_n$を取り出して標本とすることを考えます。 これらの標本平均を$\overline{X}_n$とおきます。 \[ \overline{X}_n = \dfrac{1}{n}\sum_{i=1}^nX_i \] さて、この標本平均$\overline{X}_n$は、$n$を増やせば元の確率分布の期待値$\mu$に近づくと考えられます。このことを主張しているのが大数の法則です。
厳密には、大数の法則は2通りあってそれぞれの主張は少し異なります。まず、大数の弱法則と呼ばれるのが次の定理です。 \[ \lim_{n\rightarrow \infty} P(|\overline{X}_n - \mu| \geq \varepsilon) = 0 \] ただし$\varepsilon$は任意の正の定数です。 これは期待値のどの$\varepsilon$-近傍に対しても、$n$を十分大きくすれば、標本平均$\overline{X}_n$がその近傍に入らない確率はいくらでも0に近づけられるという意味です。 一方、大数の強法則と呼ばれるものもあり、これは次のように表されます。 \[ P(\lim_{n\rightarrow \infty} \overline{X}_n = \mu) = 1 \] これは、「$n$を十分に大きくすれば標本平均を期待値にいくらでも近づけられる」という事象の確率は1であるという意味です。 名前の通り、大数の強法則は大数の弱法則よりも強い主張になっています。
同じような名前の定理が2つあるのでややこしいかもしれませんが、いずれも重要な定理であるので、それぞれの意味をしっかり理解しておきましょう。
中心極限定理
期待値$\mu$、分散$\sigma^2$の確率分布から独立に$n$個取り出したときの標本平均$\overline{X}_n$は、期待値が$\mu$、分散が$\dfrac{\sigma^2}{n}$になります (このことはChapter1で述べた期待値および分散について成り立つ性質を使うとわかります)。 このことを用いて、標本平均$\overline{X}_n$を標準化した$Z_n$を考えます。 \[ Z_n = \dfrac{\overline{X}_n - \mu}{\sqrt{\frac{\sigma^2}{n} } } = \dfrac{\overline{X}_n - \mu}{\frac{\sigma}{\sqrt n} } \] この$Z_n$について、以下のことが成り立ちます。 \[ P(a \leq Z_n \leq b) \rightarrow \int_a^b \dfrac{1}{\sqrt{2\pi} }e^{-\frac{x^2}{2} } dx \quad (n \rightarrow \infty) \] これを中心極限定理といいます。 Chapter1で学んだ正規分布の確率密度関数を思い出してみると、中心極限定理は、「$n$が十分大きいとき$Z_n$は$N(0,1)$(標準正規分布)にほぼ従う」ということを示しているとわかります。 $Z_n$は$\overline{X}_n$を標準化したものだったので、$\overline{X}_n$に戻って考えてみると、「$n$が十分大きいとき、標本平均$\overline{X}_n$は$N\left(\mu, \dfrac{\sigma^2}{n}\right)$にほぼ従う」ということになります。
中心極限定理は、大数の法則と同様重要な定理です。それぞれの主張を簡単にまとめておくので、よく覚えておきましょう。
- 大数の法則:標本の数が大きければ、標本平均は元の分布の期待値に近づく
- 中心極限定理:標本の数が大きければ、標本平均の分布は正規分布に近づく
推定
統計学において「推定」という言葉がよく登場します。これは一般的に標本調査において母集団の持つ何らかの性質を推定することを指しています。 これは教師あり学習において、与えられた訓練データから学習し、訓練データだけでなくより一般のデータに対しても対応できることを目指すのに似ています。 ここでは代表的な推定の方法をいくつか紹介します。
点推定
点推定とは、標本調査をもとにして母集団の何らかのパラメータの値をただ一つの数値で推定する方法のことです。 パラメータというのは、具体的には母集団の平均値、分散などのことで、これらを標本から計算された標本平均、標本分散を用いて推定します。
例えば、ある国の成人男性の平均身長を調べたいとき、取り出した標本の中で平均身長を計算し、その値を母集団の平均身長と推定するというやり方が点推定です。
点推定は標本調査の結果をそのまま推定結果とするので、簡単で分かりやすいものですが、標本の大きさや取り出し方によってはあまり良い推定にはならず、 また推定値のばらつきを一切考慮していないため、点推定では不十分なことがあります。
区間推定
区間推定とは、母集団の何らかのパラメータが取りうる値の範囲を、信頼区間として推定する方法のことです。 信頼区間とは何なのかを説明すると、これは母集団のパラメータの真の値が入っていることがかなり確信できるような範囲のことです。 その確信の度合いが例えば95%である場合、標本調査による同じ測定を100回くらい繰り返したら、95回程度はその確信が得られる、という意味になります。 確信の度合いによって信頼区間に名前を付けることが多く、95%信頼区間、90%信頼区間、99%信頼区間などといいます。
区間推定は、点推定よりも推定値の精度や信頼性を評価するのに向いています。 標本の大きさや取り出し方によって信頼区間の幅が変化することがあることや、 信頼区間の幅が狭いほど(推定値の精度は高くなりますが)確信の度合いが低くなる傾向があることなどに注意しましょう。 なお標本が正規分布に従う場合、期待値の信頼区間は比較的簡単に求めることができますが、一般には信頼区間を求めるのは難しいことがあります。
ベイズ推定
ベイズ推定とは、事前分布と呼ばれる確率分布と、データに基づく尤度という確率分布を用いて、推定対象のパラメータの事後分布を推定する手法です。
ベイズ推定の肝となるのがベイズの定理です。 事象Aが起きたという条件の下で事象Bが起きる確率を$P(B|A)$と書き、条件つき確率といいますが、ベイズの定理は条件つき確率に関する次のような定理です。 \[ P(B|A) = \dfrac{P(A|B)P(B)}{P(A)} \]
具体例でベイズ推定の中身を見てみましょう。 ある病気Xについて、病気Xの検査の結果が陽性であるという事象をA、患者が病気Xにかかっているという事象をBとします。 事前の知識として、患者が病気にかかっている確率$P(B)$は$0.005$であることがわかっているとします。これが事前分布にあたります。 また、患者が病気Xにかかっているとき陽性と判断される確率$P(A|B)$は$0.99$であり、患者が病気Xにかかっていないとき陽性と判断される確率$P(A|\overline{B})$は$0.01$であるとします。これらは尤度にあたります。 さて、この状況で、ある患者の病気Xの検査結果が陽性であったとします。 このとき、この患者が実際に病気Xにかかっている確率$P(B|A)$を推定対象のパラメータとして、事前分布、尤度、そしてベイズの定理を使って計算してみましょう。 \begin{align*} P(B|A) &= \dfrac{P(A|B)P(B)}{P(A)} \\ &= \dfrac{0.99\cdot 0.005}{P(A)} \\ &= \dfrac{495}{10^5P(A)} \end{align*} $P(A)$が残ってしまっていますが、これは別途次のようにして求まります。 \begin{align*} P(A) &= P(A|B)P(B) + P(A|\overline{B})P(\overline{B}) \\ &= 0.99\cdot 0.005 + 0.01 \cdot (1-0.005) \\ &= \dfrac{1490}{10^5} \end{align*} よって \[ P(B|A) = \dfrac{495}{1490} = 0.332\cdots \] となります。ベイズ推定によって$P(B|A)$を求めることができました。 ところで、これは陽性と判断された患者が実際に病気Xにかかっている確率のことだったので、陽性と判断されても真の陽性である確率はおよそ$\dfrac{1}{3}$ということになります。 予想よりも低く感じるかもしれませんが、これは患者が病気にかかっている確率が元々$0.005$と低いことが原因になっています。
なおベイズ推定には、事前分布が分かっていなければ使えないという点があります。 通常事前分布については何らかの仮定を置くことになりますが、その置き方次第で結果が大きく変わる可能性があることに注意しましょう。
確率の計算
$P(A)$を求める際に、$P(A) = P(A|B)P(B) + P(A|\overline{B})P(\overline{B})$という式を用いましたが、これについて少し補足しておきます。
まず事象Aが起こるのは「事象Aと事象Bが共に起こる」ときと「事象Aが起きるが事象Bは起きない」ときの2通りしかなく、またこれらが同時に起こることはあり得ません。
よって$P(A)$を求めるには前者の確率と後者の確率を足せばよいですが、条件つき確率の定義を思い出すと、
これらはそれぞれ$P(A|B)P(B)$、$P(A|\overline{B})P(\overline{B})$になることがわかります。
最尤推定
最尤推定とは、標本として与えられたデータから、母集団である確率分布のパラメータを(点)推定する方法の一つです。 確率分布のパラメータを、データのもっともらしさ(尤度)が最大になるように決定します。
具体的なやり方を見てみましょう。標本として与えられたデータを$X_1$、$X_2$、$\cdots$、$X_n$とします。 また母集団の確率分布としての確率モデルのパラメータを$\theta$と置きます。 そして、パラメータが$\theta$であるときにデータ$X_1$、$X_2$、$\cdots$、$X_n$が生成される確率を$f_\theta(X_1, X_2, \cdots, X_n)$と書くことにします。 これは母集団の確率分布にどんな確率モデルを使うかによって決まります。
さて、最尤推定とは、パラメータ$\theta$の関数$L(\theta) = f_\theta(X_1, X_2, \cdots, X_n)$を最大化する$\theta$を求めることです。 これはつまり、与えられたデータの下でもっともありえそうなパラメータ$\theta$を見つけるということになります。なお$L(\theta)$を尤度関数といいます。
具体例で最尤推定を行ってみましょう。投げると表か裏が出るコインがあり、表の出る確率は一定ですが、$\dfrac{1}{2}$とは限らないものとします。 さて、このコインを100回投げたところ、表が30回、裏が70回出たとします。 このとき、このコインの表が出る確率を$p(0\lt p \lt 1)$とおいた確率モデルを考え、尤度関数$L(p)$を最大化するような$p$を求めてみましょう。 まず$L(p)$は次のようになります。 \[ L(p) = {}_{100}C_{30}p^{30}(1-p)^{70} \] これを最大化するような$p$を求めますが、これは微分によって増減を求めればよさそうです。 しかしこのまま$L(p)$を微分するのは計算が複雑になるので、まずは対数をとります。Lesson 7 で学んだ対数の性質から、以下のようになります。 \begin{align*} \log L(p) &= \log \left({}_{100}C_{30}p^{30}(1-p)^{70}\right) \\ &= \log {}_{100}C_{30} + 30\log p + 70 \log (1-p) \end{align*} ではこれを微分します。 \begin{align*} (\log L(p))' &= \dfrac{30}{p} - \dfrac{70}{1-p} \\ &= \dfrac{10(3-10p)}{p(1-p)} \end{align*} 増減表をかくことにより、$\log L(p)$は$0\lt p \lt 1$の範囲では$p=\dfrac{3}{10}$で極大値かつ最大値をとります。 $L(p)$と$\log L(p)$の増減は一致する($e \gt 1$より)ので、$L(p)$も$p=\dfrac{3}{10}$で最大値をとることになります。 したがって、最尤関数を最大化するような$p$の値は$\dfrac{3}{10}$であると求まりました。 なおこの結果は、標本データにおける表の出た割合と一致していることに注意しましょう。
なお、尤度関数がシンプルな場合にはそれを微分することで簡単に増減がわかり、最尤推定値が解析的に求まりますが、尤度関数が複雑な場合にはそれは困難な場合があります。 そのようなときは、何らかの数値的な最適化手法を使う必要があります。
検定
ここでは、母集団について予想される性質を、標本調査の結果に基づいて検証するための検定(仮説検定)について説明します。 標本データからある統計的な性質が得られたとき、それが母集団においても成り立つような性質なのかを確かめるときに仮説検定が行われます。
仮説検定
仮説検定を行う際には、帰無仮説と対立仮説が決まっている必要があります。 帰無仮説というのは、あとで棄ててしまうことが意図されている仮説で、何らかの数値に関して差がないことや、何らかの効果がないというような形をしていることが多いです。 そして対立仮説は、帰無仮説とは反対の仮説であり、何らかの違いや影響があるというような形をしていることが多いです。
さて、仮説検定では、検定統計量として何を用いるか、および有意水準$\alpha$というものを設定します。 検定統計量は検定に用いるための何らかの量であり、検定の対象に合った適切なものを使います。 また有意水準$\alpha$は、1%あるいは5%に設定されることが多い、検定のための基準値です。 これらの使い方は後ほど分かりますが、仮説検定において重要なのは、この最初の段階で有意水準$\alpha$を決めることです。
続いて標本調査を行い、検定統計量の実験値を求めます。 その後、帰無仮説が成り立っていると仮定した上で、この実験値以上に偏ったような結果が得られる確率を求めます。この確率をP値といいます。
最後に、P値と有意水準$\alpha$を比較します。 もしP値が$\alpha$を下回っていたら、帰無仮説が正しいという仮定の下では、得られた検定統計量の実験値は珍しい結果であったということになります。 このとき仮説検定では、帰無仮説が正しいという仮定が間違っているものとみなし(帰無仮説の棄却)、対立仮説が正しいという結論になります。 一方、P値が$\alpha$を上回っていたら、帰無仮説が正しいという仮定には矛盾が見られないので、帰無仮説を棄却できないということになります。 注意すべきこととしては、P値が$\alpha$を上回っていたとしても、帰無仮説が正しいということを積極的に証明できているわけではないということがあります。
ここまで抽象的な説明が続いたので、具体例によって説明します。 最尤推定のときと同様、投げたときの表の出る確率$p$が$\dfrac{1}{2}$とは限らないコインを考えます。 今、帰無仮説を「$p=\dfrac{1}{2}$」、対立仮説を「$p \lt \dfrac{1}{2}$」と設定します。 そして検定統計量として「10回投げたときの表の出る数」を選び、有意水準$\alpha$を5%に設定します。
それではコインを10回投げてみます。その結果、表が1回、裏が9回出たとしましょう。 この結果を元にP値を計算します。以下のようになります。 \begin{align*} P値 &= ({}_{10}C_1 + {}_{10}C_0)\left(\dfrac{1}{2}\right)^{10} \\ &= (10 + 1)\cdot\dfrac{1}{1024} \\ &= 0.010\cdots \end{align*} よってP値が有意水準$\alpha$を下回っていることが分かります。 したがって帰無仮説は棄却され、対立仮説である「$p \lt \dfrac{1}{2}$」が正しいという結論になりました。
仮説検定は、手順を守らないと不適切な結果になってしまうことがあります。 慣れないうちは手順を1つ1つ確認しながら実施すると良いでしょう。
両側検定と片側検定
仮説検定にはさまざまなものがありますが、代表的なものに両側検定と片側検定があります。
両側検定とは、帰無仮説に対して、検定する領域を両側に設定した検定方法です。 つまり、対立仮説における効果や差異には特定の方向性がなく、単に「ある程度の違いがある」という仮説を検証する場合に使用されます。 例えばあるロボットの性能について、新しいバージョンのロボットと古いバージョンのロボットの性能に差があるという両側仮説を立てることができます。
有意水準を$\alpha$としたとき、両側検定における棄却域は、検定統計量を確率変数とする確率分布のグラフの、両端における、面積が$\dfrac{\alpha}{2}$(合わせて$\alpha$)の部分になります。
一方片側検定とは、帰無仮説に対して、検定する領域を片側に限定した検定方法です。 つまり、対立仮説における効果や差異に特定の方向性がある場合に使用されます。 例えばあるロボットの性能について、新しいバージョンのロボットの性能は古いバージョンのロボットの性能よりも高いという片側仮説を立てることができます。 また先ほどのコインの例はこの片側検定に該当します。
有意水準を$\alpha$としたとき、片側検定における棄却域は、検定統計量を確率変数とする確率分布のグラフの、一方の端における、面積が$\alpha$の部分になります。
さまざまな検定手法
仮説検定には多くの種類があり、正規分布に従う標本の期待値に関する検定であるz検定およびt検定をはじめとして、対応のないz検定およびt検定、G検定、カイ二乗検定、そしてF検定などがあります。 ここではすべて紹介しきれませんが、それぞれに用途があり、統計学では重要な役割を果たしているので、興味があれば調べてみましょう。
