確率分布と信頼区間の関係は?分布の種類とExcel関数

※記事の最後に、Excelの統計関数をまとめたスプレッドシートへのリンクを用意しました。よろしければご利用ください。

ばらつきに関する指標の1つである「標準偏差」は、次のような特徴を持っています。

  1. 平均 ± 標準偏差の中に、約68%のデータが含まれる
  2. 平均 ± 標準偏差×1.96の中に、約95%のデータが含まれる
  3. 平均 ± 標準偏差×2.576の中に、約99%のデータが含まれる

特に2.と3.は、「信頼区間」と呼ばれ活用されます。信頼区間は、デジタルマーケティングにおけるコンバージョン率やクリック率の傾向を見る時にも使えます。よくあるのが、ABテストを実施する際の、「有意差」を見る場合です。

そして、この信頼区間は、確率分布を基に決定されます。

確率分布の種類

1. 二項分布

確率分布」とは、簡単に言うと「とある事象の起こりやすさ」を表したものになります。特に「n回の試行のなかで成功する確率」を表す分布が「二項分布」です。

(引用:Wikipedia)

n回の来訪でコンバージョンが発生する回数の分布、と考えるとよいかと思います。またWikipediaにおいて

期待値 np および分散 np(1 − p) が 5 よりも大きい場合、二項分布 B(np) に対する良好な近似として正規分布がある。

という記述があり、例えばコンバージョン率1%で考えた場合

  • n > 5 / p = 5 / 0.01 = 500
  • n > 5 (1 – p) / p = 5 / 0.01(1 – 0.01) =  505.0505…

となり、来訪数500数回以上を確保できている状況下であれば、正規分布として信頼区間を算出してよいとされています。

AD

2. カイ二乗分布

ABテストでベースとなる確率分布で最も利用されているのが「カイ二乗分布」です。カイ二乗分布は「母分散の区間推定」を行う際に用いられます。分布は、平均からの距離 = 偏差の符号をなくし、設定した「自由度」で表現されます。

(引用:Wikipedia)

分布の形は二項分布と違いますが、信頼区間については同じように取り扱うことができます。

3. スチューデントのt分布

正規分布における母平均と母分散が未知であり、かつ標本数が小さい場合に平均を推定する要な場合は、「スチューデントのt分布」を用います。

(引用:Wikipedia)

二項分布と同じ正規分布のため、これも信頼区間の考え方は同様となります。

信頼区間とは?

信頼区間」とは、「母平均が定めた確率でその範囲にあることを示す区間」のことです。多くは、95%の確率でその範囲にあるとする「95%信頼区間」か、99%の確率でその範囲にあるとする「99%信頼区間」が用いられます。

信頼区間

全数調査において、平均値が確率で変化することはありません。そのため信頼区間は、

  • 標本調査によって推定される「母平均の期待値」に対して信頼区間を求める
  • その作業を繰り返し行った場合、定めた確率で信頼区間に収まる

事を意味します。

全数調査と標本調査

例えば、ABテストをの対象ユーザーはあくまでその期間にアクセスのあった、いわゆる標本となります。テスト期間中に試行されたn回の標本に対して結果をそのまま適用するのは不適切であり、母集団に回帰した時にどの程度の値を示すのか?を範囲で示す必要があります。

この母平均の期待値に対して、ABテストにおける有意差を検定する必要があります。

正規分布における信頼区間の算出方法

信頼区間を求めるExcel関数は、母分散が既知かどうかで変わります。

母分散が既知の場合

母分散が基地の場合、正規分布における信頼区間は、下記の計算式で求められます。

95%信頼区間

95%信頼区間

99%信頼区間

99%信頼区間

μ~は標本平均、σは母分散から求められる標準偏差です。

この分布による区間推定を行うExcel関数が、CONFIDENCE.NORM関数になります。

CONFIDENCE.NORM(α,標準偏差,標本数) Officeヘルプ

CONFIDENCE.NORM関数は、平均から + または – する値を返します。

t分布の信頼区間

母分散が未知の場合は、上記の信頼区間の算出式が使えません。母分散が未知で不偏分散を用いるt分布の場合は、CONFIDENCE.T関数を用います。

CONFIDENCE.T(α,標準偏差,標本数) Officeヘルプ


信頼区間の考え方は非常に繊細なものですが、異常値の発見などで必要な知識ですので理解しておきましょう。

Excel関数 – 統計関数一覧リンク

Excel関数の中でも、統計関数の説明や構文をスプレッドシートにまとめました。Excel 2010以降、統計関数は特により制度の高い関数へと変更になっていますのでご注意ください。

下記フォームにメールアドレスをご記入いただくと、スプレッドシートのURLへの遷移と記載したメールの送付をいたします。よろしければご利用ください。