確率変数-種々の分布の特徴


分布の特徴と典型的な例

確率変数に関する理解は、ビジネスにおいて重要である。特に、統計学は、経済学の理解を助け、ビジネスでは研究開発や品質管理はもちろんのこと、マーケティングにおいても必須である。数学的な概念がなければ、「あるパフォーマンスが5%向上した」ことが、偶然なのか、有意なのかで、その後の行動様式が大きく変わる。結局、最後の決め手になるのは、”数字”なのである。

本ページでは、分布の特徴とともに、下に参考書籍を記載している(本ページの記載はページ下の書籍を参考している)。
*図の形状はイメージです。
  •  本ページでの記載内容-正規分布、一様分布、三角分布、二項分布、ポアソン分布、幾何分布、超幾何分布、対数正規分布、指数分布、ワイブル分布、ベータ分布など。
  • ページ下に参考書籍。


 

  • 分布の特徴

正規分布) 身長、体重などの自然現象を示すもので、確率理論の中では最も重要な連続分布。平均値以上と以下の値をとる確率は同じで、平均値に近いほど確率が高いことが特徴。 分布は、平均値と標準偏差(Wikipedia)でよく説明される(ちなみに分散(Wikipedia)は標準偏差の二乗です)。

 

例)ある集団の身長が平均値:170cm、標準偏差:5cmである分布は、165~175cmの間に約68%存在する。このように標準偏差をσとして平均 値 からのずれが±1σ以下で68.3%、 ±2σ以下で95.4%、±3σ以下で99.7%となる。

 

一様分布) 最も単純な連続分布で、最大値、最小値の間で、すべての値が同じ確率で起こることが特徴。

 

例)新製品の価格が1,000円~2,000円の間であり、一様分布に従うと、最小値は1,000円、最大値は2,000円、1,000~2,000円間はすべて同じ確率になり得る。

 

三角分布) 最小値、最大値、最頻値(最も多く現れているデータ)がわかっている場合の分布。

例)新製品の1ヶ月あたりの販売量データが、最も少ないのは30ケース、最大記録は70ケース、また、50ケースが最も多く記録された。発生確率は50ケースをピークとして、30、70ケースに向かうほど低くなる。

 

 

二項分布) 結果が成功か失敗のいずれかである n 回の独立な試行を行ったときの成功数で表される離散確率分布である。二項分布に従う確率変数の条件は以下の3つ。
1. 試行は「成功」or「失敗」のどちらか一方のみとなるベルヌーイ試行(Wikipedia)であること。
2. 試行結果は独立であること。
3. それぞれの試行において、成功の確率は一定でなければならない。

例)100個の製品の不良率が7%というケース。検査は100回(100試行)で合格、不合格の2種類の結果。100回の検査は独立(ある製品の検査結果が他の結果へ影響しない)しており、不合格になる確率はどの検査に対しても7%。これは二項分布の条件に一致する。→100個に含まれる不良品の数の確率分布。

 

ポアソン分布) 所与の時間間隔で発生する離散的な事象を数えるもの。一般に、一定の期間にまれに起こる事象の数はポアソン分布に従う。

例)-1 1日に受け取る電子メールの件数、1分あたりのコール回数(電話)、材料1平方あたりの傷(欠陥)など。設定するパラメータは割合で、材料1平方あたりの傷が5ヶ所あれば「5」。 
例)-2 緊急用のコールセンターは1時間に2件の電話受ける。担者は1時間に3件対応できる。担当者が1時間にかかってきたすべての電話に対応できる確率は?→約85.7%

 

幾何分布) 所与の時間間隔で発生する離散的な事象を数えるもの。試行回数に上限を設けず最初に成功するまで試行を続ける(すべての試行における発生確率は等しい)。いわゆる、現実には成功は1回でよいことの場合に用いられる。試験に合格、情報収集など。

例)-1 コイントスを続けて最初に表が出るまでに投げた回数。この場合の設定パラメータ(確率)は「0.5」。
例)-2 ある職人は、作品を成功確率0.6で作製しており、1つの作品だけを必要としている。たとえば、今、この職人は2つの作品を作成する時間があったとする。この時間内に1つの作品を得られる確率はどの程度だろうか?→約84%

 




超幾何分布) 抜取検査で応用される(JIS Z 9002;計数基準型一回抜取検査) 。 ある不適合品率のロットから抜取った標本の不適合品の個数(離散データ)の分布。

例)-1 設定パラメータは、母集団サイズ、標本サイズ、初期確率。40人のアンケートにおいて、A、Bどちらを好むかで、Aが30人、Bが10人選択した。この40人のうち、20人にもう一度同じ質問をしたときAを選択する人数の分布を表現する。この場合のパラメーターの設定は、母集団サイズ=40、標本サイズ=20、初期確率=30/40=0.75となる。

例)-2 不良の発生確率がわかっている部品ケースから部品一つひとつ検査し、別のケースに仕分ける場合など。
例)-3 10個の製品の中には、6つの良品が含まれている。無作為に5つを抜き出した時、ちょうど2つの良品が選ばれる確率は?→約23.8%

 

対数正規分布) 変数 x の対数をとったものが正規分布するとき,x は 対数正規分布 に従うといい、値に正の歪みがある状況を示している。

 

例)株価が代表的。株価は下限(=0)を持ち、上限がない。設定パラメータは、平均値と標準偏差。

 

指数分布) ある希少現象がある時間内に生じる確率を求める分布。具体的には、ある事象が1時間に平均λ回の頻度で発生し、その平均頻度が一定であるとする。そして、極めて短い任意の時間tにわたって継続する確率がλtであるとすれば、任意の時点にてその事象が発生するまで待つ場合、この待ち時間は指数分布に従う。この性質は、製造業でよく使用される平均故障間隔(MTBF)(Wikipedia)が有名である。

例)銀行の窓口に客が到着する時間間隔、機器が故障する時間間隔。
「無記憶性」という性質-例えば、故障率が一定であることは故障しやすさが時間的に変化しないということなど、時間は将来の結果に影響しないこと。

 

ワイブル分布) 時間に対する劣化現象や寿命を統計的に記述するために用いられる。
例えば、寿命、劣化テスト。ワイブル分布は柔軟性が高く、設定パラメータにより、いくつかの分布の特性を持たすことができる。設定パラメータは、位置、尺度及び形状の3つ。
製造業では必ず使用される分布で、信頼性工学の中に登場する。

*信頼性工学に関する書籍は、栗原謙三,『情報システム化時代の信頼性工学テキスト』,日本理工出版会,2000.

 

ベータ分布) 固定された範囲を上回る可能性を表すのに適した柔軟性の高い分布。
設定パラメータは、α、β。ベイジアン統計学を参照。
定義はWikipedia参照

 
 
 

 

  • 本ページ記載にあたり参考にした書籍、参考になる書籍

    統計学の入門書は以下。

○D.ロウントリー著, 加納悟, 『新・涙なしの統計学』,新世社, 2001.
○永田靖, 『
統計的方法のしくみ―正しく理解するための30の急所』, 日科技連出版, 1996.
構造計画研究所のCrystal Ballというモンテカルロシミュレーションを用いて分析が可能なソフトウェアの取扱説明書では上に記載した各分布の特徴が詳細に説明されています。

  • 企業の本棚に置いておきたい書籍(いろいろな方が閲覧できます。個人の購入は尚良いと思います)、上に記載した分布のいくつかについては、付録のエクセルシートで各分布の計算が可能です。