「フィッシャーの正確確率検定」の版間の差分

提供: miniwiki
移動先:案内検索
(1版 をインポートしました)
1行目: 1行目:
'''フィッシャーの正確確率検定'''(フィッシャーのせいかくかくりつけんてい、{{lang-en-short|Fisher's exact test}})は、[[標本 (統計学)|標本]]の大きさが小さい場合に、2つのカテゴリーに分類された[[データ]]の分析に用いられる[[統計学]]的検定法である<ref>{{Cite journal| last=Fisher | first=R. A. | authorlink= ロナルド・フィッシャー | year=1922 | title=On the interpretation of χ<sup>2</sup> from contingency tables, and the calculation of P |journal=[[:en:Journal of the Royal Statistical Society|Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521}}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=[[:en:Statistical Methods for Research Workers|Statistical Methods for Research Workers]] | publisher=Oliver and Boyd| isbn=0-05-002170-2}}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001}}</ref>。'''フィッシャーの直接確率検定'''ともいう。名称は考案者[[ロナルド・フィッシャー]]に因む。
+
'''フィッシャーの正確確率検定'''(フィッシャーのせいかくかくりつけんてい、{{lang-en-short|Fisher's exact test}}
 +
 
 +
[[標本 (統計学)|標本]]の大きさが小さい場合に、2つのカテゴリーに分類された[[データ]]の分析に用いられる[[統計学]]的検定法である<ref>{{Cite journal| last=Fisher | first=R. A. | authorlink= ロナルド・フィッシャー | year=1922 | title=On the interpretation of χ<sup>2</sup> from contingency tables, and the calculation of P |journal=[[:en:Journal of the Royal Statistical Society|Journal of the Royal Statistical Society]] | volume=85 | issue=1 | pages=87–94 | doi=10.2307/2340521| jstor=2340521}}</ref><ref>{{Cite book| last1=Fisher | first1=R.A. | year= 1954 | title=[[:en:Statistical Methods for Research Workers|Statistical Methods for Research Workers]] | publisher=Oliver and Boyd| isbn=0-05-002170-2}}</ref><ref>{{Cite journal| last=Agresti | first=Alan | year=1992 | title=A Survey of Exact Inference for Contingency Tables |journal =Statistical Science | volume=7 | number=1 | pages=131–153 | doi=10.1214/ss/1177011454 | jstor = 2246001}}</ref>。'''フィッシャーの直接確率検定'''ともいう。名称は考案者[[ロナルド・フィッシャー]]に因む。
  
 
2 x 2[[分割表]](2つの集団が2カテゴリーに分類されたデータを扱う場合、[[自由度]]は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるので[[カイ二乗検定]]が用いられるが、標本の大きさが小さい(分割表のセルの[[期待値]]に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
 
2 x 2[[分割表]](2つの集団が2カテゴリーに分類されたデータを扱う場合、[[自由度]]は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるので[[カイ二乗検定]]が用いられるが、標本の大きさが小さい(分割表のセルの[[期待値]]に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。
45行目: 47行目:
  
 
正確確率検定の計算には時間がかかり、[[コンピュータ]]を用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の[[数表]]を使うこともできるが、現在は統計パッケージでの計算も可能である(ただし数値の偏りが小さい場合など計算できないこともある)。
 
正確確率検定の計算には時間がかかり、[[コンピュータ]]を用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の[[数表]]を使うこともできるが、現在は統計パッケージでの計算も可能である(ただし数値の偏りが小さい場合など計算できないこともある)。
 
== 脚注 ==
 
{{Reflist}}
 
 
== 関連項目 ==
 
*[[推計統計学]]
 
*[[ノンパラメトリック手法]]
 
 
== 外部リンク ==
 
*[http://www.kisnet.or.jp/nappa/software/star/ JavaScript-STAR] フリーの分散分析ツールとして有名だが、1 x 2および2 x 2の直接確率検定が実行可能。
 
  
 
{{統計学}}
 
{{統計学}}
 +
{{テンプレート:20180815sk}}
  
 
{{デフォルトソート:ふいつしやあのせいかくかくりつけんてい}}  
 
{{デフォルトソート:ふいつしやあのせいかくかくりつけんてい}}  
 
[[Category:統計検定]]
 
[[Category:統計検定]]
 
[[Category:数学に関する記事]]
 
[[Category:数学に関する記事]]

2018/10/27/ (土) 11:51時点における版

フィッシャーの正確確率検定(フィッシャーのせいかくかくりつけんてい、: Fisher's exact test

標本の大きさが小さい場合に、2つのカテゴリーに分類されたデータの分析に用いられる統計学的検定法である[1][2][3]フィッシャーの直接確率検定ともいう。名称は考案者ロナルド・フィッシャーに因む。

2 x 2分割表(2つの集団が2カテゴリーに分類されたデータを扱う場合、自由度は1)の2変数の間に統計学的に有意な関連があるかどうかを検討するのに用いられる。1 x 2分割表の場合もある。同じ状況で標本の大きさが大きい場合には統計量の標本分布が近似的にカイ二乗分布に等しくなるのでカイ二乗検定が用いられるが、標本の大きさが小さい(分割表のセルの期待値に10未満のものがある)場合や、表中の数値の偏りが大きい場合にはこの近似は不正確である。この場合には正確確率検定が文字通り正確である。標本の大きさが大きい場合や、数値の偏りが小さい場合(差がなさそうに見える場合)には計算が難しいが、このようなときはカイ二乗検定が利用可能である。

以下に、2 x 2分割表での分析例を示す:

男および女の集団を、現在ダイエットしている人としていない人に分ける。たぶん女のほうが男よりダイエット中の人の割合が多いだろうと仮説を立て、その割合に有意差がある(性別とダイエット中かどうかとに関連がある)かどうかを検定する。データは次の2 x 2分割表で表される:

ダイエット中1910
非ダイエット11314
合計121224

このデータは、全てのセルの期待値が10未満であるため、カイ二乗検定には向いていない。分割表を一般的な形に書き直す。各セルをabcd と表示し、各行・各列の小計をそれらの和で、また総計をn で表すと次のようになる:

ダイエット中aba+b
非ダイエットcdc+d
合計a+cb+dn

フィッシャーは、このような数値の組み合わせが得られる確率p が次のような超幾何分布で表されることを示した:

[math] p = {\frac {(a+b)!(c+d)!(a+c)!(b+d)!}{n!a!b!c!d!}}[/math]

ここで記号! 階乗を表す。また、各小計および総計n を一定とすればbcd はいずれもa から求められるので、自由度は1である。

この式は、「母集団における男と女それぞれのダイエット中・非ダイエットの人数の割合は等しい」という帰無仮説の下で、この特定の数値の組み合わせが得られる正確な確率を与える。しかしこの確率は普通の仮説検定で有意差を表す「p値」とは違い、p値を求めるには(普通の検定と同じように)実際の観測データよりも極端な場合も含めて考えなければならない。フィッシャーは、そのためには小計が観測値と同じになるような場合だけを考慮すればよいことを示した。今の例では、その考慮に入れるべき場合は次の1つ(男はだれもダイエットしていない)だけである:

ダイエット中01010
非ダイエット12214
合計121224

観測データの有意性(つまり、帰無仮説が正しい場合に同じデータもしくはもっと極端なデータが得られる総確率)を計算するためには、これらの分割表全てから確率を求めてその総和をとる必要がある。上の例ではp値は0.0014である。

なお、以上はある一方に偏った場合だけを考慮する(女性のダイエット率の方が高いのかどうかを調べる)片側検定であるが、両方への偏りを考慮する(男性のダイエット率の方が高い場合もありうるとして考える)両側検定を行うためには、以上に示したのと反対向きに極端な場合の表も考慮する必要がある。多くの統計検定とは違い、両側検定でのp値は片側検定でのそれの2倍になるとは限らない。

正確確率検定の計算には時間がかかり、コンピュータを用いる場合でも注意が必要である。これは式が階乗を含み、また標本の大きさが大きくなると観測データより極端な場合の数が爆発的に増加してしまうからである。計算には市販の数表を使うこともできるが、現在は統計パッケージでの計算も可能である(ただし数値の偏りが小さい場合など計算できないこともある)。




楽天市場検索:


  1. Fisher, R. A. (1922). “On the interpretation of χ2 from contingency tables, and the calculation of P”. Journal of the Royal Statistical Society 85 (1): 87–94. doi:10.2307/2340521. JSTOR 2340521. 
  2. (1954) Statistical Methods for Research Workers. Oliver and Boyd. ISBN 0-05-002170-2. 
  3. Agresti, Alan (1992). “A Survey of Exact Inference for Contingency Tables”. Statistical Science 7 (1): 131–153. doi:10.1214/ss/1177011454. JSTOR 2246001.