アンスコムの例

提供: miniwiki
2018/8/19/ (日) 16:55時点におけるAdmin (トーク | 投稿記録)による版 (1版 をインポートしました)
(差分) ← 古い版 | 最新版 (差分) | 新しい版 → (差分)
移動先:案内検索

アンスコムの例(Anscombe's quartet)あるいはアンスコムの数値例とは、回帰分析において、散布図はそれぞれ異なるのに回帰直線やその他の統計量が同じになってしまう現象について、統計学者フランク・アンスコムEnglish版1973年に紹介した例である。回帰分析をする前に散布図を確認し傾向を把握することの重要性、そして外れ値が統計量に与える影響の大きさを示している[1]

概要

ファイル:Anscombe's quartet 3.svg
回帰直線が同じになる4つの散布図

アンスコムの例は右のグラフに示された4つのデータセットからなる。4つ全てについて以下が成り立つ。

統計量
x平均 9 (正確に一致)
x標本分散 11 (正確に一致)
y の平均 7.50 (小数第2位まで一致)
y の標本分散 4.122 or 4.127 (小数第3位まで一致)
xy相関係数 0.816 (小数第3位まで一致)
回帰直線 y = 3.00 + 0.500x (それぞれ小数第2位、小数第3位まで一致)

第一の散布図(左上)は、両変数が相関し正規性の仮定にも従う単純な線形関係があるように見える。一方二番目のグラフ(右上)では、二変数の間に確かに相関関係があるのが認められるが、それは線形関係ではない。従ってピアソンの積率相関係数を用いるのは不適当である(より一般的な回帰、そしてそれに関しての決定係数を用いるのがより適当だろう)。3番目のグラフ(左下)では、分布は線形であるが、回帰直線はその分布と異なっている。その違いは外れ値の存在に起因している。この外れ値の影響で回帰直線が変わり、相関係数は1から0.816に下がってしまっている(この場合はロバスト回帰English版が必要となる)。最後の4番目の例は、本来線形関係にない二変数でも、外れ値が一つあれば高い相関係数が算出されてしまうことを示した例である。

この例は現在でも、データセットをある特定の関係に当てはめて分析する前に図を用いて可視化するのが重要であること、そしてデータセットの実際を表現するには基本統計量だけでは不十分であることを示す例としてしばしば使われている[2][3][4][5][6]

実際のデータセットは以下の通りである。なお、x の値は最初の3つのデータセットでは全て等しくなっている[1]

アンスコムの数値例
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

近年では、この例のような同一の統計量と異なる見た目をもつデータセットを作出する方法が開発されている[7]

関連項目

出典

  1. 1.0 1.1 Anscombe, F. J. (1973). “Graphs in Statistical Analysis”. American Statistician 27 (1): 17–21. JSTOR 2682899. 
  2. Elert, Glenn. “Linear Regression”. The Physics Hypertextbook. . 2015閲覧.
  3. Janert, Philipp K. (2010). Data Analysis with Open Source Tools. O'Reilly Media, Inc., 65–66. ISBN 0-596-80235-8. 
  4. (2006) Regression analysis by example. John Wiley and Sons. ISBN 0-471-74696-7. 
  5. (1991) Statistical methods: the geometric approach. Springer. ISBN 0-387-97517-9. 
  6. Tufte, Edward R. (2001). The Visual Display of Quantitative Information, 2nd, Cheshire, CT: Graphics Press. ISBN 0-9613921-4-2. 
  7. Chatterjee, Sangit; Firat, Aykut (2007). “Generating Data with Identical Statistics but Dissimilar Graphics: A Follow up to the Anscombe Dataset”. American Statistician 61 (3): 248–254. doi:10.1198/000313007X220057.