[自在]ビッグ・データは、統計学に対して重要な意味を持つのかもしれない。

2013/12/19

ビッグ・データについて、以前言われていたデータマイニングと何が違うんだろう。と、あまり興味がなかったのだが、

「ビッグ・データは、相関関係さえ分かれば因果関係は問わないのだ。なぜならビッグ・データで扱うデータは、標本集団でなく母集団だからだ。」

と考えると、非常に重要な意味を持つのではないか。と思い直した。

かつてデータマイニングが流行した頃、「オムツとビールのケース買いには相関がある。それは、大きなオムツを買いに自動車で来店した人は、ビールもついでにケース買いするからだ。だから、オムツとビールを並べて置けば売上が伸びる。」という成功事例があった。

ところが、ビッグ・データ時代なら「オムツとビールのケース買いには相関がある。だからオムツとビールは一緒に売っておけ。オムツを付けながらビールを飲むのが流行っているのか、そんなこと知らん。」という話になる。

統計学は大別すると「記述的統計」と「統計的推測」があり、母集団を測定することが出来ないから標本集団から母集団を推計する「統計的推測」が重要な意味を持つ。

ところが、ビッグ・データ時代にはすべてのデータが取得可能だから、「統計的推測」に意味がなく、既存の統計学の体系には意味がないことになるのではないか。

よくよく考えると、恐るべき変化なのかもしれないビッグ・データ。