第15回 統計数理講座「情報量基準」 〜 統計的推定 ⑤ 〜

本講座では、統計の基本から応用までの知識を身に付けることができる講座になっております。そこで、第15回では、「統計的推定 ⑤」として、統計学の知識として必要な確率と、確率変数について紹介していきます。(高校数学を履修していること(高校数学レベルの数学が身についていること)が、前提の講座になっています。)

今回は、前回(第14回)の講座の続きになります。以下リンク先を参照下さい。

モデル選択と呼ばれる統計的手法の中で基本的な、情報量基準について紹介します。情報量基準には様々な種類が知られているが、以下では、現在最も使われているAICについて紹介します。

上記でも記載しておりますが、2019年アイスクリーム 月別支出金額(円)は以下の通りです。本例題での統計はこちらを参照して作成しております。

1月494
2月423
3月542
4月667
5月1,000
6月991
7月1,236
8月1,513
9月996
10月724
11月531
12月584

回帰分析で最も基本的な最小二乗法を試してみます。 以下は、多項式の次数を1から徐々に増やしていったときの最小二乗法で得られる回帰多項式のグラフです。

上記グラフから、4次式から5次式で、十分適切にデータを説明しているように見えます。11次式では、そのグラフが全てを通り、残差平方和がゼロになるような多項式が存在します。一般にXiの値がn個の点(X1,Y1),…,(Xn,Yn)が与えられた時、グラフがその全てを通るようなn-1次多項式が存在することがわかる。グラフを見ても明らかなように、この多項式がデータをよく説明しているとは言いがたいと言えます。つまり、得られたデータへの当てはまりが良い多項式とデータを説明する多項式は、別物になります。

上記AICモデル式の2つの項がそれぞれ2倍されているのはモデルが正しい時に、第1項が漸近的にカイ二乗分布に従うからであり、最小化により得られる結果には影響はありません。また、ここでのパラメータの次元は、パラメータの自由度である。例えば、2次元のパラメータ(θ1,θ2)に関して、θ1θ2=1のような制約があれば、dim(θ)は1とみなされます。

ここで、統計分析フリー(無料)ソフトの「R」を用いて、上記講座でも紹介した最小二乗法の多項式近似を求めていきます。「R」のインストール方法については、下記リンク先のサイトを参照ください。(Rの基本知識、基本操作は、こちらの「Rを用いた統計講座(基礎編)」の第1回〜第7回を参照いただければと思います。)

サンプルコード(4次式)

x <- 1:12 #X値に1月〜12月
y <- c(494, 423, 542, 667, 1000, 991, 1236, 1513, 996, 724, 531, 584) #Y値に、各月の支出金額
plot(x, y, xlim = c(1, 12), ylim = c(400, 1600)) #プロット範囲選択
fit <- lm(y ~ poly(x, 4)) #多項式n次式を選定(左は4次式の場合)
xx <- seq(1,12,0.1)
lines(xx, predict(fit, data.frame(x=xx)), col = 2) #最小二乗法の多項式近似グラフ表示
summary(fit) #回帰分析の結果

サンプルコード(11次式)

x <- 1:12 #X値に1月〜12月
y <- c(494, 423, 542, 667, 1000, 991, 1236, 1513, 996, 724, 531, 584) #Y値に、各月の支出金額
plot(x, y, xlim = c(1, 12), ylim = c(400, 1600)) #プロット範囲選択
fit <- lm(y ~ poly(x, 11)) #多項式n次式を選定(左は11次式の場合)
xx <- seq(1,12,0.1)
lines(xx, predict(fit, data.frame(x=xx)), col = 2) #最小二乗法の多項式近似グラフ表示
summary(fit) #回帰分析の結果

◆出題用語(本講座で出題された用語をまとめます。下記用語の意味がわからない場合は本講座を復習してみてください。)

  • 情報量基準
  • AIC
  • モデル選択
  • 赤池情報量規準
  • 罰則項