回帰分析で変数の対数を取る理由はなんでだっけ？

回帰分析をやっていてふと基本的な疑問にひっかかった。

なぜ、そしていつ変数の対数変換をやるのか？

統計学や計量経済学をやった人には基本的なこの質問なのだが、復習ということで本やウェブを漁った備忘録を残しておく。

対数変換とは？

対数変換とは文字通り、変数の対数を取ることである。ことわりがない限り、自然対数を意味している場合が多い。
つまり対数の底がネイピア数（Napier's constant）である。

ある変数Xに対して、 $\log_{e} X$ が対数変換である。自然対数はよく $\ln X$ と表記される。

回帰分析の対数変換

ある従属変数Yに対する説明変数Xの影響を測りたい場合に以下のような線形のモデルを使用する。

$Y=\beta X + \varepsilon$

説明変数・従属変数、そして両方を対数変換する場合として以下の3つのバリエーションが有る。
このとき、パラメータ $\beta$ の解釈が異なることに注意である。

線形ー対数モデル　linear-log

$Y = \beta \ln X +\varepsilon$

このとき、 $\beta$ はXが1%増加したとき、Yがいくら（もとの単位で）増加するかを示す。

対数ー線形モデル　log-linear

$\ln Y = \beta X +\varepsilon$

ここでは逆に、 $\beta$ はXが1単位増加したとき、Yが何％増加するかを示す。

対数ー対数モデル　log-log

$\ln Y = \beta \ln X +\varepsilon$

この場合は $\beta$ は後述する弾力性と呼ばれるもので、Xが1％増加したときにYが何％増加するかを示す。
経済学ではlog-linearとlog-logをよく見る印象である。

なぜ対数変換を行うのか？

なぜわざわざ対数変換を行うのか？これにはいくつかの理由がある。
基本的には変数の性質と回帰分析の仮定の問題、そして推定パラメータの解釈の問題だ。

1. 非線形な関係を線形モデルで表す。

たとえば説明変数が増加するにつれ、従属変数も増加するがその増加率が一定でない場合、線形モデルを当てはめるのは適当ではない。

今話題の新型コロナウイルス感染症、COVID-19の患者数増加グラフもその一例で、Y軸を見ればわかるように底が10の対数を取っている。
f:id:keita43a:20200324014055p:plain

ここではgapminderのデータを使ってRで例示してみる。

library(gapminder)
library(ggplot2)
# 平均寿命と一人あたりGDP

ggplot(gapminder, aes(x =gdpPercap, y = lifeExp))+
  geom_point() + 
  labs(x = "一人あたりGDP", y = "平均余命")

f:id:keita43a:20200321013512p:plain

その場合に、対数変換を行う。

ggplot(gapminder, aes(x =log(gdpPercap), y = log(lifeExp)))+
  geom_point() + 
  labs(x = "一人あたりGDP(対数)", y = "平均余命(対数)")

f:id:keita43a:20200321013704p:plain

2. 変数の分布が偏っている。

変数の分布が正規分布でない場合、回帰分析の推定や統計的検定のための仮定が成り立たなくなる。

ggplot(gapminder, aes(x = gdpPercap)) +
  geom_histogram() + 
  labs(x = "一人あたりGDP", y= "頻度")

f:id:keita43a:20200321013917p:plain

対数変換することによって、分布が正規分布に近くなる。
特に正の値しか取らない変数の場合は、分布が偏っている事が多いため、対数を取ることが多い。（例えば賃金）
また、そういった場合は回帰分析後の予測値が0以下にならないという利点もある。

ggplot(gapminder, aes(x = log(gdpPercap))) +
  geom_histogram() + 
  labs(x = "一人あたりGDP(対数)", y= "頻度")

f:id:keita43a:20200321014302p:plain

3. 極端な数値の効果を低減する

もしデータに極端に大きい・小さい数値が含まれていても、その影響を軽減できるという効果もある。
たとえばlog(100)は4.60517で、log(10000)は9.21034になる。

http://fmwww.bc.edu/ec-c/F2007/228/EC228.f2005.nn06.pdf

4. 推定パラメータの解釈

推定されたパラメータの解釈は、対数変換したかどうか、またどの変数を対数変換したかどうかによって変わる。
特に経済学などでは、弾力性の推定に興味がある場合に、対数ー対数モデルで推定したパラメータが弾力性そのものであるため、
対数ー対数モデルを多く使用する傾向がある。しかし、これは１点目の変数間の関係に依存している。
つまり、経済学的に弾力性を推定したい、という場合は、明示されていなくても暗示的に対数ー対数モデルになるような変数関係があると仮定されている。

ちなみに弾力性(elasticity)とは、変数同士の関係で、ある変数の変化率に対する別の変数の変化率を表したものである。具体的にはある変数が1%変化した場合にもう一方の変数が何％変化するか？という数値が弾力性である。
経済学で一般的なのは需要の価格弾力性である。価格が1%上がったときに、需要が何％減少するか？を推定するときに（内生性などは置いといて）、対数を取った需要量と価格を使って回帰式を推定すれば、推定されたパラメータが、価格弾力性そのものになる。

$\ln Q = a + \beta \ln P + \varepsilon$