固定効果とランダム効果：統計学と計量経済学での定義

ある空間的な変数を持つデータを扱っているときに、どういう形で空間的な構造を扱うか悩んでいた。
空間計量経済学はまだきちんと勉強したわけではなく、実証的な論文もそんなに読んでいないので扱いがいまいちわからない。

自分の学部には、Rの空間統計パッケージの開発などで超有名な地理経済の先生がいるので、*1 エスプレッソマシンの近くでコーヒーブレークしていたところを捕まえて、質問してみた。*2

ざっとどんな分析がしたいか聞いてみたが「とりあえずマルチレベルモデルでいいんじゃない？」とのこと。計量経済学では聞き慣れない名前なので、どういう分析か聞いてみたところ、「計量経済学で言ういわゆるランダム効果(Random effect)ってやつだな。」と答えてくれた。「でも、統計学でのランダム効果と計量経済学では少し定義が異なるから、これを読むといいよ」と言って教えてくれたのが、Journal of Statistical SoftwareのRのplmパッケージの記事だった。

plmパッケージはパネルデータを扱うパッケージなのだが、基本は計量経済学におけるパネルデータ分析を念頭に設計されている。しかし、統計計算のソフトウェアを扱うジャーナルにおいて、計量経済学以外の統計分野の読者も多いため、査読の過程で計量経済学における用語の使い方と統計における使い方の整理をするセクションを書くように指示されたという経緯があったらしい。その過程で追加されたセクションが7.2のSome false friendsという項目だそうだ。

混合モデルとマルチレベルモデル

統計学や統計を用いる科学分野において、混合モデルやマルチレベルモデルはいくつかの複数の名前があるようだ。
例を上げてみると

混合モデル
マルチレベルモデル
階層線形モデル
混合効果モデル
ハイブリッドモデル

など。。。一般にはこれらのモデルは同じものを違う名前で呼んでいるとされるらしいが、
微妙に異なるコメントが以下のスレッドではなされていた。

stats.stackexchange.com

要約すると、マルチレベルモデルや階層線形モデルでは「マルチレベル」や「階層」という言葉から、入れ子になっている構造(Nested)が強調される。入れ子になっている構造とは、たとえば県の中に市町村があり、その中に個人が属しているようなデータで、県レベルの効果・市町村レベルの効果をそれぞれ推定するようなケースである。しかし、混合モデルにおいては必ずしも入れ子になっている必要はない。おそらくマルチレベルと呼びながら入れ子になっていない構造のデータを扱っている場合もあるのではないだろうか。

混合モデルと計量経済学のパネルデータ

用語の違いと対応

計量経済学の固定効果とランダム効果

以上の議論を受けて、冒頭ではマルチレベルモデルに出会った経緯を紹介したが、より広い定義を持つ混合モデル(mixed model)と呼ぶことにする。

計量経済学が統計学と少し離れて発展してきた背景には、社会科学を扱う学問として、非実験データ（観察データ）を扱ってきたため、観察データ特有の問題に対処する必要があったことが挙げられる。
特に問題となってきたのが内生性である。つまり、経済理論を実証する形で推定される計量経済学では経済理論の記述する変数間の関係が統計的に実証できるかどうかに関心が置かれるため、変数Xが変数Yに与える因果関係にバイアスがないかどうかがおおきな関心となる。そこでのパネルデータを用いた分析がクロス・セクションデータの分析より秀でているとされる点は、個人や時間の効果という直接観察されないが、興味のある変数Xと相関している場合にバイアスがかかるため(Omitted Variable Bias)、個人や時間について複数の観察点がある場合にはその効果が推定されることでバイアスが避けられる（可能性がある）ということである。

計量経済学におけるパネルデータ分析で推定される個人や時間の効果は、固定効果(Fixed Effects)とランダム効果(Random Effects)に分けられる。式で書くとどちらも

$y_{it} = a + x_{it}'\beta + v_{it}$

となり、 $y_{it}$ が従属変数、 $x_{it}$ が説明変数、 $v_{it}$ が誤差項であるが、そのうち $v_{it} = \mu_{i} + \varepsilon_{it}$ と分解され、 $\mu_{i}$ が個人の効果で、 $\varepsilon_{it}$ が平均ゼロの分布を持つ誤差項である。

この個人の効果が、個人特有の切片として推定される場合は固定効果、誤差項の一部としてパラメータを持つ分布として推定される場合はランダム効果と呼ぶ。
固定効果として推定される場合は、個人の効果は変数Xと相関を持つが、ランダム効果の場合は相関がないという仮定のもとで推定される。

計量経済学的にとくに関心があるのは固定効果の場合である。つまり、個人特有のなにか（直接観察されない）が変数Yに影響を与えるが、Xとも相関しているのでXの効果にバイアスが生じる場合、
固定効果を含めることでこのバイアスが避けられるというアイデアである。

統計学(混合モデル)の固定効果とランダム効果

混合モデルとは、固定効果とランダム効果の両方を含む回帰分析モデルを指す。

混乱のもとは、この固定効果とランダム効果(変量効果)という専門用語が、統計学と計量経済学の間で異なる定義で、しかし似通った文脈で使われていることである。

混合モデルにおける固定効果とは、パラメータが定数であるモデル（つまり普通の回帰分析）であり、ランダム効果とはパラメータが平均ゼロの同時正規分布に基づいてランダムに変化するようなモデルである。

すなわち、計量経済学におけるランダム効果とは、混合モデルのランダム効果のうち特殊なバージョンであり、パラメータのうち切片だけが分布に基づくランダム性を持つという形になる。

計量経済学における固定効果にあたる名前は混合モデルにはないが、あえていうならグループや個人ごとのダミー変数を用いて推定するダミー変数最小二乗法(DVLS)と言える。

逆に、混合モデルのランダム効果は、計量経済学では最近ではランダム係数モデル(Random Coefficient)と言われるモデルがある。

また、混合モデルの固定効果とは、上述のように普通の線形モデルである。

推定方法の違い

厳密には計量経済学と統計学の違い、というわけではないかもしれないが、特にランダム効果モデルの推定方法は異なるようだ。

計量経済学では、経済理論に基づいた変数間の関係の実証に興味がある。そのため、推定方法として一般的なのが(係数の推定自体は)分布を特定しないOLSである。
このOLSから派生したFealsible GLSを用いることで、一般的なOLSの過程を満たさない（均一分散ではない）ランダム効果モデルの推定を行う。

推定したいモデルが

$y_{it} = a + x_{it}'\beta + v_{it}$

であり、上と同様に誤差項が $v_{it} = \mu_{i} + \varepsilon_{it}$ と分解される場合、ランダム効果モデルでは、まず外生仮定を以下のように仮定する。

$E(\varepsilon_{it} | {\bf x_{i}} \mu_{i}) \forall t$

そして、個人効果の条件付き期待値がゼロだと仮定する。
$E(\mu_{i} | {\bf x_{i}}) = E(\mu_{i}) = 0$

さらに、GLSの推定の仮定としてフルランク仮定を置く。

$\text{rank } E(X_{i}'\Omega X_{i}) = K$

$K$ は変数の数であり、 $\Omega = E(v_{i}v_{i} ')$ は無制約分散推定量である。

これにより、

$\Omega = \left( \begin{array}{ccc} E(v_{i1}^{2}) & E(v_{i1}v_{i2}) & \ldots & E(v_{i1}v_{iT})\\ E(v_{i2}v_{i1}) & E(v_{i2}^2) & \ldots & E(v_{i1}v_{iT})\\ \vdots & & & \vdots \\\\ E(v_{i1}v_{iT}) & & \ldots & E(v_{iT}^2)\\ \end{array} \right)$

仮定を適用すると、 $E(v_{it}^2) = E(\mu_{i}^2) + 2E(\mu_{i}\varepsilon_{it}) + E(\varepsilon^2_{it}) = \sigma_{\mu}^2 + \sigma_{\varepsilon}^2$ と $E(v_{it}v_{is} = E(\mu_{i}^2) = \sigma_{\mu}^2$ となる。
このうち $\sigma_{\mu}^2$ が、ランダム効果の分布の分散の推定値となる。

この辺りの詳しい説明はパパ・ウールドリッジの10.4.1.節が詳しい。*3

Econometric Analysis of Cross Section and Panel Data, second edition (The MIT Press)

作者:Wooldridge, Jeffrey M.
The MIT Press

Amazon

一方で、統計学ではこのようなランダム効果モデルは分布を特定化した状態で最尤推定を行うのが一般的なようだ。
理論上は、誤差項の分布が正規分布だと仮定して推定を行えば推定値はGLSと一致するはずである。

まとめ

以下に違いを表にまとめてみる。

昨今とくに、データ分析の隆盛に伴って分野を超えた議論が盛んになっているので、こういった違いが存在することを注意しながら議論・勉強していきたい。

項目	統計学(混合モデル)	計量経済学 (パネルデータモデル)
ランダム効果	分布を持つランダム係数 (説明変数にかかる係数) $y_{it} = \alpha + x_{it}'\beta_{i} + \mu_{i} + \varepsilon_{it}$	分布を持つランダム切片 $y_{it} = \alpha + x_{it}'\beta + \mu_{i} + \varepsilon_{it}$
固定効果	定数の係数 $y_{it} = \alpha + x_{it}'\beta + \varepsilon_{it}$	レベルごとの切片 $y_{it} = \alpha + x_{it}'\beta + \mu_{i} + \varepsilon_{it}$
推定方法	最尤法	Feasible GLS