2020-05-12

【機械学習】1標準偏差ルールはLASSOの正則化係数の正しい選び方？

R R 備忘録データ分析

機械学習に関してはビギナーレベルの知識しかないのだが、引っかかった点を備忘録にしておく。

ベーシックな機械学習手法の一つにLASSOがある。もう少し広く言うと正則化手法の中に含まれる。

一般的な線形回帰に推定法に比べて、パラメータの値を抑えたりゼロにしたりすることで、手元にあるデータに対する過学習を防ぎ、モデルの汎化性能を向上させるというものだ。

線形回帰は誤差の平方和を最小にする最小二乗法によって推定するのが一般的だが、LASSOなどの正則化手法では、正則化項を加えて推定する。

例えば以下の線形モデルを推定するとする。

$y_{i} = x_{i}'\beta + \varepsilon_{i}$

$y_{i}$ は従属変数、 $x_{i}$ は説明変数、 $\beta$ はパラメータで、 $\varepsilon$ は誤差項である。

このモデルで、説明変数の数が多い場合などに正則化を使う。正則化のうち例えばLASSO推定の目的関数は以下のようになる。

$\min \sum_{i=1}_{N} (y_i - x_{i}'\beta)^2 + \lambda ||\beta||$

一項目は最小二乗法と同じだが、二項目にL1ノルムの罰則項がついている。直感的に言えば、 $\beta$ を選んで一項目を最小にするのだが、自由に $\beta$ を選んだ場合、二項目のL1ノルムが大きくなりすぎる可能性があるので、合計が大きくなりすぎないように $\beta$ を選ぶのである。
この時、正則化係数である $\lambda$ が罰則項の強さを規定する。

ではこの $\lambda$ をどうやって選ぶのか？
手法としては、モデルの複雑さを表す一般自由度などの基準や、AICのような情報量基準を正則化手法向けに改良した基準を用いる方法が提案されているようだが、
現場でよく使われる手法はクロスバリデーションが多いようだ。*1

クロスバリデーション(CV)は、データをいくつかのグループに分け、一つのグループをテスト用データとしておいておき、残りのデータでモデル推定をやったあと、残しておいたテスト用データで当てはまりをチェックする、というプロセスをグループの数だけ繰り返して、当てはまりの尺度（例えば平均誤差二乗和）を計算して、もっともあてはまりのよいパラメータを選ぶという手法である。

ここが引っかかっているところである。というのは、正則化係数を選ぶ時、最も当てはまりの良い係数を選ぶのではなく、より大きい係数（強い正則化）の中で、平均誤差ニ乗和の標準偏差が、最も当てはまりの良いものより1だけ大きいものを選ぶという方法が標準だというからである。

日本語で検索してみたのだが、いまいちこれに関する言及はなく、R関連の記事でも最も当てはまりのよい係数（ $\lambda_{min}$ )を選んでいる。

RでL1 / L2正則化を実践する - 渋谷駅前で働くデータサイエンティストのブログ

5分でわかるかもしれないglmnet

https://toukei-lab.com/%E7%B7%9A%E5%BD%A2%E5%9B%9E%E5%B8%B0%E3%83%BBlasso%E3%83%BBridge%E3%82%92%E5%AE%9F%E8%A3%85%E3%81%97%E3%81%A6%E3%81%BF%E3%82%88%E3%81%86%EF%BC%81

リッジ/Ridge回帰、Lasso回帰、Elastic Net (R - glmnet) - 東京に棲む日々

LASSO 回帰 / R | R/glmnet パッケージで LASSO によるスパース推定を行う方法

手元の日本語の教科書には具体的な選び方が書いていなかったのだが、英語での書籍ではIntroduction to Statistical Learningにはone-standard-error ruleという記述がある。

In this setting, we can select a model using the one-standard-error rule. We ﬁrst calculate the one-standard- error rule standard error of the estimated test MSE for each model size, and then select the smallest model for which the estimated test error is within one standard error of the lowest point on the curve. The rationale here is that if a set of models appear to be more or less equally good, then we might as well choose the simplest model—that is, the model with the smallest number of predictors. In this case, applying the one-standard-error rule to the validation set or cross-validation approach leads to selection of the three-variable model. (P.214)

以下Deep Lによる翻訳を少し修正したもの。

この設定では、1標準誤差ルールを用いてモデルを選択することができます。我々はまず、各モデル・サイズについて推定されたテストMSEの1標準誤差ルール標準誤差を計算し、次に、推定されたテスト誤差が曲線上の最低点から1標準誤差以内である最小のモデルを選択する。ここでの理論的根拠は、モデルのセットが多かれ少なかれ等しく良好であるように見える場合、最も単純なモデル、すなわち、予測変数の数が最も少ないモデルを選択した方がよいかもしれないということです。この場合，検証集合またはクロスバリデーション・アプローチに1標準誤差ルールを適用すると，3変数モデルを選択することになる．

つまり、この1標準誤差(one-standard-error rule)のアイデアとしては、あんまり予測誤差が変わりない範囲（=1標準誤差の範囲）で最もシンプルな（=係数の少ない=正則化の強い）モデルを選ぼうというものである。

ちなみに上の本、Introduction to Statistical Learningは英語のみですが、無料で公開されている。
この翻訳本も販売されている。

Rによる統計的学習入門

作者:Gareth James,Daniela Witten,Trevor Hastie,Robert Tibshirani
発売日: 2018/08/03
メディア: 単行本（ソフトカバー）

Rでの例

Rだと以下のようになる。
glmnetパッケージを使用して、練習データを推定する。

# glmnetパッケージのロード
pacman::p_load("glmnet")

# 練習用データをロード
data(QuickStartExample)

# 10-fold CVによるランダム性から結果を複製可能にするためにシードを固定
set.seed(3)

# LASSOを推定
cvfit = cv.glmnet(x,y, alpha = 1)

cv.glmnetによって、自動的に10-fold Cross Validationを実行する。
平均誤差二乗和を縦軸に、対数を取った正則化係数を横軸にとったグラフが以下である。

  plot(cvfit)

f:id:keita43a:20200512063840p:plain

この図を見ると、対数を取った正則化係数が-2あたりまでは平均誤差二乗和に大きな差はないが、それより正則化を強くすると急激に予測誤差が大きくなることがわかる。

この図において、二本ある点線のうち、左側がもっとも平均誤差二乗和を小さくする正則化係数 $\lambda_{min}$ で、右側が平均誤差二乗和が1標準誤差に収まる範囲で最も大きな正則化係数( $\lambda_{1se}$ )である。

これらの正則化係数はcv.glmnetが自動的に推定してくれる。
実際に推定された正則化係数はそれぞれ

> cvfit$lambda.min
[1] 0.07569327

> cvfit$lambda.1se
[1] 0.1451729

となっている。

これらの正則化係数にそれぞれ対応した係数の数を見てみると

> length(coef(cvfit, s = "lambda.min")@x)
[1] 11
> length(coef(cvfit, s = "lambda.1se")@x)
[1] 9

となり、 $\lambda_{min}$ ならば、係数の数は11だが、 $\lambda_{1se}$ なら係数の数は9と少なくなる。
この変化を端的に表した図が以下である。この図では赤縦線が $\lambda_{min}$ 、青縦線が $\lambda_{1se}$ を表し、他のそれぞれのラインが各係数の推定値が $\lambda$ の大きさに対応して収縮していく様子が描かれている。

plot(cvfit$glmnet.fit, xvar = "lambda") 
abline(v = log(cvfit$lambda.min), col = "red")
abline(v = log(cvfit$lambda.1se), col = "blue")

f:id:keita43a:20200512064315p:plain

このように、エラーがあまり最小値と変わりない範囲で係数の少ないモデルを選んでいる。

しかし、なんともアドホックな基準ではある。
一つは、1seが小さければ問題ないが、大きくなった場合に正則化しすぎるということはないのか？ということ。
また、もう一つはCVによって汎化性能をチェックしているのに、そのCVが手元のトレーニングデータによって行われたからといって、さらに過学習を警戒して
正則化を強めるのは、なぜか？という点だ。CV自体がそもそも外部のデータにも適用されるかどうかをチェックするためのプロセスではないのだろうか？　

Cross Validated(という名前の質問サイト)にも似た疑問が寄せられている。

stats.stackexchange.com

そこではone-standard-error ruleに言及する論文や教科書などが挙げられているが、1つ目の回答に集約されている気がする。

>>The suggestion is that the choice of one standard error is entirely heuristic, based on the sense that one standard error typically is not large relative to the range of λ values.<<

heuristicとは発見的、という意味であり、計算機科学などの世界では、必ず正しい答えを導けるわけではないが、ある程度のレベルで正解に近い解を得ることができる方法という意味でheuristicsを使う。
本来ならば、時間がかかる手法やCVでもleave-one-out （一個抜き）CVでもを行うべきところをk-fold CVという方法で時間的な節約を行っているために、起こりうるoverfittingの可能性をこの規則によってできるだけ下げることができるという理解でいいのだろうか？

もし詳しい方がいらっしゃたらコメント等で教えてほしいです。

*1:参考：http://www.terrapub.co.jp/journals/jjssj/pdf/3902/39020211.pdf

2020-05-11

【読書】『孤独の価値』は孤独を再定義しすぎている気がする。

読書

海外で大学院生活を送った中で、「孤独」と戦ってきた経験と学びを書き残しておこう、とおもってブログ記事を書いているなかで、少し参考になる本はないか、と思って探した一つである。

孤独の価値 (幻冬舎新書)

作者:森博嗣
発売日: 2014/11/27
メディア: 新書

結論からいうと、賛成できる部分が3割ぐらいという感触だった。あまりに「孤独」のネガティブなイメージを再定義しようとして、多くの孤独に苦しんでいる人を引き付けられない内容になっている印象を受ける。

著者が冒頭で宣言している通り、「孤独というものは、それほどひどい状況ではない」という主旨が一貫して展開されるエッセイなのであるが、本当に孤独に苦しみ、そして向き合って乗り越えた経験を踏まえると、本当に孤独の中でもがき苦しんでいる状況では、そんな考え方の転換は非常に難しい。

違和感だったのは、「孤独を感じること」が間違ったように論じられている点だ。孤独が仲間のぬくもりとか、友達と交わる楽しさといったものを失うことで、喪失感となって孤独感を引き起こすとしている。しかし、それは実は人と仲良くしないといけない、仲間に認められ、みんなでなにかを成し遂げることが善だという「刷り込み」があるだけで、そもそもそれが善であるわけではない、と指摘する。

なるほど、それもそうだと思う。一人でいることが悪いわけではないし、一人でいることを好む人を「あいつは寂しいやつだ」とジャッジするのは間違っていると思う。例えば「一般的ではないだろうけど、たとえば、天体観測に一生を捧げる人生だってある。数学の問題を解くことが、なにより大事だという人生だってある。仏像を彫るために、命を懸ける人生だってある。」という部分は納得だ。「友達や家族に裏切られても、自分一人で楽しく生きていける道があると教えることがあるだろうか」という部分もまさしくそのとおりだ。孤独が悪いものと決めつける風潮がおかしいという点には同意できる。

しかし、自分が一人でいて寂しいと感じるその感情は否定してはいけないと思う。一人でいて、周りには自分を理解してくれる人がいない。自分の苦しみをわかってくれる人がいない。その気持ちを受け入れて、消化することが重要なのであって、そんな感情は間違っている、という論には個人的には賛同はできない。私がブログで書こうとしているのは、これをどう受け入れて、消化したかである。（まだ書き終わってない）

しかし、本当に孤独に苦しむ経験を得ることで、孤独の価値を理解することもまた事実だ。多くの仲間や友達に囲まれていたときとは違う自分を見つけるプロセスでもある。それもまた、孤独の辛さを受け入れるプロセスで見えてくるものである。そういう意味では、本書はすでにその境地に至った視点からのコメントととも受け取れる。

この辺りの表現だと、私は池田晶子の言葉好きだ。孤独を味わうという文脈の中で、子供の頃しつけのために押入れに入れられていたのを実は好んでいたという。「空間的に閉じこもることによって、逆に内に開ける」という表現は、そこに至れば孤独を味わうと言える境地だということをうまく表している。（池田晶子『暮らしの哲学』）

暮らしの哲学

作者:池田晶子
発売日: 2007/06/29
メディア: 単行本

2020-04-27

sf::st_simplifyを使った後ggplot2のgeom_sfで起こるエラー

R R データ分析

sfパッケージを使って地図をお絵描きしてたところで引っかかったかんたんなミスの備忘録。

日本の都道府県の地図を描こうと思って以下のサイトからシェープファイルをダウンロードした。
今はsfオブジェクトのままで配布もしているらしい。
GADM

sfオブジェクトがデカすぎて、ggplotで描くのに時間がかかるので、解像度を落とそうと思ってこうした。

library(ggplot2)
library(sf)

# データロード
jp_sh = readRDS("gadm36_JPN_1_sf.rds") # 都道府県 (prefecture)

# サイズダウン
jp_sh2 = st_simplify(jp_sh, dTolerance = 0.01)

# 描画
ggplot(jp_sh2) + 
  geom_sf()

すると以下のようなエラーが出た。

Error in unit(x, default.units) : 'x' and 'units' must have length > 0

少し調べたのだが、st_simplifyの問題はgeometryごとにサイズ圧縮をしてしまうことらしい。
"Geocomputation with R"の5.2.1に以下の記述がある。

>>A limitation with st_simplify() is that it simplifies objects on a per-geometry basis. This means the ‘topology’ is lost,...<<

f:id:keita43a:20200427022515p:plain — "Geocomputation with R", Figure 5.2

Geocomputation with Rではrmapsshaperのms_simplifyを使うことを提案しているが、st_simplifyにはpreserveTopologyというオプションがあり、これをTRUEにすることで解決。

# Topologyを維持してサイズダウン
jp_sh2 = st_simplify(jp_sh, preserveTopology = TRUE, dTolerance = 0.01)

# サイズチェック
pryr::object_size(jp_sh2) # 10 MB
pryr::object_size(jp_sh2) # 653 kB

# 改めて描画
ggplot(jp_sh2) + 
  geom_sf()

f:id:keita43a:20200427022729p:plain

ちなみにdToleranceは粗さを決めるパラメータで、小さいほど解像度が高いです。

粗すぎるとこうなります。

# Topologyを維持してサイズダウン
jp_sh2 = st_simplify(jp_sh, preserveTopology = TRUE, dTolerance = 500)

# サイズチェック
pryr::object_size(jp_sh2) # 549 kB

# 改めて描画
ggplot(jp_sh2) + 
  geom_sf()

f:id:keita43a:20200427023041p:plain

2020-04-15

【ノルウェー】今年も税金の確定申告した。（2019年分）

タックスリターン（Tax Return. Skattemeldingen), 日本語でいうと確定申告を今年も行った。

基本的には多めに払っているので、だいたいちょっと帰ってきます。
でも月額手取りの3割ぐらい持っていかれてるんで、毎月つらいです。
高負担高福祉の国なので仕方ないですね・・・。

やり方は去年とほぼ一緒です。
keita43a.hatenablog.com

さて、2019年分の税金ですが、2019年以降は外国人向けの収入10％か4000NOKの小さい方まで控除される、というのがなくなったようです。
そのぶんは入れなくていいのですが、今年はもう少しウェブサイトをちゃんと読んでみると、海外でのローンの返済にかかる金利にも控除が適用されるようです。
しかも、聞かれない限りは文書を提出しなくていいそうなので、とりあえずJASSOの奨学金の返済にかかっている金利（大した額ではないが・・・）を入力してみました。

やり方

まず下のページから、自分に関係しそうな項目を読む。
例えば日本でもある程度の稼ぎがある人や資産がある人、または借金がある人など。

www.skatteetaten.no

その後Deduction Wizardを使って、当てはまるものをチェックすると、どういう控除が適用されるかリストアップしてくれる。
www.skatteetaten.no

その次に、altinn.noのメッセージボックスを開く。以下のページのOpen Tax Returnからでも開ける。
www.skatteetaten.no

すると、自分のメッセージボックスにRF-1030 Tax Return...からはじめるメッセージが来ているので、開くとフォームに進むことができる。

スクリーンショットを今年も撮るのを忘れてしまったのだが、各項目と課税金額や控除額が示される表が出てくる。
基本的には自分の給与や銀行でもらった金利などはすでに計算されている。さすがノルウェー。

ここに、申請したい控除の項目を足していく。
直感的にわかりやすいUIになっているのはさすがだと思う。

すべて入力し終えたらSubmitするだけ。
投資でのリターンとか、収入源が複数あると少し複雑になるのだろうと思う。

2020-04-14

【読書】留学前に読んでおくといいかもしれない『この日本語バリバリ英語にしにくいバイ！』

英語英語学習読書

在宅ワークになって家にいる時間が増えたからか、最近買ったSwitchで妻がどうぶつの森に夢中になっているからか、読書をする時間が増えているのは大変よい。

今日もサラッと読める新書を一冊読んだ。

この日本語バリバリ英語にしにくいバイ！「ビミョー」は英語にどう訳す？ GOTCHA!新書 (アルクソクデジBOOKS)

作者:アン・クレシーニ
発売日: 2019/10/15
メディア: Kindle版

著者のアン・クレシーニ氏はアメリカ出身のネイティブスピーカーだが、日本在住が長く九州の大学で英語を教えている方だ。
日本語を理解しているネイティブスピーカー教える英語というのは信頼が置ける。日本語の細かいニュアンスをわかってくれるからである。
日本語を言語として理解しているだけでなく、文化や背景までを理解していて、さらに英語が母語で深く知っているからこそ、ニュアンスまで理解して訳せるのだ。
彼女のTEDトークを見てみたのだが、単純に言葉だけを理解しているのではないとよく分かる。日本語で12分なのでぜひ見てみてほしい。

日本語で一言で表せるけど、英語で対応する言葉がない

こういうことを言いたい！というのを英語に直すとき、直訳で訳してしまうと全然意味が伝わらなかったり、全然違う意味になったりすることがある。

日本語にしかない言葉、というのがある。例えば本書で挙げられている「木漏れ日」なんかがそうだ。
英語にこれにあたる言葉はない。

Sunlight filtering through the trees

と説明するとあるが、これはまさに定義であり言葉ではない。

また文脈によって変わる言葉がある。「微妙」がそれに当たる。これは一言では表わせない。微妙に違う、と言いたければ

slightly different

とか

There is a subtle difference

と言えるが、「これは微妙な味だ」というのは難しい。本書では

This pizza is interesting

という英語が使えると言っているが、私もよくこういうニュアンスでinterestingを使う。しかし、日本にいた頃だと「なんで微妙が『興味深い』になるの！？」となってただろう。
日常で使っていくうちに、細かいニュアンスとかを感じるようになる。

他には「懐かしい」も挙げられてる。これも難しい。懐かしさという感情はノスタルジーだが、「あの時あそこに旅行行ったよね~懐かしいね～」みたいなのは

It brings back memories.

で色々思い出せるわ～みたいな感じである。
私はよく

It reminds me of A

Aを思い出すわ～みたいな使い方をする。

本書は上のように、英語にしにくい日本語を分解して近い英語を提案してくれる本である。

日本語特有の言葉、「絆」や「きつい」などから、「なくなくない？」「ガチろう」なんていう若者言葉までカバーされている。

言いたいことを外国語で伝えられないのは母国語で深く考えてないから

これから留学を考えている人なんかは、一読しておくと役立つことがあるのではないだろうか。
外国語を学ぶときは、その意味をというのを頭で理解しようとする。多分意味のない言葉とか習慣で使う言葉も意味を理解しようとするのである。
なぜなら、外国語になれないうちは、文章を分解して、言葉の意味を理解してから訳して再構成して文章を作るプロセスが頭の中で働くからである。日本語で友達に「それまじでヤバタニエン」*1というのは良いが、英語で同級生に言いたかったらヤバタニエンがどういう意味か、文脈においてどういう意味を成すかを考えないといけないのである。

たとえば、コンビニの店員からポイントカードを持っているか聞かれて、持ってないと答えると「恐れ入ります」と言われる。たしかに謝罪の言葉だが、そこまで我々日本人は意味を考えない。しかし、著者はその本意を「余計な質問をして申し訳ございません。お客様がポイントカードをお持ちかどうか確認する必要がございましたので」と考える。そのうえで、I'm sorryではなく、アメリカならばわかりましたよと返すのでOh OK!と訳すのである。

良い例ではないかもしれないが、カナダの留学時代に、"Hey, how are you doing man!"と何をいうにも『メ～ン』をつけて話す同級生がいた。英語に苦しんでいた私は、彼にそのmanってなんなのか？と聞いてみたら、数秒考えた後、

I don't know, メ～ン

と言われてしまった。
母国語って意外と深く考えずに使っているし、だからこそ母国語なのだ。

海外に住んでしばらくは、周りの言ってることが聞き取れないストレスがきつい。しかし、なれて来たところで次に待っているのは言いたいことが伝えられないストレスだ。
まず日本語で何気なく話している意味を、深く考え直して再構成するプロセスを経るのは私も経験した。そういう意味で、英語を話したい人には一読の価値ある本だと思う。

本書はどちらかというと口語というか、話し言葉がメインだ。日本語を理解しているネイティブスピーカーの本で、書き言葉について詳しく知りたければ「日本人の英語」シリーズがおすすめだ。
日本人が日本語が母語であるがゆえに犯しがちなライティングにおけるミスとどう書けばいいかが解説されている。

日本人の英語 (岩波新書)

作者:マーク・ピーターセン
発売日: 1988/04/20
メディア: 新書

続・日本人の英語 (岩波新書)

作者:マークピーターセン
発売日: 1990/09/20
メディア: 新書

実践日本人の英語 (岩波新書)

作者:マーク・ピーターセン
発売日: 2013/04/20
メディア: 新書

*1:もうすでに死語か？

2020-04-13

【読書】高城剛『2035年の世界』

読書未来予測

高城剛氏による20年前後に起こる未来についての本である。出版が2014年なので少し古いが、内容が答え合わせできるものも少しある。

2035年の世界

作者:高城剛
発売日: 2014/10/23
メディア: 単行本（ソフトカバー）

著者の高城剛氏は沢尻エリカの元夫で、最近沢尻エリカ逮捕で少しテレビなどにも出ていた。
一時期ハイパーメディアクリエイターという肩書を使っていて、世間からなんじゃそらという目で見られていたが、彼の著作はまだ世間的には注目を浴びてないがこれから来る、というものにいち早く着目する物が多く、
LCCの新書を読んでから注目していてTwitterもフォローしている。

twitter.com

未来を予測する、という言葉には背景によって意味が異なってくる。

未来予測本というと、〇〇年に経済が崩壊する！なんていうトンデモ本が思いつくが、実際に現状を分析して未来に何が起こるかという未来学という学問も存在する。また、未来学では完全に未来は予測できないので、あるシナリオのもとでどうなるか？という分析も多い。

例えば軍事や地政学で世界がどうなっていくか？というタイプの本も存在する。例えば『１００年予測』などはその典型的なタイプだ。また、経済や社会の予測でエキセントリックに煽るものではなく、分析に基づいたものだと、『富の未来』が思いつく。

一方で、高城剛の予測は技術や文化に重点が置かれている。本書は未来に起こりうる100の項目について短い説明が並ぶタイプの本である。目次を見てみると、いかにも未来というキーワードが並んでいる。例えば、薬事ロボット、生体情報対応広告、移動可能な家、空飛ぶ自動車、小惑星アポフィス、ILCから新エネルギー、などである。

キーワードだけ聞くとぶっ飛んでいて、ドラえもんの道具かと思うようなものもあるが、実際に説明を呼んでいるみると、すでに行われて実在する研究やアイデア、すでに実用化されている例などが挙げられており、現実味を感じる。沢尻エリカの元夫で、チャラそうな中年というイメージが先行するが、世界を飛び回っていろんなことを見聞しているのは伊達ではないと感じる。

例えば、「空飛ぶ自動車」。夢物語に聞こえるが、すでにアメリカのテラフジア社という会社が二人乗りのスカイカーを販売予定だという。ボタン一つで羽根が展開し、公道から飛び立つことも技術的には可能だが、法律的に難しいので滑走路から飛ぶ必要があるという。

本書は2014年に書かれた本なので、調べてみたら、Terrafugiaは中国の浙江吉利という自動車会社に買収され、予算と人員を得て今では予約注文を受けているところだという。また、大手のボーイングやエアバスもプロジェクトに着手しているという。

ウェブサイト
https://terrafugia.com/

文化などの点でも先進的な事例をもとに予測が展開されている。例えば、「スモークフリーと脱アルコール」。ヨーロッパでは喫煙やアルコールに対する規制が強いところがある。それは単なる禁止ではなく、「喫煙やアルコール摂取はクールじゃない」という考えが浸透してきているからだ。日本だと、禁煙は広まってきているが、アルコールに関してはまだまだだろう。しかし、ヨーロッパではハードリカーと呼ばれるウイスキーなどの度数の高い酒は規制がかかってきている。

私が住んでいる国でも、スーパーで5％までのビールは買えるが、ワインやウイスキーを含む度数の高い酒は政府指定の酒屋に行かないと買うことができない。また、スーパーは夜遅くまで開いているが、ビールは夜8時までしか買えず、それ以降はビールの冷蔵棚にシャッターが降ろされる。タバコのような厳しい規制がお酒にもかかるのだろうか？まさかとも思うが、昭和時代にはどこもかしこもタバコが吸えたのが、今では飲食店の中ですら禁止されようとしていることを考えれば、ないともいえない。

さらに、「オートマトン」という項目。もとは自律的に動く機械人形のことだが、今ではAIの進化によって自分自身でオートマトンを生み出すロボットになっていく未来があるという。いわゆる技術的特異点（シンギュラリティ）であるが、そうなったときに人間が行う職業として残るのは「精神世界に精通した人」だという。AIに職を奪われた人は仮にAIのほうが優秀だとしても人間のセラピーを受けたがる。人々が求めるものはより「人間らしい」精神の癒やしになるという分析だ。そういう意味では科学全盛のこの時代においても未だに様々な宗教がなくならないことは合点がいく。

昨今のコロナウイルスに関連すれば、「有害物質は化学からバイオへ」の項目は興味深い。かつての日本や少し前の中国のような健康を害する公害は化学物質が原因だった。しかしこれからは遺伝子組み換えに基づく「バイオ物質」が脅威となる。それは遺伝子組み換えのプロセスによる人為的な可能性もあるし、気候変動などの自然による可能性もある。そして例としてインフルエンザの近年の広がり方を指摘している。

新書であるし、学術的な本ではないため、ソースが不明瞭なものもある。しかし、高城剛氏自身多くの書籍を著していて詳しい説明は彼自身の著作にあるものも多い。例えば自転車を活用した「バルセロナモデル」ならNEXTTRAVELERシリーズにバルセロナがあるし、オーガニック系の食事などのトレンドについては『オーガニック革命』が詳しいようだ。
一つひとつは見聞きした話なども多いのでソースがわからないが、上のスカイカーの例のようにキーワードをもとに検索して調べていくと知らない世界が広がっているものも多い。

未来がどうなっていくのか考え、自分がどう行動するかを考える上で入口となる本であるように思う。

冒頭で言及したLCCについての本はこちら。LCCなんて今では常識だが、当時私は大学生で、日本にはまだスカイマークぐらいしかなかった頃に読んだこの本は衝撃だった。

70円で飛行機に乗る方法マイルを使わずとも超格安で旅行はできる (宝島社新書)

作者:高城剛
発売日: 2008/06/07
メディア: 新書

「100年予測」はこちら。

100年予測 (ハヤカワ・ノンフィクション文庫)

作者:ジョージ・フリードマン
発売日: 2014/06/06
メディア: 文庫

また『富の未来』は上下巻である。

富の未来上巻

作者:トフラー,A.,トフラー,H.
発売日: 2006/06/08
メディア: 単行本

富の未来下巻

作者:トフラー,A.,トフラー,H.
発売日: 2006/06/08
メディア: 単行本

2020-04-10

カネか人命か？なのか？　コロナウイルス感染防止のロックダウン策の経済的評価

読書

新型コロナウイルス感染症、COVID-19に関する影響で、「経済政策で人は死ぬか？」が話題になっているらしい。

経済政策で人は死ぬか?: 公衆衛生学から見た不況対策

作者:デヴィッドスタックラー,サンジェイバス
発売日: 2014/10/15
メディア: 単行本

経済政策、とくに財政政策によって政府の支出を増加させる積極財政政策、また経済の過熱や政府の財政収支バランスを均衡させるために支出を減少させる緊縮財政がどのような公衆衛生的な帰結、すなわち国民の健康や生死に影響するかという研究をまとめた本である。

世界恐慌時にニューディール政策を受け入れた州とそうでない州の差や、リーマンショック後のギリシャのアイスランド、アジア通貨危機後の各国の対応、ソ連崩壊後のロシアとポーランドなど、自然実験と言われる歴史的イベントも用いて、財政政策の健康や死亡率への影響を調べている。

特に、今回の騒動ではなかなか直接的な現金給付などを迅速に行わない日本政府への批判の文脈で引用されることが多いように感じる（本書では日本は積極財政を行って成功した側にカテゴライズされているが・・・）

一方で、今一部の海外諸国で議論になっているのは、現在すでに行われているロックダウン政策はどれほど効果があるのか？いつ終わらせるべきか？という点である。

例えば以下の記事はノルウェー語で書かれている私の同僚にあたる人が書いた記事だが、タイトルは「できることをすべてやる、というのは間違いで、何が本当に必要か？を考えるべきだ。」と訳せる。
ノルウェーは迅速にロックダウン策を行い、外出禁止ではないものの学校等は幼稚園から大学まで閉鎖、多くのお店も閉店状態にある。社会保障は手厚いので、失業保険など給付は早くに始まっているが、国境も封鎖状態にあり、当然経済が停滞する影響は大きい。
著者らは、何が本当に必要で、どういう費用と効果があるのかを調べながら政策を決めるべきだと主張している。
www.dn.no

先日のドナルド・トランプ大統領のツイートが波紋を呼んでいる。

WE CANNOT LET THE CURE BE WORSE THAN THE PROBLEM ITSELF. AT THE END OF THE 15 DAY PERIOD, WE WILL MAKE A DECISION AS TO WHICH WAY WE WANT TO GO!
— Donald J. Trump (@realDonaldTrump) March 23, 2020

問題そのものよりもその治療（による影響）が問題となってはいけない、とでも訳そうか。これは記者会見でデータを見ながら経済活動をできるよう適切な時期に外出禁止を解除する、と発言した文脈でのことである。

これが大きな波紋を呼んだ理由は様々だが、基本的には「人命を守るためのロックダウン策と経済（つまりカネ）を比較するのか？」という批判が見受けられる。

カネか人命？なのか？

すこし落ちついて考えよう。当然ながら人命は重く、我々が守らなければならない最優先なものだ。一方で、上で紹介した本によれば、経済状態が悪化すれば人は死ぬのである。
ロックダウン策によって、直接的な感染者を減らしたり、感染スピードを遅らせることで、人命を守れる一方で、そのロックダウン策によって経済が停滞して死ぬ人が増える可能性がある。

かといって、ロックダウンをしなかった場合に経済が通常通りになるのか？もちろんならないだろう。ロックダウン策が施行されなくても、ウイルス感染が広がっている現状を認識して人々は行動を変化させるのだから。

経済学においてもCOVID-19関連の論文が出てきている。経済学でよく行われるのが政策の効果を推定するということだが、もちろん現行で行われている政策の効果を今の時点で推定することはできない。
一方で、ある程度の仮定と物事の関係性を描写するモデルを建てることで、事前の評価をある程度行うことはできる。

しかし、どう評価するのか？ロックダウンをした場合としなかった場合で何人が死ぬか推定するのだろうか？

この点について、4月2日に非常に興味深い記事(英語)が公開され、多くシェアされている。
タイトルを訳すと「いつアメリカはコロナウイルスシャットダウンから再開できるのか？」
副題は「答えは人命と経済の比較の仕方にある。この難題な計算について専門家に聞いてみた。」といったところか。

タイトルの通り、人命と経済の比較の仕方についてそれぞれの専門家からのコメントを6つ集めた長い記事となっている。

www.politico.com

実際に「いつ」再開できるかという答えはもちろん書いていない。しかし、多くの意見は、計算方法によっては現在のロックダウン策は経済合理性があり、
ロックダウンを行わなければ、さらなる感染者数と死者数の増加による経済的インパクトが大きくなるとしている。

記事のメインテーマは経済と感染症によるロックダウンに関する帰結についてである。
人の命を金銭的な価値で評価する、という手法は議論を呼ぶこと間違いなしのトピックだが、限られた資源（わかりにくければ予算と読み替えてもいい）の中で最大限の結果を得る政策を行うためには金銭的な価値で比較することがもっとも客観的に評価できるという立場にある。この方法や運用について、客観的に解説している記事だと思う。
また、実際にロックダウンしたらどうなるか、どうなったかという研究の紹介もある。

ここでは、記事すべてを載せるわけにはいかないが、それぞれの記事の要約と重要なポイントを挙げてみたい。

1. なぜ経済学者は人の命をドルで評価するのか？

1つ目の記事は、今回のような人命に関わる費用便益分析の解説である。副題には「非常に不完全なアプローチだが、実際にはさらに多くの命を救う可能性がある。」とある。

人の命に金銭的価値をつける、という行為は心理的な抵抗が大きい。あなたのお父さんの命は〇〇円です、と言われて、それが1億だろうが1兆だろうが心理的に納得できる数字があるとは思えない。

しかし、問題は政策決定である。ある生命を救うために払うことができるお金は無限ではない。ここで「機会費用」という経済学では一般的な概念が出てくる。
もしあることにかかる費用をほかのことに使えたとしたら？さらに効率的に使えたとしたら？違う使いみちで使うことによってもっと多くの命を救えるかもしれない。

どうやって人の命をお金に換算するのか？一つの方法がVSLである。一般的にはある事象によって統計的死亡を回避するための支払意思額を集計したものである。
たとえば、ある危険な仕事に従事する人が一般的な仕事に比べて10万円高い金額をもらっているとする。その危険な仕事の死亡リスクが他の仕事より1％高いとすると、
VSLは10万円/0.01 = 1000万円になる。

上の数字は例にすぎないが、例えばアメリカでは実際には様々な推計に基づいて1千万ドルという数字が使われている。*1
仮に今の政策が200万人の命をコロナウイルスから守るとすれば、単純計算で20兆ドルの便益があることになる。

しかし、VSLを用いることには上とは異なる批判もある。つまり、個人の支払い意思額が必ずしも社会が支払うべき費用ではないという点だ。
あるお金持ち老人が延命のために持っている資産すべてを使うという選択はありうるかもしれないし、それが支払い意思額になるが、社会全体で見てそのような価格を払うことが理にかなうとは考えられない。

代わりに使える指標としては個人が経済に貢献するであろう期待額、日本語で言えば逸失利益に相当するものだろうか。このほうが理にかなっている一方で、一人一人の逸失利益を計算して合計するのは現実的に難しい。
また年令によって生きていた場合に稼ぐ金額などは異なる。著者らの計算では、一人あたりの逸失利益は41万ドルになったという。1千万ドルより非常に少ない数字だ。

つまり全体の幅として20兆ドルの便益から、8280億ドルまでの幅がある。数字だけで見れば、現在の政策はトランプのいうとおり経済的にペイしない可能性がある一方で、
すくなくとも費用便益分析は何が起こりうるかの境界を引くことができる。唯一の解を数字だけで得ることはできず、我々の価値観というものが最終的には必要になってくる。

2.ソーシャルディスタンシングは命を守るが、不況も同じく命を守る。

直感に反するタイトルである。不況下において死亡率は減少するというのである。
すくなくとも先進国においては最近の不況時のデータを見るとこれが事実だという。つまり、不況時は好況時に比べて死亡率が減少する。

このパートの著者、アン・ケースとアンガス・ディートン（後者はノーベル経済学賞受賞）は彼らの本の中で、特にワーキングクラスにおける薬物などの流行やそれに伴う死亡は、経済的状況が原因ではあるが、好不況の波が原因ではなく長期的な賃金減少トレンドの結果だと論じている。

まだ和訳はないようだが、以下の本である。
[asin:B082YJRH8D:detail]

この不況と死亡率の負の相関関係はアメリカだけではなく、ヨーロッパや日本でも見られるという。日本については以下のような論文も出ていて、自殺、高血圧性疾患・糖尿病による死亡は不況時に増加するが、心臓疾患・肺炎・肝臓疾患・事故・老衰による死亡は減少するという。
https://link.springer.com/article/10.1353/dem.0.0008

なぜこんな直感に反する結果が出ているのか？当然、不況時に自殺は増加するが、全体の死亡率に比べるとその数は小さい。一方で、好況時は多方面で人々はアクティブになるため、事故死が増加するし、忙しく働くことでストレスが増加して心臓発作なども増える。また、経済活動が活発になると環境汚染が増加し、健康被害も増加する。さらに今日では老人が死ぬ確率が高いがこういった人は低賃金で働く介護士などに支えられている。こういった職は好況時には十分な人数を探すことは難しく、人員不足になりがちとなる。

では問題は自殺となる。自殺は不況時には増えるが、今回の問題はソーシャルディスタンシングを行っている点が懸念事項だ。一般に自殺は、孤独と相関性があり、今回のように家にこもるケースが増えた場合自殺を試みる人は増える可能性があるし、さらには病院等のキャパシティがオーバーしつつある現状では自殺未遂でとどまっていたはずが自殺になってしまう可能性もある。

一方で、自殺は戦時下では少なくなるというデータもある。社会が結束してなにかと戦うとき、人は孤独感を感じないものなのかもしれない。
今回のケースはこちらがあてはまるのかもしれない。

3. スペイン風邪流行時に行ったソーシャルディスタンシングは何をもたらしたか？

パンデミックというのは普段怒らないイベントであるため、政策決定者は何を行うべきかという指針が不足している。
しかし、過去に起こったパンデミックについて分析することで指針を得ることができる。

記事の著者を含む学者がこの点について行った研究を紹介している。研究課題は2つ：
１．パンデミックの実質的なコストはどれぐらいか、またどれぐらい長期で影響するのか？
２．ソーシャルディスタンシングのような公衆衛生政策はそれ自体の経済的なコストがあるのか？

それぞれの回答は以下の通りだ。

１．スペイン風邪の流行が大きかった地域では特に経済的な影響が大きかった。例えばペンシルバニアなど、大きな影響を受けた州では18％程度の製造業の生産量減少があり、影響は数年続いた。

２．早期に大規模な公衆衛生政策を行った都市などでは、他の場所と比較して大きな経済的な影響があったわけではなかった。つまり、公衆衛生政策は少なくともスペイン風邪流行の影響に加えて経済を悪化させるようなことはなかった。さらに、そういったところではスペイン風邪が沈静化した後の経済活動の成長が他のエリアより早かった。

この理由について、著者らは一般的な経済学と「パンデミック経済学」の仕組みが異なるからだという。つまり、正常時はシャットダウンなどは単純に経済的に負荷が高まるだけだが、パンデミックが起こっている状態では人々の消費活動や生産活動は疾病自体によって阻害される。そのため、パンデミックを早期に沈静化させられるような政策は経済的に負荷が大きそうに見えても中期的には便益のほうが大きいのである。

COVID-19はスペイン風邪とは違う部分も多いが、ソーシャルディスタンシングが経済的な高く付くとは言えないだろう。何もしないほうが結果的に悪い結果を引き起こす可能性がある。

4. 経済と公衆衛生はトレードオフなどではない

経済と公衆衛生はどちらも人間の幸福に資するものである。これらをトレードオフを考えてどちらが重要か？価値があるか？と比較するのは一見合理的に見えるが、その考え方は誤りを引き起こす。

効用関数のもとで消費できるものが多ければ幸せ、という経済学のモデルはすべてを語らない。しかし、貧困は不幸せな状況を招くのも明らかである。人間社会の幸福というものの一面をそれぞれ表しているにすぎない、問題は経済か健康かという２つの問題ではなくどうすれば幸福度を最大化できるかという問題だけだ。

ソーシャルディスタンシングなどの政策は一時的には大きな費用を伴うが、ウイルス感染が蔓延すれば経済活動はいずれにせよ止まり、更に大きな影響を生むだろう。この政策によって、健康、人命、そして経済のキャパシティをも守ることができる。

経済の指標であるGDPは捉えきれない点があるので不十分であり、国民総幸福(Gross National Happiness)などの新指標を考慮する必要があるだろう。

もう一つ経済モデルだけに頼ることができない理由は、それらがウイルス感染した場合に発生する「外部性」を考慮していないからだ。経済活動を活発化させる大きな副作用がウイルスによって生まれてしまった今、既存のモデルによる厚生の最大化は現実に意味をなさない。

今できることは、できるだけ多くの人を死なせないことだ。お金は重要だが、それだけではない。愛する人を守る必要がある。愛する人をなくしてもお金が増えるわけではないのだ。

5. 少しの工夫で、経済活動を今すぐ再開することができますよ

必要不可欠な仕事、たとえば医療関係やインフラ関係などはこのような状況においても仕事をしている一方で、「不要不急」な仕事、例えばレストランやコンサートホール、テーマパークなどは現在のリスクに比較して重要ではないので営業を止めている。

しかしすべての仕事を止める必要はない。「どう働くか」を再考すればいいのだ。現実には多くの仕事が「必要不可欠」と「不要不急」の間にある。多くのホワイトカラーの仕事、いわゆるオフィスワークは、在宅ワークになった。しかし、物理的な作業が伴うブルーカラーの仕事も工夫することでソーシャルディスタンシングでも行うことが可能だ。

製造業はもっともこの点で最適な候補だ。工場などは、一般人は立ち入りできず、また機械がメインのラインではソーシャルディスタンスが保たれる。たとえば工場の廊下に線を描いてソーシャルディスタンシングが移動中でも保たれるような工夫が考えられる。建築現場など機械が中心の産業では同様の工夫でソーシャルディスタンシングを保ちながら操業することが可能だと考えられる。

家具屋や服屋など、顧客を入場させなくてもFacetimeなどを使って授業員とコミュニケーションすることで買い物を楽しんでもらうような工夫も考えられる。完全に閉鎖してしまうのはこういった工夫の余地を奪ってしまう。

他にもガソリンスタンドでは同じポンプを触ることで感染することを防ぐためにあえて失業した人を雇うなど、様々な工夫を提案している。

短期の経済閉鎖は意味がないが、長期になれば経済的な影響が大きい。経済再開か閉鎖か、という二分論ではなく柔軟な解が求められるのではないだろうか？

6. ソーシャルディスタンシングが本当にやる価値があるかどうか疑問だったのでモデル化してみた

最後の記事は今回のソーシャルディスタンシング政策の費用便益分析についてである。

冒頭で言及した統計的生命価値を用いて、ソーシャルディスタンシングによって守られる人命の価値を計算した結果、ソーシャルディスタンシングによって失われるGDPよりも3.4兆ドル高い、つまりやる価値が経済的に見てもあるという結果になった。

疫学で用いられるSIRモデル（Susceptible, Infected, and Recovered, 感染前・感染・回復のプロセスを確率的に表したモデル）を使って現状のCOVID-19によって死亡する人数とGDPの減少による経済的費用をソーシャルディスタンシングありとなしの2つのシナリオのもとで予測して比較した。ソーシャルディスタンシングによって人同士のコンタクトは40％減少すると仮定し、その結果120万人の人命が守られるという結果が出た。

今回はVSLを一千万ドルと仮定して計算を行った。つまり、ソーシャルディスタンシングによって守られる人命は12.2兆ドルに達する。

そして、ゴールドマン・サックスのレポートを参考に予測される今年と6年先のGDP予測を使った。それによれば今年のGDPの減少は6.2％、そしてその回復には3年かかるという。一方で、ソーシャルディスタンシングなしのGDPは別のマクロ経済研究によると2％の減少だという。これをソーシャルディスタンシングなしのシナリオの数値とする。どちらも3年で回復するとして、この差を金額に直して計算すると8.8兆ドルになる。

つまりこの差が冒頭で示した3.4兆ドルである。この結果は様々な仮定に依存しているが、現実は多くの不確実性があり、COVID-19の感染状況もどうなるかわらない。
しかし、今ある情報でベストな予測を示すことは政策決定にさらなる情報をもたらす。

*1:これは国によって異なり、ノルウェーの最近の研究では350万ドルという数字が使われた。

データ分析メモと北欧生活

旧Untitled Note. データ分析、計量経済・統計とR、水産管理、英語勉強、海外生活などについて備忘録や自分の勉強のOutputの場所として