R 備忘録
問題 グループごとに平均や最大値などを計算するのに便利なdplyr::summariseですが、たとえば2番めに大きい値を計算したい、というときはどうすればいいか? 解決策 自分で簡単な関数を書く。 max2 <- function(x) { u <- unique(x) sort(u, decreasing = TR…
数ヶ月に一回ググってる気がするので自分用にメモ。 問題 とりあえずggplot2でエクセル的な2軸プロット(左右に別のY軸があってグラフが重なってるやつ)を書きたい。 ググっても丁寧なブログはたくさん見つかるのだが、とりあえずどれやればいいの!となる…
またしても備忘録 問題 ggplotを使ってsfオブジェクトを描画しようとすると以下のエラーが出た。 Error in st_cast.POINT(x[[1]], to, ...) : cannot create MULTILINESTRING from POINT 解決策 球形幾何のパッケージであるs2が有効になっていると起こる問題…
備忘録。あとできちんと清書するかも。 問題 extrafontパッケージを使ってフォントをRにインストールしようとしたら引っかかったので調べた結果。extrafont::font_import()を使うとNo FontName. Skippingと出てインストールされないエラーが出る。How can I …
Rのfixestパッケージが先月末にアップデートされたようです。このブログ投稿はこのバージョンの話ではないですが、3つ以上の固定効果を使うと、固定効果の推定がおかしくなるバグを直したらしいのでアプデ推奨のようです。⚠ Hot Fix ⚠Concerns #Rstats {fixe…
簡単な備忘録。tidyverseやR本体などアップデートしたら、付随する他のパッケージもアップデートしましょう。以前は普通に走ってたポリゴンファイルを読みこんでggplotで描画するコードにエラーが出たので調べたら、 tibble (というかtidyverse)はアップデ…
機械学習に関してはビギナーレベルの知識しかないのだが、引っかかった点を備忘録にしておく。ベーシックな機械学習手法の一つにLASSOがある。もう少し広く言うと正則化手法の中に含まれる。一般的な線形回帰に推定法に比べて、パラメータの値を抑えたりゼロ…
Rのglueというパッケージを更新しようとしたときに以下のようなエラーメッセージが出た。 Error in install.packages : ERROR: failed to lock directory ‘C:\Program Files\R\R- 3.6.1\library’ for modifying Try removing ‘C:\Program Files\R\R-3.6.1\li…
これ日本だとあまり浸透してないかもしれないんですが、海外では履歴書ってわりと形式が自由です。学歴・職歴とかを書くのは変わりないんですが、細かい形式は指定されてない事が多いので、見やすければいいということで、ワードにベタ書きする人もいれば、L…
以前、RでStata的な回帰分析を手軽にやるにはestimatr::lm_robustが良さそう、という記事を書きました。keita43a.hatenablog.com 実際に自分でもlm_robustを結構使っていたのですが、このlm_robustにもちょっと不便な点がいくつかあって、その一つが回帰分析…
これ賢いやん、と思った簡単なテクニックを見つけたのでメモ。 問題 一部の日付が抜けているようなデータ(アンバランスドパネル)で、一日前のラグを作りたいが、日付が抜けているところは飛ばしたい。 lag()を使うと、一日以上前のデータのラグを作ってし…
ちょっとつまづいたので備忘録。 状況 Rmarkdownで論文書いてて、なにかしらの回帰分析の結果を表にまとめてPDF出力したい。 いつも使っているのはStargazerというパッケージです。R側からの設定がいろいろできるので楽。Stargazerでできる設定についてはこ…
Rmarkdownで色々格闘していて、なんとか楽に論文のフォーマット調整してやろうとしていたのだけれど、あるエラーでかえって時間がかかってしまった。最近出た問題らしいので、ここでシェアしておく。MacTex (Tex Live)のパッケージの更新をtlmgrで行いますよ…
あんまり需要のなさそうな話だが、備忘録として書き留めておく。ある論文を改訂するのに、マイクロソフトワードで昔書いていたのだが、分析もやり直すので思い切ってR Markdownに移植して最終的にPDFとして作ることにした。MSワードで書いたファイルをコピペ…
包絡分析(Data Envelopment Analysis) や確率フロンティア分析(Stochastic Frontier Analysis)は企業や団体の生産性・効率性を測るのに使用される分析方法である。入力(input)と出力(output)について、クロスセクション(一時点で複数の企業等のデー…
計量経済学の分析をRでやろう!とした時、計量経済ならではのモデルや検定などがあるんですが、ちょっと前はRだとめんどくさくて、やっぱstataだよね~となってた部分があると思うんですが、Rの隆盛に伴っていろいろパッケージが出てくるようになった気がし…
手元のラップトップで扱うにはあまりにでかいデータを扱うことになって困っている。 とりあえず大学に使えるサーバーとか無い?と連絡しているが、当面は手元でやるしかなさそうなので、ランダムサンプリングしてデータを小さくして分析することにした。単純…
自分でBootstrapを行い、各パラメーターの標準誤差を計算するときに、少し行列の演算で引っかかったので備忘録。最初にまとめておくと 行列からベクトルを引くと、自動的に列ベクトルとして計算されてしまう。 ベクトルを転置してもエラーになる。 行列を転…
基本的にRしか使えない私が、データベースファイルを受け取ってなんとかRで読み込めるようにするまでのドタバタを記録しておく。共同研究者からもらったデータのファイルが見慣れない拡張子だったので、調べてみた。いかんせん現在使われてるはずない拡張子(…
RでGISといえば最近はsfパッケージらしいですね。 spとsfの違いとか、そもそもCRSのとは?みたいなレベルながら空間情報を扱いたくて、少しずつ使い始めています。今回やりたいのは、すでにある地図になにか緯度経度の情報のみのデータを重ねたいときに、ち…
ヨーロッパ言語圏に多いみたいですが、小数点をドット(ピリオド)ではなく、コンマ(カンマ)を用いて表現する地域があります。 今私はノルウェーのデータ扱ってるんですが、どうしても数量データを文字列として読み込むので原因を調べてみたら、これでした…
データっていろんなフォーマットで保存されてますが、まぁ一般的なのがエクセル(.xls, .xlsx)ですね。 データ分析とか仕事でしてる人からしたら「は?」って感じかもしれないですが、未だに政府系のデータとかエクセルフォーマットのみで記録されてたり、…
Rで乱数(擬似乱数, pseudo-random number)を生成するのってよくやると思うのですが、dplyrでデータフレームに乱数を生成した列(新しい変数)を作ろうとして手こずったので備忘録。例えば、存在するデータフレームに新しくxという標準正規分布から発生させ…
他の関数だとna.rm = TRUEにするような場面で、少し手こずったので備忘録。データにNAが含まれている場合、そのまま相関係数を計算しようとすると結果がNAになってしまう。 # Data generation set.seed(3) x = runif(20,0,1) y = 0.7*x + 0.3*runif(20,0,1) …