データ解釈学入門を読んだ - 2022 夏休み

統計検定2級や Kaggle で学んだものたちの隙間を埋めてくれる良い本だった。どことは言わないが、読んでいる途中に仕事のことを思い出す記述があり背筋がピンと伸びた。以下雑多なメモ。

  • 測りやすいデータが選ばれがち。
  • データを歪めるモチベーション(犯罪件数、いじめ件数は少なくレポートしたい)
  • (大きな声で何度でも)データの前処理は一番時間がかかる。手を抜かない。1つ1つの処理前後で正しいか必ず確認する。決してまとめて処理しない。
  • 多重検定に注意。過去にこれやってたな。
  • HARKing, p-hacking これは・・・
  • 数々の認知バイアス