統計屋による新社会人のための統計系入門書お薦め一覧

本稿では統計学データマイニング機械学習関連書籍について

  • 内容が易しいこと。数学力(特に微積線形代数)を求められないこと
  • 入手しやすいこと。絶版や学会に入らないと入手不可などではない、値段が安いこと
  • 実務に繋げやすいこと。
  • 持ち運びしやすいこと。忙しい新社会人が通勤中や休み時間ポケットからさっと取り出し、継続して勉強出来ること

を主眼に選定したお薦め書籍を紹介します。
(満たせない要望も多いですが)

主な対象者は、文系で数学や統計学をやってこなかった、
プログラミングもわからない(Excelで四則演算やマウス操作くらいは使える)
けどいつかマーケティングやデータマイニングやってやるぜ!
って考えてる新卒の方です。

筆者自身は経済学科出身の文系で、あまり数学力に自信がないなりに
Web企業でデータマイニングをしているという人間です。

ここで紹介している内容で
統計学機械学習データマイニング
という言葉が出ていますが、ここでは

  • 統計学:分析計画を立てたりデータを要約する集計値を出したりサンプルに差や偏りがあるか検定・推定したり
  • 機械学習:データから何らかのパターンを見出して分類したりパラメタを求めたり
  • データマイニング:データに色んな手法適用してとにかく価値を得る行為全部を指す

程度に認識して下さい。

では始めましょう。

まずは勉強の前に読み物でデータ分析が
どのように実社会で使われているのかを事例を確認してみましょう。

会社を変える分析の力 (講談社現代新書)

会社を変える分析の力 (講談社現代新書)

誤解されがちなことですが、データ分析するだけでは意味はなく、
分析結果を元に何らかの改善策を生み出し、
その策を実践することによってようやく価値に繋がります。
よくある「データ分析したけど何の価値も生まなかった」という嘆きは、
本当に手元のデータの分析しかしていないケースが殆どです。
本書は「データ分析する前に、
まず必要なデータをどうやって入手するか、
データ入手するためには色んな部署の協力が必要だったりするがどうやってきたか、
分析結果を現場で活用して貰うためにはどうアプローチするか」
という泥臭いリアルな話を赤裸々に書いた名著です。
色んな分析手法やツールの使い方について学ぶことよりも、
分析から価値を得るにはどうすれば良いかを考える方が先です。
実務で分析を価値に繋げた経験を知ることが出来る本なので是非読んで頂きたいです。


なるほどー、データ分析ってこんな風に役立てればいいのかー
というのがわかったところで、統計学入門しましょう。

マンガでわかる統計学

マンガでわかる統計学

マンガでわかる統計学 回帰分析編

マンガでわかる統計学 回帰分析編

マンガでわかる統計学 因子分析編

マンガでわかる統計学 因子分析編

本書の特色はストーリー仕立てで統計学が学べることです。
統計学は多岐に渡る手法があり、各々使いどころ目的や性質が異なります。
統計学の書籍を読めば各々の手法は身につきますが、
具体的に目の前のタスクに対しどの手法をどのように適用すればよいかは
それなりの経験と手法への深い理解、そして統計学の体系的な認識が求められます。
それを独学で身につけるのは非常に困難です。
そこでお薦めなのが本書です。
この本は少女が必要に迫られて統計学を学ぶという展開で、
タスクの明示→目的の明確化→手法の紹介→分析結果の説明→結果の活用
という流れを漫画で追いかけることが出来ます。
これによりどういう時に何をすればよいかがまるで研究室の先輩から教わるように学べます。
よくある説明がだらだら続いてたまーに漫画美少女の挿絵が入るとかいうものではなく、
「なるほどー分析ってこういう流れでやればいいのかー」というのを
きちんと漫画の形式で紹介しているので、勉強するぞ!と気合いを入れることなく
とても気軽に読めます。
本書で分析の流れを掴むと良いでしょう。
このシリーズの漫画パートだけでも全部読めば分析の流れを知ることが出来ます。
出来れば全部読みましょう、最低一冊目だけでもお読み下さい。
統計手法の説明としても、まぁそんなに悪くはないです。
あとこれは文庫ではなく大版本なので持ち運びしづらいです。
薄くて軽いけど。


統計分析の実務への活用、データ分析の流れを知った所で、
今度は統計屋の心構えを学びましょう。

統計学 (サイエンス・パレット)

統計学 (サイエンス・パレット)

データ分析というと、まるで目の前にあるデータに
統計手法を適用するのが全てというような誤解されるケースもありますが、
そもそもデータは天から降ってきたり誰かが綺麗な形で
分析目的に沿うよう用意してくれるものではありません。
目的をきちんと策定し、その目的に沿ったデータを設計・実装し、
そこからようやくデータ分析に入れます。
統計屋の仕事とは、データを分析ツールに放り込むオペレータ業ではありません。
大目的(売上向上や品質改善)のために分析目的を設定し、
それを実現すべくデータを設計し、手法を選択し、分析結果を伝えることまで含みます。
とはいえデータ設計の話は非常に複雑で難解です。
本書はデータ設計の意義と初歩を簡単に紹介し、
逆にデータが不十分だとどのように困るかの説明があります。
それだけではなく、各種統計手法の概要説明も普通にわかりやすいです。
非常に完成度が高い素晴しい一冊で強くお薦めです。
とりあえずこれは読みましょう。
統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)

統計でウソをつく法―数式を使わない統計学入門 (ブルーバックス)

挑発的なタイトルですが、中身はむしろ
統計学を正しく活用するためにダメなパターンを学ぶ」
というものです。
皆さんも目にしたことがある珍妙なグラフや実感に合わない数値、
あれがどのようなトリック、あるいは分析者の錯誤により生み出されているかを
説明しています。
古い本ですが今なお統計屋の間で我が身の戒めとして愛される名著です。
集計一つするにしても繊細な注意をもってしなければ、
簡単に誤った結論を招く実例を多数紹介し、
何より最後にそのような誤った統計活用をしないようにするには
どうすれば良いかを指南しています。
受け継がれるだけのことはある内容です。
面白い読み物として肩肘張らずに読んで頂ければ幸いです。


データ分析について俯瞰する本を紹介してきました。
徐々に分析手法の詳細について説明している本の紹介に移ります。

品質管理のための統計手法 (日経文庫)

品質管理のための統計手法 (日経文庫)

この本は単純に統計手法の数理について分かり易く解説しているという面だけでも
優れていますが、品質管理入門としてもお薦めの一冊です。
品質管理は工場で不良品がどれだけ混入しているかチェックして
要求される品質水準を満たしているかなどの検証に使われる分野です。
最近データ分析と言えばWebサービスという風潮があるように見受けられますが、
遙か昔、百年以上前から工場での品質管理に統計学が用いられてきました。
品質管理には長い歴史に裏付けられた非常に高度な分析技術体系があります。
一般のWebサービスのデータ分析とは異なり
(と言ってもタスク次第であるのは勿論ですが)、
品質管理では非常に厳密な精度が求められます。
例えばWebサービスの優良顧客推定に95%の精度が得られるなら大万歳ですが、
工場から出荷される椅子や缶詰が一定品質をクリアしているかどうかの判定を
5%も失敗して不良品が混じってしまうと大問題になります。
本書はそんな品質管理に用いられる統計手法を分かり易く説明した本です。
仮にあなたがWeb企業で良くある最近の分析手法を使うにしても、
極限の精度を求める品質管理の話を知っておくのは非常に有意義でしょう。
永田先生の本は本当にどれも外れがないので、迷ったら永田本買えばいいです。

さらに統計学手法の本を。こちらは電子書籍もあって便利です。

入門 統計学 −検定から多変量解析・実験計画法まで−

入門 統計学 −検定から多変量解析・実験計画法まで−

大変わかりやすい説明で、カバー範囲も
ノンパラやクラスタ分析・主成分分析などの多変量解析まで幅広くおさえています。
最近の統計学の手法を説明する本としては一番良い出来ではないかと思います。
教科書的な統計学を体系的に一通り学んでみたいぞーって方は頑張ってコレを読みましょう。


分析結果を活かすためには、アウトプットを客に見せなければなりません。
その時誤った見せ方をしてしまえば誤った結論に陥ってしまいます。
正しいデータの可視化を学びましょう。

最初に言っておきますが、これ私が書いた本なので完全なる宣伝やで。
内容は

  • こんな可視化手法がありこういう風に使い分けるよという一覧
  • こういう可視化したら誤解を招くからしちゃダメだよという説明
  • 3D円グラフを使う奴は殺す

という感じです。
可視化は非常にインパクトが強いので扱いは繊細にならねばなりません。
同じデータでも全く違う印象を与えることが出来ます。
本書は誠実にデータを見るにはどうすれば良いか、
そもそもデータをどのように設計すれば良いか
について語っています。
ただ、統計面に関してはわかりやすく書いたつもりですが、
ぶっちゃけた話D3本として入門書かと言われると微妙に高度です…。
あと「D3で可視化?ってことは3Dグラフを
リアルタイムでぐりぐり動かすとかそういう内容なの?」
と期待された方にはご免なさい、
そういうのは一切載ってないどころか
そういうのやる奴は死ねと書いてます。
私の知る限り、本書ほど特定対象について
殺意を向けて書かれた本はありません。


ここまで頑張って読み切れば、あとは先輩や上司に付いて
色々教わるのもスムーズに行くでしょう。
お疲れ様でした。


さらに「私は機械学習までやってみたい!数学もちょっとは頑張る!!」
と意欲ある方向けに、機械学習系の理論を説明する本を紹介します。
今までは数学知識を要求されませんでしたが、
ここから先はそれなりの数学力、
微積と行列計算くらいは求められます。

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

タイトルは音声認識システムと書いていますが、
基本的な機械学習手法の説明がなされています。
まともな機械学習系の本の中では最も本書が易しいです。
機械学習入門はまずここから始めるのがよいでしょう。
説明自体も易しいのですが、実数値を使って計算の経過を
逐次実行して見せたり、ツールを使って実際の処理内容を見せたり、
理解させるために多大なる労力を払った素晴しい本です。
勿論音声認識の入門書としても、具体的なツールの使い方まで
説明しててわかりやすいです。
データマイニングと集合知 ―基礎からWeb,ソーシャルメディアまで― (未来へつなぐ デジタルシリーズ 11)

データマイニングと集合知 ―基礎からWeb,ソーシャルメディアまで― (未来へつなぐ デジタルシリーズ 11)

機械学習の各手法を俯瞰出来る入門書です。
数式も出てきますが、文章で各手法の原理や性質を説明しているため、
数学力に自信が無くても文章だけでも読んでおいた方が良いでしょう。
数式出ているとはいえ、機械学習系の手法を紹介している
書籍の中ではかなり平易に書かれています。
フリーソフトではじめる機械学習入門

フリーソフトではじめる機械学習入門

これまた機械学習の各手法を俯瞰するための入門書です。
データマイニング集合知に比べて

  • 最新のトピックスを扱っている
  • Wekaという機械学習ライブラリを用いて実際に動かせる
  • 数学的にちょっと高度

な点が違います。
どっちでも好きな方を読んで下さい。


ここまでで理論をおさえたので、
次は実際手を動かして処理する本を読みましょう。
データマイニング系で用いられるメインのツールは

などがあります。
ここではExcelでデータ分析をする本と
Rで統計解析をする本を紹介します。

知識ゼロからのExcelビジネスデータ分析入門 (ブルーバックス)

知識ゼロからのExcelビジネスデータ分析入門 (ブルーバックス)

本当に統計知識不要、それでいて実践的なマーケティング手法を紹介する本です。
Excelにはピボットテーブルという非常に強力な集計機能があります。
それを用いてデータを分析するにはどうすればいいか、
豊富な画像を用いて解説しています。
これ読むと一通りのマーケティング手法使えるようになるので中々の良書です。
これが気に入れば同著者の大判の本も読んでみると良いでしょう。
統計的な説明は一切触れてません。
EXCELマーケティングリサーチ&データ分析[ビジテク]2013/2010/2007対応

EXCELマーケティングリサーチ&データ分析[ビジテク]2013/2010/2007対応

同じくExcelでマーケティング手法利用する本です。
先程の本と違い(そこまで酷くない)最低限の統計の説明を入れています。
学んだ理論をExcelで実践する時に本書片手にやると覚えが早いでしょう。
統計学:Rを用いた入門書

統計学:Rを用いた入門書

Rで統計入門という本は結構出てるのですが、説明がやばい本結構多いです。
その点本書は統計学の説明に関してかなり良いです。
但し、Rを使いこなすぞ!という本ではありません。
Rのための本ではなく、
統計学の説明するときの処理系として
たまたまRを選んだっていう感じの本です。
Rをしっかり勉強したいという場合は別の本を読んで下さい。
データマイニング入門

データマイニング入門

Rで機械学習系のよく使われる手法を説明しています。
数式はそこそこ出てきます。
文章でもかなり説明してくれているのと、
Rで処理の動きを見ることが出来るので、
頑張れば数学力無くても各手法がどのような特性あるか把握出来ると思います。


「入門者が春に読む本」って話なら上記まで読めれば大変素晴しいと思います。
世の中には「いやいや実務ではもっと高度な手法を使うよプゲラ」
とか言ってくる人も居るでしょうが、焦らず基礎を積みましょう。
人生は長い。

余力がある、数学力に自信があるという方には
更に発展的な本として次を挙げておきます。

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)

自然言語処理で用いられる機械学習手法に絞った解説書です。
と言っても自然言語処理の部分は僅かで、
真っ当な機械学習入門書として読めばよいでしょう。
機械学習で独学しづらい部分をピンポイントで解説している素晴しい本です。
これが出るまでは広範な数学力がある人か
先輩や先生が教えてくれるような環境を持ってないと
理解出来なかった部分もありました。
本書は個人的に人生を変えた本で、
コレがないと私は挫折して今機械学習やってなかったと思います。
これ読んで線形代数の本読み切ればPRMLという
機械学習系のバイブル的な本に進めると思います。


もっと高度なことをやりたいぞ!
と思ったら、最終的には数学力が必要になるときもあるでしょう。
具体的には微積分、線形代数、確率論あたりを押えておくと良いです。
特に線形代数をきちんとやっておかないと割と早い内に詰まります。
下記の本をお薦めします

統計学のための数学入門30講 (科学のことばとしての数学)

統計学のための数学入門30講 (科学のことばとしての数学)

統計的データ解析入門 線形代数

統計的データ解析入門 線形代数

キーポイント線形代数 (理工系数学のキーポイント 2)

キーポイント線形代数 (理工系数学のキーポイント 2)

はじめてのルベーグ積分

はじめてのルベーグ積分

上二冊は統計学で必要な部分だけに話題を絞った
独学の最短ルートを提供してくれる有り難い本です。
私も大変お世話になりました。
更にキーポイント線形代数まで読んで
言語処理のための機械学習入門読み切れば
相当数の論文を読むことが出来るでしょう。
最後のルベーグ積分は必須ではありません。
ただ、あなたが分析経験を積み、確率論が必要になった、
あるいは確率論に興味が出て学び始めた時、
手強い壁として立ちはだかるのがルベーグ積分でしょう。
本書はルベーグ積分本の中で一際易しい本です。
とは言え十分難しい内容です。
どうしても確率論に真正面からぶつからないといけなくなったときに
本書を参照すると良いでしょう。
余力があれば是非読んでおいて下さい。


最後に、統計学の手法ではなく、
統計学の歴史や哲学について書かれた本を紹介します。
なぜ統計学史や哲学について知るべきなのか?
それは、数々の統計手法はどのような要望で生まれたのか
という背景を知ることが、数式から手法の挙動を読み解くのと
同じくらい価値あることだからです。

統計学を拓いた異才たち(日経ビジネス人文庫)

統計学を拓いた異才たち(日経ビジネス人文庫)

科学と証拠-統計の哲学 入門-

科学と証拠-統計の哲学 入門-

上記2冊は統計学史と統計哲学の入門書です。
たまに数式も出てきますが、基本的に読み物です。
統計学者達の意見の対立の話も出てきます。
実際皆さんがデータ分析をするにあたって、
同僚と手法やデータの扱いについて意見が異なるかも知れません。
データ分析は何を一番大切にし何を懸念しているか、
一言で言えば立場によって用いる手法やデータが異なります。
過去の統計学の異才たちがどのような意見相違をしたか知ることで
己の統計屋としての哲学を確立していきましょう。


皆さんが良き統計屋になれますよう、心から願っております。

良き統計屋とは3D円グラフを使ってるプレゼンターを
その場で殴りに行く人のことです。
質疑応答の際、司会者からマイクを奪ってあらん限りの数学力で殴りましょう。