2016年現在のWindows機によるAnacondaを用いたPythonでのデータマイニング環境構築

はじめに

数年前、Windows機にPythonでのデータマイニング環境を構築するには様々な困難が待ち受けていました。依存関係にあるライブラリのバージョンが合わないというよくある話から、ライブラリをインストールする順番によって無事に動いたり動かなかったりするなど初心者殺しな落し穴があちこちで口を開いていました。ところが、2016年1月現在、全く新規に環境構築しようとしてAnacondaを利用してみたところ、意外なほど簡単に環境構築できました。

Anacondaデータマイニングの便利なライブラリを集めて一括でインストール・利用できるようにしたパッケージです。内包されているライブラリは様々な数値解析、機械学習自然言語処理、可視化、DB連携、データハンドリング、さらには最近話題のディープラーニングなど多岐に渡り、これを入れておけばデータマイニングを行う大抵の場面で対応できるでしょう。そこで、この記事ではAnacondaを用いてデータマイニング環境を構築する手順について、殆どPythonを知らなくてなおかつ非エンジニアの方向けに説明したいと思います。Anacondaは無料版(無料だからと言って機能が制限されてたり使い勝手を悪くされているわけではありませんので安心して下さい)が存在し、本記事でもそれを利用します。有料版もあり、それを利用すると様々なサポートを受けることが出来ます。「(何かあったときサポートが欲しいので)無料版しかないのでは困る」 or 「(お金が無いので)有料版しかないのでは困る」というどちらにも対応可能でありがたいです。

今回の検証環境

Windows 7 64bit (7以降なら恐らくOK

用意するもの

Anaconda(python 3系, 32bit版*1 ((2016年8月22日現在 64bit版で諸々のライブラリが動いてる+32bitだと数GBのデータ扱えずMemoryErrorで落ちるため、そろそろ64bit版に統一するので良いと思います))) Download Anaconda now! | Continuum
mecab(※形態素解析器。テキストマイニング自然言語処理をしない場合は不要)
http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html?sess=3f6a4f9896295ef2480fa2482de521f6#download
MeCab 0.98pre3 野良ビルド (pythonからmecabを利用するためのもの)
形態素解析エンジン MeCab 0.98pre3 野良ビルド - 銀月の符号

手順

1. Anacondaを Download Anaconda now! | Continuum からダウンロード。今回は"Windows 32-bit Graphical Installer 321M ver 2.4.1"を利用します。

2. ダウンロードしたAnacondaのexeファイルをダブルクリックして実行。インストール作業が自動で始まります。時々ダイアログがでますが、yes押してれば先に進みます。core i7, mem 8GBの環境でインストール終了に約10分程度掛かりました。

3. インストールが正常に行われたか簡単な確認をします。コマンドプロンプトを起動し、pythonと打ち込めばpython REPLが起動するので、そこにimport numpyと打ち込んで無事ライブラリが使用可能なこと(何か失敗してたらこの時点でエラーメッセージが色々出ます)を確認して下さい。ここまでOKなら、とりあえずAnacondaのインストールは完了です。ここから先は、必要になってから読み進めるのでも問題無いでしょう。

4. 次に、Anacondaに入っていない各種ライブラリをインストールしていきます。
この時点でpipというパッケージ管理ソフトが使えるため、それを利用すれば良いのですが、いくつかインストールできないライブラリがあるかもしれません。筆者の手元では、なぜかseabornという可視化ライブラリがpip installに失敗しました*2。それらのライブラリもgithubから個別にダウンロードすることでインストール可能でした。例としてseabornをインストールするとします。seabornのgithubページ GitHub - mwaskom/seaborn: Statistical data visualization using matplotlib から"Download ZIP"ボタンを押下してダウンロードします*3。zipファイルを展開するとsetup.pyというファイルがあります。これはpythonのライブラリをインストールする際の常とう手段です。これを利用してインストールしましょう。コマンドプロンプト上で python [seaborn zipを展開したフォルダ]setup.py install とするとseabornがインストールされます。このように、pipで入らないものも直接setup.pyを利用することでインストールできるものもあると思いますので試してみてください。
2016/4/1 追記 anaconda使ってる場合はpipではなくcondaを利用すればいいようです。

5. テキストを分析する際にmecabというツールを利用することが多々あります。pythonからmecabを利用するためのライブラリもあるのですが、実はこれがコンパイルが必要だったり適宜コード修正する必要があるなどして中々大変です。ここでは、恐らく一番簡単な導入方法である野良ビルドを利用した環境構築を行います。色々なドキュメントが出回ってますが、結局次のページの通りにするのが無難かと思います。
形態素解析エンジン MeCab 0.98pre3 野良ビルド - 銀月の符号

終わりに

上記手順で、pythonをほぼ初めて触った非エンジニアでも30分程度で環境構築できました。私が6年くらい前に初めてPythonで本格的に環境構築しようとして四苦八苦したのがウソのようです。あの時は本当に丸2日掛かっていました…。上記記述で不明点や試してみたけど上手くいかなかったよという点がある場合は、とりあえずこの記事のコメント欄にて問い合わせてください。よろしくお願いします。
皆さんが気軽にデータマイニングに取り組めますよう。

*1:anacondaでどうなるかはまだ未検証ですが、私がanaconda以外で環境構築していた他の端末で64bit版のライブラリが動かないことが時々あったため、今回は32bit版にしました

*2:ここら辺ちょっとわからなくて、pythonやpipをanacondaのようなパッケージからではなく一つ一つ手で入れた場合は特に問題無くpipからseabornをインストール出来たのですが、anacondaのpipからは上手くいきませんでした。condaでも同様です。うーん、なぜでしょう…。

*3:もちろんgit使える方はgit使ってください