Pythonで統計の環境構築から集計とグラフ描画まで

これまでRとかExcelとかで回帰分析やってたけど、Pythonでもできるように環境整えるところから始めます。メモって置かないと次、構築するときに忘れるのでメモです。

OSはWindows7(64bit)で試しましたが8でも同じはず。 Pythonは2.7.5(32bit)。

0. Pythonのインストール

すでに終わってるとは思いますが念のため。 http://www.python.org/ からPython2.7.x系のインストラーをダウンロードします。対応しているモジュールの関係でまだ32bit版のほうがいいです。 3.3.x系でも特に問題はないと思いますが、多少文法変わってたり、モジュールが使えなかったりするので、2.7.x系のほうが無難だと思います。

インストールが終わったら、環境変数に「python.exe」のあるディレクトリ(特に変更していない場合はC:\Python27)を追加するのを忘れずに。ちゃんと追加されていればコマンドプロンプトで以下のように入力して実行するとインストールしたPythonのバージョンが表示されるはずです。

> python --version

1. NumPy, SciPy, Matplotlibのインストール

NumPyはN次元の配列を扱いやすくするパッケージ。

SciPyは科学計算関係の統合パッケージ。

Matplotlibは様々なグラフを描くためのパッケージ。

http://www.numpy.org/

http://www.scipy.org/

http://matplotlib.org/

の各ページからWindows用のインストーラーをダウンロードして実行。 Pythonのバージョンと32bit, 64bitを間違えないように注意。

2. easy_install, pipのインストール

easy_install

easy_installはPHPでいうPEARみたいなもので、各種パッケージのインストールをその名の通り簡単にしてくれるツール。 pipはそれを置き換えるものとして開発されています。

https://pypi.python.org/pypi/setuptools 上記サイトからWindows用のインストールに進み、「ez_install.py」をダウンロードする。

コマンドプロンプトから

> python ez_install.py

と実行すると、Pythonのインストールディレクトリ/Scripts/に「easy_install.exe」ができているはず。

環境変数にScriptsディレクトリを追加。標準だとC:\Python27\Scripts;と追加すればOKなはず。

その後コマンドプロンプトを再起動して、

> easy_install --help

Global options:～～～って感じでずらずらとオプションの説明が出てくれば完了。

pip

easy_installからインストールする。コマンドプロンプトから以下のコマンドを実行。

> easy_install pip

以下のコマンドを実行してずらずらっと表示が出ればOK。

> pip -h

3. その他のパッケージのインストール

Matplotlibに必要なパッケージをeasy_installでインストールします。 pyparsing コマンドプロンプトから

> pip install pyparsing

でインストールできます。

dateutil

> easy_install python-dateutil==1.5

でインストールできます。バージョン指定しないと3.0以降でしか使えないバージョン2がインストールされてしまうので注意。

4. 実際に適当に集計してみる

適当な乱数を出力して、それの基本的な統計量をとってみます。ソースコードは以下に置きました。

Pythonで基本的な統計量を出力してみる · GitHub

実行すると以下のように出力されるはずです。(乱数でデータを生成しているので数値は変動します)

Max x: 189.75 y: 84.73
Min x: 153.17 y: 41.2
Avg x: 172.1967 y: 62.3155
1Q x:167.815 y: 57.0675
Med x: 172.425 y: 61.68
3Q x:176.495 y: 67.35
Var x: 39.31919611 y: 63.87700275
S.D. x: 6.27050206204 y:7.99230897488
Correlation Coefficient : 0.870409290776

各項目の説明。