機械学習をやろうとしたらデータクレンジングに明け暮れていた件(3) ~データの整合性チェック~

技研のまつけんです。

前回前々回に引き続き、クレンジングの話をしたいと思います。今回は、前々回の記事で予告した「整合性チェック」です。前々回の記事の中でも、ファイル数や命名規則などのチェックを行いましたが、今回は「重複」と「欠け」などのチェックを行います。

「重複」というのは、全く同じデータが複数あることです。操作ミスで複製してしまったり、別名で保存してしまうことがあります。「欠け」のチェックは、例えば、毎月データを取得した筈なのに、そうなっていない場合に、それを検出するということです。

続きを読む

Pandasの集計結果をネストしたdictに変換

技研のまつけんです。

Pythonでデータの集計をする際はPandasが便利です。特にgroupby()とcount()やsum()やagg()を組み合わせると、大抵の集計は出来てしまいます。集計する方法などもサーチエンジンなどで検索すると豊富に例が得られます。しかしながら、その結果を取り出す (参照する) 方法については、なかなか情報が見つかりません。結局、index/columns/loc/ilocなどを組み合わせることで取り出すことにしました。今回は、groupby(…).count()の結果をループなどで取り出す方法や、Python標準のdict形式に変換する方法について紹介したいと思います。

続きを読む

Python用ライブラリ用のwrapperを作って使っている話

技術研究所 (技研) のまつけんです。

Python用のライブラリには、cv2 (OpenCV)、numpy (NumPy)、pandas (Pandas)などがあります。大抵のことが出来るので大変便利なのですが、引数の与え方などで不便を感じることがあります。そこで、今回は、私が普段、それらのライブラリをwrapするのに使っているサブルーチンを紹介したいと思います。

OpenCV用 (wrap_cv2.py)

色の定義

頻繁に利用する色 (無彩色、原色、補色) を定義します。OpenCVはRGBではなくBGRが基本なので、その順番となっています。

続きを読む