Python scikit-learn DBSCANでクラスタリングする

DBSCANとは DBSCANはクラスタに属さないデータポイントも判別できるアルゴリズム。 各データポイントは距離esp内にmin_samplesの他データポイントがあるか確認し、存在する場合は範囲内のデータポイントをクラスタ化する。 距離esp内のデータポイントがmin_s…

Python scikit-learn 凝集型クラスタリングを使用する

凝集型クラスタリングとは データポイントを単クラスタと仮設定し、最も似たクラスタ同士を指定の数のクラスタ数になるまで集めていく。 また、クラスタの結合は少ない数のクラスタ同士で結合していこうとする。 "最も似た"のアルゴリズムは以下の3種類があ…

Python scikit-learn k-meansでクラスタリングする

k-means クラスタリングとは 指定したクラスタの数の重心点を配置し、最も近いデータポイントに対して1次クラスタ分けを行う(Assign Point(1)) 各クラスタごとの重心点をクラスタの重心に合うよう移動させていく(Recompute center(1)) 重心点を移動させたこ…

Python scikit-learnでt-SNE 多様体学習を可視化する

t-SNE 多様体学習 高次元データの各データポイントの類似度を距離として計算し、2次元(または3次元)空間に配置したランダムな点に距離を元にして配置していく。 2次元または多くても3次元に圧縮するのが一般的らしい。また、学習モデルを別の行列に対してtra…

Python scikit-learnでNMF分解を行う

非負値行列因子分解(NMF)とは、PCAと違って、第2成分以降が直交するベクトルではなく、すべてのベクトルが正の方向指す分析ベクトルとなる。 特徴量ごとにまとまりのあるデータに対しての特徴が掴みやすくなる。らしい。 元となる行列に近似する行列Yとなる…

Python scikit-learnで主成分分析を行う

主成分分析とは、多次元の特徴量(説明変数)を統合して、次元削減を行う手法。総合的な特徴量を表す第一成分とそれに直交する第二成分以降からなる。統合する特徴量は元となる特徴量の相関行列から計算する。 左上の散布図に対して、主成分分析を行った時、右…

Python scikit-learn preprocessingでデータセットのスケール処理を行う

sklearn.preprocessingの各メソッドを利用してデータセットのスケール処理を行えます。 スケール処理とは、標準化のようにデータ分布の性質を変えずにデータの値の増減を行うこと。 各メソッドは以下の通り。 StandardScaler 標準化、平均値を0、分散を1にす…

書籍:Pythonで実装、はじめての機械学習: 単純パーセプトロン、ニューラルネットワーク、ディープラーニング

ニューラルネットワークの逆伝播について勉強したかったので、購入しました。 購入といっても、Kindle unlimitedで読み放題で読める電子書籍となります。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a; b[a]=b[a]||function(){arguments.currentScr…

Python scikit-learnでクラス分類推定度を確認する

scikit-learnの各分類モデルにはdecision_function、predict_probaといった分類確信度のスコアを取得できるメソッドがあります。 各分類モデルで学習データをfit後、各メソッドに予測を行うデータセットを与えることで確信度を確認することができます。 2ク…

Python サポートベクタマシンで非線形データを分類する

以下のコードでは「Pythonではじめる機械学習」の著者が公開しているmglearnを使用します。 $ pip install mglearn (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a; b[a]=b[a]||function(){arguments.currentScript=c.currentScript ||c.scripts[c.sc…

書籍:Python実践データ分析100本ノック

scikit-learnを触ってて、もうちょっとpandasでの前処理やmatplotlibを勉強したいなと思って購入。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a; b[a]=b[a]||function(){arguments.currentScript=c.currentScript ||c.scripts[c.scripts.length-2]…

Python Docker Anaconda環境でMeCabを利用する

MeCabのインストール ! apt-get install -y mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8 file ! pip3 install mecab-python3 これだけでは、以下のようにmecabrcがないと怒られるので、 # no such file or directory: /usr/local/etc/mecabrc mecabr…

Python OoenCVでavi形式の動画を画像として分割保存する

VideoCaptureとimwriteすることで、avi形式のフレームごとに画像として書き出すことが可能です。 import cv2 cap = cv2.VideoCapture("moviefile.avi") num = 0 # 出力 while(cap.isOpened()): ret, frame = cap.read() if ret: filepath = "split_"+str(num…

Python Dlibで人物正面の顔パーツを検出する

Dlibのインストール Docker Anaconda環境にDlibをインストールする - 追憶行 僕の環境ではインストールに30分程の時間を要しました。 検出モデルの設定 顔のパーツの検出モデルはDlibのページからDLできます。 http://dlib.net/files/shape_predictor_68_fac…

Python OpenCVで画像内の正面を向いた顔の検出を行う

検出モデルの設定 人物正面のフェイスを検出するモデルは以下のGitHubから取得できる。 opencv/haarcascade_frontalface_alt.xml at master · opencv/opencv · GitHub import cv2 cascade_file = "haarcascade_frontalface_alt.xml" cascade = cv2.CascadeCl…

Python OpenCVでHOG人型特徴量の検出 

OpenCVは学習済みHOG人型特徴量を持っているので簡易的に画像内の人型物体を検出できます。精度はお察し(^_^;) OpenCVのインストール $ pip install opencv-python 人型検出を行う HOGの設定 "ヒト"のHOG特徴量を設定 import cv2 from matplotlib import pyp…

Docker Anaconda環境にDlibをインストールする

Dlibは人間の表情の特徴を捉えることができるPython用ライブラリ。 Docker anaconda環境でインストールするのに結構ハマってしまったので、記録しておきます。 インストールを行うにはcmakeが必要になるので、notebook上では以下のように記述してインストー…

Python networkxで情報伝播グラフを可視化する

グラフデータに対して情報伝播を可視化していく実装を記録しておきます。 基底グラフ 予めnetworkxで以下のグラフを作成しているものとします。 import networkx as nx import matplotlib.pyplot as plt G = nx.Graph() # ノードとエッジの作成処理 # ...略 …

Python networkxでネットワークグラフを描画する

networkxを利用するとPyhotnで簡単にネットワークグラフを描画することが可能です。 例えば以下のようなグラフは このようなコードで描画することができる。 import matplotlib.pyplot as plt import networkx as nx #グラフオブジェクトの初期化 G=nx.Graph…

Python ortoolpyで最適化問題を解く

"Python実践データ分析100本ノック"、この本を進めていて少し理解に時間がかかったところをメモしておきます。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a; b[a]=b[a]||function(){arguments.currentScript=c.currentScript ||c.scripts[c.script…

書籍: Go言語によるWebアプリケーション開発

2020年1月に購入し、途中ずっと積んでたんだけど、半年後ようやく再開し完走しました(^_^;) 以下のような"動く"アプリケーションをハンズオンで作成していきます。Webアプリケーション開発と名うってますが、CUIの作成もあります。 WebSocketを使用した双方…

線形回帰ウエイトの求め方メモ

メモ。 線形回帰のウエイトの求め方。 xは説明変数、yが実測値。Lは評価関数sum( (y[i]-(w * x[i])) ^2 ) 評価関数の式をウエイトWで微分した時に0となるウエイトWを求める。 これを式変形していくと最終的に以下の計算式になる。 c1 = 0; c2 = 0; for (i = …

リッジ回帰について

線形回帰では、実際の分布より学習した傾きが大きくなりオーバーフィッティング(過学習)で精度が出ない場合がある。 精度を出す場合、正則化(リッジ回帰、ロッソ回帰)を用いて精度の調整を行う。 計算方法 線形回帰のオーバーフィッティングは傾きが大きくな…

主成分分析と因子分析

メモ。 主成分分析 多次元からなる説明変数行列の次元の圧縮。 主成分に対しての説明変数のウエイトなんかもわかる。 主成分は総合的な評価。第2成分は主成分と直交する線。第2成分のあたりまで求めるのが一般的らしい。 重回帰分析に近いのかな。と思ったけ…

行列計算の復習

行列の足し算 行列の掛け算 行列どうしのかけ算は、「左の列数」と「右の行数」が等しくないとかけ算できない 計算結果の行列は左側の行数と右側の列数の行列となる 単位行列 単位行列はその対角成分に1が並び、他は全て0となる行列。 逆行列 ある行列と掛け…

統計データ 2変数の関連指標

2変数の相関は2つのデータの性質によって扱う指標を定める。 単相関係数 数量データと数量データの関連度合い。 偏差平方和 = sum( (x[i] - xの平均)^2 ) 単相関係数 = (x[i] - xの平均)(y[i] - yの平均)の積和 / srqt( xの偏差平方和 * yの偏差平方和 ) 相…

統計データ 正規分布とカイ2乗分布 

基準値 数量データは等間隔のデータだが、標準偏差によって、各間隔の価値のようなものを定めることができる。 例えば、距離mのデータ列では、散らばりの少ないものは、1mの基準(価値)は他とより区別できる値となり、散らばりの大きいものは1mの価値は影響を…

Docker NSQのConsumerへローカルGoプロセスから接続する

通常のNSQ、Consumerへの接続は、lookupdを通して、 q, err := nsq.NewConsumer("topic", "key", nsq.NewConfig()) ... if err := q.ConnectToNSQLookupd("localhost:4161"); err != nil { ... } のようにlookupdでConsumerを抽象化して接続するんだけど、do…

GoからDocker NSQへ接続する

現在、"Go言語によるWebアプリケーション開発"を手を動かしながら読んでいます。 chapter5.3まで完了したんだけど、書籍と違ってて少しハマったところをメモしておきます。 (function(b,c,f,g,a,d,e){b.MoshimoAffiliateObject=a; b[a]=b[a]||function(){arg…

統計データ 標準偏差の求め方

カテゴリデータと数量データ 等間隔数値データ、つまり測れるデータを数量データ、測れないデータをカテゴリデータと呼ぶ。 数量データ 身長 体重 人口 金額 カテゴリデータ 感想や評価 級位、段位 出身地 級位、段位は等間隔の数値データのように見えるが、…