パターン認識学②
パターン認識とは
観測されたパターンを予め定められた複数の概念のなかの一つに対応させる処理である
特徴抽出では
膨大な情報をもつ原パターン識別に必要な特徴のみを抽出する
特徴ベクトルと特徴空間の関係は、機械学習やデータ分析の重要な概念の一つです。
特徴ベクトルとは 特徴ベクトルは、データを数値として表現するためのもので、一般的にベクトル形式で表されます。例えば、画像認識では、画像の色や形、テクスチャなどの特徴を数値化したものが特徴ベクトルになります。テキストデータの場合、単語の頻度や文脈の情報を数値に変換したものが特徴ベクトルになります。
特徴空間とは 特徴空間は、すべての特徴ベクトルが属する数学的な空間のことを指します。特徴ベクトルが次元を持つため、特徴空間は多次元の空間になります。例えば、3つの特徴(明るさ、コントラスト、色相)を持つ画像データは、3次元の特徴空間に表されます。
特徴ベクトルと特徴空間の関係
特徴ベクトルは、特徴空間の点 各データ(画像、テキスト、音声など)は特徴ベクトルとして表現され、特徴空間内の点になります。
特徴空間では、類似データが近くに分布 例えば、猫の画像を特徴ベクトルに変換すると、猫の画像同士の特徴ベクトルは似ているため、特徴空間上で近くに位置します。
機械学習モデルは特徴空間内で分類や回帰を行う 特徴空間の中でデータをグループ化したり、ラベルを予測するのが機械学習モデルの役割です。例えば、線形分類器は特徴空間内でデータを直線や超平面で分けることができます。
特徴ベクトルを適切に設計することで、特徴空間内でのデータの分布が明確になり、機械学習モデルの精度が向上します。
分散共分散行列(ぶんさんきょうぶんさんぎょうれつ、英: variance-covariance matrix)や共分散行列(きょうぶんさんぎょうれつ、英: covariance matrix)とは、統計学と確率論において、ベクトルの要素間の共分散の行列である。これは、スカラー値をとる確率変数における分散の概念を、多次元に拡張したものである。
定義
[編集]次のような列ベクトルを考える。
このベクトルの要素が各々分散が有限である確率変数であるとき、( i, j ) の要素が次のような行列 Σ を分散共分散行列という。
ただし、
は、ベクトル X の i 番目の要素の期待値である。すなわち、Σ は次のような行列である。
この行列の逆行列は Σ−1 は、逆共分散行列(英: inverse covariance matrix) または精度行列(英: precision matrix) と呼ばれる[1]。
分散の一般化としてみたとき
[編集]上記の定義は、下記の等式と同値である。
この形は、スカラー値における分散を高次元に拡張したものと捉えられる。 スカラー値を取る確率変数 X について、次が成り立つことに注意する。
ただし、
が、分散共分散行列と呼ばれるのは、対角要素は分散だからである。
名称の問題
[編集]この行列の名前の呼び名には、いくつかの異なった流儀がある。統計学者の一部は、ウィリアム・フェラー(英語: William Feller)にならって、この行列が 1 次元の分散の自然な拡張であることから、この行列を確率変数のベクトル � の分散と呼ぶ。また、この行列がベクトル � のスカラー要素の共分散であることから、この行列を共分散行列と呼ぶ流儀もある。すなわち、
しかし、二つの確率変数ベクトルの間の相互共分散の標準的な記法は次のようになる。
var による記法は、フェラーの 2 巻の本 An Introduction to Probability Theory and Its Applications[2]に見ることができるが、どちらの形式もかなり標準化されていて、その間に曖昧性はない。
最近傍決定則(Nearest Neighbor Rule)は、分類問題においてよく使われるシンプルな方法の一つです。新しいデータ点が与えられたときに、そのデータが特徴空間内で最も近い(類似度が高い)既知のデータ点のクラスに分類されるという手法です。
最近傍決定則の仕組み
訓練データの特徴ベクトルを保存 事前にラベル付きのデータ(教師データ)を準備して、その特徴ベクトルを記録します。
新しいデータが入力される 分類したいデータの特徴ベクトルが与えられます。
距離を計算する 既存のデータと新しいデータの特徴ベクトル間の距離を計算します(一般的にはユークリッド距離が使われます)。
最も近いデータのクラスに分類する 計算された距離が最も小さいデータ点のクラスを、新しいデータの予測クラスとします。
k-NN(k-近傍法)との関係
最近傍決定則はk-NN法(k-Nearest Neighbor)の特別なケースです。k-NNでは「最も近い1つの点」ではなく「最も近いk個の点」を考慮し、多数決で分類します。これにより、ノイズへの耐性が向上し、分類の精度が向上することがあります。
2025年3月4日 | カテゴリー:基礎知識/物理学、統計学、有機化学、数学、英語 |