ゆくゆくは有へと

おかゆ/オカ∃/大鹿有生/彼ノ∅有生 の雑記

主成分分析に関するメモ

多変量解析入門(C・チャットフィールド, A・J・コリンズ)4.4 p.69あたり

「例えば、1つの変数がすべての他の変数よりもずっと大きい分散を持っていると、相関構造がどのようなものであっても、その変数が共分散行列の第1主成分の中で際立った重みを持つことになる。反面、すべての変数が単位分散を持つように尺度化されていると、第1主成分は全く違った性質を示すであろう。このような事情から、一般論として、例えばすべての変数が百分率である場合とか、すべて同一の座標系で測られている場合とかのように、すべての変数が「大体似通った」分散を持っているのでなければ、PCAを実行することはほとんど意味がないと言えよう。」

「この尺度構成の問題を処理するために、通常共分散行列ではなく”相関”行列を分析する方法が行われている。…(中略)…。この返還によってすべての変数が単位分散を持つように尺度化され、一応重要度に差異がなくなる。しかしこの尺度構成の手順は、ある程度任意性を持っており、データいかんに左右され、しかも尺度化の問題を解決するものというよりも回避するためのものといえる。すべての変数が同等に重要であると考えられない場合には、相関行列の分析はやらないほうがよい。また相関行列を分析した場合、2つ以上の標本についてのPCAの結果の比較がより困難になる。」

「相関行列の主成分は、変数をもとの座標系に変換しなおすと直交しなくなるであろう。これはp空間で直交する2直線の線形変換が、一般には新しい直交する2直線を与えないからであって、これも尺度構成がなによりも重要であることを示唆している。」

「成分は変数の線形変換の不変量ではない。」

化学者のための多変量解析(尾崎幸洋ほか)

3.3.2 p.51あたり

「旧来の定量化法においては、それぞれの成分に対して代表的なピークを選定し、その吸収強度の時系列変化と対応する濃度推移(目的変量)を使って検量を行う。また各成分に特徴的なピークを複数個選択し、MLRを用いて検量を行うこともできるが、着目した波長以外での情報の欠落や、選択したピークと他のピークとのオーバーラップなど、しばしばやっかいな問題に遭遇する。PLSではPCRの場合と同様に、全波長のスペクトルあるいは一定波長域のスペクトルを用いて回帰を行う。PLSの特徴は、説明変量X側と目的変量Y側の双方に主成分分析(PCA)による直交分解を適用することにある。」

※ PLS: Partial Least Squares

簡単には、多次元の説明変量で、多次元の目的変量を説明(回帰)する1つの方法で、それぞれの空間で主成分軸を決定してしまって、それぞれの主成分スコアを座標として回帰を行う方法らしい。

(いちほ)