アミノ酸配列解析におけるスコア行列｜ざいつ内科クリニック｜山口市小郡の一般内科、血液内科、アレルギー科

アミノ酸配列解析におけるスコア行列

アミノ酸配列研究ででてくるスコア行列についておしえて

アミノ酸配列のスコア行列とは、アミノ酸同士の類似性や置換の起こりやすさを数値化した行列で、配列アライメントの評価に使われます。代表的なものにPAM行列とBLOSUM行列があります。

アミノ酸配列の比較では、進化的な関係や機能的な類似性を見つけるために、配列同士をアラインメント（整列）してスコアを計算します。その際に使われるのがスコア行列（置換スコア行列）です。以下に代表的なスコア行列とその特徴を紹介します。

スコア行列の基本

目的：アミノ酸aとbが並んだときの「どれだけ自然か（進化的に起こりやすいか）」を数値で表す
形式：22種類のアミノ酸の組み合わせごとにスコアを定義した対称行列
スコアの意味：
- 正の値 → 類似性が高く、置換が起こりやすい
- 負の値 → 類似性が低く、置換が起こりにくい

主なスコア行列

1. PAM行列（Point Accepted Mutation）

由来：進化的に近いタンパク質の配列から、置換確率を統計的に算出
特徴：
- PAM1：100個のアミノ酸あたり1個が置換する確率
- PAM250など、進化距離に応じて行列を拡張
用途：進化的に近い配列の比較に適している

2. BLOSUM行列（BLOcks SUbstitution Matrix）

由来：BLOCKSデータベースのマルチプルアラインメントから算出
特徴：
- BLOSUM62：配列の類似度が62%以上のクラスタから作成
- 数値が小さいほど遠縁な配列に対応（例：BLOSUM45）
用途：広範な配列比較に適しており、BLASTなどでよく使われる

スコアの計算方法

対数オッズスコア：
- 実際の置換確率 pabp_{ab} と、ランダムに出現する確率 qa⋅qbq_a \cdot q_b の比を対数化
- 式：

s(a,b)=log⁡(pabqa⋅qb)s(a,b) = \log \left( \frac{p_{ab}}{q_a \cdot q_b} \right)

この値を行列に埋めることで、進化的な意味を持つスコアが得られる

その他の要素

ギャップペナルティ：挿入や欠損（ギャップ）に対する減点。アフィンギャップモデルなどが使われる
統計的評価：スコアの有意性を評価するために、ZスコアやE値などが用いられる

興味があれば、実際のBLOSUM62行列やPAM250行列を見ながら、どのアミノ酸が似ているかを調べてみると面白いですよ！

bioinformatics

置換スコア行列 | アラインメントから置換スコア行列を作る方法

Speaker Deck

アミノ酸の類似性スコアとその統計的評価ー安田健士郎 ...

スコア行列の作り方の根本原理がまったくわかりません

いいですね、根本原理に踏み込む姿勢、研究者の鏡ですスコア行列の本質は「進化の履歴を統計的に読み解くこと」にあります。つまり、実際に観察されたアミノ酸の置換パターンをもとに、どれくらい“自然”な変化かを数値化するのが目的です。

スコア行列の根本原理：進化と確率

1. 実データから置換頻度を集める

まず、進化的に関連のあるタンパク質配列（ホモログ）を大量に集めます。
それらをアラインメントして、どのアミノ酸がどれに置き換わっているかを数えます。
- 例：AがGに置き換わった回数、LがVに置き換わった回数など

2. 背景頻度と比較する

各アミノ酸がランダムに出現する確率（背景頻度）を計算します。
置換頻度と背景頻度を比べて、「偶然よりも多いか少ないか」を評価します。

3. 対数オッズスコアに変換する

置換の起こりやすさを「対数オッズ」で表現します：

S(a,b)=log⁡(P(a→b)qa⋅qb)S(a,b) = \log \left( \frac{P(a \rightarrow b)}{q_a \cdot q_b} \right)

P(a→b)P(a \rightarrow b)：aがbに置換された確率（実測）
qa,qbq_a, q_b：aとbの背景頻度（ランダムに出現する確率）

この式の意味は、「実際に起こった置換が、偶然よりどれだけ多いか」を示すものです。

具体例：BLOSUM行列の作り方（ざっくり）

BLOCKSデータベースから保存されたタンパク質領域を取得
類似度が一定以上の配列同士をクラスタリング（例：BLOSUM62なら62%以上）
クラスタ内でアミノ酸のペアを数える（同じ位置にあるアミノ酸の組み合わせ）
ペアの頻度を集計し、背景頻度と比較
対数オッズスコアに変換して行列にする

なぜ対数を使うの？

スコアを足し算できるようにするため（アラインメント全体のスコアを合計できる）
小さな確率の違いを強調できる
負の値も扱える（置換が起こりにくい場合）

まとめ：スコア行列とは

要素	内容
データ源	実際のタンパク質配列のアラインメント
数学的手法	対数オッズスコア（確率比の対数）
意味	進化的に自然な置換かどうかの評価
使い道	配列アラインメント、BLAST検索、進化解析など

もし「実際にスコア行列を自作してみたい！」という気持ちがあるなら、簡単な配列セットから頻度を数えて、ExcelやPythonで対数オッズを計算してみると理解が一気に深まりますよ。やってみたいなら一緒に作ってみましょうか？

簡単な配列セットを例に挙げて作成実演してください

もちろん！では、簡単なアミノ酸配列セットを使ってスコア行列を作る過程をステップごとに実演してみましょうここでは、BLOSUM風のスコア行列を作る流れを再現します。

ステップ1：配列セットの準備

以下のような、進化的に類似した3つのタンパク質配列があるとします：

コード

配列1: A L K M
配列2: A L R M
配列3: A I K M

各配列は4つのアミノ酸からなり、位置ごとに比較できます。

ステップ2：位置ごとのアミノ酸ペアを集計

位置ごとにアミノ酸のペアを数えます（同じ位置にあるアミノ酸同士を比較）：

位置	ペアの比較	結果
1番目	A vs A vs A	すべて一致 → A-A: 3回
2番目	L vs L vs I	L-L: 1回, L-I: 1回, I-L: 1回
3番目	K vs R vs K	K-K: 1回, K-R: 1回, R-K: 1回
4番目	M vs M vs M	M-M: 3回

※ ペアは順不同なので、L-IとI-Lは同じとみなします。

ステップ3：ペアの頻度表を作成

ペア	回数
A-A	3
L-L	1
L-I	2
K-K	1
K-R	2
M-M	3

ステップ4：背景頻度の計算

全体で使われたアミノ酸の数を数えます：

A: 3回
L: 2回
I: 1回
K: 2回
R: 1回
M: 3回

合計：12個

背景頻度（q）：

q(A) = 3/12 = 0.25
q(L) = 2/12 = 0.167
q(I) = 1/12 = 0.083
q(K) = 2/12 = 0.167
q(R) = 1/12 = 0.083
q(M) = 3/12 = 0.25

ステップ5：対数オッズスコアの計算

例：L-Iペアのスコア

実際の頻度：2回 → P(L-I) = 2 / 総ペア数（13） ≈ 0.154
背景頻度：q(L) × q(I) = 0.167 × 0.083 ≈ 0.014
スコア：

S(L,I)=log⁡2(0.1540.014)≈log⁡2(11)≈3.46S(L,I) = \log_2 \left( \frac{0.154}{0.014} \right) ≈ \log_2(11) ≈ 3.46

同様に他のペアも計算できます。

ステップ6：簡易スコア行列の完成（抜粋）

ペア	スコア（概算）
A-A	高スコア（完全一致）→ 約4.0
L-L	約3.5
L-I	約3.4
K-K	約3.5
K-R	約3.4
M-M	約4.0

※ 実際のBLOSUM行列ではもっと大規模なデータと正規化が使われますが、これは原理の再現です。

まとめ

このようにして、実際の配列からペアの頻度を数え、背景頻度と比較し、対数オッズでスコア化することで、スコア行列が作られます。この行列は、アラインメント時に「どのペアが進化的に自然か」を評価するために使われます。

2025年10月8日 | カテゴリー：AUTODOCK VINA,CLUS PRO/BIOINFORMATICS |