配列解析

ペアワイズアラインメント（pairwise alignment）は、生物配列解析の最も基本であり、最も重要な概念です。 構造・目的・アルゴリズム・臨床応用まで縦の流れで整理します。

ペアワイズアラインメントとは何か

2つの配列（DNA・RNA・タンパク質）を比較し、最もよく対応する位置関係を決める操作

つまり、

どこが一致しているか
どこが置換されているか
どこに欠失・挿入があるか

を最適に並べることです。

例（概念）：

コード

ACGTG-A
A-GTGCA

なぜ必要なのか（目的）

ペアワイズアラインメントは、配列解析の“入口”であり、以下の目的に使われます：

相同性（evolutionary relationship）の推定
機能予測（保存領域＝重要領域）
変異の同定（SNP、欠失、挿入）
タンパク質の構造・機能推定
臨床的には：病的変異の評価の基礎

アラインメントの2種類

① グローバルアラインメント（Needleman–Wunsch）

配列全体を端から端まで比較
長さが近い配列向け
例：ヒトとマウスの同じ遺伝子

② ローカルアラインメント（Smith–Waterman）

部分的に最も似ている領域を比較
長さが違う配列や、部分的な相同性の検出に強い
例：タンパク質のドメイン比較

アラインメントの本質：スコアリング

ペアワイズアラインメントは、 “最もスコアが高くなる並べ方を探す” という最適化問題です。

● スコアの構成

一致（match）：プラス
不一致（mismatch）：マイナス
ギャップ（gap）：大きなマイナス

● タンパク質の場合は置換行列を使う

PAM
BLOSUM

これらは「どのアミノ酸置換が起こりやすいか」を反映した行列です。

アルゴリズムの仕組み（直感的に）

ペアワイズアラインメントは、 動的計画法（Dynamic Programming） で解かれます。

流れはこうです：

配列Aと配列Bの長さに応じた行列を作る
上から下、左から右へスコアを埋めていく
最後に“最もスコアが高い経路”を逆追跡する（traceback）

これにより、 数学的に最適なアラインメント が得られます。

✅ ペアワイズアラインメントの臨床的意義

財津先生の領域では、以下のように直結します：

病的変異の評価（保存領域かどうか）
薬剤標的のアミノ酸置換の影響予測
病原体の系統解析（感染症）
抗原エピトープの保存性評価（免疫学）
タンパク質構造予測の前処理

特に、 保存されているアミノ酸＝機能的に重要 というのは臨床判断に直結します。

✅ Zaitsu流に抽象化すると

ペアワイズアラインメントとは、

「2つの配列の間で、 最も矛盾が少なく、 進化的にもっとも合理的な対応関係を構築する操作」

です。

つまり、 配列の“意味”を読み解くための最初の翻訳作業 といえます。

✅ 次のステップとして可能な展開

グローバル vs ローカルの“数式レベル”の違い
BLOSUM・PAMの使い分け
ギャップペナルティの意味
実際のアラインメント例を使った解説
多重アラインメント（MSA）への拡張

どの方向に深めますか。

全部一つ一つ

了解です。「全部一つ一つ」ということは、先ほど挙げた ペアワイズアラインメントの各要素を、項目ごとに丁寧に、体系的に、深く 解説してほしい、という意味ですね。

では、財津先生の学習スタイルに合わせて、 “概念 → 数理 → アルゴリズム → 応用 → 抽象化” という縦の流れで、すべての項目を一つずつ解説します。

ペアワイズアラインメント：全項目の詳細解説

✅ 1. ペアワイズアラインメントとは何か（定義）

2つの生物配列（DNA・RNA・タンパク質）を比較し、 最も合理的な対応関係（alignment）を決める操作。

目的は「どこが保存され、どこが変化したか」を明らかにすること。

✅ 2. なぜ必要なのか（目的）

ペアワイズアラインメントは、配列解析の“入口”であり、以下に使われます：

相同性の推定（進化的に同じ祖先か）
機能予測（保存領域＝重要領域）
変異の同定（SNP、欠失、挿入）
タンパク質構造予測の前処理
病的変異の臨床評価

保存されているアミノ酸は、 構造・機能に必須である可能性が高い。

✅ 3. アラインメントの2種類

● ① グローバルアラインメント（Needleman–Wunsch法）

配列全体を端から端まで比較
長さが近い配列向け
例：ヒトとマウスの同じ遺伝子

特徴： 配列全体を強制的に並べるため、 “全体の類似性”を評価するのに向く。

● ② ローカルアラインメント（Smith–Waterman法）

部分的に最も似ている領域を比較
長さが違う配列や、部分的な相同性の検出に強い
例：タンパク質のドメイン比較

特徴： “最も似ている部分だけ”を抽出するため、ドメイン解析や機能領域の同定に向く。

✅ 4. アラインメントの本質：スコアリング

アラインメントは 「スコアが最大になる並べ方を探す最適化問題」 です。

● スコアの構成

一致（match）：プラス
不一致（mismatch）：マイナス
ギャップ（gap）：大きなマイナス

✅ 5. タンパク質の置換行列（PAM・BLOSUM）

● PAM（Point Accepted Mutation）

進化モデルに基づく
近縁種の比較に強い（PAM30など）

● BLOSUM（Blocks Substitution Matrix）

実際の保存領域から統計的に作成
遠縁種の比較に強い（BLOSUM62など）

使い分けの本質：

近い配列 → PAM
遠い配列 → BLOSUM

✅ 6. ギャップペナルティ（gap penalty）

ギャップ（挿入・欠失）は進化的に“コストが高い”ため、ペナルティを与える。

● 種類

linear gap：ギャップ1つごとに一定のペナルティ
affine gap：ギャップ開始は大きなペナルティ、延長は小さい

生物学的に自然なのは affine gap （挿入・欠失は“まとめて起こる”ため）。

✅ 7. アルゴリズムの仕組み（動的計画法）

ペアワイズアラインメントは Dynamic Programming（DP） で解かれる。

● 手順

配列AとBの長さに応じた行列を作る
上から下、左から右へスコアを埋める
最後に“最もスコアが高い経路”を逆追跡（traceback）

これにより 数学的に最適なアラインメント が得られる。

✅ 8. グローバル vs ローカルの数理的違い

項目	グローバル（NW）	ローカル（SW）
初期値	端にギャップを入れる	0で初期化
負のスコア	許容	許容しない（0に戻す）
結果	全体のアラインメント	部分的な最良領域

ローカルでは スコアが負になったら0にリセット するのが最大の特徴。

✅ 9. 実際のアラインメント例（概念）

コード

ACGTG-A
A-GTGCA

2番目の位置にギャップ
中央の GTG が完全一致
末端に不一致

このように、 ギャップを入れることで整合性を最大化する。

✅ 10. 臨床的意義（財津先生の領域に直結）

病的変異の評価 → 保存領域の変異は病的可能性が高い
薬剤標的のアミノ酸置換の影響予測
病原体の系統解析（感染症）
抗原エピトープの保存性評価（免疫学）
タンパク質構造予測の前処理

特に、 保存されているアミノ酸＝機能的に重要 というのは臨床判断に直結。

✅ 11. Zaitsu流に抽象化すると

ペアワイズアラインメントとは、

「2つの配列の間で、 最も矛盾が少なく、 進化的にもっとも合理的な対応関係を構築する操作」

つまり、 配列の“意味”を読み解くための最初の翻訳作業。

✅ 12. 次のステップ（深掘り可能）

Needleman–Wunsch の数式レベルの解説
Smith–Waterman のDP行列の実例
BLOSUM62 の行列の読み方
ギャップペナルティの数理モデル
実際の遺伝子配列を使ったアラインメント演習

必要であれば、 DP行列を実際に書きながら、 手計算でアラインメントを完成させる“実戦編” もできます。

次はどの項目をさらに深めますか。

次のステップを全部

了解です。では、先ほど提示した 「次のステップ」 を、すべて一つずつ、体系的に、深く、かつ“財津先生の学習スタイルに最適化した形” で解説します。

以下の 5 つが「次のステップ」でした：

Needleman–Wunsch（グローバルアラインメント）の数式レベルの解説
Smith–Waterman（ローカルアラインメント）のDP行列の実例
BLOSUM62 の行列の読み方
ギャップペナルティの数理モデル
実際の遺伝子配列を使ったアラインメント演習

これらをすべて、順番に、深く、しかし理解しやすく説明します。

✅ 1. Needleman–Wunsch 法（グローバルアラインメント）の数式レベルの解説

Needleman–Wunsch は 動的計画法（DP） を使って「配列全体を最適に並べる」アルゴリズムです。

● DP 行列の定義

配列 A（長さ m）配列 B（長さ n）

DP 行列 F を (m+1)×(n+1) の大きさで作る。

● 初期化（global の特徴）

F(i,0)=−i⋅d,F(0,j)=−j⋅d

（d はギャップペナルティ）

→ 端にギャップを強制的に入れる → これが「全体を比較する」ことにつながる。

● 再帰式（最も重要）

F(i,j)=max⁡{F(i−1,j−1)+s(ai,bj)F(i−1,j)−dF(i,j−1)−d

s(ai,bj)：一致/不一致のスコア
d：ギャップペナルティ

3つの方向から最大値を取る → これが「最適アラインメント」を保証する。

● トレースバック

右下（F(m,n)）から最大値を辿っていくと 最適アラインメントが復元される。

✅ 2. Smith–Waterman 法（ローカルアラインメント）の DP 行列の実例

Smith–Waterman は 部分的に最も似ている領域を探す。

● 初期化（local の特徴）

F(i,0)=0,F(0,j)=0

● 再帰式

F(i,j)=max⁡{0F(i−1,j−1)+s(ai,bj)F(i−1,j)−dF(i,j−1)−d

0 が入るのが最大の特徴 → スコアが負になったら切り捨てる → “最も良い部分”だけが残る

● ミニ実例（概念）

配列 A: ACGT 配列 B: AGT

一致スコア +2 不一致 -1 ギャップ -2

DP 行列を埋めると、中央の GT が最も高スコアになり、そこがローカルアラインメントとして抽出される。

✅ 3. BLOSUM62 の行列の読み方

BLOSUM62 は 実際のタンパク質の保存領域から得られた統計行列。

● 行列の意味

行：アミノ酸 A
列：アミノ酸 B
値：A→B の置換がどれだけ起こりやすいか

● 読み方のポイント

高い値（+）：置換が起こりやすい（保存されやすい）
低い値（−）：置換が起こりにくい（機能的に重要）

例：

W↔F（芳香族）→ +1
C↔C（システイン）→ +9（非常に保存）
W↔G → -3（ほぼ起こらない）

● 本質

アミノ酸の物理化学的性質を反映した“進化の統計”。

✅ 4. ギャップペナルティの数理モデル

ギャップは 挿入・欠失（indel） を意味し、進化的には「まとめて起こる」ことが多い。

そのため、 affine gap penalty が一般的。

● affine gap の式

ギャップ長を k とすると：

gap penalty=g+k⋅e

g：ギャップ開始ペナルティ（大きい）
e：ギャップ延長ペナルティ（小さい）

● 生物学的意味

挿入/欠失が「始まる」ことは稀 → 大きなペナルティ
一度起こったら「伸びる」ことは比較的自然 → 小さなペナルティ

✅ 5. 実際の遺伝子配列を使ったアラインメント演習（手計算可能な例）

配列 A:

コード

ACGTGA

配列 B:

コード

AGTCA

一致 +2 不一致 -1 ギャップ -2

● ステップ 1：DP 行列を作る

（6×5 の行列）

● ステップ 2：初期化

グローバルなら端にギャップローカルなら 0

● ステップ 3：スコアを埋める

例： A vs A → +2 C vs G → -1 G vs T → -1 T vs T → +2 …

● ステップ 4：最大スコアを辿る

例として得られるアラインメント：

コード

ACGTGA
A-GTCA

中央の GTG が保存されていることがわかる。

✅ まとめ：財津先生のための“完全版ペアワイズアラインメント学習ロードマップ”

DP の数式理解（NW/SW）
置換行列の読み方（BLOSUM/PAM）
ギャップモデルの理解（affine gap）
実際の行列を手で埋める演習
臨床応用（保存領域＝機能領域）への接続

この 5 ステップを押さえると、 配列解析の基礎が完全に身体化されます。

2025年12月22日 | カテゴリー：Cohors Irregularis, AUTODOCK VINA,CLUS PRO/BIOINFORMATICS |

配列解析

ペアワイズアラインメントとは何か

2つの配列（DNA・RNA・タンパク質）を比較し、最もよく対応する位置関係を決める操作

なぜ必要なのか（目的）

アラインメントの2種類

① グローバルアラインメント（Needleman–Wunsch）

② ローカルアラインメント（Smith–Waterman）

アラインメントの本質：スコアリング

● スコアの構成

● タンパク質の場合は置換行列を使う

アルゴリズムの仕組み（直感的に）

✅ ペアワイズアラインメントの臨床的意義

✅ Zaitsu流に抽象化すると

✅ 次のステップとして可能な展開

ペアワイズアラインメント：全項目の詳細解説

✅ 1. ペアワイズアラインメントとは何か（定義）

✅ 2. なぜ必要なのか（目的）

✅ 3. アラインメントの2種類

● ① グローバルアラインメント（Needleman–Wunsch法）

● ② ローカルアラインメント（Smith–Waterman法）

✅ 4. アラインメントの本質：スコアリング

● スコアの構成

✅ 5. タンパク質の置換行列（PAM・BLOSUM）

● PAM（Point Accepted Mutation）

● BLOSUM（Blocks Substitution Matrix）

✅ 6. ギャップペナルティ（gap penalty）

● 種類

✅ 7. アルゴリズムの仕組み（動的計画法）

● 手順

✅ 8. グローバル vs ローカルの数理的違い

✅ 9. 実際のアラインメント例（概念）

✅ 10. 臨床的意義（財津先生の領域に直結）

✅ 11. Zaitsu流に抽象化すると

✅ 12. 次のステップ（深掘り可能）

✅ 1. Needleman–Wunsch 法（グローバルアラインメント）の数式レベルの解説

● DP 行列の定義

● 初期化（global の特徴）

● 再帰式（最も重要）

● トレースバック

✅ 2. Smith–Waterman 法（ローカルアラインメント）の DP 行列の実例

● 初期化（local の特徴）

● 再帰式

● ミニ実例（概念）

✅ 3. BLOSUM62 の行列の読み方

● 行列の意味

● 読み方のポイント

● 本質

✅ 4. ギャップペナルティの数理モデル

● affine gap の式

● 生物学的意味

✅ 5. 実際の遺伝子配列を使ったアラインメント演習（手計算可能な例）

● ステップ 1：DP 行列を作る

● ステップ 2：初期化

● ステップ 3：スコアを埋める

● ステップ 4：最大スコアを辿る

✅ まとめ：財津先生のための“完全版ペアワイズアラインメント学習ロードマップ”

カテゴリー

アーカイブ