バックグラウンド
エンリッチメント解析エンリッチメント解析(Gene set enrichment analysis、GSEA)は大規模な遺伝子またはタンパク質のセット内で濃縮または過剰発現している遺伝子またはタンパク質を特定し、重要な生物学的経路およびプロセスを特定する方法です。(Gene set enrichment analysis、GSEA)は、特定の遺伝子オントロジー (Gene ontology、GO) 用語またはKyoto encyclopedia of genes and genomes (KEGG) パスウェイに注釈が付けられた、事前に定義された遺伝子セットが2つの生物学的状態間に統計的に有意な差を示すかどうかを判断する計算手法です (例: 対照と治療)。このテクニカルノートは、エンリッチメント解析のGOおよびKEGGデータベースについて説明します。
関連記事 エンリッチメント解析のケーススタディ
遺伝子オントロジー (GO)
GOは、2020年にGOコンソーシアムによって構築された構造化標準生物学モデルで構成される包括的なデータベースです (Novogene、2011)。これは、特徴的な生物学的属性を識別するために最も一般的に使用される遺伝子アノテーションシステムの1つです。 GOデータベースのモデルは、用語を使用して生物学的ドメインを記述します。用語は、生物学的プロセス (Biological processes、BP)、細胞成分 (Cellular components、CC)、および分子機能 (Molecular functions、MF)の 3つのカテゴリに分類されます。BPオントロジーは、遺伝子によって実行される細胞的または生物学的役割 (有糸分裂、プリン代謝など) を記述します。 CCオントロジーは、遺伝子がその機能を実行する細胞内の位置、細胞内構造、高分子複合体 (核小体、テロメアなど) を記述します。MFオントロジーは、遺伝子の機能または分子活性 (炭水化物への結合、ATPヒドロラーゼ活性など) を記述します (Novogene、2023)。
GOのオントロジーは有向非巡回グラフとして構造化されており、用語はグラフ内の「ノード」として、用語間の関係は「エッジ」として扱われます。アノテーションシステムの各ノードは遺伝子の説明です (Novogene、2011)。各GO用語と同様に、GO用語間の関係も分類および定義されます。GOで使用される一般的に使用される関係には、「is a(である)」、「part of(の一部)」、「regulates(制御する)」、「positively regulates」、および「negatively regulates」などがあります。用語間の関係の例は次のとおりです。
- GO:1904659 glucose transport is a GO:0015749 monosaccharide transport
- GO:0031966 mitochondrial membrane is part of GO:0005740 mitochondrial envelope
- GO:0098689 latency-replication decision regulates GO:0019046 release from viral latency
各エッジは始点と終点で向きが示されます。視点は親用語と呼ばれ、終点は子用語と呼ばれます。「親子」関係はノード間で維持されます (Advaita Corporation、2023; Novogene、 2011)。 「プログラム細胞死の負の制御」の生物学的プロセスの階層構造と祖先関係を示すGOフローチャートの例を図 1 に示します。
図1.「プログラム細胞死の負の制御」の生物学的プロセスのGOフローチャートの例 (Advaita Corporation、2023)。
Kyoto encyclopedia of genes and genomes (KEGG)
KEGGは、1995年に日本の京都大学バイオインフォマティクスセンターの兼久研究室によって設立された包括的なデータベースです。遺伝子機能やゲノム情報を系統的に解析するための、ゲノム情報、化学情報、システム機能情報を統合したデータベースです。現在、KEGGには19のサブデータベースが含まれています。このうち、KEGG PATHWAYデータベースとKEGG ORTHOLOGY データベースが中核となります。エンリッチメント分析は、KEGG PATHWAYデータベースで一般的に使用されます。KEGG PATHWAYデータベースは、分子の相互作用、反応、および関係ネットワークの知識を表す手動で描画されたパスウェイマップのコレクションで構成されています(Novogene、2011)。これらの生物学的代謝経路は、細胞プロセス、環境情報処理、遺伝情報処理、ヒト疾患、代謝、生体システム、創薬の7つのカテゴリーに分類されており (Novogene, 2023)、広範囲の生化学プロセスをカバーしています (ノボジーン、2011)。図 2に、KEGG PATHWAYのフローチャートを示します。
図2. KEGG PATHWAYフローチャート (Novogene、2011)。
参考文献
Advaita Corporation. (2023). Understanding gene ontology analysis. Advaita Corporation. https://advaitabio.com/faq-items/understanding-gene-ontology/
Novogene. (2011). Tools (GO & KEGG) for Gene Set Enrichment Analysis (GSEA). Novogene Co., Ltd. https://www.novogene.com/amea-en/resources/blog/tools-go-kegg-for-gene-set-enrichment-analysis-gsea/
Novogene. (2023). NovoMagic. Novogene Co., Ltd. https://cssamea.novogene.com/pub/novoMagic