序章
エンリッチメント解析エンリッチメント解析(Gene set enrichment analysis、GSEA)は大規模な遺伝子またはタンパク質のセット内で濃縮または過剰発現している遺伝子またはタンパク質を特定し、重要な生物学的経路およびプロセスを特定する方法です。(Gene set enrichment analysis、GSEA)は、統計的アプローチを使用して、大規模な遺伝子またはタンパク質のセット内で濃縮または過剰発現している遺伝子またはタンパク質を特定し、重要な生物学的経路およびプロセスを特定する、遺伝研究における重要な計算ツールです。特定の表現型または疾患に関連しています (Novogene、2011)。
エンリッチメント解析は、遺伝子サインの同定、疾患メカニズムの理解、創薬など、遺伝子研究分野の多くの用途に使用できます(Novogene、2011)。これら3つのアプリケーションについて簡単に説明します。
遺伝子シグネチャの特定
特定の表現型または疾患に関連する遺伝子シグネチャーは、エンリッチメント解析を使用して遺伝子発現データを分析することで特定できます。これらの遺伝子シグネチャーは、その後、診断マーカーまたは予後マーカーとして、あるいは治療介入の潜在的な標的として使用できます (Novogene、2011)。
病気のメカニズムを理解する
エンリッチメント解析は、特定の疾患または表現型で調節不全になっている生物学的経路を特定するために使用できます。この情報は、研究者がこの病気の根底にあるメカニズムをさらに理解するのに役立ち、おそらく新しい潜在的な治療標的の特定につながる可能性があります(Novogene、2011)。
創薬
エンリッチメント解析 は、特定の疾患または表現型の治療に効果があると思われる化合物または薬剤を特定するために使用できます。疾患において調節不全となっている特定の生物学的経路またはプロセスを標的とする薬剤は、さまざまな薬剤で処理された細胞の遺伝子発現プロファイルを分析することによって同定することができます (Novogene、2011)。
エンリッチメント解析は、DAVIDオンライン分析ツール、R Cluster-profiler パッケージ、Meta-scape (Novogene、2011) などのエンリッチメント分析ツールを使用して実行されます。
エンリッチメント解析 の一般的なワークフロー
図 1 に、エンリッチメント解析の一般的なワークフローを示します。ランク付けされた遺伝子リスト (図 1a-i、2b)、バックグラウンド遺伝子のリスト (図 1a-ii)、および遺伝子セットのリスト (図 1a-iii) が必要です。ランク付けされた遺伝子リストは、特定の指標 (差次的発現レベルなど) によってランク付けされ、DEG(Differentially expressed genes、発現変動遺伝子)解析中に取得された発現変動遺伝子の順序付きリストです (図 2)。ランキングは以下を使用して計算できます。DEG分析からのすべての遺伝子のリスト (図 2a のオレンジ色のボックス)から次の方程式で得られたp値 (p-value) と倍率変化 (FC) (Biostatsquid、2023):
p値は変化の重大さを示し、FCは変化の大きさを示します。ランク付けされたリストは、遺伝子のリストを重要性の順に示すだけでなく、遺伝子が上方制御されているか下方制御(発現低下、downregulate)されているかも示します (図 2b)。ランク付けされたリストの一番上にある遺伝子は重要で上方制御(発現上昇、upregulate)されている遺伝子ですが、リストの一番下にある遺伝子は重要で下方制御されています (図 2b)。
図1. エンリッチメント解析の一般的なワークフロー (Biostatsquid、2023 から改変)。
図2. (b) DEG解析中に得られた (a) 遺伝子リストから導出されたランク付けされた遺伝子リストの例。 (a)では、1DE = 差分表現および2FC = 倍率変化 (Biostatsquid、2023 から改変)。
バックグラウンド遺伝子リストは、有意差が分析され、遺伝子オントロジー (GO) および KEGG (KEGG: Kyoto Encyclopedia of Genes and Genomes)データベースに注釈が付けられたすべての遺伝子の遺伝子セットです (図 1a-ii) (Novogene, 2023)。 GO と KEGG の詳細については、こちらをご覧ください。遺伝子セットリストは、特定の生物学的経路への関与に従ってグループ化された関連遺伝子のリストです (図 1a-iii)。
エンリッチメント解析は、大幅に濃縮された生物学的経路を見つけるために有意な濃縮をテストし、偶然に重要な経路を除外するために複数のテストを補正します。前者を実行するために、エンリッチメント解析はまず、対象の生物学的経路に関与する遺伝子セット(図 1a-iii)と DEG のリストにある遺伝子セット (図 1a-i) を比較することにより、特定の遺伝子オントロジー用語に注釈が付けられた遺伝子の割合をチェックします。次に、バックグラウンド遺伝子リストと比較して遺伝子の割合をチェックします (図 1a-ii)。
後者を実行するには、各経路の重要性が、p-値 (図 1b)。これは、特定の経路で観察された DEG の数が単に偶然に観察された確率です。エンリッチメント解析で一般的に使用される統計手法には、累積超幾何分布とフィッシャーの直接確率検定 (Novogene、2011) が含まれます。低いp値 (p<0.05) は、経路が過剰に存在するか濃縮されており、単なる偶然の結果ではないことを示します (図 1b)。
たとえば、インターロイキン6 (IL-6) 産生が対象の経路である場合 (図 1a-iiiの赤いボックス)、エンリッチメント解析はまず、遺伝子オントロジー用語「IL-6 産生」に注釈が付けられた遺伝子の割合を比較することによって測定します。 IL-6 産生遺伝子セット (図 1a-iii の赤枠内の遺伝子) とランク付けされた遺伝子リスト (図 1a-i) の遺伝子セット。たとえば、12 個の遺伝子のうち4 個に「IL-6 産生」という注釈が付けられていることがわかります。黄色で強調表示された遺伝子 (PTPN22、IL1B、TNF、SPON2 など) は、両方のリストに存在する遺伝子です (図 1a-i および 1a-iii)。次に、バックグラウンド遺伝子リストの遺伝子と一致する「IL-6産生」の注釈が付けられた遺伝子の割合が決定されます (つまり、図 1a-iii の赤いボックス内の遺伝子を図 1a-ii の遺伝子と比較します)。青色で強調表示された遺伝子 (TRAF6、TLR2、SPRPA、CSK など) は、両方のリストに存在する遺伝子です (図1a-ii および 1a-iii)。最後に、p-値は、累積超幾何分布やフィッシャーの直接確率検定などの統計検定を使用して計算され、IL-6産生経路が大幅に濃縮されていることを確認します。この濃縮は偶然の結果ではありません。
エンリッチメント解析をより深く理解するために、健康な肝組織の肝細胞とアルコール性肝疾患の肝細胞の間の遺伝子発現の違いに関する事例研究が提供されています。
Basepairは、FASTQやBAMなど生データをアップロードして、パイプラインを選択するだけの簡単操作でRNA-Seqのデータ解析が可能です。ボルケーノプロットの作成や遺伝子の絞り込みなどもマウス操作で可能です。GSEAパイプラインも実装済みです。
参考文献
Biostatsquid. (2023). Gene set enrichment analysis (GSEA)- simply explained! Biostatsquid. https://biostatsquid.com/gene-set-enrichment-analysis/
Novogene. (2011). Tools (GO & KEGG) for Gene Set Enrichment Analysis (GSEA). Novogene Co., Ltd. https://www.novogene.com/amea-en/resources/blog/tools-go-kegg-for-gene-set-enrichment-analysis-gsea/
Novogene. (2023). NovoMagic. Novogene Co., Ltd. https://cssamea.novogene.com/pub/novoMagic