バックグラウンド
エンリッチメント解析エンリッチメント解析(Gene set enrichment analysis、GSEA)は大規模な遺伝子またはタンパク質のセット内で濃縮または過剰発現している遺伝子またはタンパク質を特定し、重要な生物学的経路およびプロセスを特定する方法です。(Gene set enrichment analysis、GSEA)をよりよく理解するために、健康な肝組織の肝細胞とアルコール性肝疾患の肝細胞の間の遺伝子発現の違いに関する事例研究の例を示します。アルコールの過剰摂取は、体の臓器、特に肝臓の損傷につながります。それは、IL6遺伝子によってコードされるインターロイキン-6(IL-6)などの炎症誘発性サイトカインの活性に関与する肝細胞の炎症を引き起こします(Namachivayam & Gopolakrishnan、2021; Naseem et al.、2018)。このケーススタディは、エンリッチメント解析を使用して、健康な細胞とアルコール性肝疾患細胞における発現変動遺伝子 (Differentially expressed genes、DEGs) と IL-6 産生経路との相関関係を調べることを目的としています。この結果は、遺伝子リストにIL-6 合成経路に関与する遺伝子が豊富に含まれているかどうか、また、IL-6生成が健康な肝細胞と比較してアルコール性肝疾患において重要な経路であるかどうかを示します。このケーススタディにおけるエンリッチメント解析の入力と出力をそれぞれ図 1a と図 1bに示します。
図1. このケーススタディにおけるエンリッチメント解析の (a) インプットと (b) アウトプット (Biostatsquid、2023 から改変)。 (a) では、ランク付けされた遺伝子リスト (i)、バックグラウンド遺伝子リスト (ii)、およびIL-6産生のための遺伝子セットリスト (iii) が入力として使用されます。 (b)では、1GO = 遺伝子オントロジー。
方法と結果
このケーススタディでは、関心のある経路はIL-6生成です。エンリッチメント解析への入力は、ランク付けされた遺伝子リスト (図 1a-i)、バックグラウンド遺伝子リスト (図 1a-ii)、および IL-6 産生経路の遺伝子セット リスト (図 1a-iii) です。
エンリッチメント解析の重要なステップは、対象の経路 (IL-6産生など) 内の遺伝子の割合が経路外の遺伝子と比較して高いかどうかを示す分割表を作成することです (表 1)。これを行うために、エンリッチメント解析は、IL-6産生に関与するDEGカウントと非DEGカウントの割合を決定します。遺伝子オントロジー用語「IL-6産生」に注釈が付けられたDEGの割合は、IL-6産生遺伝子セット (図 1a-iii) をランク付けされた遺伝子リスト (図 1a-i) と比較することで決定できます。 IL-6産生に関与する非DEGの割合は、IL-6産生遺伝子セット (図 1a-iii) をバックグラウンド遺伝子リスト (図 1a-ii) と比較することによって決定できます。次に、IL-6産生に関与しないDEGおよび非DEG数を、ランク付けされた遺伝子リスト ((図 1a-i) およびIL-6の遺伝子セット リスト) で得られたDEGおよび非DEGの総数から差し引くことができます。それぞれの生産量(図 1a-iii)。
DEGと非DEGの総数、IL-6産生に関与する遺伝子と関与しない遺伝子の数を表1に示します。このケーススタディでは説明を簡略化するために、表1に示すような少数の遺伝子数を使用しています。たとえば、調査された合計50個の遺伝子 (表 1の青丸) のうち、25個がDEG (表 1の赤丸) であり、そのうち14個が遺伝子オントロジー用語「IL-6産生」に関連しています (表 1の緑丸)。したがって、25個のDEGのうち14がIL-6産生に関与しています。 DEG のリストにIL-6産生に関与する遺伝子が豊富に含まれているかどうかを判断することは困難であるため、フィッシャーの正確確率検定 (Novogene、2011) などの統計検定を実施する必要があります。フィッシャーの正確確率検定は、2つの変数間に統計的有意性があるかどうかを判断するために使用される統計手法です (Ma & Mao、2019)。フィッシャーの正確確率検定では、IL-6産生経路が遺伝子リスト内で過剰に存在するか、または豊富に存在する確率であるp値が計算されます。p値が小さいほど遺伝子リストにはIL-6産生に関与する遺伝子が豊富であり、その結果は単なる偶然に得られたものではないと言う信頼度が高まります(表 2)。p値が0.005より小さい (p<0.05)ため(表 2)、健康な肝細胞と比較して、IL-6産生はアルコール性肝疾患における重要な経路であると結論付けることができます。
表1. IL-6産生に関与する遺伝子と関与しない遺伝子の割合を示す分割表(Biostatsquid、2023より改変)。説明を容易にするために、少ない遺伝子数が示されていることに注意してください。
1非DEGはバックグラウンド遺伝子リストから得られます (図 1a-ii)。
表2. p-値フィッシャーの正確確率検定によりIL-6産生経路について計算された値 (Biostatsquid、2023 から改変)。
1GO = 遺伝子オントロジー。
p値は、関与する遺伝子がIL-6産生の正の制御因子であるか負の制御因子であるかに関する情報を提供しませんので、各遺伝子は、ランク付けされた遺伝子リストにあるものと照合されます (図 1a-iii)。表 3は、IL-6産生に関与する遺伝子の正および負の制御因子を示しています。
表3. IL-6産生経路に関与する遺伝子の正および負の調節因子 (Biostatsquid、2023 から改変)。
結論
全体として、ケーススタディにおいてエンリッチメント解析から得られた結果は、DEGリストにはIL-6産生経路に関与する遺伝子が豊富であり、IL-6産生は健康な肝細胞と比較してアルコール性肝疾患において重要な経路であることを示しました。
Basepairは、FASTQやBAMなど生データをアップロードして、パイプラインを選択するだけの簡単操作でRNA-Seqのデータ解析が可能です。ボルケーノプロットの作成や遺伝子の絞り込みなどもマウス操作で可能です。GSEAパイプラインも実装済みです。
参考文献
Biostatsquid. (2023). Gene set enrichment analysis (GSEA)- simply explained! Biostatsquid. https://biostatsquid.com/gene-set-enrichment-analysis/
Novogene. (2011). Tools (GO & KEGG) for Gene Set Enrichment Analysis (GSEA). Novogene Co., Ltd. https://www.novogene.com/amea-en/resources/blog/tools-go-kegg-for-gene-set-enrichment-analysis-gsea/
Ma, L., Mao, J. (2019). Fisher Exact Scanning for Dependency, J Am Stat Assoc, 114:525, 245-258, https://doi.org/10.1080/01621459.2017.1397522
Namachivayam, A., Gopolakrishnan, A. V. (2021). A review on molecular mechanism of alcoholic liver disease. Life Sciences, 274: 119328. https://doi.org/10.1016/j.lfs.2021.119328
Naseem, S., Hussain, T., Manzoor, S. (2018). Interleukin-6: A promising cytokine to support liver regeneration and adaptive immunity in liver pathologies. Cytokine Growth Factor Rev, 39:36-45. doi: 10.1016/j.cytogfr.2018.01.002. https://pubmed.ncbi.nlm.nih.gov/29361380/