RNAシーケンスデータ解析のワークフロー

このテクニカルノートは、 RNAシーケンス (RNA-sequencing、RNA-seq)データを解析するための情報とステップを提供します。

バックグラウンド

RNA-seqでは大量のデータが生成されますが、そのままではゲノムコンテキストを持たない配列情報の集まりに過ぎません(つまり、どの遺伝子がどの程度のレベルで発現しているかは不明です)。データセットから最大限の意味を引き出すためには、得られた配列リードをマッピングし、定量化し、解釈することが必要です。このテクニカルノートでは、RNA-seqデータの解析を可能にするワークフローと科学的アプローチについて説明します。

RNA-seqデータ解析は、図1に示すように、主に5つのステップを経て行われます。RNA-seq解析は、参照ゲノムまたは転写配列、遺伝子のエクソンの染色体座標を含む遺伝子アノテーションデータ、および生配列データなどの入力に依存します(Griffith et al.、 2015)。

1. RNA-seqデータ解析のワークフロー。各ステップの目的およびツール例を示します。

ステップ1:品質管理

シーケンシングでは、膨大な数のシーケンスリードが生成されるため、誤った ヌクレオチド がコールされるなどのエラーが発生する可能性があります。その他、 アダプター の混入、リボソーム配列の非効率的な除去、ターゲット リード長 より短いフラグメントの多さなど、潜在的な問題が発生する可能性があります。これらのシーケンスエラーは、解析に偏りを生じさせ、データの誤った解釈につながる可能性があります。したがって、データ解析の最初のステップは、これらのエラーを特定し、FASTQファイルの形で提供される生のシーケンスデータをクリーニングすることです。FASTQは、リードの配列とその品質情報を保存したテキストベースのフォーマットです。このファイルは、以下のようにリードごとに4行のグループで構成されています(Ji & Sadreyev、2018):

ここで、最初の行は「@」で始まり、機器ID(例:NBB500929)、ラン番号(例:247)、フローセルID(例:HL2TYBGX3)を含む固有の配列識別子が続き、フローセル上の DNA フラグメントの位置を指定する数字が続きます。 ペアエンドシーケンス の場合、リード1およびリード2の2つのFASTQファイルには、同じ配列識別子に加えて、DNA断片のリード1またはリード2からの配列であるかを示すリード番号(1または2)が含まれています。2行目はリードの配列で構成されています。3行目は “+”文字で始まり、同じ配列識別子と、オプションとして任意の追加説明が続くことができる。第4行は、各塩基のシーケンス品質スコアを符号化し、Illuminaによる符号化方式(Illumina、2023a)に従って個々の記号として符号化されます(Ji & Sadreyev、2018)。

エラーが特定されると、低品質のリードを破棄し、品質の悪い塩基やアダプター配列を排除するためのトリミングが行われます。品質管理のための一般的なツールは、NGSQC、RNA-SeQC、Trimomatic、PRINSEQ、Soapnukeです(図2a)(Hong et al.、2020; Novogene、2011b)。

ステップ2:リードのマッピング

トリミングが完了したら、次はクリーンリードを参照ゲノムやトランスクリプトームにマッピングまたはアライメントして、参照ゲノム上のリードの位置を特定します。アライメントによって、ミスマッチ、リードの両端にある短い断片の切り抜き、 挿入欠失 (インデル、indels)なども特定することができます。リードを参照ゲノムやトランスクリプトームにマッピングするプログラムはアライナーと呼ばれ、例としてHISAT2、Tophat2、STAR、BWA、Bowtieなどがあります(Hong et al.、2020)。HISAT2プログラムによるスプリットリード比較の一例を図2に示します。

2. HISAT2プログラムによるスプリットリード比較例(Novogene、2011a)。

図3の模式図にマッピングプロセスの例を示します。マッピングの結果例を図3の赤枠に示します。最初のリードは100の位置でアライメントされ、アライメントには2つのミスマッチがあります。2番目のリードは位置114でアライメントされており、左右にクリッピングがあるローカルアライメントです。3番目のリードは123位でアライメントされ、2塩基の挿入と1塩基の欠失からなります(Galaxy Training、2023)。

3. リードアライメントプロセスの模式図(Galaxy Training、2023から改変)。

アライメントの出力は、リードの配列とアライメント結果(配列がアライメントされた参照配列上の位置)が格納されたBAM(Binary Alignment Map)ファイルです。アラインメントされたRNA-seqデータからは、(1)エクソン内に完全にマッピングされた配列、(2)2つのエクソンにまたがるリード、(3)2つ以上のエクソンにまたがるリードという3種類のリードが得られます。マッピングの質もBAMファイルに含まれています。

アライメントされたデータを簡単に可視化するために、Integrative genomics viewer (IGV) などのゲノムブラウザがよく使われます(Hong et al.、2020) 。図4は、IGVブラウザによる可視化結果の一例です。

4. IGVブラウザによる可視化結果例(Novogene、2011a)。

ステップ3:トランスクリプトのアセンブリ

アライメント後、マップされたリードは、元の配列に再構築するために、より大きな連続した配列(コンティグ)にアセンブルされます。このステップでは、Cufflinks、StringTie、Trinity、SOAPdenovoTrans、Trans-ABySなどのアセンブラと呼ばれるプログラムを使用します(Hong et al.、2020)。

ステップ4:発現の定量化

転写モデルが確立されると、各遺伝子がマッピングまたはアライメントされたリードの数をカウントする定量分析が実施されます。カウント数が多いほど、その遺伝子に関連するリードが多く、サンプル中のその遺伝子の発現レベルが高いと推定されます(Novogene、 2011a)。定量解析によく使われるプログラムには、FeatureCountやHTSeq-count(遺伝子レベルの定量)、Cufflinks、eXpress、RSEM(転写レベルの定量)、DEXSeq(エクソンレベルの定量)などがあります(Hong et al.、2020)。

リードカウント後、RNA-seqデータはサンプル間のシーケンス深度、遺伝子長、RNA組成を考慮して正規化(ノーマライゼーション)されます。カウントの正規化は、サンプル間の遺伝子発現を正確に比較するために必要です。次に、この正規化されたデータに対してピアソン相関分析または主成分分析を行い、グループ内およびグループ間のサンプル変動や異常値をチェックします(Novogene、2011a)。図5は、Principal Component Analysisの結果の一例です。

5. Principal Component Analysisの結果例(Novogene、2011a)。

ステップ5:差分発現

最後のステップは、サンプルグループ間で発現が異なる遺伝子を特定し、その機能と潜在的な分子メカニズムを明らかにすることです。これは、DESeq2、EdgeR、CuffDiff2などのプログラムを使用して行うことができます。これらのツールは、ゲノム上の個々の遺伝子や転写物のリードカウントを使用して、比較するサンプル間の遺伝子発現の統計的に有意な差異を判定します。差分発現解析の出力は、有意性、遺伝子名、遺伝子の位置、その機能を決定するためのp値です(Ji & Sadreyev、2018)。

差分発現解析の結果は、Volcano plot、Cluster analysis、Flower plot、Venn diagram などの図を用いて可視化することができます。ボルケーノプロットやクラスター解析では、発現量の多い遺伝子や少ない遺伝子を異なる色で表示します(Novogene、2011a)。図6にボルケーノプロット、図7にクラスタリングヒートマップで発現量の異なる遺伝子を示した例を示します。

図6. 発現量の異なる遺伝子のVolcano mapの例(Novogene、2011a).

7. 差分発現遺伝子クラスタリングヒートマップの例(Novogene、2011a)。

Flower plot や Venn diagram は、異なるサンプル、異なる実験条件、使用する手法の間で、遺伝子や転写産物などの差次的発現特徴の重なりを視覚的に比較するために使用されます。Flower plotでは、中央の円(core)は全サンプルに共通する遺伝子数を示し、花びらは中央の円に加え、各サンプルに固有の遺伝子数を示します。図8は、オーバーラップした差次発現遺伝子を表示したFlower plotの例です。ベン図では最大5サンプルまでしか比較できないので、異なるサンプルに共通する遺伝子の数を示しています。円の大きさと重なり具合は、重なり合った特徴の数に比例します。図9は、遺伝子機能アノテーションのVenn diagramの例です。

図8. 重複した差次発現遺伝子のFlower plotの例(SRplot、2011から改変)。

9. 遺伝子機能アノテーションのVenn diagramの例(Novogene、2011c)。

参考文献

Galaxy Training. (2023). Mapping. Galaxy Training. https://training.galaxyproject.org/training-material/topics/sequence-analysis/tutorials/mapping/tutorial.html

Gleeson, J., Leger, A., Prawer, Y. D. J., et a. (2022). Accurate expression quantification from nanopore direct RNA sequencing with NanoCount. Nucleic Acids Res, 50(4) :e19. doi: 10.1093/nar/gkab1129. https://pubmed.ncbi.nlm.nih.gov/34850115/

Griffith, M., Walker, J. R., Spies, N. C., et al. (2015). Informatics for RNA sequencing: a web resource for analysis on the cloud. PLoS Comput Biol, 11(8): e1004393. doi: 10.1371/journal.pcbi.1004393. https://pubmed.ncbi.nlm.nih.gov/26248053/

Hong, M., Tao, S., Zhang, L., et al. (2020). RNA sequencing: new technologies and applications in cancer research. J Hematol Oncol, 13(1): 166. doi: 10.1186/s13045-020-01005-x. https://pubmed.ncbi.nlm.nih.gov/33276803/

Illumina. (2023a). Quality score ending. Illumina, Inc. https://support.illumina.com/help/BaseSpace_OLH_009008/Content/Source/Informatics/BS/QualityScoreEncoding_swBS.htm

Ji, F., Sadreyev, R. I. (2018). RNA-seq: basic bioinformatics analysis. Curr Protoc Mol Biol, 124(1):e68. doi: 10.1002/cpmb.68. https://pubmed.ncbi.nlm.nih.gov/30222249/

Liao, Y., Smyth, G. K., Shi, W. (2013). featureCounts: an efficient general purpose program for assigning sequence reads to genomic features, Bioinformatics, 30(7): 923–930. doi: org/10.1093/bioinformatics/btt656. https://academic.oup.com/bioinformatics/article/30/7/923/232889

Novogene. (2011a). A basic guide to RNA-sequencing. Novogene Co., Ltd. https://www.novogene.com/us-en/resources/blog/a-basic-guide-to-rna-sequencing/

Novogene. (2011b). RNA-seq results explained: what can you expect from the analysis. Novogene Co., Ltd. https://www.novogene.com/amea-en/resources/blog/rna-seq-results-explained-what-can-you-expect-from-the-analysis/

Novogene. (2011c). Animal and plant de novo sequencing. Novogene Co., Ltd. https://www.novogene.com/us-en/services/research-services/genome-sequencing/denovo-sequencing/animal-plant-denovo-sequencing/#demoresult

SRplot. (2021). Flower plot. SRplot. http://www.bioinformatics.com.cn/plot_basic_flower_plot_039_en.