本テクニカルノートでは、シーケンスリードの リード長DNA 断片から配列決定された塩基対 (basepair、bp))の数。 (read length)、 リード幅特定の領域を適切にキャプチャしてシーケンスする機能。 (breadth) と リード深さゲノム内の特定のヌクレオチドが実験で読み取られた回数。。 (depth) について詳しく解説しています。
シーケンサーリードのリード長 (Read length)
リード長とは、 DNADNAは 「deoxyribonucleic acid」の略で(デオキシリボ核酸)、2本のポリヌクレオチド鎖からなるポリマーで、互いに巻きついて二重らせんを形成しています。 More 断片から配列された塩基対(bp)の数です。ショートリードシーケンスでは長さの短いリード(~80~200bp)が、ロングリードシーケンスでは長さの長いリード(~500bp~2.3Mb)が生成されます(Illumina 2023a)。適切なシーケンスリード長は、サンプルタイプ、アプリケーション、カバレッジ要件によって決まります(Illumina、2023b)。
Illuminaのプラットフォームはショートリードが採用(図1a)、Pacific Biosciences(PacBio)とOxford Nanopore Technologies(ONT)が開発したプラットフォームはロングリードが採用されています(図1b)。PacBioとONTが開発したロングリードシーケンスは、科学者がショートリードで直面する多くの制限を克服しています。ロングリードシーケンスでは、より多くの配列が重なるため、 de novoアセンブリデノボアセンブリは、それらの断片の正しい配列や順序に関する先験的な知識を持たずに、多数の (短いまたは長い) DNA 断片からゲノムを構築する方法です。 やゲノムの繰り返し領域をより確実に解決するのに有効です。発現プロファイリングや計数研究などの他の用途では、長いリードよりも短いリードの方が十分であり、費用対効果も高いです(イルミナ、2023b)。
シングルエンドシーケンスシングルエンドシーケンスとは、シーケンスプロセスが単一方向からのみ実行されることです。 と ペアエンドシーケンスペアエンドシーケンスでは、DNA は両方向からシーケンスされます。 は、シーケンスのリードの種類で、その違いを図1に示します。シングルリードシーケンスは、DNA断片の片端からもう片端までの塩基配列を決定します(図1a)。一方、ペアエンドシーケンスでは、DNA断片の両端をシーケンスすることができます(つまり、DNA断片を一方の端から読み取った後、もう一方の方向に再びプロセスを開始します)(図1b)。2倍の数のシーケンシングリードが得られることに加え、各ペアリード間の距離がわかっているため(例えば、200bpから数千塩基対の間)、アライメントアルゴリズムはこの情報を使って、繰り返し領域上のリードをより正確にマッピングできます。そのため、この方法を用いると、特に配列が難しいゲノムの繰り返し領域において、より正確なリードアライメントが可能になり、構造的な再配列を検出することができます。これらの理由から、ペアエンドシーケンスはシングルレッドシーケンスよりも一般的に使用されています(Illumina、2023b)。
図1. DNAシーケンスアプリケーションのリード長の例(Illumina、2023b)。
シーケンサーリードの幅(Breadth)と深さ (Depth)
シーケンスの幅と深さは、 シーケンスカバレッジシーケンスされたサンプルの各塩基にアラインメントする、または「カバーする」シーケンスリードの平均数。 で表示されます。カバレッジ深度は、「シーケンシングされた断片によってどれだけ強い参照がカバーされているか」という問いに答えるもので、つまり、シーケンシングされたサンプルの各塩基に整列、つまり「カバー」するシーケンスリードの平均数を指しています。配列決定カバレッジレベルは、特定の塩基位置でバリアント発見がある程度の信頼性をもって行えるかどうかを決定することが多いです。
Coverage depthは、Lander/Waterman方程式(Illumina、2023c; Sims et al.、2014)を用いて計算することができます:
例えば、ゲノムサイズが100Mbで、100bpサイズのリードが5M本あれば、ゲノムレベルでのシーケンスカバレッジは5倍となります。
Coverage breadthは、「サンプルのどの程度がシーケンサーでカバーされているか」という問いに答えるものです。シーケンシングリードでカバーされた塩基の割合として報告されます。例えば、95%カバレッジは、サンプル中の95%の塩基がある深さでシーケンスされたことを示します(Sims et al.、2014)。
実験のシーケンスカバレッジ要件は、対象となる特定のアプリケーション、リード長、遺伝子発現レベル、参照ゲノムサイズ、ゲノムの複雑さと反復領域、実験に使用するシーケンスプラットフォームと方法論のエラー率、公開文献、科学コミュニティからのベストプラクティスなどの多くの要因によって変化します(Illumina、2023c;Zhou、2022)。DNA-seqアプリケーションのシーケンスカバレッジ推奨値の例を表1に示します。
表1. さまざまなショートリードおよびロングリードのDNA-seqアプリケーションに推奨されるシーケンスカバレッジ(Zhou、2022)。
1WGSWGS (Whole genome sequencing、ホールゲノムシーケンス)は生物の全ゲノムの塩基の並び順を解析する技術です。 = Whole genome sequencing.
2WESWES (Whole exome sequencing、ホールエクソームシーケン))はゲノム内の遺伝子のすべてのタンパク質コード領域の配列を決定する技術です。 = Whole exome sequencing.
Basepairは、FASTQやBAMなど生データをアップロードして、パイプラインを選択するだけの簡単操作でデータ解析が可能です。ショートリード、ロングリードいずれも対応しています。
参考文献
Illumina. (2023a). Illumina sequencing platforms. Illumina, Inc. https://www.illumina.com/systems/sequencing-platforms.html
Illumina. (2023b). Read length recommendations. Illumina, Inc. https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/read-length.html
Illumina. (2023c). Coverage depth recommendations. Illumina, Inc. https://www.illumina.com/science/technology/next-generation-sequencing/plan-experiments/coverage.html
Sims, D., Sudbery, I., Ilott, N. et al. (2014). Sequencing depth and coverage: key considerations in genomic analyses. Nat Rev Genet, 15: 121–132. doi: org/10.1038/nrg3642. https://pubmed.ncbi.nlm.nih.gov/24434847/
Zhou, Y. (2022). A beginner’s guide to DNA-seq: bioinformatics analysis [webinar]. Novogene Co., Ltd. https://www.novogene.com/us-en/resources/onlineevent/a-beginners-guide-to-dna-seq-bioinformatics-analysis/