转录组这十年
转录组这十年
今天解读的文献是发表在 Nature Reviews Genetics 上的一篇综述文章 《RNA sequencing: the teenage years》。
在过去的十多年中,RNA 测序技术已经成为在全转录组范围内分析差异基因表达和 mRNAs 差异可变剪接的重要工具。随着二代测序技术的发展,RNA-seq 技术也在不断发展。现在,RNA-seq 已经被用于研究 RNA 生物学的许多方面,如单细胞基因表达、翻译和 RNA 结构等。
同时,RNA-seq 的其它应用也在开发中,例如空间转录组 (Spatialomics)。新的长读长和 RNA 直接测序技术以及用于数据分析的计算工具的整合有助于人们更全面地理解 RNA。
1 背景简介
RNA-seq 技术发展了 10 多年了,自其诞生之日起,RNA-seq 就成了研究分子生物学的常用工具,这项技术几乎构成了我们对基因组功能的认知基础 。RNA-seq 中最常用的分析方法就是寻找差异表达基因(Differential gene expression, DGE)。从最早的出版期刊开始,DGE 分析的基本步骤就未发生实质性的改变。其标准流程通常分为 3 步:
构建测序文库,这一步包括提取 RNA,富集 mRNA 或去除 rRNA,反转录成 cDNA,添加测序接头。
在高通量测序平台上对构建好的测序文库进行测序。
数据分析。具体的工作是:对测序得到的读长进行比对(aligning)和/或组装到转录组上,对这些覆盖了转录组的读长进行过滤,归一化(Normalization),根据统计模型找出那些在不同样本之间有差异的转录本。
早期的 RNA-seq 从大量的实验样本中产生了DGE数据,这充分说明了RNA-seq在广泛的物种以及组织中的使用,这些生物体包括玉米(Zea mays), 拟南芥(Arabiodopsis thaliana), 酿酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人类。虽然RNA-seq这个术语经常被用于那些完全不同的方法学方法和/或生物学,但是DGE分析仍然是RNA-seq 的主要应用,并被视为常规研究工具。
RNA-seq的更广泛应用已经促进了我们对生物学多方面的理解 ,例如通过提示mRNA剪接和非编码RNAs和增强子RNAs对基因表达的调控。RNA-seq的应用和进步是由技术发展(湿实验室和计算生物学)驱动的,相对于以前的基因芯片,RNA-seq这种方法对RNA生物学和转录组产生更丰富并且偏见更小的信息。到目前为止,从标准的RNA-seq方法衍生而来的各种RNA-seq方法几乎有100种。Illumina的短读长(short-read)测序平台能对这些由大部分不同方法的RNA-seq构建的文库进行测序,但是最近长读长(long-read)RNA-seq的与直接RNA-seq测序(direct RNA sequencing, dRNA-seq)的进步已经能够解决以前研究人员使用短序列手段无法解决的一些问题。
在这篇综述中,作者首先介绍了一些最基本的短读长RNA-seq中的DGE方法,再将这种基础方法与最近新兴的长读长RNA-seq和dRNA-seq进行比较。作者会介绍短读长测序方法在文库制备方面的进展,以及实验设计和DGE的数据分析方法。随后我们会拓展这些常规的RNA-seq方法,介绍一些单细胞测序和空间转录组学的分析。同时作者提供了一些案例,介绍RNA-seq在RNA生物学方面的关键应用,包括转录组分析,翻译动力学,RNA结构,RNA-RNA之间相互作用和RNA-蛋白质的相互作用。最后,作者简单描述了 RNA-seq 的未来,以及单细胞和空间RNA-seq方法是否会像 DGE 分析一样成为常规工具,长读长测序方法是否会取代短读长测序方法。由于篇幅限制,作者没有介绍所有的 RNA-seq 方法,在这些方法中,值得注意的是非编码转录组学,原核转录组学(prokaryotic transcriptomes)和表观转录组学(epitranscriptome)。
1.1 长读长(long read)
测序产生长度超过 1000bp 的测序片段。通常超过 1000 bp 的序列可能包含全长 mRNA 或者接近全长 mRNA。
1.2 RNA 直接测序 (Direct RNA sequencing, dRNA-seq)
直接对 RNA 进行测序,而不对RNA进行处理或逆转录。这种方法通常也是为了获得全长 mRNA 或者接近全长的 mRNA。
1.3 多比对序列(Multi-mapped reads)
Sequencing reads from homologous regions of the transcriptome that cannot be unambiguously mapped to the transcriptome or genome.
1.4 合成长读长 (Synthetic long reads)
A method for generating long reads from multiple short reads by assembly.
1.5 唯一分子标签(Unique molecular identifiers, UMis)
Short sequences or barcodes usually added during RNA sequencing (RNA-seq) library preparation (but also by direct RNA ligation), before amplification, that mark a sequence read as coming from a specific starting molecule. The approach is used to reduce the quantitative biases of RNA-seq and is particularly useful in low-input or single-cell experiments.
1.6 读长长度 (Read length)
The length of the individual sequencing reads, which is usually 50–150 bp for short-read RNA sequencing.
1.7 敏感性 (Sensitivity)
A measure of the proportion of transcripts present in the sample that are detected. it is affected by sample handling, library preparation, sequencing and computational biases.
1.8 特异性 (Specificity)
A measure of the proportion of differentially expressed transcripts that are correctly identified. it is affected by sample handling, library preparation, sequencing and computational biases.
1.9 标签序列 (Tag read)
A read that is unique to a transcript, usually from the 3΄ end of mRNA, for differential gene expression analysis, or the 5΄ end, for analysis of transcription start sites and promoters.
1.10 重复序列 (Duplication rates)
The frequencies at which sequencing reads for an RNA sequencing (RNA-seq) sample map to the same location in the transcriptome. in RNA-seq libraries, duplication rates can seem high for some transcripts because they are present at wildly different levels in the sample. Highly expressed genes will have high duplication rates, while low expressors may have minimal duplication. RNA-seq presents a particular challenge, as much of the duplication may be genuine signal from highly expressed transcripts, while some may be attributable to amplification and sequencing biases.
1.11 单端测序 (Single-end sequencing)
Short-read sequencing performed from one end of the cDNA fragment, commonly used for differential gene expression experiments, due to its low cost.
1.12 双端测序 (Paired-end sequencing)
Short-read sequencing performed from both ends of the cDNA fragment, often used for differential gene expression experiments, where maximum sensitivity to splicing is required because more bases of the individual cDNAs will be sequenced.
1.13 生物重复 (Biological replicates)
Parallel measurements of biologically distinct samples, such as tissue from three subjects, that capture natural biological variation, which may itself be either a subject of study or a source of noise.
by contrast, technical replicates are repeated measurements of the same sample — for example, the same tissue processed three times.
1.14 表达矩阵 (Expression matrix)
Matrix of values capturing the essential data for a differentialexpression RNA-seq experiment. Rows are RNA features, such as genes or transcripts, with one column per sequenced sample. Values are generally counts of the number of reads associated with each RNA feature; these may be estimated for isoform features and are often transformed via normalization before subsequent analysis.
1.15 Spike-in control
A pool of exogenous nucleic acids added at known concentration to a sample before processing. They are usually synthetic RNAs pre-pooled at varying concentrations and used to monitor reaction efficiency and to identify methodological bias and false-negative results.
1.16 Spatialomics
Transcriptome analysis methods that preserve the spatial information of individual transcripts within a given sample, usually a tissue section.
1.17 Nascent RNA
RNA that has just been transcribed, as opposed to RNA that has been processed and transported to the cytoplasm.
1.18 4-Thiouridine
(4 sU). A thio-substituted nucleoside not naturally found in eukaryotic mRNAs, which is easily incorporated into nucleic acids and is used in nascent RNA analysis.
1.19 翻译组学 (Translatome)
The complete set of proteins translated from mRNA in a cell, tissue or organism.
1.20 结构组学 (Structurome)
The complete set of secondary and tertiary RNA structures in a cell, tissue or organism.
1.21 互作组学 (Interactome)
The complete set of molecular interactions in a cell, tissue or organism, including RNA–RNA or RNA–protein interactions.
2. RNA-seq 测序技术的发展
Illumina 公司二代短序测序技术的应用已经产生了 SRA 数据库中 95% 的数据。这些数据大多来源于对 RNA 反转录产物 cDNA 的测序得到的。近几年逐渐兴起的长读长测序及 RNA 直接测序对广泛使用的二代测序提出了挑战。
三者测序技术的文库构建流程如上图,常规的短片段测序通常经过 RNA 随机打断、反转录为 cDNA、加测序接头、PCR扩增、片段选择后进行上机测序;长读长测序跳过了第一步 RNA 随机打断,保持了 mRNA 的完整性;而RNA 直接测序则只保留了添加测序接头的步骤,对RNA进行直接测序。
不同建库及测序方法带来了不同的优势和不足,下面逐一进行分析。
2.1 DGE 中短片段 cDNA 测序
目前主流的二代短片段测序中,主要的测序平台为 Illumina (一家独大)。二代测序短读长已经成了在整个转录组范围内对基因进行检测和定量的常规方法,部分原因是这种方法比芯片成本更低,操作更方便,但是其主要原因还是因为这种方法能生成更全面,更高质量的数据,这种方法能够对整个转录组中的基因表达水平进行定量。
使用 Illumina 短读长测序平台进行 DGE 分析的核心步骤包括:RNA提取、cDNA合成、接头连接、PCR扩增、测序和数据分析 (图1a)。由于在建库过程中存在片段打断,片段长度选择和基于磁珠的文库纯化等操作,因此该方法产生的 cDNA 片段通常都是在 200bp 以下。RNA-seq文库的测序读长分配到每个样本上的话,每个样本会测到平均 20-30 million条读长(reads)(也就是常说的20-30M条读长),数据经过处理后,使用这些读长对每个基因或转录本进行定量,最后再用统计学方法来统计基因的差异。
短读长 RNA-seq 方法很稳健,并且通过对短读长测序技术的大范围比较发现,这种技术在平台内和平台间的相关性很好。但是,在样本制备和数据分析这两个阶段会引入一些干扰和偏倚。这种局限可能会影响通过实验来解决特定生物学问题的能力,例如准确识别和量化多个异构体中的哪个来源于一个基因。对于研究那些非常长,高度可变的转录本异构的人来说,这种缺点表现得尤为明显,例如在人类转录组研究中;人类转录本的长度范围是 109bp 到 186kb,其中 50% 转录本长度大于 2500bp。尽管短读长 RNA-seq 可以对最长的转录本进行详细的分析,但是涉及的实验方法不能扩展到全转录组分析。其他的偏倚与局限来源于那些大量的计算方法,这些方法包括例如如何处理模糊或多比对的读长 (multi-mapped reads)。现在出现了一种合成长读长(synthetic long reads)的新方法,这种方法可以实现全长的 mRNA 测序,并试图解决其中的一些局限。这种方法使用了唯一分子标签 (unique molecular identifiers,UMI)来标记全长的cDNA,在制备短读长 RNA 文库之前,加入的 UMI 会随着单个 cDNA 分子而进行复制。转录本异构体可以在高达 4kd 的 contigs 中重建,用于发现异构体和表达分析。但是,对于从根本上解决短读长 cDNA 测序固有局限的最可能解决方案则是长读长 cDNA 测序和 dRNA-seq 测序 。
2.2 长读长 cDNA 测序
虽然 Illumina 测序目前是主流的 RNA-seq 平台,但 PacBio 和 Oxford Nanopore(ONT) 公司都提供了可供选择的长读长测序技术,能够对完整的单个 RNA 分子进行单分子水平的测序。通过消除短 RNA-seq 测序数据的组装这一步,这些新方法克服了短读长测序方法相关的一些问题。例如,减少了测序读长回贴过程中的歧义,并且可以识别更长的转录本,这样就能获取更完整的异构体多样性信息。这些方法还能降低许多短读长RNA-seq计算工具中关于剪接连接的假阳性。
PacBio 的 Iso-Seq 技术可以读取最高可达 15kb 的转录本的全长 cDNA,这就有利于发现大量以前未注释的转录本,并通过检测物种的全长同源序列证实了早期的基因预测。在标准的 Iso-Seq 操作流程中,高质量的 RNA 被反转录为全长的cDNA。生成的cDNAs再经过 PCR 扩增,加入到 PacBio 的单分子实时 (single-molecule, real-time)文库制备系统中。制备好的短转录本序列可以很快地扩散到测序芯片的活性表面,但由于短转录本的测序存在偏倚,因此在对转录本进行测序时,建议选择片段的长度是 1kb 到 4kb,这样就能在此范围对长转录本和短转录本进行更加均匀地采样。由于PacBio测序方法需要大量的模板,因此需要进行多轮PCR,不过这一操作还需要进行优化,从而降低扩增导致的偏好性。经过 PCR 的末端修复和 PacBio SMRT 接头连接后,就可以进行长读长测序了;通过修改测序芯片的上样条件,就可以在这一步骤进一步控制测序片段长度。
ONT cDNA 测序方法也能产生全长的转录本读长,甚至还能在单细胞水平上产生该读长。模板转录逆转录酶也在这种方法中用于制备全长cDNA,制备好的cDNA可以选择使用PCR来进行扩增,随后在产物上加上接头,形成测序文库。直接cDNA测序会消除PCR偏倚,从而形成高质量的测序结果;但是,如果使用PCR来制备测序文库的话,需要的RNA数量更少。ONT cDNA测序法尚未报道过在PacBio测序仪上观察到的片段长度偏倚。
这两种长读长cDNA方法都受到标准模板切换逆转录酶使用的限制,这种逆转录酶能用全长RNA以及截短的RNA来生成cDNA。逆转录酶可以将那些只含5ʹ帽子结构的mRNA置换为cDNA,这样的话,那些由于RNA降解,RNA剪接或不完全cDNA合成而生成的短转录本就不会被反转录为cDNA,从而提高数据质量。但是,有报道指出,逆转录酶会对ONT平台的读长产生不良影响。
2.3 长读长 RNA 直接测序
前面提到的长读长测序方法与短读长测序平台一样,它们都依赖于将mRNA转换为cDNA。而最近Oxford Nanopore指出,他们的纳米孔测序技术可以直接对RNA进行测序,也就是说,这种测序手段不需要常规测建库过程中的的cDNA的合成和/或PCR扩增操作。这种方法称为dRNA-seq,这种方法就消除了常规建库过程中的偏好性,并且能够保留表观遗传学信息。这种方法可以从RNA直接进行两个接头的连接来制备文库。首先,带有一个oligo(dT) 悬臂的双链核酸接头退火并连接到 RNA 的多聚腺苷酸(PolyA)尾部,随后就是可选(但不推荐的)的逆转录操作,这一步用于提高测序的通量。第二个连接操作就是添加测序接头,这个测序接头上已经提前安装有驱动测序的马达蛋白。文库随后进行MinION测序,其中RNA直接从3ʹpoly(A)尾部向5ʹcap端进行测序。
最初的研究表明,dRNA-seq 的测序长度过超过1000bp,最大测序长度过超过10kb。
与短读长测序相比,这种长读长测序的几个优势在于:长读长测序可以提高对异构体的检测,并且它们还可以用于下方代码poly(A)尾巴的长度,这对于可变poly(A)分析( alternative poly(A) analysis)来说非常重要。
Nanopolish-polya这个工具可以对那些用纳米孔测序得到的数据进行分析,计算出poly(A)尾的长度,这就包括基因之间的长度,也包括转录亚型之间的长度。这种分析证实了,保留内含子的转录本比完全剪接的转录本具有略长的poly(A)尾巴。虽然dRNA-seq还处于起步阶段,但是它具有检测RNA碱基修饰的潜力,因此它的应用潜力巨大,尤其是能够对表观遗传学转录进行新的分析。
2.4 短片段和长片段技术的比较
虽然长读长技术在评估转录本方面比短读长技术有一些明显的优势,但是长读长技术也有一些明显的局限。尤其是与短读长技术相比,长读长技术的测序通量更低,错误率更多。但长读长技术的主要优势在于,它们能够捕获更多的单个转录本,不过这依赖于高质量的RNA文库。总体来说,这些局限影响了那些完全依赖于长读长测序实验的灵敏性(sensitivity)与特异性(specificity)。
长读长测序方法的主要局限就是当前的通量比较低。在 Illumina 测序平台上,运行单次的 RNA-seq 可以生成10e9-10e10 条短读长,但是在 PacBio 和 ONT 平台上,一次 RNA-seq 则只能产生10E6-10E7条读长。这种低通量限制了应用长读长测序技术进行实验的规模,并降低了对差异基因表达检测的灵敏性。
然而,并非所有的实验都需要高深度测序。对于那些主要研究异构体的发现以及其特征的研究者们来说,测序长度比测序深度更重要。例如1百万个 PacBio 环形一致性测序(circular consensus-sequencing, CCS)的读长几乎就可以保证产生那些大于1kb的高表达基因的检测,ONT测序技术也是如此。因此,对于那些低到中等水平表达的基因来说,测序深度确实是一个主要问题。当进行同期功能基因组学分析(contemporary functional genomics analysis)大规模的DGE实验时,这种低通量测序技术的局限就会表现得明显。在这些研究中,必须对多个样本组进行分析,每组就是由多个生物学重复构成的,这样就能够实现充分的统计功效来有确认那些在整个转录组水平上发生的精确变化。对于这种需求,长读长技术不太可能取代短读长技术,除非长读长的测序读长的生成量能提高2个数量级。随着全长RNA-seq读长数目的增加,转录本检测的灵敏度将会增加到类似于Illumina平台上的这种水平,并同时具有更高的特异性。与此同时,通过将Illumina 的短读长RNA-Seq与PacBio的长读长Iso-Seq结合(并且可能还与ONT方法结合),可以增加全长RefSeq注释的异构体检测的数量、灵敏性和特异性,同时保留转录本量化的质量。虽然长读长RNA-seq方法目前的实验成本较高,但它们可以检测到短读长方法遗漏的异构体,尤其是那些难以测序但与临床相关的区域,例如高度多态的人类MHC或雄激素受体。
长读长测序平台的第二个主要局限就是其更高的错误率,它比成熟的Illumina测序仪要高出一到两个数量级。长读长测序平台上生成的数据还包含更多的插入-删除错误。虽然这些错误与识别变化(variant calling)有关,但在RNA-seq中,每个碱基都被正确识别并非那么重要而长读长测序的目标是要阐明转录本和异构体(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)。这种错误率对于其应用来说确实是一个值得观注的问题,现在正在解决这一问题。PacBio SMRT测序平台上出现的随机错误通常可以通过使用CCS增加测序深度来进行解决,在这种技术里,cDNA经过长度选择和接头进行环化后,每个分子就可以被多次测序,从而产生长度范围是10-60kb的连续长读长,并且包含许多原始cDNA的拷贝。这些长读长经过数据分析后就被处理为单个cDNA子子读长(subreads),这些子读长被组合后就可以产生一致的序列。分子测序的次数越多,产生的错误率就越低;CCS已经被证明可以将错误率降低到与短读长相当的水平,甚至更低。但是,将更多的这个平台的测序能力用于重新读取相同的分子,就又加剧了其测序通量的问题,因为可以读取的唯一转录本变得更少了。
长读长RNA-seq方法的灵敏度还受到其他几个因素的限制。首先,它们依赖于长RNA分子以全长转录本的形式进行测序,但是要达到这种情况并非总能实现,因为在样品处理和RNA提取过程中RNA会发生降解或剪接。这种情况在短读长RNA-seq中也存在(3ʹ端的偏倚),但这种问题在短读长中是可控的,对于全长转录组分析进行研究的研究者们来说,即使是低水平的RNA降解,也能限制长读长的RNA-seq效果。因此,对于那些即将使用长读长进行测序的研究者来说,需要仔细地对提取的RNA进行质控。其次,中位数的读长长度会进一步受到文库制备中的技术问题与偏倚的限制,例如有些cDNA合成的截断或某些cDNA是由降解的mRNA合成的,最近开发的高效逆转录酶对此有所改进,这些酶有着更高的链特异性,甚至能够产生更多的3ʹ-5ʹ转录本的覆盖。虽然这些酶还未被广泛使用,但是这些高效逆转录酶也提高了结构稳定的RNAs,例如tRNAs的覆盖率,在oligo-dT和全转录组分析(WTA)方法中使用的逆转录酶很难处理这些结构稳定的RNAs。第三,长读长测序平台固有的偏倚(例如长文库分子在测序芯片表面上的低扩散)会降低更长转录本的覆盖率。
长读长方法(使用cDNA或dRNA-seq)解决了用于异构体分析的短读长测序方法中的一个基本问题,即它们的读长长度。长读长方法可以生成从Poly(A)尾部到5ʹcap的跨异构体的全长转录本读长。因此,这些方法使得分析转录本及其异构体成为可能,从而无需从短的读长中重构它们或推断它们的存在;每个测序的读长仅仅代表了它的起始RNA分子。全长cDNA测序或dRNA-seq用于分析DGE的未来应用将依赖于PacBio和ONT技术的更高通量。长读长RNA-seq分析正被研究者们迅速采用,并与深度短读长RNA-seq数据结合起来,用于更全面的分析,这非常类似于基因组组装所采取的混合方法。随着时间的推移,长读长和dRNA-seq方法可能会用于证明已经鉴定的基因和转录本的列表,即使在研究很透的生物中,对于基因和转录本的研究也还远远不够。随着方法的成熟,以及测序通量的增加,差异转录本分析将会成为常规方法。合成长读长RNA-seq或其它技术的发展将对这个领域产生什么样的影响,还有待观察。然而从目前来看,Illumina短读长RNA-seq依然占据了主导地位,在这篇综述的剩下部分中我们将会集中讨论短读长测序。
3. RNA-seq 建库方法的改良
RNA-seq 最初用于分析多聚腺苷酸化的转录本,使用的方法源于早期的表达序列标签 (expressed-sequence tag)和芯片研究。然而,下一代测序的使用指出了这些方法的局限性,而这些局限性在芯片数据中并不明显。因此,在RNA-seq 首次报道后不久,就有研究报道了文库制备方法的一些重大进展。例如,在cDNA合成之前,对RNA进行片段化可以产生3ʹ:5ʹ偏倚,链特异性文库制备方法能够更好的区分正义链与反义链,这些改进都能够对转录本丰度进行更准确的估计。RNA片段化和链特异性文的制备很快就成了RNA-seq文库制备试剂盒中的标准方法。这里我们简要描述了其它RNA-seq方法的改良,使用这些改进方法的可以让研究者们根据他们的生物学问题以及特定样本进行选择。这些改进的方法包括在选择RNA进行测序时,取代dligo-dT富集的替代方法,或者是那些专门选择转录本的3ʹ或5ʹ末端的方法,或者是使用UMIs进行区分技术重复和生物重复的方法,以及针对RNA易降解特性改良的文库制备方法。这些方法的组合可以使研究者们阐明由可变poly(A)(alternative poly(A),APA),或替代启动子(alternative promoter)使用和可变剪接(alternative splicing)生成的复杂转录本。
3.1 Poly(A)富集的替代方法
大多数发表的RNA-seq数据都是基于 oligo-dT 富集 mRNA 的方法,这种方法会选择包含poly(A)尾的转录本,并将集中测序那些在转录组的蛋白质编码区上。不过这种方法除了产生3ʹ偏倚外,RNA 中还有许多非编码RNA,例如miRNA和增强子RNA,这些RNA不含有 poly(A),因此不能使用这种方法进行研究。如果不进行poly(A)富集也无法达到目的,因为这会导致高达95%的读长来源于rRNA。因此,研究者们可以选择使用oligo-dT用于mRNA-seq,或者是剔除rRNA后进行WTA。短的非编码RNAs无法被oligo-dT方法捕获,使用WTA也很难对其进行研究,因此在研究非编码短RNA时需要特定的小RNA方法,这些方法主要是通过顺序RNA连接(sequential RNA ligation)实现的(通常小RNA建库试剂盒中就有相应的说明)。
WTA生成的RNA-seq数据来源于编码和一些非编码RNA。RNA的部分降解也能使用这种方法进行测序,RNA的降解会导致一些poly(A)从转录的末端分离。rRNA的去除有两种方法,一种是将rRNAs从其它RNA中剔除掉(所谓的pull-out法),另一种就是使用RNAse H酶来对rRNA进行降解。这两种方法都是使用序列特异性和物种特异性寡核苷酸探索来实现的,这些探针能与细胞质rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和线粒体rRNA(12S rRNA和16S rRNA)互补。为了简化人类,大鼠,小鼠或细菌(16S和23S rRNA)样本的处理,通常将预先混合的寡核苷酸添加到RNA中,然后让它们与rRNA进行杂交,以便进行下一步的清除。其它高丰度的转录本,例如珠蛋白(globin)或线粒体RNA也可以按照类似的方法去除。pull-out方法结合了生物素化的探针和链霉素包裹的磁珠,它们可以用于除去寡聚的rRNA复合物,留下剩余的RNA用于建库例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA复合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近对这些方法的比较说明,在高质量的RNA中,这两种方法都可以将rRNA降低至后续RNA-seq读长的20%以下。但是,作者说明了,RNase H方法比pull-out法的稳定性要强,并且比较不同试剂盒时,最后得到的DGE长度的偏倚比较明显。作者还描述了另外一种类似于RNase H的方法,这种方法表现不错,并且以前没有报道过。ZapR方法是Takara Bio的一项专有技术,它使用一种酶来降解RNA-seq文中的rRNA片段。rRNA剔除方法的一个局限是,相比对oligo-dT RNA测序方法,rRNA剔除方法需要更高的测序深度,主要是因为里面还会存有一定的rRNA。
Oligo-dT和rRNA剔除法都可以用于后续实验的DGE分析,研究者们可能会默认使用以前在他们的实验室中使用的方法或最容易使用的方法。然而,对于这些方法的使用应该考虑一些因素,尤其是那些易降解的样本,另外,WTA方法会检测到更多的转录本,但是其实验成本要高于oligo-dT方法。
3.2 富集的RNA 3ʹ末端用于Tag RNA-seq以及可变多聚腺苷酸分析Enriching RNA 3ʹ ends for Tag RNA-seq and alternative polyadenylation analysis
标准的短读长Illumina方法需要对每个样本生成1000万到3000万条(10M到30M条)读长用于高质量的DGE分析。对于那些专注于基因水平表达,并从事大型或高度重复实验的研究者们,或资源受限的研究者来说,可以选择使用3ʹtag计数。由于测序集中在转录本的3ʹ末端,因此需要的读长(reads)更少,这就降低了成本**,并且一次测序的样本数目也可以更多。富集的3ʹ末端也可以用于确定单个转录本的poly(A)位点,而由于mRNA前体上存在的APA,其3‘末端可能会发生变化 (PS:目前单细胞转录组商业王者10X就是采用这种方法,仅仅是对3ʹ末端测序)。
3ʹ mRNA-seq方法会产生每个转录本的单个标签读长 (tag read),这些读长来源于3ʹ末端,这个标签(tag)丰度与转录本的丰度是成正比的。标签测序法 (tag-sequencing protocols),例如QuantSeq (Lexogen, Austria) 通常比标准RNA-seq法流程更为简单。标签测序法已经进行了优化,这种方法使随机引物或锚定的oligo-dT-primed来进行cDNA合成,从而并不需要poly(A)富集这一步骤,并在cDNA合成后立即进行PCR,从而取代了接头连接步骤。这种方法可以在低测序深度上实现与标准RNA-seq类似的灵敏度水平,因此,这种方法可以使用多路复用的形式实现多个文库的同步测序。这种建库方法的数据分析也进行了简化,因为不需要外显子连接检测和基因长度测序读长的归一化。但是,3ʹ mRNA-seq方法可能会被受到转录本同聚区(homopolymeric regions0的影响,这会导致错误标签;这种方法只能提供非常有限的异构体分析,这就会抵消它们较低测序深度带来的任何成本收益,尤其是对于那些仅够一次使用的样本来说。
mRNAs 的 APA化会产生 3ʹ UTR 长度不等的异构体。对于一个特定的基因来说,它不仅产生了这个基因的多个亚型,而且由于 3ʹUTR 中存在着顺式调控元件,这也会影响该转录本的调控。这种方法可以使用那些研究APA的研究者们更详细地研究miRNA的调控作用,mRNA的稳定和定位,以及mRNA的翻译。APA法指在富集转录本的3ʹ末端,从而提升信号与灵敏度,而前面提到的标签测序法非常适合此目的。
其它方法多聚腺苷酸位点测序(polyadenylation site sequencing,PAS-seq),这种方法可以将mRNA打断为150bp左右的片段,并且使用oligo-dT标记的模板转换来生成cDNA用于测序,其中的80%读长就来源于3ʹUTR。TAIL-seq方法能不使用oligo-dT,在对RNA进行打断之前,这种方法会剔除rRNA,并将3ʹ-RNA接头连到的poly(A)的尾部。当片段化后,再加上5ʹ-RNA接头就完成了RNA-seq文库的制备。在RNA-蛋白分析方法中也能评估APA,例如紫外交联免疫沉淀(cross- linking immunoprecipitation, CLIP)测序。
3.3 富集的RNA 5ʹ末端用于起始位点回贴Enriching RNA 5ʹ ends for transcription start- site mapping
使用富集7-甲基鸟苷5ʹ加帽RNA(7-methylguanosine 5ʹ-capped RNA)也可以进行DGE分析,这种方法可以用来鉴定启动子和转录起始位点(TSSs)。现存有几种方法都可以实现这个目的,但是这些方法很少作为常规手段来进行使用。在对基因表达的加帽分析(CAGE, cap analysis of gene expression),以及用于基因表达分析的启动子的RNA注释和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,当使用随机引物生成第一链cDNA后,mRNA 5ʹ的帽子结构就被生物素化,这就可以将5ʹ cDNA通过链霉亲和素进行富集。CAGE使用II型限制性内切酶来生成短的cDNA标签,这种酶会从5ʹ端的接头下游切割21-27p的核核苷酸。相比之下,RAMPAGE操作则使用模板转换(template switching)来生成较长的cDNA,这个cDNAs随后被富集起来,用于测序。单细胞标签逆转录测序技术(single-cell-tagged reverse transcription sequencing, STRT-seq)能够在单细胞水平上实现TSS的回贴(mapping)。STRT-seq技术使用生物素化的模板转换oligos来生成cDNA,被磁珠捕获后,就在5ʹ末端进行片段化,产生短的cDNA标签。作为CAGE基础的5ʹ末端的加帽技术是由日本理化所(Riken)开发的,这种技术用于早期功能基因组学实验中,使全长cDNA克隆数量最大化。日本理化所主导的小鼠功能注释(FANTOM, Functional Annotation of the Mouse)协会通过阐明了1300多个人类和小鼠原代细胞,组织和细胞系的TSS,这充分显示了CAGE的强大。在最近一些方法比较中,CAGE也表示不俗。但是作者却报道说,仅使用5ʹ末端测序产生的假阳性TSS峰也是最多的,他们建议使用正交方法进一步来确认阳性,例如DNase I的回贴或H3K4me3染色质免疫沉淀测序(ChIP-seq)。
3.4 使用唯一分子标识符来检测PCR重复
RNA-seq 数据通常具有较高的重复率 (duplication rates),也就是说许多测序读长会回贴到转录组的相同位置。与全基因组测序不同的是,在全基因组测序中,重复的读长被以认为是PCR这一步中出现的技术偏倚导致的,它会被移除,而在RNA-seq中,这些重复的读长则被认为是真正的生物学信号并被保留。在一个样本中,数百万个起始RNA分子也许代表了高表达的转录本,当对cDNA进行测序时,就会发现很多片段是相同的。因此,在比对(alignment)过程中,并不建议通过计算去除那些不必要的重复,因为这些重复中很多是真正的生物信号。当使用单端测序(single-end sequencing)时更是如此,因为一对片段中只要一端相同,就可以被认为是一个重复(duplicate),至于双端测序(paired-end sequencing),两端必须在同一位置时才能被认为是一个重复,但这种情况很少。但是,由于PCR偏倚,在制备cDNA文库时,还会存在着某种程度上技术重复,并且PCR复制偏倚是一种质控问题,它有可能对RNA-seq实验结果造成影响时,很难区分出这些技术重复与生物重复的程度。
现在已经提到将UMIs作为一种解释扩增偏倚的方法。在扩增前将随机UMIs添加到cDNA分子中,使得能够确认PCR重复,并且可以在后续的数据分析中将其除去,同时保护真正的生物学重复,从而改善基因表达的量化和等位基因频率估计的效果。当一对测序读长被确认为一个技术重复时,它们应该包括相同的UMI,并且被回贴到转录组中相同的位置(一端或两端,这取决于使用的是单端测序还是双端测序)。
UMIs已经被证明能够降低变异和错误发现率来提升RNA-seq中的DGE数据分析,并且这种方法在单细胞数据分析方面也有着重要作用,单细胞数据中的扩增偏倚可能更为严重。当试图在RNA-seq数据中进行变异检测(variant calling)时,UMIs也非常有用。虽然高表达的转录本可以产生适合这种变异检测的高覆盖率,尤其是包含了了这种重复时,但UMIs可以用于去他可能导致第二位基因频率错误计算的扩增假象。UMIs正在成为单细胞RNA-seq(scRNA-seq)的文库制备试剂盒中的标准,同时它也日益频繁地用于常规RNA-seq。
3.5 降解RNA的分析的改进
RNA-seq文库制备方法的发展也改进了低质量或降解RNA的分析,例如从临床相关获得的那些用福尔马林固定石蜡包埋(FFPE)块存储的样本中的RNA。低质量的RNA会导致不均匀的基因覆盖率,更高的DGE假阳性率和更高的重复率,它们与文库的复杂性呈负相关。但是,文库的制备方法已经被改良,改良后的方法能降低RNA降解的影响。这些方法可能在基于RNA-seq的诊断技术的发展中显得尤为重要,例如将来有可能出现的类似于OncotypeDX(目前并不是测序分析)的诊断,这种试剂盒基于21个基因RNA的标签来预测乳腺癌的复发。虽然现在有几种方法可以使用,但是比较后发现两种方法表现最好,即RNase H与RNA exome。我们前面提到,RNase H法使用核酸本科来降低RNA:DNA复合物中的rRNA,但是它却能阻止mRNA的降解。RNA exome方法使用类似于外显子测序(exome sequencing)那样的方法,使用寡核苷酸探针来捕获RNA-seq文库分子。这两种方法都能通过减少rRNA,同时不影响mRNA的手段来产生高质量和高度一致的基因表达数据。3ʹ末端标记测序技术与扩增子测序(在PCR扩增中能产生超过2万个外显子扩增子)方法也可以用于分析降低的RNA,但是这两种方法并没有RNase H方法使用广泛。
4. 设计更好的RNA-seq实验
仔细设计DGE RNA-seq实验对于获取高质量和生物意义数据有着非常重要的意义。尤其是要考虑到复制的层次,测序深度以及单端还是双端测序。
4.1 重复与实验功效
在一个实验中,足够的生物学重复(biological replicates)能够捕获不同样本之间的生物学变异;在定量分析中的置信度依赖于测序深度与读长长度。虽然RNA-seq比芯片表现了更低的技术偏倚,但是生物系统中固有的随机变化都要求任何RNA-seq实验要做生物学重复。使用额外的重复能够确定异常样本,在必要情况下,在进行生物学分析之前,移除这些异常样本或降低这些异常样本的权重。确定生物学重复需要考虑几个因素,包括效应大小(effect size),组内变异,可接受的假阳性和假阴性阈值,以及最大样本数目,有的时候还需要RNA-seq实验设计工具或功效(power)计算工具的辅助。
在一个实验中要想确定一个合适的生物学重复并非是一件简单的事情。一项48个重复的酵母研究表明,当使用3个生物学重复时,计算样本用于DGE分析的工具只能检测出20-40%的差异表达基因。研究表明,至少应该使用6个生物学重复,这个数量要超过文献中常用的3到4个生物重复的数量。最近的一项研究表明,4个生物学重复可能足够的,但是研究指出,在确定合适的重复数目之前,需要做一个预实验来确定生物样本的方差。对于高度多样化的样本,例如来自癌症患者肿瘤的临床组织,可能需要更多的重复,以便能以更高的置信度来确定基因的变化。
4.2 确定合适的测序深度
测序文库制备好之后,需要考虑进行多深的测序深度。读取深度指的是,每个样本获得的测序读长的目标数目。对于真核基因组中的常规RNA-seq DGE分析来说,一般认为每个样本需要100万-300万条读长(也就是我们常说的10M到30M数量)。但是,在多个物种中的实验结果显示当每个样本的测序读长数量为1M时,那么这个数量级的测序读长提供的转录本丰度信息与转录组中表达最高表达量的一半的转录本30M测序提供的丰度信息类似。如果实验的重点是关注那些最高表达相对较大变化的基因,并且如果有足够的生物学重复,那么就可以使用较低深度的测序就能解决驱动实验的假设。测序完成后,通过检查读长在样本之间的分布以及检查饱和曲线就能评估进一步的测序能够增加实验的灵敏度。随着测序通量的增加,为了控制技术偏倚,可以将一个实验的所有样本都添加一个“混合”文库中进行测序,这已经成了标准做法。一次测序所需要读长总数则是样本数乘以读取深度;然后根据生成所需的读长总数来对这个混合文库进行多次测序。这种合并需要严格检测每个样本RNA-seq文库的浓度,并假设每个文库中的cDNA量相对均值(低方差),因此总的读长数目就会平均地分布在每个样本上。在进行一次昂贵的,多泳道(lane)测序之前,运行单个泳道以验证样本之间的低方差通常是值得的。
4.3 选择参数:测序长度,单端测序还是双端测序
最终的测序参数包括测序长度,单端测序还是双端测序。在许多测序应用中,测序读长的长度对于数据的利用有着重要的影响,因此更长的读长可以使测序的DNA覆盖率更高。当使用RNA-seq来进行DGE分析时这种方法并不适用,其中重要的原因则是,确定每个读长来源于转录组的哪个位置的能力有限。一旦一个读长能够明确其回贴位置,那么较长的读长在基于量化的分析中就不会再提供太多的价值。对于那些更定性的RNA-seq分析来说,例如特定异构体的鉴定,更长的读长可能更有用。
单端测序与双端测面临的问题是类似的。在单端测序中,每个cDNA片段只有一个末端(3ʹ端或5ʹ端)用于产生测序读长,但双端测序则是一个片段产生2条读长(一个是3ʹ端,一个是5ʹ端)。在那些需要尽可能高的核苷酸覆盖率的分析实验中,长读长双端测序可能更好。然后,DGE分析不需要对转录本片段的每个碱基都进行测序,在DGE分析中,研究者只需要比对后,统计出那些回贴到转录本上的读长数目即可。例如,通过比较测序读长发现,“短”的50bp单端测序与“长”的100bp双端测序所产生的DGE结果没有区别。这是因为单端测序足以鉴定出大多数测序片段来源的基因。同样的研究表明,使用短的单端测序降低了检测出异构体的能力,因为跨越剪接连接的读长较少。双端测序还有助于消除读长回贴的歧义,并对可变外显子量化(alternative-exon quantification),融合转录本检测和从头开始(de novo)的转录本发现,尤其是处理那些没有很好注释的转录本来说,双端测序更是首选。
在实际应用中,单端测序或双端测序之间的选择通常基于成本或研究者们可用的测序技术。在Illumina NovaSeq发布之前,在多数情况下,每M读长的单端测序的成本要低于双端测序,因此,在相同实验成本的前提下,单端测序能够实现更高的复制或读长深度。
在Illumina NovaSeq发布之前,在大多数情况下,单端测序的每百万次读取的成本低于成对末端测序,因此允许以相同的实验成本进行更高的复制或读取深度。当选择了更多的短单端测序读长和产生更长的双端测序读长后,那么增加读取深度将对提高DGE实验的灵敏度产生更大的影响。
5. RNA-seq 数据分析
用于分析测序读长以确定差异表达的计算方法的数量在过去10年里大量增加,并且即使对于最简单的DGE分析来说,在分析实践中,每个步骤也存在着大量的差异。然而,每个步骤都可以使用不同方法,这些方法的不同组合会对从数据中得到的生物学结论产生重要的影响。这些工具的最佳组织取决于正在研究的特定生物学问题,以及可用的计算机资源。虽然有着尽可能多的排列组合,但是我们的重点在于研究,每个世界大在样本之间的差异表达的可能性的工具和技术。针对这个目标,我们可以将分析过程划分为4个阶段。
- 将一个测序平台产生的原始测序读长导入工具,并将这些读长回贴到转录组上。
- 对每个基因或转录本相关的读长数目进行定量(表达矩阵)。这一过程涉及一个或多个不同的比对(alignment),组装(assembly)与定量(quantification)亚过程,或者是可以在单个步骤中从读长计数中,整体地生成表达矩阵。
- 通过过滤低表达特征来改变表达矩阵,这一步的关键步骤是对原始读长计数进行归一化,用于解释样本之间的技术差异。
- 样本组之间的统计建模与协变量(covariates),以及计算与差异表达相关的置信统计量。
Figure 2-差异基因表达的RNA-seq数据分析流程。差异基因表达(DGE)分析的第一步是原始RNA测序读长的FASTQ格式的数据,DGE的分析有多种方式。主流的分析流程有三种(用实线划的三个方框,分别用A,B和C表示),并且图上还列出了许多替代工具(用虚线表示)。
在A分析流程中,比对工具例如TopHat,STAR或HISAT2使用一个参考基因组来将读长回贴到基因组的位置上,然后使用一些定量工具,例如HTSeq和featureCounts,来将读长比对于基因的特征上。在归一化后(通常归一化的方式都内嵌到了一些分析工具,例如TMM),基因表达就通过一些计建模工具,例如edgeR,DESeq2和limma+voom进行计算,计算结果是一些差异表达基因或转录本的列表,这数据用于下一步的可视化和生物学解释。
在B分析流程中,使用一些较新的免比对工具,例如Kallisto与Salmon,这些工具会在一步操作中组装转录组并对相应的转录本进行定量。这些工具的输出结果通常是转录本定量的一些估计值(例如tximport,TXI),然后通过与A分析流程中相同的归一化和统计建模,产生出差异基因或转录本列表。
在C分析流程中,第一步是比对读长(这一步的工具通常是TopHat,虽然有些分析方法也会用STAR与HISAT),接头使用CuffLinks来处理原始读长,再然后是使用CuffDiff2包来输出转录本丰度的估计值,以及一个差异表达基因或转录本的列表。
其它常用的工具还包括StringTie,这个工具使用TopHat(或类似工具)的输出结果来组装一个转录本模型,然后将结果输出到RSEM或MMSEQ中,用于估计转录本的丰度值,最后将转录本的丰度值输出给Ballgown来计算差异表达基因或转录本。而SOAPdenovo-trans这个工具则能同时对读长进行比和组装,其结果用于输入给RSEM或MMSEQ。
5.1 第一步, 测序数据的比对和组装
测序完成后,分析的起点就是数据文件,这个数据文件包含了测序计数的碱基,这些数据文件通常是以FASTQ文件的格式存在。处理这些FASTQ文件最常见的第一步操作就是将测序读长回贴到已知的转录组上(或已经注释的基因组上),将每个测序读长转换为一个或多个基因组坐标。这一过程可以使用多个不同的比对工具,例如TopHat,STAR或HISAT,它们都依赖于一个参考基因组。由于测序的cDNA都源于RNA,而RNA有可能跨外显子边界,因此当与参考基因组(含有内含子与外显子)进行比对时,这些工具进行一个剪接比对后,测序读长之间会出现一些间隙。
如果测序的物种没有一个可用的高质量基因组注释(含有已经知的外显子边界),或者说如果希望将测序读长与转录本(而不是基因)关联起来,那么可以使用比对的读长进行转录组的组装。一些组装工具,例如StringTie,SOAPdenovo-Trans使用利用那些已经比对好的结果中的空隙来推测其外显子边界,以及可能的剪接位点。当参考基因组注释没有或者是不完整时,或者是你感兴趣的组织(例如在肿瘤组织)中转录本异常的情况下,这些从头组装转录本的工具尤其好用。当使用的是双端测序和/或更长的测序技术时,这种转录组组装方法效果更好,因为这些测序技术有更大的可能性跨越了剪接位点。但是,从RNA-seq数据中进行转录本的完整组装对于计算DGE来说,并不是一个必需的步骤。
最近,已经开发出了计算高效的“不需要比对”(alignment-free)工具,例如Sailfish,Kallisto与Salmon,这些工具可以直接将测序读长与转录本进行关联,从而无需单独的定量步骤(参考后面的第2阶段部分)。这些工具在那些表征更高丰度(以及更长的)转录本方面表现得非常良好;然后它们在那些定量低丰度或短转录本方面表现不佳。
用于将测序读长回贴到转录本的不同的工具在它们如何对测序的子集进行分配方面有着显著的差异,这会影响最终的表达估计值。当有来自一个不同基因,伪基因或转录本的多个读长时,这种效果尤为明显。一项比对12个基因表达估计方法的比较显示,一些比对方法低估了许多与临床相关的基因的表达,这主要是由于其并不精确的回贴读长所导致的。在RNA-seq数据的计算分析中,如何将多个回贴的读长合理进行分析仍然是一个值得研究的方向。通常的做法是将这些读长排除在下一步的分析之外,但这可能会使结果产生偏(参考阶段2-转录本丰度的量化)。其它的估计包括生成“合并“表达特征,这些特征包含了那些共同回贴后的读长的重叠区域,以及要在随后的置信度计算中,对每个估计的基因的回贴的不确定性进行估计。
5.2 第二步, 转录本表达定量
一旦读长被回贴到基因组的位置或转录组的位置,接下来的步骤就是将这些读长分配到基因或转录本上,以确定它们的丰度。不同的比较研究表明,在量化步骤中采用的不同的方法对最终的结果影响最大,这种影响甚至超过了第1步中比对工具的选择。对每个基因(即该基因所有转录本的亚型)测序读长丰度的量化依赖于转录组注释来对那些重叠到已知基因上的测序读长进行量化。但是,使用短读长对测序读长进行特定异构体分配来说还需要一个估计步骤,因为许多读长并不能跨越剪接位点,因此它们无法精确地分配给特定的异构体。当一个基因的主要表达形式是在不同长度的转录本之间进行转换时,那么即使在仅研究基因层面的差异表达分析的前提下,对这些转录本进行定量则会产生一个更加精确的结果。例如,在一个样本中,一个主要的转录本也许只有另外一个样本中同样转录本的一半长度,但是前者的表达量是后者的2倍,那么单纯地基因基因定量的工具无法区分这个转录本的差异表达。
常用的量化工具包括RSEM,CuffLinks,MMSeq与HTSeq以及前面提到的那些免比对工具。一些基于读长计算的工具,例如HTSeq(或者是R equivalent,featureCounts)通常会丢弃许多比对好的读长,包括那些回贴到多个位置的读长,或者是重叠多个表达特征的读长。其结果就是,在随后的分析中清除了那些同源和重叠的转录本。RSEM会使用期望最大化的方法来分配那些比对不明的读长,Kallisto这个无参比对工具会将比对不明的读长包括在它们相应的转录本计数中,从而导致结果偏倚。使用tximport包可以将转录本丰度估计转化为读长计数值(read count equivalents)。量化步骤中产生的结果通常会合并为一个表达矩阵,在这个矩阵中,每一行是表达特征(基因或转录本),每一列是样本名,表达矩阵中的值要和是实际的读长值,要么是一种估计丰度。
5.3 第三步, 过滤和归一化
通常来说,定量后的基因或转录本计数结果还需要过滤和归一化,从而用于解释读长深度,表达模式以及技术偏倚。过滤用于去除那些不均一的低读长丰度特征的值,从而提高对那些真正差异表达值的检测能力。而对表达矩阵进行归一化则更加复杂。直接转换可以调整丰度值,以便能更加说明GC含量的差异以及读长深度。早期用于归一化的方法就是RPKM,但这种方法现在已经淘汰,它已经被那些能够校正样本之间更细微差异的方法所取代,例如四分位数法或中位数归一法。
广泛的研究表明,归一化方法的选择会对最终的结果以及生物学结论产生重要的影响。大多数进行归一化的算法依赖于两个重要的假设:第一,大多数基因的表达水平在重复的样本组之间保持不变;第二,不同的样本组在总体的mRNA水平上不表现出显著差异。当这些基础假设不成立时,那么就需要慎重考虑是否进行归一化,以及如何进行归一化。例如,如果一些基因在一个样本中高表达,同时相同的基因,以及另外的一些基因在同一组中的另外一个样本里正常表达,如果对读长深度进行简单的归一化则明显不够,因为相同数目的测序读长会分配到第二个样本里更多的基因上面。归一化过程,例如截断均值化M值(The Trimmed Mean of M-values,TMM)方法(它已经整合到的edgeR包中)就能解决这个问题。选择一个合适的归一化方法或许很困难;一种做法就是深度使用多种方法进行分析,然后比较它们结果的一致性。如果结果对于归一化方法高度敏度,则应该对数据进行进一步的探索,以确定差异来源。但是,比较不同的归一化方法时,要谨慎确保这种归一化方法的比较不是为了选择与原始假设最兼容的归一化方法。
处理这些问题的一种方法的spike-in control RNAs,这种方法会引入一些外源已知的RNA序列,这些外源已知的RNA序列已知,浓度已知,在建库的过程中,将它们添加到样本中。RNA-seq中的Spike-ins方法包括外部RNA控制协会混合物(External RNA Controls Consortium mix, ERCCs),spike-in RNA突变物(spike-in RNA variants, SIRVs)与测序spike-ins(sequencing spike-ins, Sequins)。由于预先知道spike-in的浓度,这些浓度直接与生成的读长数相关,因为就可以对这些来自样本转录的表达水平进行校正。也有人指出,如果不进行spike-in控制时,那么就不能对那些有强烈倍数变化基因的实验进行分析。然后在实践中,很难在预设水平上一致地整合spike-ins,并且它们在基因水平上对测序读长数目进行归一化比转录本更加可靠,因为在一个样本中,每个异构体的表达水平不同。目前,spike-in控制法并没有在发表RNA-seq DGE实验中得到广泛使用,如果这种方法被进一步改进,提高其一致性的话,则这种方法会得到广泛使用,但现在很多研究者们在他们的单细胞实验(这种实验里会更加广泛地使用spike-in)使用了这种方法。
5.4 第四步, 差异表达建模
一旦测序读长被处理为表达矩阵,那么就可以对实验进行统计建模,从而确定哪些转录本发生了改变。一些工具可以达到这些目的;其中一些工具会对基因水平的读长数目进行统计建模,而一些则依赖于转录本水平的估计。基因水平的工具通常依赖于比对好的读长数目,使用广义线性模型(Generalized Linear Models)处理这些数据,从而能够评估复杂的实验设计。这些工具包括edgeR,DESeq2以及limma+voom,这些工具能够进行有效地计算,并提供比较结果。对差异异构体表达进行统计建模的工具包括CuffDiff,MMSEQ与Ballgown,这些工具通常需要更多的算力(computational power),并且不同工具的结果中的信息量更大。但是,在进行选择差异表达工具之前做的那些工作,例如比对,定量或过滤以及归一化这些操作对最终结果的总体方差会产生更大的影响。
6. RNA-seq 高级分析
源于整块组织和/或大量细胞的RNA-seq数据已经彻底改变了我们对生物学的理解,但是这种常规的RNA-seq无法轻易地分辨出特定的细胞类型,也无法保存空间信息,而这两个信息都是理解生物系统复杂性的关键因素。促进研究者们从常规的RNA-seq走出去的情形与常规RNA-seq当初出现的理由类似,但这种进阶能够能够解决很多不同的问题。单细胞测序让人们发现了,即使在被认为研究透彻的疾病背后,还存在着一些未知细胞类型,例如发现了离子细胞(ionocyte cell),这类细胞可能与囊性纤维化疾病有关。空间分辨RNA-seq则提示了在实体组织中细胞与细胞之间的相互作用,例如发现了成年心脏组织中一小群胎儿标记基因表达的细胞。虽然在可预见的未来,常规RNA-seq仍然是一个占据主导地位的工具。但是,单细胞测序与分析方法正在快速地被研究者利用,并且随着空间RNA-seq方法的成熟,它们有可能成为常规RNA-seq分析中的一部分。这两种方法都将提高我们对多细胞生物体复杂性的理解,它们都有可能与常规RNA-seq方法结合使用。在这里我们简单描述一下主要的单细胞测序以及空间RNA-seq方法,以及它们与常规RNA-seq的不同之处,以及新的研究者们如何着手。
Figure 3-单细胞RNA-seq与空间RNA-seq的概念。(a)单细胞RNA-seq(scRNA-seq)工作流程概述。scRNA-seq的第一步就是从样本中分离单个细胞(例如从解离的皮肤组织),分离单细胞的方式有多种,其中包括微移液管将细胞转移到单独的微管中,或者是使用流式细胞仪将单细胞分选到含有裂解液的96孔板或384孔板中,或者是将细胞捕获到微流控芯片中,或者是将细胞分布到纳米孔(nanowells)中,或者是使用含有试剂的液滴分离系统,或者是使用原位条形码技术。细胞进行逆转录以产生cDNA(通常使用UMIs来对这些cDNA进行标记),用于制备RNA-seq文库和测序。质控(QC),差异基因表达(DGE)与2D可视化(t-distributed stochastic neighbour embedding, tSNE)以及无监督聚类在和网络分析来对scRNA-seq的数据进行分析,用于区分不同的细胞种群。这些技术通常会标明细胞数据,以及与RNA-seq的策略一样,还会标明测序技术是3’末端还是5’末端还是全长cDNA。(b)空间转录组学工作流程概述。空间编码需要将冷冻组织切片加到含有寡聚核苷酸微阵列的载玻片上,或者是加载到密集包装的被寡核苷酸包被的pucks上。mRNA扩散到载玻片表面,然后与oligo-dT合成引物杂交,这些引物中含有UMIs与空间编码序列。随后mRNA逆转录成cDNA,cDNA汇集起来用于文库制备和测序。空间转录本组学的计算方法以能够将测序读长回贴到它们的空间坐标上,随后是DGE分析与差异空间表达分析的可视化。scRNA-seq与空间RNA-seq数据通常是用短读长测序仪进行测序的。上述图片(a)源于Springer Nature Limited。
6.1 单细胞分析
scRNA-seq于2009年首次报道,当时的研究者在含有裂解缓冲液的EP管中分离了单个卵母细胞。单细胞测序对生物学新问题的解释,以及现有的实验室和计算方法以极快的速度发展,甚至最近几年综述都已经过时了。每种scRNA-seq方法都需要将实体组织进行分离,分离出单个细胞(使用不同的方法),以及标记上每个细胞的RNA,对RAN扩增后进行测序,所有的这些方法都来源于早期常规RNA-seq的方法。
机械裂解和胶原酶加DNAase的酶解会生成单细胞悬液,从而产生大量可用的细胞,但是这种产生是高度组织特异性的,比较依赖于经验,其过程也需要非常小心。一旦制备好了单细胞悬液,就可以通过各种方法分离单细胞(FIG 3a);大多数的实验都是使用流式细胞仪来进行单细胞分选,这种方法是最容易,它可以将单个细胞直接分选到含有裂解液的微孔板中。对于更高通量的实验,现存有大量分离单细胞的专门仪器,这些仪器需要自己构建或购买。单个细胞可以通过物理手段被捕获到微流控芯片中,或者是通过Poisson分布的原理被分配到加载到含有纳米孔(nanowell)的芯片中,随后这些单细胞被分离后就被液滴微流分离技术合并到含有试剂的液滴中(例如Drop-Seq与InDrop),或者是单细胞被原位标记上标签(例如单细胞混合索引RNA测序技术, single-cell combinatorial indexing RNA sequencing, sci-RNA-seq以及分离-混合-连接转录组测序技术,split- pool ligation- based transcriptome sequencing,SPLiT-seq)。单细胞分离后,它们就被裂解,将RNA释放到溶解中用于cDNA合成,并将cDNA用于RNA-seq文库制备。在文库制备过程中,来源于每个细胞的RNA会通过PCR进行扩增。这种扩增就引入了PCR偏倚,但是UMIs可以用于校正这种偏倚。由于Poisson采样,一个细胞中只有10-20%的转录本会被逆转录,这就限制了转录本检测的灵敏度,以及各种方法产生的可用数据。在湿实验之外,计算方法也在迅速发展,最近已经出现了关于scRNA-seq的实验设计指南。方法学的快速发展意味着scRNA-seq方法的技术已经快速过时了。然而Ziegenhain等人提供了scRNA-seq方法的详细概述,他着重强调了UMIs的在数据分析方面 的重要性,并报道了提到了的6种方法中哪一种最为灵敏。然而他们的研究范围并不包括现在被广泛使用的10X Geneomics方法。
全长scRNA-seq系统的通量比较低,因此每个细胞需要单独地处理,直到最终生成scRNA-seq文库。但是,此系统可以让研究者们研究可变剪接与等位基因特异性表达。非全长系统则会从转录本的3’或5’末端生成序列,但这就限制了异构体表达的分析,但是当细胞cDNA合成被混合后,细胞所加工的数量会比前一种高出2到3个数量级。单细胞测序宽度与细胞,组织或样本的数量有关,而深度则是与测序读长数目固定下,要分析的转录组有关。虽然实验中测序的细胞数量是由选择的方法决定的,但是这也允许一些灵活性,不过随着分析的细胞数目的增多,测序成本的增加,往往限制了转录组分析的深度。因此,可以使用宽度和深度两个维度来评估不同的scRNA-seq系统。单细胞测序典型的做法是基于孔板或微流控方法来捕获尽量少的细胞,但同时对每个细胞检测出更多的基因,而基于液滴的系统可以用于分析最大数目的细胞,它已经能从超过一百万个细胞中产生单独的数据集。
scRNA-seq的力量正在推动着大规模的细胞图谱项目,这些项目指在确定生物体或组织中完整的细胞类型。人类细胞地图集(Human Cell Atlas)与NIH大脑计划(NIH Brain Initiative)项目分别是为了对人体以及大脑中的所有细胞类型进行测序。人类细胞地图集的第1阶段目标是对3000万到1亿个细胞进行测序,并将随着技术的发展在广度和深度上进行增加。这个项目的最新成本包括发现了离子细胞,以及发现肾癌是在儿童和成年人中是由不同的细胞类型发展而来的。不过,scRNA-seq的研究者们应该意识到,这些技术可以用于几乎所有的生物。最近,对A. thaliana根细胞原生质的分析表明,即使是植物的坚韧细胞壁这种障碍也能被解决,能产生用于测序的单细胞。scRNA-seq正在迅速成为生物学家们工具包的标准配置,并有可能在10年后被广泛使用,就像今天的常规RNA-seq一样。
6.2 空间分辨RNA-seq法 Spatially resolved RNA-seq methods.
当前的常规RNA-seq和scRNA-seq方法为研究者们提供了关于组织或细胞群体的高度详细的数据,但是没有捕获空间信息,就是会降低细胞环境与基因表达之间关系的分析能力。空间转录组学(spatialomics)的两种方法是空间编码(spatial encoding)与原位转录组学(in situ transcriptomics)。在RNA-seq文库制备过重中,空间编码方法能够记录其空间信息,或者是通过分离空间受限的细胞(例如,通过激光捕获显微解剖, laser-capture micro-dissection, LCM), 或者是通过分离前的位置对RNA加上条形码(通过从组织切片中直接捕获mRNA)(FIG. 3b)。原位转录组学能够在组织切片中,通过对细胞中的RNA进行测序或成像来生成数据。我们建议感兴趣的读者是阅读最近的深度评论,从而对这一领域进行更全面的理解。
LCM已经成功地用于从组织切片中的特定区域分离和分析单个细胞用于RNA-seq。虽然LCM需要专门的设备,但是许多机构已经广泛使用了这种技术。但是,虽然这种技术可能实现高度空间分辨率,但是它消耗人力,并且难以批量使用。使用空间转录学 (Spatial Transcriptomics,10X Genomics)与Slide-seq方法可以直接从冰冻组织切片中直接捕获mRNAs,然后将这些mRNAs直接加载到寡核苷酸微阵列玻片(oligo- arrayed microarray slides)或严密包装寡核苷酸的pucks上。寡核苷酸包括空间条形码、UMI和oligo-dT引物,它们能唯一地识别每个转录本及其位置。测序读长被回贴到玻片的坐标上,用于生成空间基因表达信息。空间转录学方法已经被证明能够在一系列物种的组织中能发挥作用,其中就包括小鼠大脑和人类乳腺癌组织,人类心脏组织和拟南芥(A. thaliana)花序组织。Slide-seq是最近开发的一种技术,它已经被证明能够对小鼠大脑的冰冻切片进行测序。这些直接 mRNA捕获方法并不需要特殊的设备,且有相对简单的分析方法,并有可能大规模地应用于许多组织。然而,还有两个局限需要解决。首先,该技术只能应用于新鲜的冷冻组织。其次,分辨率受到到阵列大小和捕获寡核苷酸点和珠子的间距的限制;目前的分析只能使用6.5x7 mm和3x3mm这两种规格,这就限制了组织切片的尺寸。空间转录组学斑点的直径为100µm,间距为100µm,这意味着它们不够小或不够密集,无法实现单细胞级分辨率。Slide- seq珠子则要小的多,直径只有10µm,而且非常密集,比相对前者具有十倍的空间分辨率,并且测序中的大约一半的珠子似乎是从单个细胞层面产生的数据。从分解的组织和空间编码的数据与scRNA-seq混合起来的计算方法可以改善分辨率,但是需要基础技术的进一步发展,以使其成为更常规的RNA-seq工具。
上述空间分辨RNA-seq方法的替代方案包括原位测序和使用单分子荧光原位杂交的基于成像的方法。这些方法能够产生比RNA-seq方法更窄的转录组信息,但它们能直接检测RNA,并且能够对低丰度的转录本进行分析。同时,它们还能提供组组织结构和微环境的信息,并能产生亚细胞数据。这种方法目前正取得了巨大进步,但是成像方法的一个主要局限就是需要高分辨率或超分辨率显微镜与自动流体技术结合,并且这种技术的成像时间可能要花上数小时,甚至是几天。测序成本的下降比摩尔定律预测的速度更快,与测序成本相比,高通量成规模的成像系统的机会似乎更有限。
上述提到的空间转录组学都受到无法产生深度转录组学数据的限制,以及受到细胞分辨率和/或高成本(时间和/或资金)的限制,但是这些方法正在迅速改进,并且已经应用于临床样本。空间转录组学的具体计算方法开始出现。**此外,原位RNA测序和成像方法的进步已经使得10E3到10E5个细胞生成的转录组数据成为可能,这与基于液滴的单细胞方法获得的数据量相近。**未来的发展有可能使得空间转录组学让更普通的研究者们使用。然而,大多数的研究们者并不太可能需要真正的单细胞或亚细胞级分辨率。因此,转录组表达谱的宽度和对广泛的组织或样本的应用性可能会推动这些技术在特定小众领域被采用。如果空间转录组学的这些技术限制能够被解决,那么它才有可能被广泛使用。
7. RNA-seq 动态分析
DGE分析是使用RNA-seq来检测稳态下的mRNA表达水平,这一表达水平是通过mRNA的转录,加工和降解速度来决定的。但是,RNA-seq也可以用于研究涉及转录,翻译所涉及的过程与动力学特征,这些研究为基因表达提供了新的思路。
7.1 使用新生RNA(nascent RNA)方法来研究转录活性
基因表达是一个内在的动态过程,但是在检测复杂转录应答的细微以及快速变化或确定不稳定的非编码RNAs,例如增强子RNAs方面,常规的DGE分析方法就比较受限。RNA-seq可以用于绘制TSSs以及定量新合成的新生RNA,这就可以用来研究RNA动力学。但是,与DGE分析相比,nascent RNA的分析则比较难,因为它们半衰期短,丰度低。因此,为了研究这些动态的重要性,研究者们就开发了多种方法来分析nascent RNA;这些方法揭示了在启动子处的差异转录程度,表明RNA聚合酶II(Pol II)在启动子附近的暂停是基因表达的关键调节步骤,证明了nascent RNA有直接调节转录的作用,并表明其序列和结构影响转录的延伸,暂停和停顿,以及发挥染色体修饰结合和增强了子的作用。nascent RNA- seq方法旨在区分新近转录的RNA和其它RNAs,这些方法可以分为3类:run-on方法,Pol II免疫沉淀法,代谢标记法(FIG. 4)。
Figure 4- nascent RNA与翻译组分析的关键概念。nascent RNA分析方法是将那些在一个细胞中新转录的RNAs从其它的RNAs中富集出来,并将它们与未富集的RNA(成熟的RNA)进行比较,富集nascent RNAs的方法主要有三种。(a)Run-on方法是利用一个限时脉冲的方法将修饰过的核糖核酸添加到细胞培养基中,对细胞的RNA进行标记;这一过程可以用使用各种修饰的核苷酸,但是,图中的GRO-seq使用的是Bru修饰的核苷酸。当修饰过的核苷酸整合到RNA后,利用抗BrU的抗体,通过IP的手段将nascent-RNA链富集起来,并用于文库制备以及测序分析。(b)RNA聚合酶II(Pol II)的IP方法则是利用了微球菌核酸酶(micrococcal nuclease)消化了染色质后,使用相应的抗体拉下了与Pol II结合的RNA。在染色质消化过程中,nascent RNA通过其Pol II足迹保护而不受核酸酶活性的影响,并不会被降解。(c)代谢标记方法标记RNA的方法类似于Run-on方法,但前者使用的是核苷酸类似物4 sU。提取RNA后,烷基化4 sU,在逆转录过重中,就会产生G核苷酸的错配,从而通过在碱基对级分辨率的突变分析中直接确定4 sU的整合位点。制备3’末端RNA文库会通过降低未标记的RNA数量来增加测序过程中的信号强度。图片参考文献为214。
Run-on法是将核酸类似物添加到样品中,从而使nascent RNA能够从总的RNA混合物中进行富集,并能够检测瞬时RNA的转录(FIG. 4a)。全局run-on测序(Global run-on sequencing, GRO-seq)与精确核酸run-on测序(Precision nuclear run-on sequencing, PRO-seq)是分别将Bru或生物素修饰的核酸在RNA的转录期整合到nascent RNA中来实现的。其过程大致为,分离细胞核,并通过洗涤除去内源性核苷酸,再添加外源生物素标记的核苷酸,随后恢复转录。通过免疫沉淀或亲和纯化的方法,对富集的新转录RNA进行测序,从而检测参与转录的RNA聚合酶的位置和活性。由于run-on过程中标记的核苷酸的数据,GRO-seq只能测到10-50bp的长度,这就降低的TSS检测的精度。PRO-seq能够实现单个碱基级的分辨率,因为生物素标记的核苷酸掺入后转录就停止,可以识别出转录位点。Run-on方法理解起来很简单,就是RNA分子整合了修饰的核苷酸,并对其进行富集,用于测序,但是在实践中,背景中存在有non-nascent RNA,这就需要增加读长深度。利用这些方法,提示了启动子处,启动子处差异或双向转录本起始的程度,确定了增强子RNA在调节基因表达方面的作用。通过特定富集5’加帽的RNAs,GRO-cap,PRO-cap或small 5’capped RNA测序(small 5ʹ-capped RNA sequencing, START-seq)增加了检测转录起始和捕获RNAs的灵敏度和特异性,这种处理还会降低源于转录后加帽的RNAs的背景信号。
Pol II的免疫共沉淀方法包括,天然延长转录测序(native elongating transcription sequencing, NET-seq)和哺乳动物染色质天然转录测序法(native elongating transcript sequencing for mammalian chromatin, mNET-seq),使用抗FLAG(用FLAG标记的Pol II)抗体进行沉淀的方法,或各种针对Pol II C末端结构域(CTD)的沉淀方法(FIG. 4b)。与这些染色质复合物结合的nascent RNA的RNA-seq方法用于检测TSSs,虽然non-nascent Pol II结合的RNA与背景mRNA会对读长浓度产生负面影响,影响分析。NET-seq缺乏特异性,因为任何与Pol II强烈结合的RNA都会污染nascent RNA的富集效果,例如在NET-seq数据中就存在有tRNA和small nucleolar RNA。在mNRET-seq中使用多个CTD抗体提示了VTD修饰是如何影响转录的,检测到了RNA加工的中间体,并能能够将特定的Pol II nascent RNAs定位于TSSs。然而,这些检测能力是以更复杂的实验,更多的细胞数量和更高的测序成本为代价的。
使用核苷酸类似物硫代吡啶(4-thiouridine, 4 sU)进行代谢脉冲标记(Metabolic pulse- labelling)的方法可以识别nascent RNA(FIG. 4c)。但是,在那些需要长标记时间的方法中,大多数的转录本都会被标记,这就限制了这种方法的灵敏度。通过专门针对RNAs的3’末端(仅最近拉RNA聚合酶的新转录的RNA)的方法,瞬时转录组测序(transient transcriptome sequence, TT-seq)与硫醇(SH, thiol)连接的烷基化RNA代谢测序(thiol(SH)-linked alkylation for metabolic sequencing of RNA, SLAM-seq)能够降低来源于5’RNA的信号。TT-seq将标记时间限制在5分钟,因此只标记新转录本的3’末端,它在进行生物素亲和纯化前,有一个RNA片段化操作,用于富集标记的RNA。SLAM-seq整合了3’mRNA-seq文库制备方法(虽然它也用于其它的文库制备,例如miRNA), 它仅针对标记的新转录的RNA进行测序,而非整个转录本进行测序。此外,在SLAM-seq中,提取RNA后,还要加入碘乙酰胺(iodoacetamide),用于烷基化已经插入到新生成的nascent RNA链中的4 sU残基。这种修饰会诱导反转录式依赖的胞腺嘧啶到胞嘧啶的转换(T > C),这在测序分析中会被检测为“突变”,从而直接识别为4 su整合位点。然而,低掺入率意味着只有少量的4 sU位点可以被转换为胞嘧啶,这就限制了灵敏性。有两种方法,即TUC-seq与TimeLapse-seq也使用T>C这种突变分析方法,但是它们并不富集3’末端。这两种方法用于研究细胞干扰后的转录应答和RNA的半衰期。
Nascent RNA分析方法还未进行过直接比较。Nascent RNA方法都受到非特异性背景和/或降解的RNA的负面影响,这会影响读取深度。通过仅测序3’末端,那么non-nascent RNA的效应就会在PRO-seq,TT-seq和SLAM-seq中降低,但是几乎没有证据表明是否有其他方法更优。亲和纯化方法费时费力,与代谢标记法相比,前者需要更多的起始材料,但是,确定脉冲标记的时间比较复杂,并且短脉冲产生用于分析的RNA很少,这限制了灵敏度。最近开发的,组织特异性RNA标记方法以及亲折突变分析计算方法或许能够促进研究者转向使用生化(基于生物素)富集的手段来研究富含生物学意义的nascent RNA和其它RNA。Nascent RNA方法以及它们与其它方法的隧和,例如空间转录组学或RNA-RNA与RNA-蛋白质相互作用的方法,将会提高我们对转录过程的理解。
7.2 使用核糖体分析方法检测活跃的翻译
RNA-seq的主要用途在于研究样本中的mRNA的种类与数量,但是mRNAs的存在与否并不直接关系到蛋白质的合成。现在有两种方法可以研究转录以外的翻译情况,可以让研究者们更好的理解翻译组(translatome):一种是多核糖体表达谱(polysomal profiling),一个是核糖体足迹RNA-seq(Ribo-seq)。核糖体对mRNAs的翻译具有高度的调节作用,蛋白质水平主要由翻译活性决定。多核糖体表达谱与Ribo-seq可以让研究者探索一个转录本占用多少个核糖体以及核糖体在转录本上的分布(FIG. 5)。这种方法可以让研究者推断在特定时间或细胞状态下哪些转录本正在被活跃地翻译。这两种方法都假设mRNA 核糖体的密度与蛋白质合成的水平相关。在不同样本之间进行比较,就能提示治疗条件下,时间推移以及疾病发展过程中,核糖体的动力学特征,上述的这些情况都与翻译的异常调控有关,例如纤维化,朊病毒或癌症。
Figure 5-翻译组的关键概念。翻译组方法是从那些与核糖体结合的RNA中生成RNA-seq数据,这种方法假设mRNA上的核糖体的密度与蛋白质的合成水平相关。(a)多核糖体表达谱的方法是通过离心将RNA分子分成多核糖组分,然后通过RNA-seq的方法进行比较。在多核糖体组分中表达较高的RNA被认为是更活跃的转录。(b)核糖体足迹(Ribo-seq)法使用RNase来降解暴露的RNA,同时保留那些被核糖体保护的未被降解的RNA。通过对这些保护的RNA进行测序,就可以揭示出核糖体的密度与位置。通过修改变标准Ribo-seq方法,定量翻译起始测序(QTI-seq)或翻译复杂表达谱测序(TCP-seq)可以专门富集起始核糖体或其亚基,同时剔除延长的核糖体,因此可以对翻译的动态过程进行更详细的分析。对翻译组RNA-seq数据的过计算 分析可能确定每个mRAN的相对翻译程度,可以研究翻译的起始,延长与终止的动力学过程。
在多核糖体表达谱实验中,使用蔗糖梯度超离心将与多个核糖体(多核糖体组分)结合的mRNA和与单个核糖体结合的mRNA(单核糖体组分)分离开来,前者用于RNA seq文库制备(FIG. 5a)。与单核糖体组分中检测到的mRNA相比,在多核糖体组织中检测到的高丰度mRNAs可以被认为翻译得更频繁。这种方法也可以用于推测单个mRNAs的翻译状态,也可以用于生成高分辨率的核糖体占有信息与密度(尽管它无法确定核糖体的位置)。这类方法的原始方法已经进行了几项改进。例如,使用非线性蔗糖梯度改善了多核糖体收集,使多核糖体在不同浓度蔗糖溶液界面的收集过程更为简单,使用Smart-seq文库构建技术可以让研究者们分析仅10ng级的多核糖体mRNA,使用更高分辨率的蔗糖梯度和深度测序可以检测了转录本异构体的特异性翻译。然而,多核糖体表达谱实验生成的翻译组信息分辨率相对低,这一过程还比较费力,需要特殊的仪器,这就限制了其应用范围。
Ribo-seq是基于RNA足迹的方法,它最初用于酵母研究。这种方法用环己胺(cyclohexamide)来抑制翻译延伸,并诱导核糖体在mRNAs上停滞。用RNase I消化mRNA会留下20-30个核苷酸,这20-30个核苷酸就是受核糖体保护的足迹,这些足迹被处理后用于制备RNA-seq文库(FIG. 5b)。Ribo-seq能生成高分辨率的翻译谱,描绘核糖体丰度和单个转录本的位置。而多核糖体分析中无法提供核糖体的位置信息时,这说明有可能检测到了翻译的暂停,这些检查可以调节蛋白质的表达。当方法修改了缓冲液和对酶进行了优化后,就能更清楚地揭示Ribo-seq数据中3-bp的周期性,以及条形码和UMIs(检测单个分子的事件)。标准的RNA-seq工具可以用于Ribo-seq的计算分析,但最近已经出现了特定的工具用于寻找开放阅读框,用于差异或异构体水平的翻译分析,以及用于研究密码子偏倚。Ribo-seq的主要限制就是超速离心,以及由于核酸酶不同批次间的变化,以需要经验来确定RNase I的消化条件。
这些方法检测的是来自翻译起始、延伸和终止的信号的平均强度,但是对Ribo-seq的修改可使得其能够研究翻译动力学。定量翻译起始测序(Quantitative translation initiation sequencing, QTI-seq)通过化学“冷冻”和富集起始核糖体,同时从结合的mRNA中去除延长的核糖体来定位转录起始位点。翻译复杂谱测序(Translation complex profile sequencing, TCP-seq)也通过在组装成熟核糖体之前富集与40S核糖体小亚基结合的RNA来检测起始位点。然而,由于这种方法中保留了核糖体的完整性,也可以分析和比较80S核糖体组分,从而更全面检测翻译动力学(FIG. 5b)。
所有的翻译组方法在概念上都是相似的;它们假设mRNA核糖体的密度与蛋白质的合成水平相关。虽然它们的样本制备方案不同,但都需要大量的起始细胞数。最终,翻译组与RNA-seq结合起来研究基因的表达水平,并与蛋白质组学一道来研究蛋白水平,这可能就需要对mRNA的翻译进行一个广泛地理解。
8. 基因表达分析之外的互作分析
RNAs在调节其它生物分子和生物过程(例如剪接和翻译)中发挥着重要作用,它们涉及RNA与各种蛋白质和/或其它RNA分子的相互作用。RNA-seq可以用于研究分子内和分子间RNA-RNA的相互作用(RNA-RNA interactions, RRIs),这可能让研究者更好地理解结构组(structurome),或者是研究RNA与蛋白质之间的相互作用,这样就可以深入理解转录与翻译(FIG. 6)。针对相互作用组(interactome)分析而开发的各种方法都有一个共同的主题:在RNA中富集出那些与其它RNA有相互作用的RNA。一些方法利用的是天然生物学相互作用,而其它的方法则是在目标分子之间计算瞬时作用力或共价键;大多数方法使用的是抗体pull-dwon、亲和纯化或探针杂交的手段来富集RNA进行测序。在这里我们简要描述一下主要的基于RNA-seq的方法来研究结构组和相互作用体的内容。
8.1 通过分子内 RNA 互作探究 RNA 结构
核糖体RNA和tRNA构成细胞的大部分RNA。它们与其他结构非编码RNA一起在细胞中发挥各种作用,例如从基因调节到翻译。现存主要有两种研究RNA结构的方法:基于核酸酶的方法和化学探针方法。核糖核酸酶消化于1965年首次用于研究RAN(tRNA(Ala))的结构。在接下来的40年中发展了化学方法,例如,通过引物延伸的选择性2ʹ-羟基酰化法(selective 2ʹ-hydroxyl acylation analysed by primer extension, SHAPE),此种方法用于在单碱基分率水平上检测tRNA(Asp)的结构。但是,只有将各种核酸酶法和化学方法与RNA-seq相结合,才能使方法从单一RNA转移到全转录分析,这正在改变我们对结构复杂性和重要性的理解。在这里,我们集中讨论核酸酶和化学分析方法之间的主要区别(图·6a),如果想对这方面有进一步的理解,可以看Strobel在这方面的综述。
核酸酶方法,例如RNA结构的平行分析法(Parallel Analysis of RNA Structure,PARS)和片段测序法(fragmentation sequencing, FRAG-seq),这两种方法使用能消化单链RNA(ssRNA)或双链RNA(dsRNA)的酶。核酸酶消化后剩余的RNA用作RNA-seq的文库构建。随后通过对产生的RNA序列数据进行计算分析来识别结构化(双链)和非结构化(单链)区域。核酸酶易于使用,可以用于研究ssRNA和dsRNA,但是由于核酸酶消化法的随机特性,它们与化学分析法相比,分辨率比较低。此外,由于核酸酶尺寸比较大,这就限制了这些核酸酶进入细胞,这就使得它们不适合体内研究。
化学分析法使用与RNA分子反应的化学探针,来标记结构化或非结构化核苷酸。这些标记要么阻断逆转录,要么导致cDNA的错配,从而可以定位并分析RNA-seq读长,用于揭示结构组。SHAPE之后进行测序,这种技术方法能够RNA骨架上的核糖2’-羟基反应来标记未配对的ssRNA,虽然发夹环中的碱基折叠会降低其效率。Structure-seq与硫酸二甲酯测序(dimethyl sulfate sequencing, DMS-seq)能使用DMS来标记腺嘌呤和胞嘧啶残基,阻断逆转录,最终从生成的截短cDNAs分析中推断出RNA结构。SHAPE和突变表达谱(SHAPE and utational profiling, SHAPE-Map)和DMS突变表达谱测序(DMS-MaPseq)都修改了实验条件,从而提高了逆转录酶的加工能力,并防止cDNA截短。相反,化学标记会导致错配事件,在RNA-seq数据的分析中,能够检测出这些“突变”,从而揭示RNA结构。化学探针是小分子化合物,尽管由于细胞内的环境处于动态变化中,数据有可能更加多变,但是化学探针还是能够用于研究活体内的有生物学意义的结构。化学探针还可以用于nascent RNAs的结构分析,并揭示共转录RAN折叠的顺序。
核酸酶和反转录阻断方法通常产生短RNA片段,并且只报告单个酶切位点或化学标记,而错误结合和突变检测方法可以报告每个读长的多个化学标记。没有方法不存在偏倚;逆转录阻断永远不会100%有效,本应诱导突变的化学标记可以阻断cDNA合成,这两个因素都可以影响数据的解读。Spike-in控制有可能改善结构组分析的质量,但尚未得到广泛使用。SHAPE方法的比较揭示了仅在体内实验中才会出现效率差异,因此这就突显出比较类似复杂方法时所需要谨慎。
这些方法正在产生关于RNA结构如何在基因和蛋白质调控中发挥作用的新理解。例如,DMS分析说明了,RNA结构有可能调控APA,或许会减慢催化活性区域的翻译,使得更多的时间用于蛋白质的折叠,从而减少错误折叠事件。结构RNA-seq方法的结合有可能产生所有的完整结构组信息。随着该领域的扩展,我们可能会发现,RNA的结构与疾病的进展和或疾病的状态有关;最近的结果表明,异常RNA结构在重复扩张性疾病方面可能发挥作用。最终,结构组分析也许会促进那些靶向作用于研究透彻的RNA结构的小分子的开发,从而开辟治疗开发的新领域。
8.2 探索分子间 RNA 与 RNA 互作
分子间的RRIs在转录后调控中发挥着重要作用,例如miRNA与靶基因的3’UTR结合。现在已经开发了用于研究分子间RRI的工具,它们用于靶向分析和转录组分析。这些分析方法含有一个共同的工作流程,即RNA在打断与邻位连接之前,通过交联来保护其相互作用(FIG. 6b)。大多数并非全部,由不同方法嵌合生成的嵌合cDNA来源于稳定碱基配对(即相互作用)RRNA分子的连接。靶向方法,例如交联,连接和杂交物测序(Crosslinking, ligation and sequencing of hybrids, CLASH), RNA相互作用组分析和测序(RNA interactome analysis and sequencing, RIA-seq)和RNA反义纯化方法测序(RNA antisense purification followed by RNA sequencing, RAP-RNA)能产生一个RNA或RNA家族的高深度相互作用图谱。CLASH丰富了使用IP来进行特定蛋白复合物介导的RRI分析方法,而RIA-seq使用反应寡核苷酸来回收那些与靶基因有相互作用的RNAs;这两种方法都无法区分直接和间接的RRIs,这就导致其生物学解释变得复杂。为了提高RRI分析的分辨率,RAP-RNA使用补骨脂素(psoralen)和其他交联剂,然后用反义寡核苷酸捕获RNA,以及使用高通量RNA-seq来检测直接和间接RRI。虽然该方法可以进行更具体的分析,它需要制备多个文库(每个交联剂一个文库)。
转录组方法从根本上类似于靶向方法:相互作用的RNA在体外被交联后并被富集。通过减少进入连接反应的非相互作用RNA的量来提高富集的特异性,并且可以通过2D凝胶纯化(如在RNA相互作用和结构的补骨脂素分析(psoralen analysis of RNA interactions and structures, PARIS)或交联RNA的生物素亲和纯化(如在补骨脂素交联,连接和选择的杂交测序, sequencing of psoralen crosslinked, ligated and selected hybrids,SPLASH)来实现,或者通过RNase R酶的消化来清除非交联RNA(如在相互作用的RNA连接之后的RNA-seq, ligation of interacting RNA followed by RNA- seq, LIGR-seq)。连接后,在进行RNA-seq文库制备前,去除交联,然后进行测序。PARIS能够生成所有方法中最高数目的相互作用次数,但是每个样本需要75M的读长,这些任何其他的RRI方法都多,并且所需要的DGE实验平均读长深度是其他实验的2倍。
对整理好的RNA相互作用数据的分析可以对多个相互作用进行可视化,并些这种分析方法已经提示了RNA各类的RRI分布的变化。总之,90%的RRIs涉及mRNAs。近一半涉及miRNA或长链非编码RNA,对于这些RNA,大多数相互作用都与mRNA靶基因相关。对这些整理数据的比较揭示了不同方法对特定RNA物种的偏倚,这导致这些方法之间几乎没有重叠。因此,绘制RRI的完整图谱可能需要使用不止一种方法。然而,RRI方法有几个局限性。也许最具挑战性的就是RRI是动态的,并受结构构象和其他分子间相互作用的影响,这使得在没有重复的情况下,很难对其进行解释。分子内的相互作用为分子间的RRI分析增加了干扰,这就需要过滤并除去那些高度结构化的RNAs,例如rRNAs。其它的问题还包括RNA提取过程中相互相互作用的打断,这就需要稳定的交联方法,但最常用的RRI交联剂是补骨脂素和4’-氨基-甲基三氧沙林(4ʹ-amino- methyltrioxsalen, AMT),这些交联剂只交联嘧啶,其效率比较低,会降低灵敏度。此外,邻近连接步骤低效,并且这会连接相互作用和非相互作用RNA,进一步降低灵敏度。
8.3 探究 RNA 与蛋白互作
ChIP-seq已经成了绘制和研究DNA-蛋白质相互作用不可或缺的工具;类似的IP方法也用于研究RNA-蛋白质的相互作用。RNA-蛋白质相互作用方法依赖于IP,利用针对感兴趣的RNA结合蛋白的抗体来捕获其结合的RNA进行分析(第一次报道时是用芯片进行分析的)(FIG. 6c)。各种RNA-蛋白质相互作用方法之间最明显的区别在于相互作用的RNA和蛋白质是否交联以及如何交联:一些方法避免交联(天然IP, native IP),其他方法使用甲醛进行交联,一些方法使用紫外线(UV)光进行交联。最简单的方法就是RNA免疫沉淀测序(RNA immunoprecipitation and sequencing, RIP-seq),时常,但并非所有情况下都使用天然IP法,以及并非总进行RNA打断。这种简便性使用该方法易于被采用。这种方法能产生有用的生物学信息,但是它有两个重要的缺陷。第一,用于保存RNA-蛋白质相互作用的前提是需要进行温和地洗涤,这就意味着富集的片段中有相对高的非特异性结合片段。第二,没有进行RNA打断就降低了结合位点的分析。因此,RIP-seq具有高度灵活性,并依赖于RNA-蛋白质结合的自然稳定性。使用甲醛交联在RNA与其相互作用的蛋白质之间产生可逆的共价键提高了稳定性,并减少了非特异性RNA的回收,但甲醛也会导致蛋白质-蛋白质的交联。这种影响可以通过使用0.1%的甲醛(比ChIP-seq研究使用的甲醛低10倍)进行温和的交联来降低,这能在多个蛋白质靶点上产生高质量的结果。
在CLIP中使用254nm的UV来进行联系是一项关键的技术,它提高了RNA-蛋白质相互作用分析方法的特异性和位置分辨率。UV交联在蛋白质和RNA的相互作用位点产生共价键,但最重要的是,它不对蛋白质-蛋白质相互交联。这就稳定了RNA-蛋白质的结合,允许严格的富集,破坏了天然RNA-蛋白质的相互作用,减少了背景信号。CLIP的实验方法随后就构成了许多方法发展的基础。单个核苷酸分辨率的CLIP(iCLIP)将UMIs整合到文库中,用于移除PCR复制。它还利用了cDNA合成在交联核苷酸处常见的过早截短,通过对截短的cDNA进行扩增来获得交联位点的定量,核苷酸级分辨率图谱。光激活核糖核苷增强片段(Photoactivatable- ribonucleotide-enhanced CLIP,PAR-CLIP)通过使用4 sU和356nM的UV来进行交联。在细胞培养过程中,4 sU被整合到内源RNAs中,356nm的UV辐射会在4 sU整合位点处产生交联(产生高度的特异性)。在产生的测序数据中检测反转录诱导的T>C替换就会能够实现碱基对级的分辨率,并且能够区分交联片段和非交联片段,进一步降低背景信号。最近对CLIP的改进提高了它的效应和灵敏度。红外CLIP(infrared CLIP, irCLIP)用红外凝胶成像技术来代替放射性同位素检验,它是基于珠子的纯化技术。与常规的iCLIP使用的1百万到2百万细胞相比,这些技术的改进可分析只有2万个细胞的RNA-蛋白质相互作用。增强型CLIP(enhanced CLIP, eCLIP)抛弃了RNA-蛋白质复合物的质控和可视化操作,而是在RNA接头中添加了条形码,这种改进可能让所有的样本混合到一起,并用珠子来代替了凝胶。这些改进旨在简化实验操作,eCLIP实验已经研究了近200个蛋白,它已经成了ENCODE项目的一部分。但是,irCLIP与eCLIP目前都没有被广泛采用,部分原因是eCLIP和irCLIP的灵敏性增加的原因是由于其特异性降低导致的,比如利用两个方法所鉴定的PTBP1结合位点上结合或有序和调节外显子的富集减少。随着公共数据库中可用的大量数据为计算分析提供了新的机会,因此谨慎考虑CLIP数据的质控,过滤,以及峰值调用(peak calling)和归一化方法就变得非常重要,这些会影响数据的生物学解释。为了更全面地讨论 RNA-蛋白质的相互作用的CLIP实验方法,我们建议读者可以阅读最近关于这个主题的综述。
一些RRI以及所有的RNA-蛋白质结合方法对IP的依赖限制了其对有良好特征抗体蛋白质的研究,而非特异抗体的结合仍然是一个问题(虽然这一问题并非局限于这个领域)。RNA结构也会影响RNA-蛋白质之间的相互作用;一些蛋白质能识别特异的RNA二级结构或与这些结构竞争结合RNA,这使得体外的发现转向体内就变得复杂了。此外,结构和RNA-蛋白质相互作用方法通常报告一个特定转录本或位置的平均值。在实验室方法中,在计算方法和单分子测序方面的未来发展或许有助于破译一些这些生物变异。
9. 结论
Wang,Gerstein 和 Snyder关于 RNA-seq 将“革命性地[如何]分析真核转录体”的预测肯定是正确的。但是,即使是他们,也有可能对这种转型的规模感到惊讶。现在我们可以分析RNA生物学的许多方面,这对于基因组功能、研究开发和确定导致癌症和其他疾病的分子调控异常方面来说是必不可少的。虽然生物学发现阶段还远未结束,但是已经在临床中使用了RNA-seq方法。单细胞测序正在成为许多实验的标准配置,空间转录组学的分析可能会遵循类似的路径,使其能够在与开发当前方法的实验室范围之外使用。长读长测序方法也有可能取代当前相当大比例的研究者们默认选择的Illumina的短读长RNA-seq。对于这种情况的出现,长读长测序技术还需要在增加通量和降低错误率方面做出极大的改进。然而,长读长mRNA异构体测序的优点是,如果它变得像现在短读长测序一样便宜和可靠,那么对于那些除了易降解材料外,长读长测序就可能是首选。考虑到这些因素,那么任何关于RNA-seq在未来十年可能如何发展的预测都有可能过于保守。