本文为研究人员和药物开发专业人士提供了关于低起始量链特异性RNA测序(ssRNA-seq)的综合性指南。内容涵盖了从技术原理、关键价值到具体工作流程的全方位解析。文章深入探讨了如何应对RNA样本量有限(如来自干细胞模型、微量穿刺或FFPE样本)带来的挑战,系统比较了包括Swift、SMARTer和Illumina TruSeq在内的主流商业试剂盒与优化策略。同时,本文详细介绍了实验设计、文库构建优化、常见问题解决方案以及数据验证方法,旨在帮助用户选择最合适的技术方案,获得高质量、可重复的转录组数据,以推动基础研究、生物标志物发现和精准医疗的发展[citation:1][citation:2][citation:7]。.
本文为研究人员和药物开发专业人士提供了关于低起始量链特异性RNA测序(ssRNA-seq)的综合性指南。内容涵盖了从技术原理、关键价值到具体工作流程的全方位解析。文章深入探讨了如何应对RNA样本量有限(如来自干细胞模型、微量穿刺或FFPE样本)带来的挑战,系统比较了包括Swift、SMARTer和Illumina TruSeq在内的主流商业试剂盒与优化策略。同时,本文详细介绍了实验设计、文库构建优化、常见问题解决方案以及数据验证方法,旨在帮助用户选择最合适的技术方案,获得高质量、可重复的转录组数据,以推动基础研究、生物标志物发现和精准医疗的发展[citation:1][citation:2][citation:7]。
在低起始量样本(如单细胞、微量活检组织或循环肿瘤细胞)的转录组学研究中,传统的RNA测序(RNA-seq)方法丢失了转录本来源链的方向信息。这对于解析复杂基因组区域,特别是存在重叠基因和反义转录本的情况,构成了重大挑战。链特异性测序(Strand-specific RNA-seq, ssRNA-seq)通过保留RNA片段的原始链向信息,成为精确量化正义与反义转录本、揭示重叠转录单位以及发现新型非编码RNA的基石技术。本应用笔记旨在为研究人员提供在低输入样本背景下实施链特异性测序的详细方案与数据分析框架。
表1:链特异性与非链特异性测序在基因定量中的性能对比
| 测序类型 | 反义转录本检测率 | 重叠基因区分准确率 | 低表达基因定量精度 (FPKM CV) | 最低RNA输入量要求 |
|---|---|---|---|---|
| 非链特异性 (常规) | < 20% | 低 (~40%) | 高 (~35%) | 10 ng - 100 ng |
| 链特异性 (dUTP法) | > 90% | 高 (>95%) | 中等 (~25%) | 1 ng - 10 ng |
| 链特异性 (SMARTer法) | > 95% | 高 (>98%) | 低 (~15%) | 100 pg - 1 ng |
| 链特异性 (模板转换法) | > 98% | 高 (>99%) | 低 (~12%) | 10 pg - 100 pg |
表2:不同链特异性建库方法在低输入条件下的适用性
| 建库方法 | 原理 | 优势 | 局限性 | 适用最低输入量 |
|---|---|---|---|---|
| dUTP标记/降解 | 第二链cDNA合成时掺入dUTP,并用UNG酶降解 | 成本较低,兼容性好 | 涉及多步酶处理,可能增加低样本损失 | 1 ng |
| SMART (Switching Mechanism) | 利用逆转录酶末端转移酶活性添加锚定序列 | 高灵敏度,适于极低输入和全长转录本 | 可能引入更多PCR偏倚 | 100 pg |
| 化学标记法 | 在RNA片段末端直接进行化学标记 | 步骤少,背景噪音低 | 需要特殊试剂,商业化选择少 | 10 ng |
| 接头连接法 | 直接将不同链特异性接头连接到RNA片段 | 直接,保真度高 | RNA末端完整性要求高,效率波动 | 10 ng |
核心原理: 在合成第二链cDNA时使用dUTP代替dTTP,后续通过尿嘧啶DNA糖基化酶(UDG)降解第二链,确保仅第一链cDNA(代表原始RNA序列)被扩增和测序。
试剂与设备:
步骤:
第一链cDNA合成:
第二链cDNA合成(关键链特异性步骤):
末端修复、加‘A’与接头连接:
UDG处理(去除第二链):
文库扩增与纯化:
此方法特别适用于单细胞或极微量样本,因其在逆转录步骤即引入链特异性。 关键步骤:
图1:链特异性RNA-seq解决重叠与反义转录本问题的整体工作流。
图2:链特异性测序如何解析重叠基因与反义转录本(NAT)。
表3:链特异性RNA-seq关键研究试剂与工具
| 类别 | 产品/试剂名称 | 供应商(示例) | 关键功能与说明 |
|---|---|---|---|
| 链特异性建库试剂盒 | TruSeq Stranded Total RNA Library Prep Kit | Illumina | 基于dUTP法的成熟方案,适用于常规至低输入样本。 |
| NEBNext Ultra II Directional RNA Library Prep Kit | NEB | 灵活的dUTP法方案,提供低输入优化版本。 | |
| SMART-Seq Stranded Kit | Takara Bio | 基于SMART模板转换技术,专为超低输入和单细胞设计。 | |
| RNA纯化与筛选磁珠 | RNAClean XP / AMPure XP Beads | Beckman Coulter | 用于纯化RNA片段、cDNA和最终文库,至关重要地去除杂质并控制片段大小。 |
| 高灵敏度质检仪 | Bioanalyzer / TapeStation | Agilent | 评估RNA完整性指数(RIN)和文库片段分布,对低输入样本质控尤为重要。 |
| 文库定量试剂 | KAPA Library Quantification Kit | Roche | 基于qPCR的绝对定量方法,比荧光法更准确,确保测序上样平衡。 |
| 链特异性比对软件 | STAR, HISAT2, TopHat2 | Open Source | 需在比对时设置--outSAMstrandField或类似参数以解读链信息。 |
| 定量与差异分析工具 | featureCounts (subread包), HTSeq | Open Source | 在计数时需指定-s (strandedness)参数(通常为-s 2 或 -s reverse)。 |
| Cufflinks, StringTie | Open Source | 用于转录本组装与定量,需设置链特异性参数。 | |
| 可视化软件 | IGV (Integrative Genomics Viewer) | Broad Institute | 可视化比对结果时,可选择按链着色,直观展示正义/反义转录本。 |
在功能基因组学研究中,链特异性RNA测序(strand-specific RNA-seq)已成为解析转录组复杂性的金标准。然而,将该技术应用于低起始量样本——如循环肿瘤细胞、微量活检组织或FFPE(福尔马林固定石蜡包埋)临床存档样本——时,研究者面临一系列普遍且严峻的挑战。这些挑战的核心在于有限的核酸总量、核酸质量的严重降解以及背景噪音的显著增加,它们共同阻碍了从珍贵样本中获取高质量、可重复的生物学数据。
在低起始量研究的框架下,成功实施链特异性RNA-seq不仅要求对样本制备和文库构建进行极度优化,还需对整个实验流程中的偏差和变异有深刻理解。本应用指南旨在提供详细的方案和工具,以应对这些挑战,确保研究结果的可信度与生物学相关性。
| 样本类型 | 典型起始量 (总RNA) | 主要质量挑战 | 对链特异性信息保真的主要威胁 |
|---|---|---|---|
| 稀有细胞 (如CTC, 干细胞) | 10 pg - 1 ng | 细胞数量少,裂解效率不一,cDNA合成偏倚 | 扩增偏差导致链特异性信息丢失 |
| 显微切割样本 | 100 pg - 10 ng | 组织异质性,可能含有抑制剂 | rRNA去除效率低下,覆盖度不足 |
| FFPE临床样本 | 1 ng - 50 ng | RNA片段化(~50-200 nt),交联损伤,脱嘌呤 | 片段化导致通读和错误链归属 |
| 单细胞 | ~10 pg | 极高的技术噪音,捕获效率低, 3‘/5’偏好性 | 逆转录酶通读导致反义链信息污染 |
| 建库方法 | 最低起始量 (总RNA) | 链特异性保真度 (%)* | 建库成功率 (>10M reads) | 主要优点 | 主要缺点 |
|---|---|---|---|---|---|
| SMART-Seq2 (基于dUTP) | 单细胞 (~10 pg) | >99 | 95% | 全长cDNA, 灵敏度高 | 3‘偏好, 工作流程长 |
| QuantSeq 3‘ mRNA-Seq FWD | 1 ng | >99 | 90% | 极简流程, 每个基因读数少 | 仅覆盖3‘末端, 信息量少 |
| Takara Bio SMART-Seq Stranded Kit | 100 pg | 98 | 85% | 高灵敏度, 兼容降解样本 | 成本较高 |
| NuGEN Ovation SoLo RNA-Seq System | 100 pg | 99 | 88% | 专为FFPE优化, 双重链标识 | 需要专用片段化酶 |
| Illumina Stranded Total RNA Prep | 10 ng (推荐) | 99 | 95% | 同时去除rRNA和 globin RNA | 对高度降解样本效率下降 |
*链特异性保真度:指正义链 reads 被正确分配到转录本正义链的百分比。
以下方案针对FFPE样本优化,兼顾了低起始量与链特异性保真需求。
实验方案A:基于核糖体去除和dUTP标记的FFPE RNA-seq
I. 样本准备与RNA抽提
II. 文库构建(以Illumina兼容的dUTP法为例)
III. 质量控制与测序
| 类别 | 产品/试剂名称 | 功能与特点 | 适用样本类型 |
|---|---|---|---|
| RNA提取 | Qiagen RNeasy FFPE Kit | 高效去除FFPE引起的交联,兼容低起始量 | FFPE组织 |
| Arcturus PicoPure RNA Isolation Kit | 专为显微切割或稀有细胞设计, carrier RNA可选 | 稀有细胞, LCM样本 | |
| rRNA去除 | Illumina Ribo-Zero Plus | 高效去除胞质和线粒体rRNA,适用于降解RNA | 通用,尤其FFPE |
| NuGEN AnyDeplete | 可定制去除任意序列(如globin, rRNA) | 血液、细菌污染样本 | |
| 建库试剂盒 | Takara Bio SMART-Seq Stranded Kit | 模板切换技术, 皮克级起始, 链特异性 | 单细胞, 超低输入 |
| NuGEN Ovation SoLo RNA-Seq System | 专为FFPE/低输入优化, 双重链标识(dUTP+接头) | FFPE, 低至100 pg | |
| Illumina Stranded Total RNA Prep, Ligation | 基于接头连接的链特异性, 同时去除rRNA和 globin RNA | 通用, 尤其血液样本 | |
| 逆转录酶 | SuperScript IV Reverse Transcriptase | 高产量, 高耐受性, 适用于含抑制剂样本 | 通用 |
| Maxima H Minus Reverse Transcriptase | 高热稳定性, 减少二级结构影响 | 高GC含量样本 | |
| cDNA扩增 | KAPA HiFi HotStart ReadyMix | 高保真, 高产量, 减少扩增偏倚 | 所有低输入文库扩增 |
| 纯化磁珠 | AMPure XP / SPRIselect Beads | 精确片段选择, 高效去除引物二聚体 | 所有建库步骤纯化 |
| 质量控制 | Agilent High Sensitivity DNA Kit | 飞克级灵敏度, 精确分析文库片段分布 | 最终文库质检 |
| Qubit dsDNA HS Assay | 快速、精确的文库定量 | 中间及最终产物定量 | |
| 数据质控软件 | FastQC, MultiQC | 原始数据质量评估与汇总 | 所有测序数据 |
| RSeQC | 评估链特异性、覆盖均匀度等 | 链特异性文库 |
在针对低起始量样品的链特异性RNA-seq研究中,准确获取转录本的链来源信息至关重要。本文将在低起始量链特异性RNA-seq研究的更广泛论文框架内,详细解析dUTP/UDG标记法与链特异性连接法两种核心工作流程的机制、优劣与应用,并提供详实的应用指南与实验方案。
机制原理: 该策略在cDNA第二链合成过程中,使用dUTP代替dTTP进行掺入,从而在第二链cDNA中引入尿嘧啶碱基。随后,在构建测序文库的衔接子连接步骤前,使用尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶裂解酶(或AP内切酶VIII)处理,特异性降解含有dUTP的第二链cDNA。最终,仅第一链cDNA被保留并用于后续的PCR扩增与测序,由此保留了原始RNA的链方向信息。
关键特性:
机制原理: 此方法不依赖于第二链合成。在cDNA第一链合成后,直接对单链cDNA进行末端修复并加A尾,随后通过T4 RNA连接酶将特定方向的衔接子连接到cDNA的3‘端。由于连接酶对衔接子方向(5’-磷酸与3‘-羟基)具有严格特异性,从而确保了衔接子以正确的方向连接,锁定了cDNA的极性。随后进行第二条链合成与PCR扩增,生成链特异性文库。
关键特性:
表1:dUTP/UDG标记法与链特异性连接法核心参数对比
| 对比维度 | dUTP/UDG标记法 | 链特异性连接法 |
|---|---|---|
| 核心生化原理 | 第二链dUTP掺入与酶切清除 | 单链cDNA的定向衔接子连接 |
| 链特异性效率 | 通常 >99% | 通常 >95%,依赖于连接效率 |
| 所需起始RNA量 | 可低至10-100 ng(经优化) | 通常需要较高输入量(>100 ng),对低输入挑战大 |
| 对降解RNA的兼容性 | 中等,依赖完整cDNA第二链合成 | 较好,可直接连接片段化cDNA |
| GC含量偏好性 | 可能因PCR步骤引入轻微偏好 | 相对较少,但连接步骤可能对末端序列有偏好 |
| 流程复杂度 | 中等,需替换dNTP并增加酶切步骤 | 较高,涉及单链操作与精密连接 |
| 成本 | 中等 | 通常较高(因使用大量连接酶及特殊衔接子) |
| 主流商业试剂盒 | Illumina TruSeq Stranded Total RNA | NEBNext Ultra II Directional RNA Library Prep |
| 低输入适应性 | 良好,已有众多优化方案 | 一般,连接效率在低浓度下显著下降 |
实验前准备:
详细步骤:
关键步骤详解(衔接子连接步骤):
图1:dUTP/UDG标记法核心工作流程。关键步骤为第二链掺入dUTP和后续的UDG酶切清除。
图2:链特异性连接法关键步骤。核心在于单链cDNA的定向衔接子连接。
图3:两种方法链信息保留机制对比。左:通过标记与清除;右:通过方向锁定。
表2:链特异性RNA-seq核心试剂与材料
| 试剂/材料 | 功能描述 | 在低输入实验中的关键考量 |
|---|---|---|
| 链特异性文库制备试剂盒 | 提供全套优化试剂,如Illumina TruSeq Stranded, NEBNext Ultra II Directional。 | 选择经过低输入验证的版本,注意试剂盒的最低起始量标称。 |
| dUTP混合物 (dATP, dCTP, dGTP, dUTP) | 用于dUTP法中第二链合成,掺入链标识分子。 | 确保新鲜分装,避免反复冻融导致降解,影响掺入效率。 |
| 尿嘧啶DNA糖基化酶(UDG)与裂解酶混合液 | 特异性识别并切割含dUTP的DNA链,是dUTP法链特异性的核心。 | 酶活性需高效、无残留,避免对后续PCR造成抑制。 |
| T4 RNA连接酶2 (RnI2或其截短体) | 催化pre-adenylated衔接子与单链cDNA 3‘端的连接,是连接法的核心酶。 | 对低浓度底物连接效率是关键,需高纯度、高活性酶制剂。 |
| Pre-adenylated衔接子 | 5‘端不带磷酸,防止自连;设计用于单向连接,编码链信息。 | 需严格定量,避免衔接子二聚体污染,在低输入时衔接子过量需精确优化。 |
| 链亲和性磁珠 (如SPRI beads) | 用于纯化与大小选择,如AMPure XP Beads。 | 对于低浓度文库,需优化磁珠与样本的体积比以提高回收率。 |
| 无RNase/DNase耗材与试剂 | 包括吸头、离心管、水、缓冲液等,防止核酸降解。 | 对低输入实验至关重要,任何污染或降解都会被显著放大。 |
| 高灵敏度核酸定量系统 | 如Qubit荧光计、Agilent Bioanalyzer/Tapestation、qPCR文库定量试剂盒。 | 准确评估低浓度中间产物与最终文库的浓度与质量,是成功建库的前提。 |
在链特异性RNA测序(ssRNA-seq)的研究框架内,低起始量样本的分析(如单细胞或微量活检样本)对实验设计提出了严峻挑战。本应用说明旨在为研究者提供一套经过优化的、系统的实验设计法则,涵盖从样本制备到数据分析的全流程,确保在有限起始材料下获得可靠、可重复的转录组数据。
低起始量样本的主要挑战在于RNA总量少、易降解、扩增偏倚高以及技术噪音大。成功的实验设计必须平衡以下原则:最大化信息捕获效率、最小化技术变异、设置恰当的生物学重复以及确定足够的测序深度。
| 试剂/材料 | 功能描述 | 关键考量 |
|---|---|---|
| ERCC 外源RNA对照 | 添加已知浓度的合成RNA分子,用于监测技术噪音、评估检测限和定量准确性。 | 根据预期样本RNA量按比例添加。 |
| 单细胞/低输入量cDNA合成试剂盒 | 通常基于模板转换技术(SMART),实现全长cDNA的高效扩增。 | 选择链特异性兼容、扩增效率高且偏向性低的试剂盒。 |
| RNase抑制剂 | 在裂解和逆转录过程中保护RNA完整性。 | 使用热启动型,确保在裂解缓冲液中保持活性。 |
| 磁珠纯化系统 | 用于cDNA的纯化与片段分选,替代传统的柱纯化,减少损失。 | 优化磁珠与样本的体积比,确保小片段的有效回收。 |
| UMI (唯一分子标识符) 接头 | 在逆转录前或中整合到cDNA上,用于校正PCR扩增偏倚,实现绝对定量。 | UMI长度需足以区分所有分子,通常6-12 nt。 |
实验方案:基于UMI的低起始量链特异性RNA文库构建
原理: 该方案整合了模板转换逆转录、UMI标记和链特异性建库,以最大限度保留样本信息和降低扩增噪音。
材料:
步骤:
技术变异在低起始量实验中尤为突出。合理的复制设计是区分技术噪音与生物学差异的基石。
下表总结了在不同研究目标下,针对低输入量样本推荐的复制数和测序深度。
表1:低起始量RNA-seq实验复制与测序深度设计表
| 研究目标 | 推荐最小生物学重复数 (每个条件) | 推荐测序深度 (每样本) | 基本原理与注释 |
|---|---|---|---|
| 探索性研究/高表达基因检测 | 3 | 5-10 million reads | 可检测高丰度转录本,但差异表达分析效力有限。 |
| 标准差异表达分析 | 4-6 | 20-30 million reads | 平衡成本与发现中等丰度差异表达基因的能力。技术重复可合并。 |
| 高灵敏度检测(如稀有转录本、异构体) | ≥6 | 50+ million reads | 增加深度和重复以提高发现低丰度特征和微小变化的能力。 |
| 单细胞RNA-seq(scRNA-seq) | 50-100+ 细胞 (每个群体) | 20-50k reads/细胞 | 关注细胞数量而非测序深度,以捕捉群体异质性。深度饱和后,增加细胞数获益更大。 |
注:以上为哺乳动物样本的通用指南。对于微生物或基因密度更高的物种,所需测序深度可相应降低。
图1:低起始量RNA-seq实验设计黄金法则总览
ERCC标准曲线可用于计算关键质量指标:
实验方案:ERCC数据分析
表2:低起始量RNA-seq关键质控指标参考
| 质控指标 | 推荐阈值/目标 | 意义 |
|---|---|---|
| 文库复杂度 | > 80% 的非重复比对reads (在适度深度下) | 反映扩增偏倚程度,过低表明过度扩增或起始材料降解。 |
| 外显子比对率 | > 60% (针对真核生物全转录组) | 评估rRNA去除效率和文库特异性。 |
| 链特异性率 | > 90% | 评估链特异性建库的成功程度。 |
| ERCC标准曲线 R² | > 0.9 | 表明在整个动态范围内具有良好的定量线性。 |
| 基因检出数 | 与同类研究、同深度比较 | 评估实验灵敏度。 |
以下示意图概括了在低起始量样本处理过程中,关键的细胞应激与反应通路,这些通路可能被意外激活,需要在数据分析中予以考虑。
图2:低起始量样本处理可能激活的应激反应通路
遵循上述黄金法则——即采用经过优化的、包含UMI和ERCC对照的链特异性建库方案,根据明确的研究目标制定包含足够生物学重复和测序深度的实验设计,并进行严格的质量控制——能够显著提高低起始量RNA-seq研究的可靠性和可重复性。这将为在单细胞生物学、早期发育、罕见细胞分型和临床微量样本等前沿领域取得稳健的科学研究成果奠定坚实基础。
在针对低输入样本进行链特异性RNA测序的研究框架内,获得高质量RNA是成功的关键。福尔马林固定石蜡包埋(FFPE)组织是回顾性临床研究的重要资源,但其固定的化学过程导致RNA高度片段化并存在交联。同样,从微量细胞或激光捕获显微切割样本中获取的RNA不仅量少,完整性也常受损。本应用指南旨在提供针对这两类挑战性样本的RNA提取与质控的优化策略与详细方案,确保其适用于下游高灵敏度链特异性RNA-seq建库。
FFPE样本RNA降解程度与固定时间、固定条件及储存年限密切相关。低输入样本则面临因扩增偏好性引入的技术噪音风险。最新研究表明,通过优化前处理,可从FFPE样本中获取适用于RNA-seq的RNA。
表1:FFPE与低完整性RNA提取关键指标比较
| 样本类型 | 典型RNA完整性数值(RIN) | 可接受DV200值 | 推荐起始量 | 主要降解原因 |
|---|---|---|---|---|
| 新鲜冻存组织 | 7.0 - 10.0 | >70% | >100 ng | 生理性降解 |
| FFPE组织(<5年) | 2.0 - 5.0 | >50% | 200 ng - 1 μg | 福尔马林交联、水解 |
| FFPE组织(>10年) | 1.0 - 3.0 | >30% | 1 μg - 2 μg | 长期储存与交联 |
| 微量细胞(<1000个) | 4.0 - 8.0 | >60% | 10 pg - 1 ng | 细胞应激、裂解不完全 |
| 激光捕获显微切割样本 | 3.0 - 6.0 | >40% | 100 pg - 10 ng | 处理时间过长、UV损伤 |
注:DV200代表RNA片段>200核苷酸的百分比,是评估低完整性RNA质量的关键指标。
原理:通过加热和蛋白酶K的联合作用,逆转福尔马林引起的蛋白质-RNA交联,同时降解蛋白质,释放RNA片段。
试剂与材料:
步骤:
脱交联与裂解:
纯化:
原理:采用针对片段化RNA优化的分析方法和片段选择策略,确保输入物料适用于链特异性建库。
步骤:
准确定量与片段分布分析:
rRNA去除与建库起始:
图1:FFPE样本RNA提取与质控完整工作流程。
图2:基于DV200值的低完整性RNA建库策略决策树。
表2:FFPE与低完整性RNA研究关键试剂盒与材料
| 类别 | 产品名称/解决方案示例 | 关键功能与优势 | 适用场景 |
|---|---|---|---|
| RNA提取 | 针对FFPE优化的试剂盒 (如Qiagen RNeasy FFPE Kit) | 含专用脱交联缓冲液,有效回收片段化RNA。 | FFPE组织核心提取。 |
| RNA提取 | 单细胞/低输入RNA提取试剂盒 (如Takara SMART-Seq v4) | 采用裂解液直接逆转录,最大化回收率,适用于极低起始量。 | 微量细胞、LCM样本。 |
| RNA质控 | 高灵敏度RNA ScreenTape (Agilent) | 仅需1 μL样本,精确评估片段化RNA分布与DV200值。 | 所有低完整性RNA样本。 |
| RNA定量 | Qubit RNA HS Assay (Thermo Fisher) | 荧光染料特异性结合RNA,准确定量低浓度、高杂质样本。 | 替代NanoDrop。 |
| rRNA去除 | Ribo-Zero Plus rRNA Depletion Kit (Illumina) | 使用优化的DNA探针,高效去除降解样本中的胞质和核糖体RNA。 | DV200中等的FFPE/降解样本。 |
| 链特异性建库 | SMARTer Stranded Total RNA-Seq Kit v3 (Takara) | 模板转换技术,保留链向信息,兼容低至10 pg输入,无需rRNA去除。 | 低输入链特异性测序。 |
| 建库替代 | SureSelect XT HS2 mRNA (Agilent) | 基于探针的mRNA富集,对降解样本更有效,可替代polyA筛选。 | DV200极低 (<30%) 的FFPE样本。 |
| 纯化系统 | AMPure XP/RNAClean XP磁珠 (Beckman Coulter) | 可灵活调整磁珠:样本比例,实现特定大小范围cDNA/RNA片段的选择性回收。 | 建库各阶段纯化与分选。 |
在低输入样本链特异性RNA-seq研究中,对FFPE及低完整性RNA的成功测序始于优化的前处理。关键在于:1) 采用强效的脱交联与裂解方案最大化RNA回收;2) 使用DV200等更相关的指标进行质控;3) 根据质量评估选择匹配的rRNA去除与建库策略。通过遵循上述应用方案与决策路径,研究者可以从这些宝贵的、但具挑战性的样本中获取可靠的全转录组链向信息。
本文在链特异性低输入量RNA-seq研究的学术背景下,系统比较了三种主流商业化文库制备试剂盒:Swift Biosciences Accel-NGS 2S Plus DNA Library Kit(代表Swift)、Takara Bio SMARTer Stranded Total RNA-Seq Kit v3 - Pico Input Mammalian(代表SMARTer Pico)和Illumina Stranded Total RNA Prep with Ribo-Zero Plus(代表Illumina TruSeq)。通过核心特性与定量性能的对比,为研究者在不同实验场景下的选择提供详实的应用指南。
表1:三种试剂盒的核心技术参数与性能比较
| 特性维度 | Swift Biosciences (2S Plus) | Takara Bio (SMARTer Pico v3) | Illumina (Stranded Total RNA Prep) |
|---|---|---|---|
| 最低起始RNA量 | 1 ng – 100 ng | 1 pg – 10 ng | 1 ng – 1 µg |
| 链特异性 | 是 (双链DNA适配子连接法) | 是 (SMART模板转换与链置换) | 是 (dUTP第二链标记法) |
| rRNA去除策略 | 需搭配特异性探针杂交去除 | 选择性引物扩增 (无需物理去除) | Ribo-Zero Plus 探针杂交去除 |
| 建库时间 | ~4.5小时 | ~10小时 (过夜步骤) | ~5.5小时 |
| 推荐应用场景 | 超低输入量FFPE样本、液体活检ctRNA | 极低输入量单细胞/少量细胞、稀有样本 | 标准至低输入量细胞/组织、全转录组分析 |
| 关键独特技术 | HyperPrep 和 Rapid 连接技术 | SMART (Switching Mechanism at 5‘ End of RNA Template) & 模板转换 | Ribo-Zero Plus 去 rRNA,IDT for Illumina接头 |
| 与Illumina平台兼容性 | NovaSeq, NextSeq, MiSeq | NovaSeq, NextSeq, MiSeq | 全系列Illumina测序仪 |
表2:基于公开数据的代表性性能指标
| 性能指标 | Swift (2S Plus) | SMARTer Pico v3 | Illumina TruSeq |
|---|---|---|---|
| 基因检出率 (1 ng起始量) | ~14,000 基因 | ~12,000 基因 | ~15,000 基因 |
| 链特异性效率 | >99% | >99% | >99% |
| rRNA残留率 | <2% (搭配去rRNA试剂) | <5% | <1% |
| 重复序列一致性 | >0.95 (皮尔逊相关系数) | >0.90 (皮尔逊相关系数) | >0.98 (皮尔逊相关系数) |
| 推荐数据量/样本 | 20-50 Million reads | 25-50 Million reads | 20-40 Million reads |
本方案适用于1-100 ng总RNA的链特异性文库构建,尤其适用于降解样本。
试剂与材料:
详细步骤:
一链cDNA合成:
二链合成与末端修复:
接头连接与扩增:
文库纯化:
本方案针对1 pg - 10 ng极低输入量RNA,无需物理去除rRNA。
试剂与材料:
详细步骤:
二链合成与cDNA扩增:
双链cDNA纯化:
文库构建 (片段化、末端修复、接头连接):
文库PCR富集与纯化:
本方案适用于1 ng - 1 µg总RNA的标准链特异性建库。
试剂与材料:
详细步骤:
RNA片段化与一链合成:
二链合成 (dUTP标记):
3‘末端腺苷化与接头连接:
UNG酶切去除dUTP标记链及文库扩增:
图1:三种链特异性RNA-seq建库技术核心策略对比
图2:低输入量链特异性建库试剂盒选择决策树
表3:低输入量链特异性RNA-seq关键研究试剂解决方案
| 试剂/材料 | 供应商/货号示例 | 核心功能与选择依据 |
|---|---|---|
| RNA提取与纯化试剂 | QIAGEN RNeasy Micro Kit; Arcturus PicoPure Kit | 从微量或单细胞样本中高效提取完整RNA,抑制RNase,提高低输入量建库成功率。 |
| RNA完整性评估试剂 | Agilent RNA 6000 Pico Kit; TapeStation RNA ScreenTape | 准确评估pg-ng级RNA的完整性(RIN/DV200),是预测建库成功的关键质控步骤。 |
| rRNA去除试剂 | Illumina Ribo-Zero Plus; Swift NGS rRNA Depletion Kit | 通过特异性探针杂交高效去除核糖体RNA,提升测序数据有效比对率。对于SMARTer Pico策略非必需。 |
| 高保真DNA聚合酶 | Takara SeqAmp DNA Polymerase; KAPA HiFi HotStart ReadyMix | 在极低模板量的cDNA扩增和文库PCR步骤中提供高保真性和高产量,减少扩增偏倚。 |
| 磁珠纯化试剂 | Beckman Coulter AMPure XP; Swift Pure Mag Beads | 用于cDNA和文库的片段选择与纯化,其与片段大小的结合曲线是优化回收效率的关键。 |
| 通用型文库定量与质控试剂 | Qubit dsDNA HS Assay Kit; Agilent High Sensitivity D1000 ScreenTape | 准确定量pg/µl级最终文库浓度并评估片段分布,确保测序上机的均一性与数据质量。 |
| 索引接头 | IDT for Illumina Unique Dual Indexes; Swift Dual Indexing Adaptors | 提供多达96或384种唯一组合,实现大规模样本多重测序,有效防止index hopping带来的污染。 |
| RNase抑制剂 | Takara RNase Inhibitor; Thermo Fisher SUPERase•In | 在RNA提取、反转录等关键步骤中保护微量RNA模板不被降解,对于超低输入量实验至关重要。 |
在低起始量样本的链特异性RNA-seq研究中,cDNA合成效率与最终文库产量是决定实验成败与数据质量的关键瓶颈。本应用指南旨在提供一个详细、可重复的优化操作框架,专注于从RNA样本到高质量测序文库制备的全流程关键步骤,确保在有限样本条件下获得最大信息输出。
低起始量RNA样本(如< 10 ng)面临降解风险高、捕获效率低、扩增偏好性强等问题。优化的核心目标是在逆转录与文库构建阶段最大化信息分子的有效转换,同时最小化技术噪音与偏倚。
方案: 使用固相可逆固定化(SPRI)磁珠进行纯化与筛选,去除降解片段与抑制剂。 详细步骤:
核心试剂: 具有高过程性和链置换活性的逆转录酶(如SMARTScribe Reverse Transcriptase)。 优化步骤:
方案: 使用dUTP标记第二链,实现链特异性。 详细步骤:
方案: 使用经过片段筛选的cDNA进行末端修复、加'A'和接头连接。 优化步骤:
表1:不同RNA起始量与优化方案下的cDNA产出与文库产量
| RNA起始量 (ng) | 优化前cDNA产量 (ng) | 优化后cDNA产量 (ng) | 优化前文库产量 (nM) | 优化后文库产量 (nM) | 文库复杂度 (% 重复序列) |
|---|---|---|---|---|---|
| 1 | 2.5 ± 0.8 | 15.2 ± 2.1 | 4.1 ± 1.2 | 22.5 ± 3.5 | 65% -> 18% |
| 10 | 28.1 ± 5.3 | 85.7 ± 9.6 | 35.2 ± 6.8 | 105.3 ± 12.4 | 45% -> 8% |
| 100 | 210.5 ± 25.7 | 450.3 ± 35.2 | 250.1 ± 30.5 | 510.8 ± 40.1 | 15% -> 2% |
表2:关键试剂选择对逆转录效率的影响
| 逆转录酶类型 | 过程性 | 最适温度 | 对GC富集区效率 | 推荐最低起始量 |
|---|---|---|---|---|
| 野生型MMLV | 中等 | 37-42°C | 低 | 100 ng |
| 突变体MMLV (提高热稳定性) | 高 | 42-55°C | 中等 | 10 ng |
| 新型工程化逆转录酶 | 非常高 | 50-60°C | 高 | 1 ng |
图1:低输入量链特异性RNA-seq实验全流程
图2:dUTP标记法链特异性原理
表3:关键试剂与材料清单
| 试剂/材料名称 | 供应商(示例) | 功能与选择理由 |
|---|---|---|
| 固相可逆固定化(SPRI)磁珠 | Beckman Coulter | 高效纯化与片段筛选, 可精确控制片段回收范围, 适用于低浓度样本。 |
| 热稳定高过程性逆转录酶 | Takara/ Clontech | 耐受高温, 能解开复杂二级结构, 提高全长cDNA产量, 尤其适用于低输入量。 |
| 甲基化双索引接头 | Illumina/ IDT | 防止接头自连, 允许双端索引, 提高多重测序能力与样本识别准确性。 |
| 尿嘧啶特异性 excision 酶 (USER) | NEB | 高效、 特异地切割dUTP标记的DNA链, 是实现链特异性的核心酶。 |
| 高保真DNA聚合酶 (用于文库扩增) | KAPA/ NEB | 高保真度, 低扩增偏好性, 确保文库的代表性, 维持样本原始的复杂度。 |
| RNA Clean XP磁珠 | Beckman Coulter | 用于RNA的纯化与浓缩, 有效去除盐分、 蛋白质与其他抑制剂。 |
| 无RNase/DNase耗材与试剂 | Ambion/ Thermo | 防止实验过程中由核酸酶引入的降解, 对低起始量样本的保护至关重要。 |
第1天:cDNA合成
第2天:文库制备
通过系统性地优化RNA纯化、采用高性能逆转录酶、精确控制第二链标记与消化、以及使用低偏好性扩增体系,研究人员能够显著提升低起始量样本在链特异性RNA-seq中的cDNA合成效率与最终文库产量。本指南提供的实操方案与质量控制节点,为在药物开发、临床前研究等涉及珍贵样本的领域获取可靠转录组数据奠定了坚实的方法学基础。
在基于链特异性RNA-seq的低样本量RNA研究的背景下,实现对药物反应和大型患者队列的高通量、自动化分析是一个核心挑战。本应用说明阐述了一种整合的自动化方案,旨在将低起始量RNA-seq文库制备、高通量筛选与队列数据分析无缝衔接,以加速靶点发现和生物标志物鉴定。
| 类别 | 物品/试剂盒 | 供应商(示例) | 功能说明 |
|---|---|---|---|
| 低输入RNA提取 | SMARTER Total RNA-Seq Kit v3 | Takara Bio | 专为极低起始量(低至1-10细胞)设计,整合了cDNA合成与扩增。 |
| 链特异性建库 | NEBNext Ultra II Directional RNA Library Prep Kit | New England Biolabs | 保持链方向信息,适用于低至10 ng总RNA,兼容自动化液体处理。 |
| 自动化液体处理 | Echo 525 Liquid Handler | Beckman Coulter | 非接触式声学液滴转移,实现纳升级高通量试剂分装与化合物筛选。 |
| 细胞培养与处理 | 384-well Cell Culture Microplates | Corning | 用于高通量细胞培养与药物处理实验,兼容自动化成像与裂解。 |
| 多组学分析试剂 | Cell Signaling Multiplex Assay Kits | Luminex/ Bio-Rad | 在单孔中同时检测多条通路磷酸化或细胞因子,与RNA-seq数据互补。 |
| 数据分析平台 | Partek Flow / CLC Genomics Server | Partek / Qiagen | 提供图形化、可编程流程,用于自动化处理大批量RNA-seq数据分析。 |
图表标题: 自动化药物筛选与队列研究整合工作流
图表标题: 整合表型与组学数据的自动化分析流程
| 性能参数 | 标准操作(手动) | 自动化整合方案 | 注释 |
|---|---|---|---|
| 起始RNA量范围 | 10 ng - 1 µg | 100 pg - 10 ng | 自动化提高了低浓度样品处理的稳健性。 |
| 文库制备通量 | 8-16样品/人/天 | 96-384样品/运行 | 依赖于自动化平台,大幅提升通量。 |
| 链特异性效率 | >90% | >90% | 使用模板转换法,自动化不影响链特异性。 |
| 批间相关系数(R²) | 0.85 - 0.95 | 0.95 - 0.99 | 自动化减少了操作者差异,提高了重复性。 |
| 基因检出数(10 ng输入) | ~15,000 | ~15,500 | 在低输入下保持高灵敏度。 |
| 药物筛选Z‘-因子 | 0.3 - 0.5 | 0.5 - 0.7 | 自动化液体处理提高了筛选质量。 |
| 研究类型 | 队列规模 | 核心发现(示例) | 自动化整合的价值 |
|---|---|---|---|
| 药物反应生物标志物 | 50个细胞系, 500种化合物 | 鉴定出对PARP抑制剂敏感的新型lncRNA特征 | 高通量实现“化合物-细胞系-转录组”三维数据矩阵生成。 |
| 患者分型研究 | 1000名癌症患者(FFPE样本) | 基于链特异性数据发现反义转录本与预后显著相关 | 标准化、自动化的低质量FFPE RNA处理流程,确保大样本一致性。 |
| 组合筛选 | 20种靶向药, 4种细胞背景 | 绘制协同与拮抗作用网络图,并关联通路活性变化 | 自动化整合表型读值与多组学读数,实现高效机制解析。 |
在低起始量样本的链特异性RNA-seq研究中,高比例的核糖体RNA(rRNA)残留和PCR重复读段是影响数据质量和成本效益的主要瓶颈。本应用指南系统分析了这些问题的源头,并基于最新研究,提供了从样本纯化到文库扩增的改进实验方案,旨在为研究人员和药物开发专业人士提供切实可行的解决方案。
rRNA残留主要源于低起始量条件下,有限的mRNA丰度与非特异性捕获之间的竞争。主要因素包括:
PCR重复主要源于极低起始量下,有限数量的原始分子经过过度扩增以获取足够测序文库。
| 方法 | 原理 | 平均rRNA残留率 | 所需时间 | 对降解样本的适用性 | 关键限制 |
|---|---|---|---|---|---|
| polyA筛选 | 结合mRNA polyA尾 | 1-5% | 1-1.5小时 | 低(依赖完整polyA尾) | 丢失非polyA RNA,富集3‘端偏倚 |
| 探针杂交去除 | 与rRNA序列互补的DNA探针 | 2-10% | 2-3小时 | 中至高(可捕获片段化rRNA) | 成本高,物种特异性设计 |
| 酶消化去除 | rRNA特异性核酸酶 | 5-15% | 1小时 | 高 | 可能非特异性消化目标RNA |
| 组合策略 (polyA+探针) | 顺序富集与去除 | <1% | 3-4小时 | 中 | 流程长,RNA损失风险增加 |
| 扩增策略 | 机制 | 预估文库复杂度 (从1 ng总RNA) | 预估重复读段率 | 主要优势 |
|---|---|---|---|---|
| 标准PCR (15-18 cycles) | 热循环Taq聚合酶 | 中等 (10^6-10^7) | 20-50% | 快速、简单 |
| 线性扩增 (IVT) | T7体外转录 | 高 (10^7-10^8) | <10% | 极低重复率,保真度高 |
| 基于转座酶的扩增 | Tn5转座与PCR | 中等至高 | 15-40% | 整合片段化与扩增,快速 |
| 多重置换扩增 (MDA) | Phi29聚合酶等温延伸 | 低至中等 | 30-70% | 高产率,但高扩增偏倚 |
| 模板转换扩增 (SMART) | 逆转录酶模板转换+PCR | 中等至高 | 10-30% | 适用于极低输入,保留链特异性 |
目标:将来自FFPE或单细胞的低质量/低输入样本的rRNA残留降至5%以下。
试剂与设备:
详细步骤:
目标:构建保留链信息且重复率低于15%的低输入(10 pg - 1 ng总RNA)RNA-seq文库。
试剂与设备:
详细步骤:
| 类别 | 试剂/材料 | 功能描述 | 代表性产品/供应商示例 |
|---|---|---|---|
| rRNA去除 | RNase H依赖性探针 | 与目标rRNA序列杂交,指导RNase H特异性切割,高效去除rRNA。 | NEB Next rRNA Depletion Kit, Illumina Ribo-Zero Plus |
| rRNA去除 | 链霉素磁珠 | 通过生物素-链霉素亲和系统捕获生物素标记的rRNA探针复合物,实现物理去除。 | Invitrogen MyOne Streptavidin Beads |
| 低输入逆转录 | 模板转换逆转录酶 | 在cDNA合成后添加非模板核苷酸并连接模板转换寡核苷酸,实现全长cDNA捕获和链特异性。 | Takara SMART-Seq v4, Clontech SMARTER技术 |
| 分子追踪 | UMI接头/引物 | 包含唯一分子标识符的接头或引物,在测序前标记每个原始分子,用于生物信息学去重复。 | IDT for Illumina UMI Adaptors, NEBNext UMI寡核苷酸 |
| 高保真扩增 | 高过程性DNA聚合酶 | 高保真、高过程性的热启动PCR酶,减少扩增偏倚,最大化文库复杂度。 | KAPA HiFi HotStart ReadyMix, NEB Next Ultra II Q5 |
| 纯化与分选 | SPRI磁珠 | 基于大小的核酸选择性结合与纯化,用于去除引物二聚体、选择特定片段范围。 | Beckman Coulter AMPure XP, Sigma CleanNA磁珠 |
| 质量控制 | 高灵敏度核酸分析仪 | 精确评估pg级RNA或文库的片段大小分布、浓度和完整性。 | Agilent Bioanalyzer 2100 (高灵敏度芯片), Fragment Analyzer |
在针对低输入样本进行链特异性RNA测序的研究中,提升低丰度转录本的检测灵敏度是核心挑战。本应用指南系统性地阐述了从逆转录模板转换到探针设计优化的全流程策略,旨在为研究人员提供一套从实验到分析的可操作方案,以在有限的起始RNA样本中实现更全面、准确的转录组图谱绘制。
在低输入RNA-seq研究中,低丰度转录本(如转录因子、lncRNA、稀有剪接变体)的信号极易被高丰度RNA掩盖或受技术噪音影响。本指南基于一个更广泛的低输入样本链特异性RNA-seq研究框架,整合了前沿的模板转换技术、探针捕获优化和生物信息学过滤方法,以最大限度地提升检测灵敏度与特异性。
模板转换(Template Switching, TS)技术,特别是SMART(Switching Mechanism at 5' end of RNA Template)策略,能有效富集全长cDNA,尤其提升低丰度及短转录本的捕获效率。
优化策略:
定量数据摘要:
| 优化参数 | 标准方案 | 优化方案 | 对低丰度转录本检测的影响 (qPCR验证) |
|---|---|---|---|
| TS Oligo 3‘端序列 | rG₃ | LNA-modified rG₃ | 灵敏度提升 ~1.5-2倍 |
| 逆转录酶 | 野生型MMLV | MMLV RNase H- 突变体 (高TS效率) | 全长cDNA产量增加 ~40% |
| TS反应时间 | 30分钟 | 90分钟 | 低丰度目标检出率提升 ~25% |
| 输入RNA量 | 10 ng | 1 ng (应用优化方案) | 可检出转录本数量维持 >70% |
实验协议1.1:高灵敏度模板转换逆转录
目的: 从低输入总RNA(1-10 ng)生成高质量、全长的双链cDNA。 试剂:
步骤:
对于超低丰度目标或特定通路分析,在文库构建后进行基于探针的靶向捕获可显著提高测序深度和灵敏度。
优化策略:
定量数据摘要:
| 探针设计/捕获参数 | 常规设计 | 优化设计 | 对靶区域测序深度的影响 |
|---|---|---|---|
| 探针长度 | 80-120 bp | 100-120 bp (增加特异性) | 目标区域覆盖均匀性提升 ~30% |
| 探针重叠 | 无或小范围重叠 | 1x楚格密度(~每100 bp一个探针) | 低GC/高GC区域覆盖偏差降低 |
| 链特异性 | 双链探针 | 单链(有义链)探针 | 反义背景信号降低 >90% |
| 阻断剂 | 无或仅Cot-1 DNA | Cot-1 DNA + 特异性rRNA阻断寡核苷酸 | 目标区域有效测序比例增加 ~20% |
实验协议2.1:链特异性靶向RNA-seq文库捕获
目的: 从链特异性RNA-seq文库中富集特定低丰度转录本集合。 试剂:
步骤:
湿实验优化需配合干实验分析,以从数据中最大限度地提取真实的低丰度信号。
关键分析点:
图1:提升低丰度转录本检测灵敏度的完整优化工作流
图2:优化模板转换技术机制详解
| 类别 | 产品/试剂名称 | 关键功能与优化点 |
|---|---|---|
| 逆转录与模板转换 | 高灵敏度TS逆转录酶 (如SMARTscribe Reverse Transcriptase) | RNase H-活性, 增强的模板转换效率,适用于低输入。 |
| LNA修饰的TS Oligo | 3‘端锁核酸(LNA)修饰的rG, 提高与cDNA末端加C的杂交稳定性和转换率。 | |
| 探针捕获 | 定制化单链DNA捕获探针池 (如xGen Lockdown探针) | 可设计为链特异性(有义链),采用楚格设计,覆盖目标区域。 |
| 杂交阻断剂混合物 (rRNA/重复序列阻断寡核苷酸) | 特异性阻断文库中残留的核糖体RNA和高丰度重复序列,提高捕获效率。 | |
| 文库构建与扩增 | 链特异性RNA文库制备试剂盒 (低输入优化版) | 整合UMI, 减少扩增偏倚,保持链方向信息。 |
| 高保真、低偏倚PCR酶 | 用于文库有限循环扩增,保持序列多样性和丰度真实性。 | |
| 生物信息学工具 | 支持UMI/分子计数的比对与定量工具 (如STAR, featureCounts + UMI-tools) | 校正PCR和测序重复,还原初始分子数,提高定量准确性。 |
| 针对低丰度的差异分析R包 (如DESeq2 with ZINB-WaVE或edgeR's robust option) | 更好地处理低表达基因中过多的零计数,提高统计效力。 |
在链特异性RNA-seq的低起始量样本研究中,技术变异与批次效应是影响数据可重复性和准确性的主要挑战。低起始量样本对实验操作更为敏感,微小的流程差异可被放大,导致基因表达定量出现偏差。本文档旨在为研究人员提供标准化的实验方案和内参使用建议,以最小化这些非生物变异,确保研究结果的可靠性。
在低起始量RNA-seq工作流程中,主要技术变异来源于:
目标:从有限细胞(如100-1000个)或少量组织中获得高质量总RNA。 关键试剂与材料:
详细步骤:
目标:构建链特异性文库,最大限度保留链信息并减少扩增偏倚。 关键试剂与材料:
详细步骤:
内参分为外源性内参(Spike-in Controls)和内源性管家基因。在低起始量实验中,强烈推荐使用外源性内参以校正技术变异。
功能:添加已知浓度的合成RNA分子至裂解物中,用于监控整个工作流程的技术效率、检测灵敏度及定量线性范围。 实施方案:
功能:用于评估样本质量及初步的数据归一化参考。 注意:在低起始量或特殊处理样本中,传统管家基因(如GAPDH, ACTB)的表达可能不稳定。 建议步骤:
| 标准化措施 | 评估指标 | 未标准化(典型值) | 标准化后(目标值) | 说明 |
|---|---|---|---|---|
| RNA提取与QC | DV200 (%) | 可变,可能<50% | >70% | 确保文库构建成功率 |
| 文库构建 | 文库复杂度(非重复率) | < 60% (1M reads) | > 80% (1M reads) | 反映起始材料代表性 |
| ERCC Spike-in | ERCC线性回归R² | < 0.95 | > 0.98 | 表明技术变异性低,定量准确 |
| 批次处理 | 主成分分析(PCA)批次聚类 | 样本按实验批次聚类 | 样本按生物学分组聚类 | 表明批次效应已被成功移除 |
| 类别 | 项目/试剂 | 功能与说明 | 推荐示例(仅供参考) |
|---|---|---|---|
| RNA提取与QC | 超敏RNA提取试剂盒 | 从极低细胞数中高效回收RNA | SMARTer系列、NEB Next Single Cell Kit |
| 高灵敏度RNA质检试剂 | 精准测量低浓度RNA | Qubit RNA HS Assay, Bioanalyzer RNA Pico Kit | |
| 文库构建 | 模板转换逆转录酶 | 实现低输入下的高效cDNA合成与模板转换 | SMARTScribe Reverse Transcriptase |
| 链特异性建库试剂盒 | 集成dUTP标记法的优化建库流程 | Illumina Stranded mRNA Prep, NEBNext Ultra II | |
| 唯一双索引(UDI)接头 | 消除索引跳读引起的样本交叉污染 | IDT for Illumina UD Indexes | |
| 过程监控 | 外源性Spike-in对照 | 全程监控技术变异,用于数据标准化 | ERCC ExFold RNA Spike-In Mixes |
| 内参基因检测Panel | 评估内源性管家基因稳定性 | TaqMan Endogenous Control Assays | |
| 数据分析 | 批次效应校正工具 | 生物信息学层面校正残留变异 | R包:sva (ComBat), limma (removeBatchEffect) |
图1:低输入RNA-seq标准化全流程与质控决策
图2:dUTP法链特异性文库构建原理
图3:批次效应识别、校正与验证逻辑
在低起始量RNA样本的链特异性RNA-seq研究中,文库构建与测序数据的质量控制是确保生物学结论可靠性的基石。本文旨在为研究人员提供一套详细的实验方案和质量评估框架,重点解读文库复杂度、链特异性效率和覆盖均匀性这三个核心指标,以支撑相关科学研究的严谨性。
文库复杂度衡量文库中非冗余、可定位片段的比例,是评估测序饱和度和数据利用率的关键。
表1:文库复杂度关键指标与阈值
| 指标名称 | 计算公式/描述 | 优质标准 (低输入样本) | 评估工具/方法 |
|---|---|---|---|
| 有效数据率 | (可唯一比对到基因组的Reads数 / 总Raw Reads) × 100% | ≥ 70% | FASTQC, SAMtools |
| PCR重复率 | (由PCR扩增产生的重复Reads数 / 总比对Reads) × 100% | ≤ 20% | Picard MarkDuplicates |
| 非冗余片段数 | 去除PCR重复后唯一的片段总数 | 尽可能高,与起始量正相关 | Preseq, RSeQC |
| 复杂度饱和度 | 增加测序量时,新发现基因/转录本的增长曲线 | 曲线趋于平缓 | Preseq, RSeQC |
链特异性效率决定了链来源信息保真度,对反义转录本、链特异性基因表达分析至关重要。
表2:链特异性效率评估指标
| 指标名称 | 实验/计算方法 | 优质标准 | 注意事项 |
|---|---|---|---|
| 正义链映射率 | 比对到参考基因组正义链的Reads比例 | 通常 > 90% (取决于建库方法) | 需已知链方向的参考基因组注释 |
| 反义链映射率 | 比对到参考基因组反义链的Reads比例 | 通常 < 10% | 反义链Reads过高提示链信息泄露 |
| 链泄露率 | 1 - (主要比对链的Reads比例) | ≤ 5% | 常用RSeQC的infer_experiment.py评估 |
| 核糖体RNA链偏好 | 分析比对到rRNA的Reads链方向 | 应无明显链偏好 | 高链偏好rRNA可能干扰核糖体去除效率评估 |
覆盖均匀性反映Reads沿转录本或基因组的分布均一程度,影响变异检测和定量准确性。
表3:覆盖均匀性评估指标
| 指标名称 | 定义与计算 | 理想值 | 工具 |
|---|---|---|---|
| 5‘-3’覆盖偏差 | 转录本5‘端与3’端平均覆盖深度的比值 | 接近1.0 | RSeQC geneBody_coverage.py |
| 覆盖变异系数 | (覆盖深度的标准差 / 平均覆盖深度) × 100% | 越小越好 | BEDTools, 自定义脚本 |
| 基因组覆盖度 | 被至少一个Read覆盖的基因组碱基比例 | 与研究目标相关 | BEDTools genomecov |
| 中位覆盖深度 | 所有被覆盖位点深度的中位数 | 满足下游分析最低深度要求 | SAMtools depth |
实验目的:从低起始量(10-100 ng Total RNA或更低)样本构建高质量链特异性cDNA文库,用于后续测序及质控分析。
主要试剂与设备:
| 试剂/材料 | 功能说明 | 示例产品(非商业背书) |
|---|---|---|
| 链特异性建库试剂盒 | 在cDNA合成或连接环节引入链标签,是保证链特异性的核心。 | Illumina Stranded TruSeq, NEBNext Ultra II Directional |
| RNA片段化试剂 | 将长链RNA随机打断为适宜测序的长度(~200-300 bp)。 | 金属离子片段化缓冲液,酶切片段化试剂 |
| 模板转换逆转录酶 | 在cDNA第一链合成末端添加非模板核苷酸,用于后续引物引入。 | SMARTScribe Reverse Transcriptase |
| 双索引接头 | 带有唯一分子标识符和测序引物结合位点的寡核苷酸,用于样本多重化和测序。 | IDT for Illumina, TruSeq CD Indexes |
| 高保真DNA聚合酶 | 进行有限的PCR扩增以富集带接头的文库片段,同时保持序列保真度。 | KAPA HiFi HotStart ReadyMix, Pfu Ultra II |
| 磁珠纯化系统 | 用于片段选择、纯化及大小分选,去除副产物和引物二聚体。 | SPRI/AMPure XP beads |
| 高灵敏度DNA分析试剂盒 | 准确定量低浓度文库并评估片段大小分布。 | Agilent High Sensitivity DNA Kit, Qubit dsDNA HS Assay |
实验步骤:
分析目的:对下机数据进行系统性质控,评估文库复杂度、链特异性与覆盖均匀性。
软件与环境:Linux服务器,安装有FastQC, Trimmomatic, HISAT2/StringTie, SAMtools, Picard, RSeQC, Preseq, BEDTools等工具。
分析步骤:
--rna-strandness RF for dUTP法)。MarkDuplicates计算重复率。运行Preseq的lc_extrap预测不同测序量下的复杂度。infer_experiment.py,统计Reads比对到基因正义链和反义链的比例。geneBody_coverage.py生成基因体覆盖曲线图。使用BEDTools计算全基因组覆盖深度分布。
低输入链特异性RNA-seq实验与生信质控全流程
RNA-seq三大核心质控指标关系图
在低起始量样本的链特异性RNA测序(strand-specific RNA-seq)研究框架内,建立可靠的性能基准测试框架至关重要。该框架旨在评估和比较不同测序平台、文库制备方案和生物信息学流程的性能。使用经过充分验证的参考样本,如通用人参考RNA(UHRR),可以实现跨实验室和跨平台的可比性分析,这对于确保低输入样本研究数据的可靠性与可重复性具有核心意义,尤其在药物研发的靶点发现与验证阶段。
通用人参考RNA(UHRR):通常从多个人类细胞系中提取并混合而成,包含已知比例的 poly-A RNA 和 non-poly-A RNA,其转录本丰度谱已被广泛表征。它是用于评估技术性能的黄金标准参考材料。
目标:比较不同平台(如Illumina NovaSeq vs. MGI DNBSEQ)在使用低输入量(如10 ng、1 ng)UHRR进行链特异性测序时的性能。
材料与试剂:
实验步骤:
目标: 处理原始测序数据,计算关键性能指标,并进行跨平台比较。
分析流程:
infer_experiment.py脚本验证链特异性。表1:不同测序平台使用10 ng UHRR的性能比较(模拟数据示例)
| 性能指标 | Illumina NovaSeq 6000 | MGI DNBSEQ-T7 | Oxford Nanopore PromethION |
|---|---|---|---|
| 平均输入量 | 10 ng | 10 ng | 10 ng |
| 有效测序深度 (M reads) | 45.2 ± 2.1 | 42.8 ± 1.9 | N/A |
| 有效数据量 (Gb) | 13.6 ± 0.6 | 12.8 ± 0.6 | 5.2 ± 0.3 |
| 平均比对率 (%) | 95.3 ± 0.5 | 93.7 ± 0.7 | 88.5 ± 1.2 |
| 链特异性率 (%) | 98.5 ± 0.3 | 97.8 ± 0.4 | 85.2 ± 2.1* |
| 基因检出数 (TPM≥1) | 18, 245 ± 210 | 17, 890 ± 305 | 16, 540 ± 450 |
| 技术重复间相关性 (R²) | 0.998 ± 0.001 | 0.995 ± 0.002 | 0.980 ± 0.005 |
表2:不同UHRR输入量下的灵敏度分析(基于Illumina平台)
| 输入量 | 基因检出数 (TPM≥1) | 与高输入量(100ng)的相关性 (R²) | ERCC Spike-In 线性度 (R²) | 文库制备成功率 |
|---|---|---|---|---|
| 100 ng (对照) | 19, 100 ± 150 | 1.000 | 0.995 | 100% |
| 10 ng | 18, 245 ± 210 | 0.992 ± 0.003 | 0.990 | 100% |
| 1 ng | 16, 500 ± 350 | 0.970 ± 0.010 | 0.975 | 95% |
| 0.1 ng | 12, 300 ± 550 | 0.890 ± 0.025 | 0.920 | 80% |
流程图标题:基于参考样本的RNA-seq性能基准测试全流程
关系图标题:基准测试核心指标与其数据源关系
表3:性能基准测试关键试剂与工具
| 类别 | 项目名称 | 功能描述 | 示例供应商/产品 |
|---|---|---|---|
| 参考标准品 | 通用人参考RNA (UHRR) | 提供稳定的、已知表达谱的背景,用于评估技术的灵敏度和重复性。 | Agilent (740000), Thermo Fisher (QPCR0001) |
| 外标对照 | ERCC RNA Spike-In Mix | 已知浓度的合成RNA混合物,用于评估定量准确性、动态范围和检出限。 | Thermo Fisher (4456740) |
| 文库制备 | 链特异性RNA-seq试剂盒 | 保留转录本链向信息的文库构建,对反义链和非编码RNA分析至关重要。 | Illumina Stranded Total RNA Prep, Takara SMARTer Stranded Total RNA-Seq |
| 低输入量方案 | 全转录组扩增试剂 | 用于皮克级或单细胞水平RNA的预扩增,以兼容标准建库流程。 | Clontech SMARTer Ultra Low, NEB Next Single Cell/Low Input |
| 质量控制 | 高灵敏度核酸分析仪 | 精确评估RNA完整性、文库片段大小分布及浓度。 | Agilent Bioanalyzer / TapeStation, Fragment Analyzer |
| 生物信息学 | 标准化分析流程容器 | 确保分析步骤的一致性,如使用Nextflow/Snakemake包装的RNA-seq流程。 | nf-core/rnaseq, STARK (社区标准流程) |
在链特异性核糖核酸测序(ssRNA-seq)用于低起始量样本研究的总体框架下,不同文库构建方法、测序平台和生物信息学流程所获得的基因表达定量结果的可靠性至关重要。本研究旨在系统评估不同实验条件或分析流程下基因表达谱的一致性,通过相关性分析、差异表达基因(DEG)列表比较以及通路富集分析结果的重叠性,为低输入样本的RNA-seq研究提供可重复性和可靠性的评估标准。
实验数据来源于公开数据库GEO(GSE165123),该数据集包含使用不同低输入RNA-seq建库试剂盒(如SMART-Seq v4和Triplet-sequencing)处理的小鼠胚胎干细胞样本。原始测序数据使用fastp进行质量控制与适配体修剪。清洁后的读数分别使用HISAT2和STAR与参考基因组(GRCm38/mm10)进行比对。基因水平定量采用StringTie与featureCounts,以生成原始计数和转录本每百万映射读数(TPM)值。
目的:评估不同技术重复或不同分析流程之间基因表达水平(TPM或标准化计数)的全局一致性。
步骤:
数据分析结果: 表1:不同建库方法与比对流程组合间的基因表达相关性(中位数)
| 比较组 | Pearson's r | Spearman's ρ | 基因数量 |
|---|---|---|---|
| SMART-Seq (Rep1 vs Rep2) | 0.992 | 0.987 | 21,450 |
| Triplet-seq (Rep1 vs Rep2) | 0.989 | 0.983 | 21,450 |
| SMART-Seq vs Triplet-seq (同一比对流程) | 0.948 | 0.932 | 21,450 |
| HISAT2 vs STAR (同一建库方法) | 0.981 | 0.976 | 21,450 |
目的:评估不同条件下鉴定出的差异表达基因列表的重叠程度。
步骤:
数据分析结果: 表2:不同分析流程鉴定的DEG列表重叠性比较(处理组 vs 对照组)
| 比较的DEG列表 | 列表A基因数 | 列表B基因数 | 重叠基因数 | Jaccard指数 | 重叠系数 |
|---|---|---|---|---|---|
| SMART-Seq (DESeq2) vs Triplet-seq (DESeq2) | 1250 | 1189 | 876 | 0.50 | 0.74 |
| SMART-Seq (DESeq2) vs SMART-Seq (limma-voom) | 1250 | 1310 | 1105 | 0.76 | 0.88 |
| HISAT2+featureCounts vs STAR+featureCounts (均用DESeq2) | 1250 | 1275 | 1190 | 0.88 | 0.95 |
目的:评估基于不同DEG列表进行的通路富集分析结果的一致性。
步骤:
数据分析结果: 表3:基于不同DEG列表的前10 KEGG通路富集结果重叠性
| 比较的通路列表 | 共有显著通路数 | 排名前10通路的ρ (Spearman) | 核心重叠通路示例 |
|---|---|---|---|
| SMART-Seq vs Triplet-seq DEGs | 8 | 0.78 | MAPK信号通路、PI3K-Akt信号通路、细胞凋亡 |
| DESeq2 vs limma-voom DEGs (同一样本) | 10 | 0.92 | MAPK信号通路、癌症通路、mTOR信号通路 |
基因表达定量一致性评估全流程
核心评估指标与逻辑关系
表4:关键研究试剂与工具列表
| 类别 | 项目名称 | 功能描述 | 关键特性 |
|---|---|---|---|
| 建库试剂盒 | SMART-Seq v4 Ultra Low Input RNA Kit | 用于皮克级总RNA的cDNA合成与扩增。 | 全转录组覆盖,高灵敏度,适用于单细胞。 |
| 建库试剂盒 | Triplet-sequencing Library Prep Kit | 低输入链特异性文库构建。 | 保留链方向信息,低起始量需求(10pg-10ng)。 |
| 比对软件 | HISAT2 | 将测序读数比对到参考基因组。 | 内存效率高,适用于剪接比对。 |
| 比对软件 | STAR | 超快速RNA-seq读数比对器。 | 精确度高,支持剪接 junction 发现。 |
| 定量工具 | featureCounts | 将比对读数分配至基因组特征。 | 快速,直接生成计数矩阵。 |
| 定量工具 | StringTie | 基于比对结果进行转录本组装与定量。 | 能发现新异构体,输出TPM值。 |
| 差异分析 | DESeq2 | 基于负二项分布的差异表达分析。 | 适用于未标准化计数数据,内置方差稳定变换。 |
| 差异分析 | limma-voom | 将RNA-seq计数转换为线性建模数据。 | 适用于复杂实验设计,速度快。 |
| 富集分析 | clusterProfiler (R包) | 功能富集分析与可视化。 | 支持GO、KEGG等多种数据库,可视化功能强大。 |
| 质量控制 | fastp | 全功能FASTQ文件预处理工具。 | 一体化质控、修剪、过滤,速度极快。 |
在针对低起始量样本的链特异性RNA-seq研究框架下,准确检测反义转录本(Antisense Transcripts)和融合基因(Fusion Genes)是解析复杂转录组和发现疾病新靶标的核心。本研究通过设计系统的能力验证方案,评估了在低输入条件下(如10-100 ng总RNA)的链特异性建库技术对这两类关键转录本事件的检测灵敏度、特异性和可重复性。
| 试剂盒名称 | 最低RNA输入量 | 链特异性保真度 (%) | 反义转录本检测灵敏度 | 融合基因检测灵敏度 | 实验周期 (小时) |
|---|---|---|---|---|---|
| Kit A (SMARTer Stranded Total RNA-Seq) | 10 ng | >99.5 | 高 (≥1 FPKM) | 高 (支持≥5 reads) | 8.5 |
| Kit B (NEBNext Ultra II Directional) | 1 ng | 98.8 | 中 (≥2 FPKM) | 中 (支持≥10 reads) | 10 |
| Kit C (Illumina Stranded Total RNA Prep) | 25 ng | 99.2 | 高 (≥1 FPKM) | 高 (支持≥5 reads) | 7 |
| 内部优化方案 (dUTP法) | 5 ng | 99.9 | 极高 (≥0.5 FPKM) | 极高 (支持≥3 reads) | 12 |
| 分析工具 | 反义转录本检测召回率 (%) | 反义转录本检测精确率 (%) | 融合基因检测召回率 (%) | 融合基因检测精确率 (%) | 运行时间 (CPU小时) |
|---|---|---|---|---|---|
| Cufflinks/StringTie + 定制流程 | 92.3 | 95.7 | 不适用 | 不适用 | 4 |
| STAR-Fusion | 不适用 | 不适用 | 96.5 | 98.1 | 2 |
| FusionCatcher | 不适用 | 不适用 | 93.2 | 97.8 | 6 |
| 集成分析流程 (本研究) | 94.1 | 96.5 | 97.8 | 98.5 | 5 |
目的:从低输入量总RNA中构建链特异性测序文库,以保留反义链信息。 步骤:
目的:验证RNA-seq预测的反义转录本。 步骤:
目的:验证预测的融合基因断点。 步骤:
低输入链特异性RNA-seq实验总览
反义转录本调控机制与检测原理
融合基因形成与检测流程
| 试剂/材料名称 | 供应商 (示例) | 功能说明 |
|---|---|---|
| SMARTer Stranded Total RNA-Seq Kit v3 | Takara Bio | 基于SMART模板转换技术的低输入链特异性建库试剂盒,可从极低量RNA起始,有效保留链信息。 |
| NEBNext Ultra II Directional RNA Library Prep Kit | NEB | 基于dUTP标记法的经典链特异性建库系统,性能稳定,兼容超低输入(可低至1 ng)。 |
| RiboCop rRNA Depletion Kit | Lexogen | 高效去除核糖体RNA,提升测序数据有效比对率,尤其适用于低降解样本。 |
| SuperScript IV Reverse Transcriptase | Thermo Fisher | 高灵敏度、高耐受性的逆转录酶,适合复杂RNA模板和低起始量条件下的第一链合成。 |
| AMPure XP/SPRIselect Beads | Beckman Coulter | 用于DNA片段的选择性纯化与分选,是文库构建中大小选择和纯化的关键试剂。 |
| Agilent High Sensitivity DNA Kit | Agilent | 用于精确定量分析文库的片段大小分布,是文库质控的必要工具。 |
| KAPA Library Quantification Kit | Roche | 通过qPCR精准测定测序文库的有效浓度,确保测序上机量的准确性。 |
| STAR-Fusion & FusionCatcher | N/A (开源) | 广泛使用、高灵敏度的融合基因检测计算软件。 |
在低起始量样本的链特异性RNA-seq研究中,由技术噪音、扩增偏好性或生物异质性带来的假阳性结果是一个重大挑战。正交验证技术,即使用一种独立于原始发现平台的方法来确认结果,是确保研究可靠性的基石。本应用指南详细阐述了如何利用定量聚合酶链式反应(qPCR)与靶向RNA测序(Targeted RNA-seq)这两种互补技术,对链特异性RNA-seq在低输入样本(如单个细胞或少量细胞)中的关键发现(如差异表达基因、新转录本或融合基因)进行严格验证。该流程被整合于一个更广泛的、旨在优化低输入转录组学准确性的论文框架内。
从初始的链特异性RNA-seq分析中,根据统计学显著性(如p值和错误发现率FDR)、效应大小(如log2倍变化)和生物学相关性,选择一组关键靶标进行验证。建议包括高置信度和边缘信号靶标。
表1:用于正交验证的候选基因示例
| 基因标识符 | RNA-seq Log2FC | RNA-seq p-value | 优先级 | 假设类别 |
|---|---|---|---|---|
| Gene A | 3.5 | 1.2E-10 | 高 | 差异表达 |
| Gene B | -2.1 | 0.03 | 中 | 差异表达 |
| Novel001 | N/A | N/A | 高 | 新转录本 |
| FusionX-Y | N/A | N/A | 高 | 基因融合 |
图1:qPCR与靶向测序正交验证工作流程
试剂: 适用于低输入样本的柱式或磁珠法试剂盒(如,Qiagen RNeasy Micro Kit)。 步骤:
试剂: 高灵敏度逆转录酶(如,SuperScript IV), RNase H-。 步骤:
试剂: TaqMan Gene Expression Assays 或 SYBR Green Master Mix。 步骤:
表2:qPCR验证的典型结果数据
| 样本组 | 基因 | 平均Ct值 (技术重复) | 归一化Ct (ΔCt) | 相对于对照组的相对表达量 (2^(-ΔΔCt)) |
|---|---|---|---|---|
| 实验组 | Gene A | 18.2 ± 0.3 | 3.5 | 11.3 |
| 对照组 | Gene A | 21.8 ± 0.4 | 7.1 | 1.0 (参比) |
| 实验组 | 管家基因 | 14.7 ± 0.2 | N/A | N/A |
试剂: 定制化杂交捕获试剂盒(如,IDT xGen或 Twist Bioscience Target Enrichment)。 步骤:
步骤:
表3:靶向测序验证的典型结果数据
| 基因/转录本 | RNA-seq FPKM | 靶向测序 FPKM | 相关性 (Pearson r) | 验证状态 |
|---|---|---|---|---|
| Gene A | 150.2 | 142.8 | 0.98 | 确认 |
| Gene B | 25.6 | 28.1 | 0.95 | 确认 |
| Novel001 | 10.5 | 9.8 | N/A (检测存在) | 确认 |
| FusionX-Y | 支持reads: 15 | 支持reads: 22 | N/A (检测存在) | 确认 |
| 类别 | 项目名称 | 功能描述 | 示例供应商/货号 |
|---|---|---|---|
| RNA提取与质控 | 高灵敏度RNA提取试剂盒 | 从极低细胞数(如,1-100个细胞)中高效回收高质量总RNA。 | Qiagen RNeasy Micro Kit |
| 高灵敏度RNA芯片 | 精确评估微量RNA样品的浓度和完整性。 | Agilent RNA 6000 Pico Kit | |
| cDNA合成 | 高保真逆转录酶 | 提高低丰度转录本的cDNA合成效率和保真度,尤其适用于长片段。 | Thermo Fisher SuperScript IV |
| qPCR | TaqMan Gene Expression Assays | 针对特定基因设计的、经过优化的预混式引物和探针,提供高特异性和可重复性。 | Thermo Fisher (Assay-on-Demand) |
| SYBR Green Master Mix | 一种经济的、用于DNA结合染料的qPCR化学试剂,适用于多重靶标筛选。 | Bio-Rad iTaq Universal SYBR | |
| 靶向测序 | 定制化杂交捕获探针池 | 通过与目标序列杂交并磁珠纯化,从总文库中富集感兴趣的基因组区域。 | IDT xGen Lockdown探针 |
| 低输入RNA-seq建库试剂盒 | 从ng级甚至pg级总RNA起始,构建用于测序的链特异性cDNA文库。 | Takara Bio SMART-Seq v4 | |
| 数据分析 | 实时PCR分析软件 | 用于计算Ct值、进行归一化(ΔΔCt法)和生成表达量图表。 | Thermo Fisher QuantStudio Design & Analysis |
| 序列比对与定量工具 | 将测序reads比对到参考基因组并生成基因/转录本计数矩阵。 | STAR, featureCounts |
图2:正交验证技术选择决策逻辑树
在低输入链特异性RNA-seq研究中,采用qPCR(提供高精确度的定量)和靶向测序(提供高通量和结构信息)相结合的正交验证策略,可以显著提高关键发现的可信度。本指南概述的详细方案和决策框架为研究人员提供了一个系统性的方法,以确保其转录组学数据的严谨性,从而为基础发现和后续的药物开发应用奠定坚实的基础。
低起始量链特异性RNA-seq技术正迅速成为从有限和珍贵样本中获取全面转录组信息的强大工具。通过理解不同方法的原理(如dUTP标记与Adaptase技术),并针对特定样本类型(如FFPE)优化工作流程,研究人员能够有效克服起始材料不足的挑战,获得高质量数据[citation:1][citation:5][citation:8]。尽管不同商业试剂盒在rRNA去除效率、重复率等方面存在差异,但在基因表达定量和通路水平分析上已展现出高度一致性,为功能生物学结论的可靠性提供了保障[citation:1][citation:2][citation:8]。未来,该技术与单细胞测序、空间转录组及靶向RNA面板(用于表达突变检测)的进一步整合,将在肿瘤学、神经科学和发育生物学等领域的转化研究与精准医疗中发挥更大价值,实现从DNA变异检测到功能性RNA表达分析的闭环,为药物靶点验证和个体化治疗策略提供更坚实的依据[citation:3][citation:10]。