小刘哥的笔记本

Keep It Simple, Stupid !


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

使用LTR装配指数(LAI)评估基因组组装质量

发表于 2019-08-17 分类于 Bioinformatic

使用LTR装配指数(LAI)评估基因组组装质量

基因组组装完成之后,就需要对最后的质量进行评估。我们希望得到的 contig 文件中,每个 contig 都能足够的长,能够有一个完整的基因结构,归纳一下就是3C原则:

  1. 连续性(Contiguity): 得到的contig要足够的长
  2. 正确性(Correctness): 组装的contig错误率要低
  3. 完整性(Completeness):尽可能包含整个原始序列

但是这三条原则其实是相互矛盾的,连续性越高,就意味着要处理更多的模糊节点,会导致整体错误率上升,为了保证完全的正确,那么就会导致contig非常的零碎。此外,这三条原则也比较定性,我们需要更加定量的数值衡量,目前比较常用的标准是 N50 和 BUSCO/CEGMA。

那有没有其他方法可以用来评估基因组装的质量呢,文章 “Assessing genome assembly quality using the LTR Assembly Index (LAI)“ 提出了用长末端重复序列来评估基因组完整度,因为LTR比较难以组装,于是就用作评估结果的一个参数了。

LTR(long terminal repeat)即长末端重复序列,其长度从 100bp 到 5kb 不等。是存在于LTR反转录转座子(LTRs)两侧翼的长末端重复序列。LTR反转录转座子(LTR-RTs)和非LTR反转录转座子(non-LTR)都是真核生物中一类可移动因子,因其转座需经由RNA介导的反转录过程而得名。LTR反转录转座子一高拷贝在生物界广泛分布,可以通过纵向和横向分别在世代之间和不种间进行传递,同一家族的反转录转座子具有高度的异质性。

LAI 指数就是完整 LTR 反转座子序列占总 LTR 序列长度的比值。

计算 LAI 的软件主要是 LTR_retriever 软件, 该软件可用于识别长末端重复反转录转座子。LTR_retriever 不是一个独立的工具,他的主要作用就是整合 LTRharvest, LTR_FINDER 和/或 MGEScan_LTR 的结果,过滤其中的假阳性 LTR-RT,得到高质量的 LTR-RT 库。

1. 软件安装

1.1 快速安装

参考官方安装说明,可以使用 conde 快速安装相关依赖及软件。

1
2
3
4
5
6
7
conda create -n LTR_retriever
source activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit
conda install -c bioconda/label/cf201901 repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h

1.2 标准安装

LTR_retriever 依赖于其他软件:

1
2
3
4
1. makeblastdb, blastn, and blastx in the BLAST+ package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/),
2. cd-hit-est in the CDHIT package (http://weizhongli-lab.org/cd-hit/) OR blastclust in the BLAST package (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy/2.2.25/),
3. hmmsearch in the HMMER package (http://hmmer.org/; v3.1b2 or higher), and
4. RepeatMasker (http://www.repeatmasker.org/).

下载安装 LTR_retriever 软件及依赖软件后,编辑 LTR_retriever/paths 文件,添加各依赖文件的路径:

1
2
3
4
5
BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided

2. LTR_retriever 的使用

2.1 找到基因组 LTR

第一步首先需要找到基因组总的 LTR,使用 LTR_FINDER 程序进行查找:

1
2
3
4
5
6
7
8
9
$ ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 assembled.fa >out.finder.scn

-D: 5'和3'LTR之间的最大距离,
-d: 5'和3'LTR之间的最小距离,
-L: 5'和3'LTR序列的最大长度,
-l: 5'和3'LTR序列的最小长度,
-p: 完全匹配配对的最小长度,
-C: 检测中心粒(centriole)删除高度重复区域,
-M: 最小的LTR相似度

2.2 生成非冗余LTR-RT文库

第二步运行LTR_retriever根据LTR_FINDER的输出识别LTR-RT,生成非冗余LTR-RT文库,可用于基因组注释.

1
$ LTR_retriever -threads 4 -genome assembled.fa -infinder out.finder.scn

2.3 计算 LAI

依据第二三步的结果进行 LAI 的计算:

1
LAI -t 10 -genome assembled.fa -intact out.fa.pass.list -all out.txt

3. 项目分析

通过三代基因组组装,我们组装出了自己参考物种的基因组,maize_GF.S.fa, 然后使用 LAI 评估组装质量。计算参数参考严建兵老师 NG 文章(热带玉米基因组)的程序参数计算。

经过计算,得到 LAI 为 ~

与玉米参考基因组比对,LAI 装配指数达到中等水平,基因组可用。

参考资料

  1. LAI:评估基因组质量一个标准 https://www.jianshu.com/p/7d794d22e0a0
  2. LTR_retriever: 一个更加准的LTR整合分析工具 https://www.jianshu.com/p/f962d5c40fdf
  3. Github LTR_retriever: https://github.com/oushujun/LTR_retriever
  4. 严建兵老师热带玉米组装: https://www.nature.com/articles/s41588-019-0427-6
  5. LAI 参考文献: doi:10.1093/nar/gky730
  6. LTR_retriever 参考文献: doi:10.1104/pp.17.01310
Alipe wechat
扫码关注小刘哥订阅号!
谢谢您的赏识!
Alipe 微信支付

微信支付

Alipe 支付宝

支付宝

# BioInformatics # Reference # Genome # LAI # LTR
CentOS7安装使用VNC远程桌面
Hexo中图片处理正确姿势
  • 文章目录
  • 站点概览
Alipe

Alipe

种地,学习,撸代码!
11 日志
7 分类
38 标签
RSS
GitHub E-Mail JianShu Twitter
  1. 使用LTR装配指数(LAI)评估基因组组装质量
    1. 1. 软件安装
      1. 1.1 快速安装
      2. 1.2 标准安装
    2. 2. LTR_retriever 的使用
      1. 2.1 找到基因组 LTR
      2. 2.2 生成非冗余LTR-RT文库
      3. 2.3 计算 LAI
    3. 3. 项目分析
    4. 参考资料
© 2019 Alipe
由 Hexo 强力驱动
|
主题 – NexT.Pisces