使用hisat2比对时的问题

NaÏve Rock 2019-08-29 10:31:00

我是一个生信菜鸟，在使用hisat2比对到基因组序列时出现了很多问题，下面简单说一下我踩过的坑。
1，个人觉得，除非要构建含有外显子和剪切位点的index，若只是比对到基因组上的话，可以直接从hisat2官网下载参考基因组的index，下载后会在一个文件夹中（人类的是hg19如果下载的hg19的，小鼠的是mm10），其中都是genome.123。。。.ht2文件
2，使用hisat2比对时，最好把index.x.ht2、.fq.gz文件、预存放.sam放到同一个文件夹下，不然可能会出错。。我也不知道为什么因为我很菜
3，使用hisat2之前一定要hisat2 -h看清其中的命令介绍，不然你会吃大亏! hisat2比对的一般参数如下
hisat2 –p 8 --dta –x hg19/genome -1 sample_1.fq.gz -2 sample_2.fq.gz –S sample.sam -p 8一般多少核去运行，这个看自己电脑的内存，我的16g选择八核稍微有点点卡，--dta是报告，-x是你的标识，hg19是你的index存放目录，而genome是你的index文件前缀!这时候插一句，如果你没有好好看清hisat2的要求，你可能就直接把hg19这个文件夹放到-x后面，或者将其中的genome.x.ht2利用正则表达式genome.*放到-x后面，再或者你可能利用cat ＞整个成一个genome，这些都会导致hisat2不认识你的index文件，看清hisat2要求后，你就明白了，人家只是想要index的前缀，所以你只需把hg19/genome放到-x后面就可以!
后面的-1 -2的fastq文件一定要写对路径，或者就像我说的把他们放到同一个文件夹下，我喜欢用aligned命名文件夹
这样路径不会错，并且hisat2不会抽风的报错!
4，如果你的fastq文件很多，你可以在终端利用for...do...done写一个简单的循环for i in ’seq xx yy’ do hisat2 -p 8 - x hg19/genome(你的所有index文件前缀) -1 sample${i}1.fq.gz -2 sample${i}2.fq.gz -S sample${i}.sam
如果你想在vim中写一个sh的话，注意别忘了配置PATH
5，不会的一定要多查多问，不要闭门造車，不然很浪费时间!祝大家都成为生信高手!
最后附上一张运行图(我的Ubuntu就是那么可爱，还有小企鹅

虽然这是centos的标签但是我还是想用哈哈)

...全文

10832 10 打赏收藏转发到动态举报

写回复

用AI写文章

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

叽里咕噜滚下山真君 2022-08-17

打赏
举报

大佬们，这个怎么解决有，查内存都很充裕

boymin2010 2020-05-08

打赏
举报

最近我使用Hisat2处理家蚕的转录组数据，但是出现我无法debug的错误，还请大神指教。简述如下： 1.家蚕基因组大概468.3Mb, 28条染色体； 2.服务器288个核，1T内存。几乎就我一个人在用。 3.hisat2-build 构建index未发现问题； 4.hissat2 alignment的时候请看下面一个例子。使用top命令查看内容使用情况，随着时间的延长，内存一路攀升。 hisat2 -t -p 30 --dta -x /home/RNAseq_2/source/silkworm/index/silkworm_tran -1 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R1-clean.fastq.gz -2 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R2-clean.fastq.gz -S /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/alignedFromHisat2Results/306D3D1a.sam 5. 目标sam文件预估计22G，目前为7.8G，大事%mem已经55%。感觉这个进程无止境地在占用内存。 6. 之前尝试使用8个核，同时运行5个类似的程序，但是出现运行错误。错误信息如下： (ERR): hisat2-align died with signal 9 (KILL) 7. 我尝试google过原因，最大可能也是内存爆了。在没有出现程序错误之前，sam文件也不在变大，完全stop。 8. 除了以上的运行失败外，运行时间也超乎寻常的长。

chenlin@920 2021-06-12

@boymin2010 请问这个问题后来怎么解决了，我现在遇到同样的问题，99个样品中有一个在hisat2比对时出现报错：(ERR): hisat2-align died with signal 9 (KILL)，另一个样品比对未报错但stringtie计算表达量gtf文件时出现报错：/opt/gridview//pbs/dispatcher/mom_priv/jobs/81523.admin.SC: line 19: 29581 Killed，未生成gft文件