使用hisat2比对时的问题

NaÏve Rock 2019-08-29 10:31:00
我是一个生信菜鸟,在使用hisat2比对到基因组序列时出现了很多问题,下面简单说一下我踩过的坑。
1,个人觉得,除非要构建含有外显子和剪切位点的index,若只是比对到基因组上的话,可以直接从hisat2官网下载参考基因组的index,下载后会在一个文件夹中(人类的是hg19如果下载的hg19的,小鼠的是mm10),其中都是genome.123。。。.ht2文件
2,使用hisat2比对时,最好把index.x.ht2、.fq.gz文件、预存放.sam放到同一个文件夹下,不然可能会出错。。我也不知道为什么因为我很菜
3,使用hisat2之前一定要hisat2 -h看清其中的命令介绍,不然你会吃大亏! hisat2比对的一般参数如下
hisat2 –p 8 --dta –x hg19/genome -1 sample_1.fq.gz -2 sample_2.fq.gz –S sample.sam -p 8一般多少核去运行,这个看自己电脑的内存,我的16g选择八核稍微有点点卡,--dta是报告,-x是你的标识,hg19是你的index存放目录,而genome是你的index文件前缀!这时候插一句,如果你没有好好看清hisat2的要求,你可能就直接把hg19这个文件夹放到-x后面,或者将其中的genome.x.ht2利用正则表达式genome.*放到-x后面,再或者你可能利用cat > 整个成一个genome,这些都会导致hisat2不认识你的index文件,看清hisat2要求后,你就明白了,人家只是想要index的前缀,所以你只需把hg19/genome放到-x后面就可以!
后面的-1 -2的fastq文件一定要写对路径,或者就像我说的把他们放到同一个文件夹下,我喜欢用aligned命名文件夹
这样路径不会错,并且hisat2不会抽风的报错!
4,如果你的fastq文件很多,你可以在终端利用for...do...done写一个简单的循环for i in ’seq xx yy’ do hisat2 -p 8 - x hg19/genome(你的所有index文件前缀) -1 sample${i}1.fq.gz -2 sample${i}2.fq.gz -S sample${i}.sam
如果你想在vim中写一个sh的话,注意别忘了配置PATH
5,不会的一定要多查多问,不要闭门造車,不然很浪费时间!祝大家都成为生信高手!
最后附上一张运行图(我的Ubuntu就是那么可爱,还有小企鹅虽然这是centos的标签但是我还是想用哈哈)
...全文
6922 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复

img


大佬们,这个怎么解决有,查内存都很充裕

boymin2010 2020-05-08
  • 打赏
  • 举报
回复 1
最近我使用Hisat2处理家蚕的转录组数据,但是出现我无法debug的错误,还请大神指教。简述如下: 1.家蚕基因组大概468.3Mb, 28条染色体; 2.服务器288个核,1T内存。几乎就我一个人在用。 3.hisat2-build 构建index未发现问题; 4.hissat2 alignment的时候请看下面一个例子。使用top命令查看内容使用情况,随着时间的延长,内存一路攀升。 hisat2 -t -p 30 --dta -x /home/RNAseq_2/source/silkworm/index/silkworm_tran -1 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R1-clean.fastq.gz -2 /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/cleandata/306D3D1a_R2-clean.fastq.gz -S /data/storage04/RNAseq_2/silkworm/majorbio/data4antivirus/alignedFromHisat2Results/306D3D1a.sam 5. 目标sam文件预估计22G,目前为7.8G,大事%mem已经55%。感觉这个进程无止境地在占用内存。 6. 之前尝试使用8个核,同时运行5个类似的程序,但是出现运行错误。错误信息如下: (ERR): hisat2-align died with signal 9 (KILL) 7. 我尝试google过原因,最大可能也是内存爆了。在没有出现程序错误之前,sam文件也不在变大,完全stop。 8. 除了以上的运行失败外,运行时间也超乎寻常的长。
chenlin@920 2021-06-12
  • 举报
回复 1
@boymin2010 请问这个问题后来怎么解决了,我现在遇到同样的问题,99个样品中有一个在hisat2比对时出现报错:(ERR): hisat2-align died with signal 9 (KILL),另一个样品比对未报错但stringtie计算表达量gtf文件时出现报错:/opt/gridview//pbs/dispatcher/mom_priv/jobs/81523.admin.SC: line 19: 29581 Killed,未生成gft文件
BioInfo Voyager 2022-04-12
  • 举报
回复
@boymin2010 该问题似乎是由于服务器物理限制导致的,也有可能是当前运行任务过多,我曾经也遇到过这个问题,当我换了一个比较空的节点后,成功运行了该程序
攀攀攀 2020-02-25
  • 打赏
  • 举报
回复
比对时如图报错怎么办啊 文件的确存在啊
Dr.DK 2020-01-19
  • 打赏
  • 举报
回复
引用 3 楼 weixin_44194636 的回复:
问题已经解决,是因为1)构建索引需要内存在200G左右;2)8核或以上处理器。


你好,请问你说的200g内存是硬盘空间吗?怎么楼上16g都能构建,你的要200g内存。。太可怕了吧
NaÏve Rock 2020-01-01
  • 打赏
  • 举报
回复
引用 3 楼 weixin_44194636的回复:
问题已经解决,是因为1)构建索引需要内存在200G左右;2)8核或以上处理器。
哈哈,还是硬伤,
weixin_44194636 2020-01-01
  • 打赏
  • 举报
回复
问题已经解决,是因为1)构建索引需要内存在200G左右;2)8核或以上处理器。
NaÏve Rock 2019-12-30
  • 打赏
  • 举报
回复
引用 1 楼 weixin_44194636的回复:
我使用hisat2进行基因组索引文件的构建,已经运行了两天两夜了,但是还是没有跑完,我在想,需要这么长时间吗?
是不是卡了啊,我构建没有那么久,16g内存构建了两个多小时
weixin_44194636 2019-12-30
  • 打赏
  • 举报
回复
我使用hisat2进行基因组索引文件的构建,已经运行了两天两夜了,但是还是没有跑完,我在想,需要这么长时间吗?

427

社区成员

发帖
与我相关
我的任务
社区描述
非技术问题的乐园
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧