如何使用linux从序列中找寻UMI和barcode之间的关系

qq_40554762 2019-05-28 06:03:48
目的
利用磁珠上的探针对mRNA进行捕获,每个磁珠的含有一段特异的序列,成为UMI。按照一个磁珠只捕获一个转录本的特性,利用UMI即可将相同的转录本的read进行聚类,进行后续的组装,定量和可变剪切的分析。

任务要求:
根据UMI的组成特点,从read中找到UMI,并将UMI序列和read的barcode关系进行记录。

说明:

下列是UMI的组成特点:

GGAAACAGCTATGACCATGNNNNNNNNNNNNNNNNTTTTTTTT

固定序列:GGAAACAGCTATGACCATG
UMI序列:NNN为随机的16 bp umi序列

寻找的策略师需要同时满足几个条件:
1) 遍历fastq,找到固定序列
2) 间隔16bp后,找到3个oligo dT序列
(注意考虑反向互补序列)
满足这两个条件便能建立他们之间的关系:
1. 找到UMI序列
2. 找到对应的barcode编号
3. 建立UMI和barcode的对应关系表
数据:
/hwfssz5/ST_BIGDATA/USER/xujunhao/project/course/result/split_read.1_rename.fq.gz
/hwfssz5/ST_BIGDATA/USER/xujunhao/project/course/result/split_read.2_rename.fq.gz

求个大佬说一下应该怎么做,最好能有代码感谢
...全文
187 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

23,121

社区成员

发帖
与我相关
我的任务
社区描述
Linux/Unix社区 应用程序开发区
社区管理员
  • 应用程序开发区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧