如何使用linux从序列中找寻UMI和barcode之间的关系
目的
利用磁珠上的探针对mRNA进行捕获,每个磁珠的含有一段特异的序列,成为UMI。按照一个磁珠只捕获一个转录本的特性,利用UMI即可将相同的转录本的read进行聚类,进行后续的组装,定量和可变剪切的分析。
任务要求:
根据UMI的组成特点,从read中找到UMI,并将UMI序列和read的barcode关系进行记录。
说明:
下列是UMI的组成特点:
GGAAACAGCTATGACCATGNNNNNNNNNNNNNNNNTTTTTTTT
固定序列:GGAAACAGCTATGACCATG
UMI序列:NNN为随机的16 bp umi序列
寻找的策略师需要同时满足几个条件:
1) 遍历fastq,找到固定序列
2) 间隔16bp后,找到3个oligo dT序列
(注意考虑反向互补序列)
满足这两个条件便能建立他们之间的关系:
1. 找到UMI序列
2. 找到对应的barcode编号
3. 建立UMI和barcode的对应关系表
数据:
/hwfssz5/ST_BIGDATA/USER/xujunhao/project/course/result/split_read.1_rename.fq.gz
/hwfssz5/ST_BIGDATA/USER/xujunhao/project/course/result/split_read.2_rename.fq.gz
求个大佬说一下应该怎么做,最好能有代码感谢