基于R语言的基因表达芯片注释流程

曾健明,郑方强,孙小洁

Chinese Journal of Bioprocess Engineering(2021)

Cited 0|Views3
No score
Abstract
基于R语言,将R程序包Rsubread、Rsamtools、refGenome和GenomicRanges整合为一个完整的流程,实现了基因表达芯片探针序列的自主注释.以应用范围最广的GPL570,GPL10558和曾使用的GPL21163芯片平台为测试数据进行重注释,并将GPL570的新注释与现存的注释做比较;对较新的长链非编码RNA表达芯片GPL16956进行自主注释,以测试流程的实用性.结果表明:GPL570的自主注释覆盖到了 89.58%的探针,GPL10558、GPL21163和GPL16956的自主注释分别覆盖到了 81.54%、84.68%和76.15%的探针.在GPL570新注释单独比对到的7 107个基因中,有411个编码蛋白的基因能够富集到GO条目,而另外两种注释未能比对到这些基因,证明了本流程的可靠性和先进性.因此,本流程实用、有效,为数据挖掘工作提供了新的有力工具.
More
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined