2021-05-27 Journal Club总结——FlyBase:果蝇研究中不可或缺的工具

 

1.引言

本能行为如何产生和如何被调控一直是神经科学家很感兴趣的问题。本能行为主要受基因调控,很少或不依赖后天学习。我们以果蝇为动物模型,研究本能行为如何受基因调控。了解和认识基因的结构与功能对我们解析本能行为的神经环路和调节机制很有帮助,而Flybase (http://flybase.org/)就是一个能帮助我们了解基因功能的一个重要的数据库,对于我们的研究来说几乎不可或缺。

2.我们为什么需要数据库?

人类对基因的研究从很久之前就开始了,但随着测序技术的普及和基因组计划的推进,越来越多的实验室获取了多个物种的基因组序列信息。如何安全的储存这些信息成为了一个难题,因为这些数据不仅占据了大量的内存,还有在实验室之间交流时也无法快速的交换自己的信息。数据库的诞生就解决了这样的问题。数据库一般由一些比较大的机构或政府负责运行,它收录的所有已发表的序列信息以及用户自行上传的信息,而且可以同时将信息呈现给无数位在线的用户,并且也不用担心硬盘被盗或损坏导致数据丢失的现象。数据库的出现促进了生物信息学的发展,也促进了学者之间的信息交流。目前也有一些数据库专门收集了果蝇研究相关的信息供我们使用。FlyBase就是专门提供果蝇基因组序列信息的数据库。除此之外还有像可以查询果蝇神经元连接的数据库neuPrint,以及查询行为与脑区对应关系的工具BABAM,这些工具都为我们的研究提供了便利。

3.Flybase简介

FlyBase成立于1992年。在成立之初,由于技术还没有很发达,数据来源主要是已发表的研究和用户自己上传的数据,但现在随着第二代测序技术和基因芯片等技术的普及,以及基因组计划的进行,FlyBase的数据得到了进一步扩展。截止到2018年,FlyBase收集了共12种果蝇的基因序列信息。但现在由于运营经费等原因,只提供5种果蝇的序列信息了,其中也包括实验室最常用的的模式生物黑腹果蝇(Drosophila melanogaster),其他物种的信息予以保留但不再更新。此外,FlyBase作为专门为果蝇研究者服务的数据库,与其他的一级数据库相比,它提供的信息会以我们更熟悉的命名出现(如insulin在果蝇中被称为Drosophila insulin-like peptide,即dilp),可以节省我们对检索信息的筛选时间,更快的获取有用信息。

FlyBase主页主要由几部分组成。首先是在网页中心部位的Main Query Tools,它是FlyBase的快速检索工具栏,通过这个位置检索能迅速获得关于目标基因的定位、序列、功能、等位基因、同源基因、相关实验结果、stock、参考文献等信息。此外在基因查询的结果反馈页面还提供了跳转到其他数据库的超链接,方便用户通过其他数据库获取相关信息。

第二个重要的部分是位于主页最上方的常用工具栏,里边包括BLAST、GBrowse/JBrowse、RNA-seq、Vocabularies、ImageBrowse等工具。

BLAST全称Basic Local Alignment Search Tool,是一个基因序列查询工具,使用BLAST可以将你提供的序列与FlyBase所提供的49个物种的序列信息进行比对,找到同源基因或者分析它们之间的相似程度。

GBrowse是Genetic Model Organism Database(GMOD) Project开发的一个基于Web 的基因组浏览器工具,因其灵活的定制功能,而被广泛使用。目前有许多模式生物数据库使用GBrowse构建了自己的基因组浏览器,如小鼠、果蝇、NCBI的HapMap等等。GBrowse 基因组浏览器的基本功能是提供一个可视化的基因组浏览界面,该界面是一个以序列长度作为横坐标,以各数据项作为纵坐标的二维显示界面,目前支持基因组序列以及基因、SNP等常见注释数据的显示。

RNA-seq工具提供了多种服务用于目的基因的筛选。比如用户可以获得果蝇在特定生长阶段、特定组织中、特殊处理下以及某些果蝇细胞系中符合一定条件的基因表达,也可以检索到与输入的基因表达谱类似的基因,还可以获得目的基因不同外显子在不同发育阶段或不同组织中的表达情况。

Vocabularies工具可以对数据库中的信息进行筛选,使用户可以获得某一类型的信息,如在检索时选择了Gene Ontology(GO),则只会获得基因本体论相关的基因注释,而不会获得其他像等位基因、stock、发育、解剖学等相关的信息,大大简化了结果输出界面,减少用户在不感兴趣的界面上停留的时间。

此外还有一些小工具,如ImageBrowse,可以用于查询FlyBase收录果蝇的各个组织及各个发育阶段的解剖图谱;Interactions Browse则可以查询与目的基因可能有互作的基因和蛋白;FlyBase的Human Disease Model Reports项目也为研究人类疾病模型的科学家和果蝇研究人员提供了对接窗口,帮助科学家们了解果蝇在人类疾病模型构建中的研究现状,还整理了致病机制及致病基因的同源基因等大量信息,使科学家能在最短的时间内检索到尽可能多的相关信息。

在FlyBase主页的左侧,还提供了一些果蝇相关的学习资源的外链接、相关会议通知以及一些出版物,在下方还有一些其他物种的数据库或基因比对网站,通过这些网址,用户可以自行了解感兴趣的信息。

4.结语

虽然FlyBase为果蝇研究者们整理并提供了更为精简的信息,但在用户使用体验上做得并不是很好。比如在Interactions Browse中提供的基因互作关系并不能通过超链接的方式跳转到提供References的页面,用户还需要自行检索;在RNA-seq Tools中,用户除了获得基因相对表达情况外也不能获得更深层的信息;FlyBase主页上很多外链由于更新不及时,点进去会出现无法显示该网页等情况。这些对于工程师来说应该是很好解决的问题(可能是经费短缺导致维护人员较少的原因),希望科研人员能多多支持FlyBase,以持续改进Flybase的各项功能,更好地为果蝇研究者提供服务。

 

本次journal club的 slides 见附件pdf:

2021-05-27 Journal club PPT

by马铭泽