内页1170*80广告
770*90广告

【生信知识】简单认识G E O数据库-基本介绍+简写说明

内页上720*80广告

此内容仅用于个人学习和研究

简单认识GEO数据库之GSE文件学习

GEO数据库中储存的数据有芯片、二代测序以及其他高通量测序数据。使用这个数据库,可以检索到其他研究者上传的一些实验测序数据。通过一个实例来了解GEO数据库。

我们以GSE70493为例来熟悉GEO数据库,在GEO数据库中搜索GSE70493,得到数据情况如下:

1665649163154956.png

Status:是指数据状态是公开的,时间是2015年8月3日

Title:是指数据集所在的文章的标题
Organism:是指组织是什么
Experiment type:说明实验的类型
Summary:此部分是对疾病的一个概况
Overall design:是说明实验总体的设计情况,包含有分组信息,芯片信息等
Contribute(s):说明文章与数据的贡献人
Citation(s):文献引用
Submission data:数据提交的时间
Last update data:数据最后更新的时间

1665649182125122.png

Contact name:联系人名字,与通讯作者类似

Organization name:作者所在单位名称
Department:作者所在单位的部门名称
Street address:作者的地址
City:作者所在城市
State/province:作者所在州或者省份
ZIP:邮政编码
Country:国家
Platforms:芯片平台,包含探针信息,基因注释信息
Samples:样本信息
Bioproject:项目编号
Analyze with GEO2R:说明该数据可做差异分析
Download family:下载的数据有哪些,数据类型是什么
SOFT formatted family file(s):芯片中探针与基因的对应关系注释文件;单个样品表达量文件,格式为soft
MINiML formatted family file(s):芯片中探针与基因的对应关系注释文件;单个样品表达量文件,格式为MINIML
Series Matrix File(s):所有样品表达矩阵数据文件
GSE70493_RAW.tar:芯片原始数据(cel)文件

GEO数据库之GPL文件学习

GEO数据库使用过程中,GPL文件是接触最多的数据之一,那么GPL文件是什么,它又是什么样的?带以上的问题去学习GPL文件。


GPL(GEO Platform)是GEO芯片或数据测序时使用芯片的平台,包含有注释信息,探针信息等。接下来我们以GPL17586 数据为例进行GPL文件学习。


登录到GEO数据库首页(Home - GEO - NCBI (nih.gov) ),然后再搜索框输入GPL17586 ,进行数据检索,检索到的GPL结果如下:



1.png

Platform GPL1786:意在说明GPL的ID是 GPL1786

Status:说明数据的状态是公开的,时间是2013年8月20日

Tilte:说明芯片的名字

Technology type:产生数据时用的技术类型

Distribution:说明数据用在哪里

Organism:数据来源于哪个组织

Manufacturer :数据产生的单位是哪里

Manufacture protocol See manufacturers websit:说明数据的生产规程需要去生产商网页查看

Description :就是描述芯片注释的过程,以及注释所使用的参考基因组版本,注释的日期等相关信息





2.png

Submission date :数据提及的时间 

Last update date :数据最后更新的时间

Organization :说明组织机构的名称 

E-mail(s) :机构邮箱

Phone:机构联系电话 

URL:机构官方网站

Street address :机构地址 

City :机构所在城市

State/province :机构所在州或者省份 

ZIP/Postal code:机构邮编

country:机构所在国家 

Samples :样本数目

Series :使用该芯片平台的GEO数据系列





3.png

Relations:说明与该芯片平台相关的一些其它的芯片平台信息

Data table header descriptions:是芯片注释平台的表头描述

ID:是指探针的编号 

probeset_id:表达集的探针编号

seqname:染色体名称 

strand:是指正列还是负列

start:起始位置 

stop:终止位置

total_probes:总的探针数目 

gene_assignment:基因的描述

mrna_assignment:mrna的描述 

swissprot:蛋白数据库的描述

category:种类 

spot_ID:spot格式的ID





4.png

Data table:就是所有的详细数据

Total number of rows: 就是对文件列数的描述


至此,对GPL文件的学习就结束了。



来源:云生信学生物信息学


学习心得

作为一名科研工作者,时时刻刻都在和时间赛跑。吾必须时时刻苦钻研科研,掌握现代科研的知识和技能。愿在未来,不忘初心,牢记使命。只争朝夕,不负韶华,为成为一名优秀的科研工作者而努力,努力践行科学发展观,认真学习科学发展观努力做好本职工作。

科学技术是人类社会发展的原动力。要将“做科研”培养成为一种兴趣,将实践和科研思维结合进行科学创新,才能真正推进科技进步。要如何做研究?--从实践中发现问题;运用知识储备提出问题;依赖先进的技术研究问题;最终的研究成果,要不忘初心,应用于解决实践中的问题上。

读书学习之道,看似无边无际,不知何去何从,倘若勤奋刻苦,书山自有石经,学海岂无彼岸。故不积跬步,无以至千里;不积小流,无以成江海。作为科研工作者,吾应发奋图强,刻苦学习!方能在科研方面更进一步!

此内容为个人学习笔记,外人禁止查看

版权声明:1、本站整理的内容仅限用于个人学习体验和研究目的,本站提供的是资料整理收集服务。2、本站内容来自网络,版权归原作者所有,版权争议与本站无关,本站不对所涉及的版权问题负任何法律责任。如果您认为侵犯了您的合法权益,请联系我们删除。
内页下720*80广告

  • 关注微信

猜你喜欢

全站右侧370*310广告

关注我们

微信客服