在进行基因表达谱分析时,我们经常会看到文章中出现GSE数字编号。这些GSE编号代表了什么呢?理解GSE的含义对于我们正确获取和使用GEO数据库中的数据至关重要。GSE全称是GEO Series,是一个GEO数据库中数据集的唯一标识号。每一个提交到GEO数据库中的序列数据都会拥有一个独一无二的GSE号。GSE下面又包含有多个GSM,即GEO Sample。一个GSE数据集包含一个或多个平台的样本数据。所以通过GSE号,我们可以获取该研究对应的完整实验数据。掌握了GSE的概念,我们就可以顺利获取GEO数据库中感兴趣的数据,开展序列数据分析工作了。
GSE代表序列数据在GEO数据库中的唯一标识号
GEO数据库是美国国立生物技术信息中心NCBI创建和维护的一个公共基因表达数据库。研究人员可以向GEO数据库提交自己的基因表达定量数据。提交到GEO数据库中的每一批序列数据,都会由GEO分配一个独一无二的GSE编号。这些GSE编号按提交时间顺序递增排列。比如最早提交的数据,其GSE号可能是GSE1,后续提交则是GSE2,以此类推。所以,GSE号可以视为序列数据在GEO数据库中的唯一身份标识。通过GSE号,我们可以查找到对应的序列数据提交信息。GSE号是我们从GEO数据库中获取数据的重要开端。
一个GSE号对应一组相关的实验数据
提交到GEO数据库中的数据要求是具有内在关联性的一组实验数据,比如同一个课题组在一项研究工作中的所有测序数据。GEO要求所有这些相关数据使用一个GSE号提交。所以,每个GSE号对应的都是一组相关的序列数据。举例来说,如果我们在一项研究中对患者和正常对照各测序了5个样本,一共10个样本的数据,我们需要使用一个GSE号提交这些数据。GSE号下面会包含这10个样本数据的GSM编号。所以,通过一个GSE号,我们就可以获取该研究的所有实验数据。
GSE包含多个平台的表达数据
需要注意的是,一个GSE号下不仅包含一个平台的样本数据,还可以包含多个平台的样本数据。因为同一项研究可能采用了多种芯片平台来进行基因表达定量。比如使用了Affymetrix平台的芯片和Agilent平台的芯片。GEO要求这些不同平台但相关的样本数据使用一个GSE编号提交。所以当我们使用GSE号提取数据时,需要注意数据来自于多个平台的情况。需要检查样本的平台信息,并分别提取不同平台的数据进行后续分析。
GSE号是获取GEO数据的重要入口
总之,GSE是提交到GEO数据库的一组相关序列数据的唯一标识号。通过GSE号,我们可以获取到该研究对应的所有芯片平台的表达定量数据。理解了GSE的含义,我们就找到了获取和使用GEO数据库中数据的重要入口。一般来说,在文章中都会报告使用的数据的GSE号。我们首先要获取这一信息,然后使用GSE号到GEO数据库中下载数据。正确理解GSE的概念,是进行GEO数据库数据挖掘的重要一步。
GSE代表GEO Series,是GEO数据库中一批提交序列数据的唯一编号。GSE号对应一组相关的定量数据。通过GSE号可以获取该研究使用的所有平台芯片的表达定量信息,是我们开展GEO数据分析的重要入口。
文章评论