从零开始入门Galaxy生信云平台
Galaxy是一个在线的生物信息云平台,目前已经上线了1300+生信实用工具,整合的一键式分析流程也在陆续上线中。这些工具/流程涵盖生物信息数据分析的方方面面,包括但不限于:
- 基因组数据分析
- 转录组数据分析(Bulk RNA-seq, Single Cell RNA-seq)
- 蛋白质组数据分析
- 癌症基因组测序研究
- 统计学 / 机器学习
- 生信绘图
Galaxy能够进行生物信息学上下游全链条的数据分析,它可以服务于:
- 学生,学习生物信息学;
- 教师,讲授生物信息学;
- 科研人员,快速进行数据分析,无需繁琐的工具安装和流程搭建,把精力放到生物学意义的挖掘上。
如何开始使用Galaxy?本文将介绍Galaxy中的关键任务:上传文件、使用工具、查看历史记录以及运行工作流程。
Galaxy的外观
- 打开任意浏览器(推荐Chrome)
- 输入网址:usegalaxy.cn
- 注册 & 登录
Galaxy主页分为四个面板,从左到右为:
- 活动栏
- 工具面板
- 视图面板
- 历史面板
首次使用Galaxy时,历史面板中不会有文件。
关键操作
命名历史面板
- 来到右侧的历史面板
- 点击(Edit)
- 输入一个新的名称,如:Learn To Use Galaxy
- 点击保存
- 如果无法重命名,可能你没有登录,请登录后重试。
上传文件
工具位于左侧的面板中。
- 如果无法重命名,可能你没有登录,请登录后重试。
- 在工具面板的上方,点击Upload Data
这将打开一个界面。
- 点击 粘贴数据或链接
- 粘贴一个文件地址:https://zenodo.org/record/582600/files/mutant_R1.fastq
- 点击开始
- 点击关闭
- 上传的文件位于当前历史中,称为数据集;
- 上传的文件将经历三个阶段:灰色(准备/排队)、黄色(正在处理)和绿色(上传成功)。
这是什么文件?
- 要查看文件的内容,可以点击数据集名称后面的(eye)
文件的内容将显示在中间的Galaxy面板中,此文件包含来自细菌的 DNA 测序reads,采用 FASTQ 格式:
使用工具
让我们看一下这个文件中的reads质量。
- 在工具面板上方的搜索框中输入:FastQC
- 点击 FastQC Read Quality reports
工具将会在中间的Galaxy面板中显示。
- 设置以下参数:
- *Raw read data from your current history **:刚才上传的文件
- 其他参数保持默认
- 点击 Run Tool
工具将会运行,并且两个新的输出数据集将显示在历史面板的顶部。 查看结果 现在,我们将查看输出的数据集:FastQC on data 1: Webpage
- 注意:Galaxy会根据其使用的工具名称(FastQC)和输入(data 1)为此数据集命名
- 名称“data 1”表示Galaxy当前历史记录中的数据集编号1(即我们的 FASTQ 文件)
一旦输出数据集的名称变为绿色,有两种方式查看文件的内容:
- 如前所述,可以点击图标在线查看
- 也可以点击一下文件名,待展开后点击图标下载到本地电脑后查看
运行其他工具
让我们运行一个工具来过滤掉 FASTQ 文件中质量较低的 reads。
- 在工具面板上方的搜索框中输入:Filter by quality
- 点击工具 Filter by quality
- 设置以下参数:
- *Input FASTQ file **:最初的 FASTQ 文件
- *Quality cut-off value **:35
- Percent of bases in sequence that must have quality equal to / higher than cut-off value:80
- 点击 Run Tool
工具运行后,其输出的数据集将显示在历史面板的顶部。
- 该数据集的名称为:Filter by quality on data 1
- 历史面板中数据集前面的实际数字并不重要
这个过滤工具的结果是什么?我们可以单击图标来查看此输出文件的内容,但信息量不大 - 我们只会看到一个 reads 列表。 问题:过滤掉了多少 reads? 答案:1786 (14%) 更改设置后重新运行工具 现在,我们尝试用更高的标准过滤原始数据,并查看过滤后的结果。
- 点击任意一个结果文件名,再点击按钮(Run Job Again)
这将在中央面板中展示工具界面,并且工具的参数设置与刚才生成该数据集的参数是一致的。也就是说,上一次分析的结果很容易重新修改参数后再分析。
- 将部分参数修改为更严格,如:
- *Quality cut-off value **:36
- Percent of bases in sequence that must have quality equal to / higher than cut-off value *:80
- 点击 Run Tool
问题:在这些新的过滤条件下丢弃了多少 reads? 11517 (92%),大多数 reads 都被过滤了,可见设置的过滤条件过于严格,应该适当放宽一些。 分享你的历史记录 最后,如果你希望将自己的数据分析过程与他人分享,或者你的分析有问题需要寻求帮助时,可以共享你的历史记录,其他人则可以导入和访问你历史记录中的数据集、参数和步骤。 单击 历史面板 **的(History options),单击 分享或发布历史,**根据分享范围的不同,有3种方式共享历史:
- 共享给特定用户,通过指定用户的邮箱来实现;
- 通过链接共享历史记录。选中 Make History accessible,此时会出现一个链接,其他人可以通过该链接访问你的历史。
- 将历史记录共享给本Galaxy平台的所有用户。选中 Make History publicly available in Published Histories实现。
注意:如果你希望共享的历史版本不再改变,可以先将历史记录复制一份,再共享。可以通过历史面板下拉菜单中的 Copy this History 复制历史。
将你的分析历史转变成工作流程
当你仔细查看历史记录时,可以看到它包含了我们分析的所有步骤,从开始(底部)到结束(顶部)。Galaxy的历史面板记录了你运行的每个工具的详细信息,并保留了每个步骤中应用的所有参数设置。但是,当你需要分析数据时,再次逐个执行每个步骤会很乏味。 Galaxy平台可以将分析过的历史记录转变成流程,通过历史面板(History options)中的 **提取为工作流 **即可以轻松实现。这意味着,每当你要构建工作流程时,只需要手动执行一次步骤,然后将其转换为工作流,这样下次执行相同的分析将大大减少工作量。
- 清理历史记录:从历史面板中删除所有失败的任务,通过点击删除按钮。
- 点击历史面板右上角的(History options),然后选择 提取为工作流。
- 重命名 **Workflow name **为:QC and filtering
- 重命名右侧输入数据为:FASTQ reads
- 如果某个步骤不需要包含在流程中,可以取消其前面的复选框。在这里,取消第二个 Filter by quality 工具的复选框。
- 点击 Create Workflow,将会看到创建成功的消息。
下面,我们将使用刚才创建的工作流程。
创建新历史记录
让我们创建一个新的历史记录。
- 点击历史面板上方的加号
- 重命名历史:Run Workflow
在历史之间复制文件
历史面板会立即显示新创建的历史,之前的历史记录去哪儿了呢?
- 点击History options, 点击 Show Histories side-by-side
- 复制一个数据集到新的历史中。直接从第1个历史中拖动 FASTQ 文件到新的历史中即可。
在新的历史中运行流程
现在我们已经构建了工作流程,它可以用于新的 FASTQ 数据的分析。
- 点击Galaxy上方菜单栏中的 工作流程。这将会列出你所有的工作流程,新创建的在最上方。
- 点击右侧(Run workflow)按钮。
- *FASTQ reads **:选择FASTQ文件(会默认自动选上)。
- 点击右上角的 Run Workflow 按钮。
你将看到流程成功调用的消息。所有任务将在新的历史中运行,它将重复最开始历史中的分析步骤。 结论 至此,你已经入门了Galaxy云平台。掌握了平台的关键操作,如上传文件、命名/新建/分享历史、运行工具、查看/下载分析结果,以及将分析过程提取为工作流以便重复使用。