«

从零开始入门Galaxy生信云平台


Galaxy是一个在线的生物信息云平台,目前已经上线了1300+生信实用工具,整合的一键式分析流程也在陆续上线中。这些工具/流程涵盖生物信息数据分析的方方面面,包括但不限于:

  • 基因组数据分析
  • 转录组数据分析(Bulk RNA-seq, Single Cell RNA-seq)
  • 蛋白质组数据分析
  • 癌症基因组测序研究
  • 统计学 / 机器学习
  • 生信绘图

Galaxy能够进行生物信息学上下游全链条的数据分析,它可以服务于:

  • 学生,学习生物信息学;
  • 教师,讲授生物信息学;
  • 科研人员,快速进行数据分析,无需繁琐的工具安装和流程搭建,把精力放到生物学意义的挖掘上。

如何开始使用Galaxy?本文将介绍Galaxy中的关键任务:上传文件、使用工具、查看历史记录以及运行工作流程。

Galaxy的外观

  1. 打开任意浏览器(推荐Chrome)
  2. 输入网址:usegalaxy.cn
  3. 注册 & 登录

Galaxy主页分为四个面板,从左到右为:

  • 活动栏
  • 工具面板
  • 视图面板
  • 历史面板

首次使用Galaxy时,历史面板中不会有文件。

关键操作

命名历史面板

  1. 来到右侧的历史面板
  2. 点击(Edit)
  3. 输入一个新的名称,如:Learn To Use Galaxy
  4. 点击保存
    • 如果无法重命名,可能你没有登录,请登录后重试。

      上传文件

      工具位于左侧的面板中。

  5. 工具面板的上方,点击Upload Data

这将打开一个界面。

  1. 点击 粘贴数据或链接
  2. 粘贴一个文件地址:https://zenodo.org/record/582600/files/mutant_R1.fastq

  1. 点击开始
  2. 点击关闭
    • 上传的文件位于当前历史中,称为数据集;
    • 上传的文件将经历三个阶段:灰色(准备/排队)、黄色(正在处理)和绿色(上传成功)。

这是什么文件?

  1. 要查看文件的内容,可以点击数据集名称后面的(eye)

文件的内容将显示在中间的Galaxy面板中,此文件包含来自细菌的 DNA 测序reads,采用 FASTQ 格式:

使用工具

让我们看一下这个文件中的reads质量。

  1. 在工具面板上方的搜索框中输入:FastQC
  2. 点击 FastQC Read Quality reports

工具将会在中间的Galaxy面板中显示。

  1. 设置以下参数:
    1. *Raw read data from your current history **:刚才上传的文件
    2. 其他参数保持默认
  2. 点击 Run Tool

工具将会运行,并且两个新的输出数据集将显示在历史面板的顶部。 查看结果 现在,我们将查看输出的数据集:FastQC on data 1: Webpage

  • 注意:Galaxy会根据其使用的工具名称(FastQC)和输入(data 1)为此数据集命名
  • 名称“data 1”表示Galaxy当前历史记录中的数据集编号1(即我们的 FASTQ 文件)

一旦输出数据集的名称变为绿色,有两种方式查看文件的内容:

  • 如前所述,可以点击图标在线查看
  • 也可以点击一下文件名,待展开后点击图标下载到本地电脑后查看

运行其他工具

让我们运行一个工具来过滤掉 FASTQ 文件中质量较低的 reads。

  1. 在工具面板上方的搜索框中输入:Filter by quality
  2. 点击工具 Filter by quality
  3. 设置以下参数:
    1. *Input FASTQ file **:最初的 FASTQ 文件
    2. *Quality cut-off value **:35
    3. Percent of bases in sequence that must have quality equal to / higher than cut-off value:80
  4. 点击 Run Tool

工具运行后,其输出的数据集将显示在历史面板的顶部。

  • 该数据集的名称为:Filter by quality on data 1
  • 历史面板中数据集前面的实际数字并不重要

这个过滤工具的结果是什么?我们可以单击图标来查看此输出文件的内容,但信息量不大 - 我们只会看到一个 reads 列表。 问题:过滤掉了多少 reads? 答案:1786 (14%) 更改设置后重新运行工具 现在,我们尝试用更高的标准过滤原始数据,并查看过滤后的结果。

  1. 点击任意一个结果文件名,再点击按钮(Run Job Again)

这将在中央面板中展示工具界面,并且工具的参数设置与刚才生成该数据集的参数是一致的。也就是说,上一次分析的结果很容易重新修改参数后再分析。

  1. 将部分参数修改为更严格,如:
    1. *Quality cut-off value **:36
    2. Percent of bases in sequence that must have quality equal to / higher than cut-off value *:80
  2. 点击 Run Tool

问题:在这些新的过滤条件下丢弃了多少 reads? 11517 (92%),大多数 reads 都被过滤了,可见设置的过滤条件过于严格,应该适当放宽一些。 分享你的历史记录 最后,如果你希望将自己的数据分析过程与他人分享,或者你的分析有问题需要寻求帮助时,可以共享你的历史记录,其他人则可以导入和访问你历史记录中的数据集、参数和步骤。 单击 历史面板 **的(History options),单击 分享或发布历史,**根据分享范围的不同,有3种方式共享历史:

  1. 共享给特定用户,通过指定用户的邮箱来实现;
  2. 通过链接共享历史记录。选中 Make History accessible,此时会出现一个链接,其他人可以通过该链接访问你的历史。
  3. 将历史记录共享给本Galaxy平台的所有用户。选中 Make History publicly available in Published Histories实现。

注意:如果你希望共享的历史版本不再改变,可以先将历史记录复制一份,再共享。可以通过历史面板下拉菜单中的 Copy this History 复制历史。

将你的分析历史转变成工作流程

当你仔细查看历史记录时,可以看到它包含了我们分析的所有步骤,从开始(底部)到结束(顶部)。Galaxy的历史面板记录了你运行的每个工具的详细信息,并保留了每个步骤中应用的所有参数设置。但是,当你需要分析数据时,再次逐个执行每个步骤会很乏味。 Galaxy平台可以将分析过的历史记录转变成流程,通过历史面板(History options)中的 **提取为工作流 **即可以轻松实现。这意味着,每当你要构建工作流程时,只需要手动执行一次步骤,然后将其转换为工作流,这样下次执行相同的分析将大大减少工作量。

  1. 清理历史记录:从历史面板中删除所有失败的任务,通过点击删除按钮。
  2. 点击历史面板右上角的(History options),然后选择 提取为工作流。

  1. 重命名 **Workflow name **为:QC and filtering
  2. 重命名右侧输入数据为:FASTQ reads
  3. 如果某个步骤不需要包含在流程中,可以取消其前面的复选框。在这里,取消第二个 Filter by quality 工具的复选框。

  1. 点击 Create Workflow,将会看到创建成功的消息。

下面,我们将使用刚才创建的工作流程。

创建新历史记录

让我们创建一个新的历史记录。

  1. 点击历史面板上方的加号
  2. 重命名历史:Run Workflow

    在历史之间复制文件

    历史面板会立即显示新创建的历史,之前的历史记录去哪儿了呢?

  3. 点击History options, 点击 Show Histories side-by-side
  4. 复制一个数据集到新的历史中。直接从第1个历史中拖动 FASTQ 文件到新的历史中即可。

在新的历史中运行流程

现在我们已经构建了工作流程,它可以用于新的 FASTQ 数据的分析。

  1. 点击Galaxy上方菜单栏中的 工作流程。这将会列出你所有的工作流程,新创建的在最上方。
  2. 点击右侧(Run workflow)按钮。
  3. *FASTQ reads **:选择FASTQ文件(会默认自动选上)。
  4. 点击右上角的 Run Workflow 按钮。

你将看到流程成功调用的消息。所有任务将在新的历史中运行,它将重复最开始历史中的分析步骤。 结论 至此,你已经入门了Galaxy云平台。掌握了平台的关键操作,如上传文件、命名/新建/分享历史、运行工具、查看/下载分析结果,以及将分析过程提取为工作流以便重复使用。