«

生物信息必备技能-出版级别的circos圈图绘制


»

2023-11-06,Galaxy生信云平台 UseGalaxy.cn 新增circos圈图绘制工具。

Graph/Display Data

  • Circos visualizes data in a circular layout (Galaxy Version 0.69.8+galaxy12)

Circos(Krzywinski等人,2009年)是一个用于以圆形布局可视化数据的软件包。这使得Circos非常适合探索对象或位置之间的关系。Circos图表已经出现在成千上万的科学出版物中。尽管最初设计用于可视化基因组数据,但它可以根据任何领域的数据创建图表。

文章图形复现

图形/数据来源:

Teles Alves I, Hiltemann S, Hartjes T, et al. Gene fusions by chromothripsis of chromosome 5q in the VCaP prostate cancer cell line. Hum Genet. 2013;132(6):709-713. doi:10.1007/s00439-013-1308-1

在这篇文章中,各种来源的数据被整合到一个综合的Circos图中。下面我们就来复现这个图,首先我们先了解一下Circos的基础。

1. Circos基础

1.1 外层骨架(Ideogram)

对于基因组数据,通常是染色体,但也可能是物种、基因,或者是另一个分辨率级别,这取决于你想要展示的关系。对于非基因组数据,这可能是人群中的个体、国家,或者是你想用来进行分组的数据的任何其他主要方面。

1.2 数据轨道(Data Tracks)

在骨架之内,我们可以绘制数据轨道。有不同类型的图表可用,例如:

  • 散点图(Scatter plot)
  • 线图(Line plot)
  • 直方图(Histogram)
  • 热图(Heatmap)
  • 方块图(Tile)
  • 文本(Text)
  • 连接(Link)
  • 条带(Ribbons)

轨道可以进行很多定制,一些相关的概念包括:

  • Radius:轨道的半径决定了它在中心(0)和表意图(1)之间的位置。

  • Rules:可以定义规则,根据数据点的值改变数据点的颜色,例如。

  • Axes and backgrounds:可以在数据轨道上绘制轴和背景。

2. 复现步骤

工具位置:UseGalaxy.cn首页 > Graph/Display Data > Circos visualizes data in a circular layout

或者:https://usegalaxy.cn/root?tool_id=toolshed.g2.bx.psu.edu/repos/iuc/circos/circos/0.69.8+galaxy12

2.1 数据准备

可以下载原文中的数据上传到网站:

https://zenodo.org/record/4494146/files/VCaP_Copy-Number.tsv
https://zenodo.org/record/4494146/files/VCaP_B-allele-Frequency.tsv
https://zenodo.org/record/4494146/files/VCaP-highConfidenceJunctions.tsv
https://zenodo.org/record/4494146/files/hg18_karyotype_withbands.txt

或者用网站上整理好的共享数据:

网站首页(UseGalaxy.cn)> 数据共享 > 数据库 > circos,该目录下有4个测试文件:

  • hg18_karyotype_withbands.txt,染色体骨架文件
  • circos-sv.tsv,结构变异信息
  • circos-cnv.tsv,拷贝数变异信息
  • circos-baf.tsv,次等位基因频率

2.2 Ideogram

由于圈图要呈现的数据很多,参数设置复杂,因此不可能一次就画好,而是有一个不断迭代的过程,一圈一圈地画。

操作:设置Ideogram

我们首先只设置骨架文件,其他参数保持默认:

运行看看结果:

可以看到,只有一个圈。

我们接着设置:

点击“Run Tool”,等待运行结束,点击结果文件右边的铅笔图标,将文件改名为:Circos Plot ideogram

小知识:

染色体定义的格式如下:chr - ID LABEL START END COLOR

前两个字段始终是chr,表示该行定义了一个染色体,以及 -。第二个字段定义了父结构,仅用于染色体条带定义。

ID 是数据文件中使用的标识符,而 LABEL 是将出现在图像上的骨架旁边的文本。

STARTEND定义了染色体的大小。核型文件应该存储整个染色体的大小,而不仅仅是您希望绘制的区域。我们可以使用其他参数仅绘制数据的子集(例如,只有一个染色体)。

COLOR参数是可选的,要使用内置的颜色方案,请再次在此列中使用chr1、chr2等。

2.3 数据轨道一:结构变异

结构变异需要提供两个断点的位置,如下:

chromosome    start    end    chromosome    start    end
  • 第一个断点的染色体编号,开始位置,结束位置
  • 第二个断点的染色体编号,开始位置,结束位置

操作:添加结构变异的连线轨道

  1. 点击右侧历史记录中的Circos Plot ideogram文件名,点击“Run Job Again”(一个转圈的箭头)

  2. 结构变异轨道参数设置:

可以看到,5号染色体有许多染色体内的结构变异,我们可以单独画出5号染色体的结构变异。

最后, 将结果文件改名为:Circos Plot SVs

操作:只画5号染色体

  1. 重新运行刚才的工具

  2. 改变参数设置:

得到如下图片:

2.4 数据轨道二:拷贝数变异

拷贝数变异需要准备的数据格式:

chr    start    end    value
  • chr,染色体
  • chr,变异开始位置
  • end, 变异结束位置
  • value,变异倍数

操作:增加拷贝数轨道

  1. 重新运行画“Circos Plot SVs”的工具。

  2. 增加一个散点图轨道到图形中:

结果如下:

可以看到,拷贝数轨道与结构变异轨道重叠了。这是因为没有个性结构变异轨道的半径设置:

  1. 重新运行工具,改变以下参数:
In "Link Tracks":
    - In "1: Link Data":
        - "Inside Radius": 0.75

应该看到这样的图:

操作:用不同颜色标记拷贝数变异状态

  1. 重新运行上一步的结果

  2. 2D data track的拷贝数轨道中,增加以下规则:

应该得到如下结果:

操作:为拷贝数轨道增加坐标轴

  1. 重新运行刚才的结果

  2. 2D data track中的拷贝数轨道设置页面:

结果如下:

最后, 重命名结果文件为:Circos Plot CopyNumber

2.5 数据轨道三:次等位基因频率

数据格式与拷贝数变异的类似,也是准备4列数据:

chr    start    end    value

操作:增加次等位基因频率到图中

  1. 重新运行刚才的工具(Circos Plot CopyNumber

  2. 增加新的散点图轨道到图中:

最后, 重命名结果文件:Circos Plot BAF

结果图:

2.6 存在问题:如何将结构变异轨道拆分成两个

操作:两个连接轨道

  1. 重新运行刚才的工具(Circos Plot BAF

  2. 配置两个单独的连接轨道

最后结果:

可以看到,跟原图完全一样,可以说复现效果达到了100%。

友情提示

使用问题请加入Galaxy中国交流群: 925694514(QQ群,免费加入),或者关注公众号:简说基因