使用matplotlib或seaborn绘制火山图,横轴为log2 fold change,纵轴为-log10(p-value),通过颜色区分显著性,并添加阈值线和基因标注以增强可视化效果。

在Python中绘制火山图(Volcano Plot)通常用于展示基因表达分析中的差异表达基因,横轴表示变化倍数(log2 fold change),纵轴表示统计显著性(-log10 p-value)。最常用的方法是使用 matplotlib 或 seaborn 库来实现。
1. 准备数据
假设你有一个包含以下列的Pandas DataFrame:
- gene_name:基因名称
- log2fc:log2 fold change
- pvalue:p-value
你可以添加一列 -log10(pvalue) 用于Y轴,并设定阈值判断是否显著。
2. 使用 matplotlib 绘制火山图
示例代码:
立即学习“”;
AI短视频生成平台
62 <pre class="brush:php;toolbar:false;">import pandas as pd import numpy as np import matplotlib.pyplot as plt <h1>模拟数据</h1><p>np.random.seed(42) data = pd.DataFrame({ 'gene<em>name': [f'Gene</em>{i}' for i in range(1000)], 'log2fc': np.random.normal(0, 1, 1000), 'pvalue': np.random.uniform(0, 0.05, 1000) })</p><h1>计算 -log10(pvalue)</h1><p>data['neg_log10_pval'] = -np.log10(data['pvalue'])</p><h1>设置显著性和变化倍数的阈值</h1><p>log2fc_threshold = 1 pval_threshold = 0.05 data['significance'] = ( (data['pvalue'] < pval_threshold) & (abs(data['log2fc']) > log2fc_threshold) )</p><h1>开始绘图</h1><p>plt.figure(figsize=(8, 6)) for label, group in data.groupby('significance'): color = '#d32f2f' if label else '#757575' label_name = 'Significant' if label else 'Not Significant' plt.scatter(group['log2fc'], group['neg_log10_pval'], c=color, label=label_name, alpha=0.7, s=10)</p><p>plt.axvline(x=log2fc_threshold, color='black', linestyle='--', linewidth=1) plt.axvline(x=-log2fc_threshold, color='black', linestyle='--', linewidth=1) plt.axhline(y=-np.log10(pval_threshold), color='black', linestyle='--', linewidth=1)</p><p>plt.xlabel('log2 Fold Change') plt.ylabel('-log10(P-value)') plt.title('Volcano Plot') plt.legend() plt.grid(False) plt.tight_layout() plt.show()</p>
登录后复制
3. 使用 seaborn 增强可视化效果
你也可以用 seaborn 来提升美观度:
<pre class="brush:php;toolbar:false;">import seaborn as sns <p>plt.figure(figsize=(8, 6)) sns.scatterplot( data=data, x='log2fc', y='neg_log10_pval', hue='significance', palette={True: '#d32f2f', False: '#757575'}, alpha=0.7, s=20, legend=True )</p><p>plt.axvline(x=log2fc_threshold, color='black', linestyle='--') plt.axvline(x=-log2fc_threshold, color='black', linestyle='--') plt.axhline(y=-np.log10(pval_threshold), color='black', linestyle='--')</p><p>plt.xlabel('log2 Fold Change') plt.ylabel('-log10(P-value)') plt.title('Volcano Plot with Seaborn') plt.show()</p>
登录后复制
4. 高亮特定基因
如果你想标注某些关键基因:
<pre class="brush:php;toolbar:false;"># 举例高亮前5个显著基因 top_genes = data[data['significance']].head(5) for _, row in top_genes.iterrows(): plt.annotate(row['gene_name'], (row['log2fc'], row['neg_log10_pval']), fontsize=8, ha='right')
登录后复制
基本上就这些。通过设置阈值、颜色区分和简单注释,就能清晰展示哪些基因差异表达显著。不复杂但容易忽略细节,比如对数转换和合理缩放坐标轴。根据实际数据调整参数即可。
以上就是中如何画火山图的详细内容,更多请关注php中文网其它相关文章!
相关标签:
微信扫一扫打赏
支付宝扫一扫打赏
