GWAS 学习笔记:基因型数据格式转换与工具使用
1. 常见基因型数据格式
在全基因组关联分析(GWAS)中,常见的基因型数据格式包括:
VCF(Variant Call Format):用于存储基因组变异信息的标准格式,支持多种变异类型(如 SNP、InDel 等),广泛用于基因组学研究。
HapMap 格式:一种简单的文本格式,用于存储基因型数据,适合群体遗传学分析。
PED(Pedigree)格式:用于存储基因型和家系信息的文本格式,常与 MAP 文件一起使用。
BED(Binary PED)格式:PED 格式的二进制版本,存储效率高,适合大规模数据处理。
1. VCF(Variant Call Format)
特点
标准格式:广泛用于存储基因组变异信息,支持多种变异类型(如 SNP、InDel、结构变异等)。
灵活性:可以存储丰富的变异信息,包括变异位置、基因型、质量分数、注释等。
扩展性:支持自定义注释字段,适合不同研究需求。
示例
##fileformat=VCFv4.2
##source=myImputationProgramV3.1
##INFO=
##INFO=
##INFO=
##FORMAT=
##FORMAT=
##FORMAT=
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1 Sample2
1 101 rs1234 A T 45 . NS=3;DP=10;AF=0.5 GT:GQ:DP 0/1:48:4 1/1:43:5
1 102 rs5678 C G 50 . NS=3;DP=11;AF=0.3 GT:GQ:DP 0/0:50:5 0/1:45:6
字段说明
#CHROM:染色体编号
POS:变异位置
ID:变异标识符(如 rs 编号)
REF:参考基因组的碱基
ALT:变异碱基
QUAL:变异质量分数
FILTER:过滤信息
INFO:额外的变异信息
FOR