fbpx
维基百科

BED (文件格式)

BEDBrowser Extensible Data,字面意思是“(基因组)浏览器可延展数据”)是一种基因组学中用于表示、标记基因组区域位置信息中的文件格式,于人类基因组计划中首次出现[1]。BED文件是目前基因组学事实上的标准格式之一。

格式 编辑

引入BED格式的人类基因组计划并未详细规范BED文件格式,因此一般较通用加州大学圣克鲁兹分校(UCSC)基因组浏览器英语UCSC Genome Browser中的描述文件[2]。2021年,全球基因组学与健康联盟英语Global Alliance for Genomics and Health(GA4GH)发布了首份BED文件格式的规范文件[3][4]

BED文件最少需要有3个分别表示区域染色体序号、起始位置,以及终止位置的列,根据不同需求可增加至12列记录更多信息。一般来说,不同的列之间应以制表符分隔值(\t)隔开,且每一行的列数必须相同[5]

下表介绍BED文件每一列应该存储的信息。三个必须出现的列标记为红色。

BED文件的列
序号 原文名称 定义
1 chrom 染色体序号。有时也可以是测序脚手架英语Scaffolding (bioinformatics)的序号。
2 chromStart 区域起始位置的编号(染色体起始点设为0)
3 chromEnd 区域终止位置的编号
4 name 该行表示区域的名称
5 score 该区域的分数,如Peak calling(寻峰)的分数,应该在0-100之间
6 strand 该区域所在的DNA链,一般应取“+”(正链)、“-”(反义链),或“.”(不适用正反义链时)
7 thickStart 在基因组浏览器中应加粗表示区域的起始点(例如基因的起始密码子
8 thickEnd 在基因组浏览器中应加粗表示区域的终止点(例如基因的终止密码子
9 itemRgb 该区域在基因组浏览器中用什么颜色表示,应使用三原色光模式(RGB)系统的颜色代码
10 blockCount 该行表示的区域含多少个区块(例如外显子
11 blockSizes 该行表示的区域各个区块的长度。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同
12 blockStarts 该行表示的区域各个区块的开始点。不同区块应使用半角逗号隔开。元素的数量应与第10列的值相同

头行文件 编辑

一部分BED文件会具有一些与BED文件本身无关的头行文件,一般包含以下信息

  • "browser":与UCSC基因组浏览器设置相关的参数
  • "track": 与基因组浏览器中可视化参数设置相关
  • "#":注释内容,内容任意

文件扩展名 编辑

BED文件的扩展名一般为“.bed”。有时候,也根据列数的不同标注为“.bed3”(有3列的BED文件)、“.bed6”(有6列的BED文件)等等[6]

例子 编辑

以下为一个含有最基本3列信息的BED文件范例:

chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697 

以下是另一个BED文件的范例,UCSC基因组浏览器提供的BED文件一般都是这种格式。头三行是UCSC基因组浏览器的设置参数,与BED文件本身无关。

browser position chr7:127471196-127495720 browser hide all track name="ItemRGBDemo" description="Item RGB demonstration" visibility=2 itemRgb="On" chr7 127471196 127472363 Pos1 0 + 127471196 127472363 255,0,0 chr7 127472363 127473530 Pos2 0 + 127472363 127473530 255,0,0 chr7 127473530 127474697 Pos3 0 + 127473530 127474697 255,0,0 chr7 127474697 127475864 Pos4 0 + 127474697 127475864 255,0,0 chr7 127475864 127477031 Neg1 0 - 127475864 127477031 0,0,255 chr7 127477031 127478198 Neg2 0 - 127477031 127478198 0,0,255 chr7 127478198 127479365 Neg3 0 - 127478198 127479365 0,0,255 chr7 127479365 127480532 Pos5 0 + 127479365 127480532 255,0,0 chr7 127480532 127481699 Neg4 0 - 127480532 127481699 0,0,255 

.genome格式 编辑

genome文件是一种有时与BED文件配合使用的文件。这种文件含有两列,第一列是染色体序号、第二列表示这条染色体的长度。genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外。

 chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 ... 

参见 编辑

  • SAM (文件格式)英语SAM (file format)
  • GTF文件

参考资料 编辑

  1. ^ Kent WJ., Sugnet CW., Furey TS., Roskin KM., Pringle TH., Zahler AM. & Haussler D. The human genome browser at UCSC.. Genome Research. 2002, 12 (6): 996–1006. ISSN 1088-9051. PMC 186604 . PMID 12045153. doi:10.1101/gr.229102 . 
  2. ^ . UCSC Genome Browser. University of California Santa Cruz Genomics Institute. [2 October 2019]. (原始内容存档于2021-05-09). 
  3. ^ . www.ga4gh.org. 2022-03-30 [2022-05-07]. (原始内容存档于2022-03-31). 
  4. ^ (PDF). samtools.github.io. [2022-05-07]. (原始内容 (PDF)存档于2022-01-21). 
  5. ^ Quinlan, AR; Hall, IM. (PDF). 21 September 2010 [3 October 2019]. (原始内容 (PDF)存档于2022-02-26). 
  6. ^ . Galaxy Community Hub. [3 October 2019]. (原始内容存档于2021-12-09). 

文件格式, browser, extensible, data, 字面意思是, 基因组, 浏览器可延展数据, 是一种基因组学中用于表示, 标记基因组区域位置信息中的文件格式, 于人类基因组计划中首次出现, bed文件是目前基因组学事实上的标准格式之一, bed文件扩展名, code, code, 互联网, 媒体类型text, bed格式类型文本文件网站https, samtools, github, specs, bedv1, 目录, 格式, 头行文件, 文件扩展名, 例子, genome格式, 参见, 参考资料格. BED Browser Extensible Data 字面意思是 基因组 浏览器可延展数据 是一种基因组学中用于表示 标记基因组区域位置信息中的文件格式 于人类基因组计划中首次出现 1 BED文件是目前基因组学事实上的标准格式之一 BED文件扩展名 code bed code 互联网 媒体类型text x bed格式类型文本文件网站https samtools github io hts specs BEDv1 pdf 目录 1 格式 1 1 头行文件 2 文件扩展名 3 例子 4 genome格式 5 参见 6 参考资料格式 编辑引入BED格式的人类基因组计划并未详细规范BED文件格式 因此一般较通用加州大学圣克鲁兹分校 UCSC 基因组浏览器 英语 UCSC Genome Browser 中的描述文件 2 2021年 全球基因组学与健康联盟 英语 Global Alliance for Genomics and Health GA4GH 发布了首份BED文件格式的规范文件 3 4 BED文件最少需要有3个分别表示区域染色体序号 起始位置 以及终止位置的列 根据不同需求可增加至12列记录更多信息 一般来说 不同的列之间应以制表符分隔值 t 隔开 且每一行的列数必须相同 5 下表介绍BED文件每一列应该存储的信息 三个必须出现的列标记为红色 BED文件的列 序号 原文名称 定义1 chrom 染色体序号 有时也可以是测序脚手架 英语 Scaffolding bioinformatics 的序号 2 chromStart 区域起始位置的编号 染色体起始点设为0 3 chromEnd 区域终止位置的编号4 name 该行表示区域的名称5 score 该区域的分数 如Peak calling 寻峰 的分数 应该在0 100之间6 strand 该区域所在的DNA链 一般应取 正义链 反义链 或 不适用正反义链时 7 thickStart 在基因组浏览器中应加粗表示区域的起始点 例如基因的起始密码子 8 thickEnd 在基因组浏览器中应加粗表示区域的终止点 例如基因的终止密码子 9 itemRgb 该区域在基因组浏览器中用什么颜色表示 应使用三原色光模式 RGB 系统的颜色代码10 blockCount 该行表示的区域含多少个区块 例如外显子 11 blockSizes 该行表示的区域各个区块的长度 不同区块应使用半角逗号隔开 元素的数量应与第10列的值相同12 blockStarts 该行表示的区域各个区块的开始点 不同区块应使用半角逗号隔开 元素的数量应与第10列的值相同 头行文件 编辑 一部分BED文件会具有一些与BED文件本身无关的头行文件 一般包含以下信息 browser 与UCSC基因组浏览器设置相关的参数 track 与基因组浏览器中可视化参数设置相关 注释内容 内容任意文件扩展名 编辑BED文件的扩展名一般为 bed 有时候 也根据列数的不同标注为 bed3 有3列的BED文件 bed6 有6列的BED文件 等等 6 例子 编辑以下为一个含有最基本3列信息的BED文件范例 chr7 127471196 127472363 chr7 127472363 127473530 chr7 127473530 127474697 以下是另一个BED文件的范例 UCSC基因组浏览器提供的BED文件一般都是这种格式 头三行是UCSC基因组浏览器的设置参数 与BED文件本身无关 browser position chr7 127471196 127495720 browser hide all track name ItemRGBDemo description Item RGB demonstration visibility 2 itemRgb On chr7 127471196 127472363 Pos1 0 127471196 127472363 255 0 0 chr7 127472363 127473530 Pos2 0 127472363 127473530 255 0 0 chr7 127473530 127474697 Pos3 0 127473530 127474697 255 0 0 chr7 127474697 127475864 Pos4 0 127474697 127475864 255 0 0 chr7 127475864 127477031 Neg1 0 127475864 127477031 0 0 255 chr7 127477031 127478198 Neg2 0 127477031 127478198 0 0 255 chr7 127478198 127479365 Neg3 0 127478198 127479365 0 0 255 chr7 127479365 127480532 Pos5 0 127479365 127480532 255 0 0 chr7 127480532 127481699 Neg4 0 127480532 127481699 0 0 255 genome格式 编辑genome文件是一种有时与BED文件配合使用的文件 这种文件含有两列 第一列是染色体序号 第二列表示这条染色体的长度 genome文件主要是确保BED文件表示的区域不会位于染色体应有的长度之外 chrom size chr1 248956422 chr2 242193529 chr3 198295559 chr4 190214555 chr5 181538259 chr6 170805979 chr7 159345973 参见 编辑SAM 文件格式 英语 SAM file format GTF文件参考资料 编辑 Kent WJ Sugnet CW Furey TS Roskin KM Pringle TH Zahler AM amp Haussler D The human genome browser at UCSC Genome Research 2002 12 6 996 1006 ISSN 1088 9051 PMC 186604 nbsp PMID 12045153 doi 10 1101 gr 229102 nbsp Frequently Asked Questions Data File Formats BED format UCSC Genome Browser University of California Santa Cruz Genomics Institute 2 October 2019 原始内容存档于2021 05 09 GA4GH BED v1 0 A formal standard sets ground rules for genomic features www ga4gh org 2022 03 30 2022 05 07 原始内容存档于2022 03 31 The Browser Extensible Data BED format PDF samtools github io 2022 05 07 原始内容 PDF 存档于2022 01 21 Quinlan AR Hall IM The BEDTools manual PDF 21 September 2010 3 October 2019 原始内容 PDF 存档于2022 02 26 Datatypes Galaxy Community Hub 3 October 2019 原始内容存档于2021 12 09 取自 https zh wikipedia org w index php title BED 文件格式 amp oldid 71723036, 维基百科,wiki,书籍,书籍,图书馆,

文章

,阅读,下载,免费,免费下载,mp3,视频,mp4,3gp, jpg,jpeg,gif,png,图片,音乐,歌曲,电影,书籍,游戏,游戏。