Login| Sign Up| Help| Contact|

Patent Searching and Data


Title:
PARENTAL GENOME ASSEMBLY METHOD
Document Type and Number:
WIPO Patent Application WO/2013/078684
Kind Code:
A1
Abstract:
Provided is a parental genome assembly method, comprising: using the sequencing data of parental selfing line progeny population to assemble and perfect the parental genome data. Also provided is a device for implementing the method.

Inventors:
HE WEIMING (CN)
ZHAO SHANCEN (CN)
ZHANG XUEMEI (CN)
LI YINGRUI (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
Application Number:
PCT/CN2011/083390
Publication Date:
June 06, 2013
Filing Date:
December 02, 2011
Export Citation:
Click for automatic bibliography generation   Help
Assignee:
BGI SHENZHEN CO LTD (CN)
BGI SHENZHEN (CN)
HE WEIMING (CN)
ZHAO SHANCEN (CN)
ZHANG XUEMEI (CN)
LI YINGRUI (CN)
WANG JUN (CN)
WANG JIAN (CN)
YANG HUANMING (CN)
International Classes:
C12Q1/68; G16B20/20; C12N15/11; C40B40/08; C40B50/06; C40B60/02; G16B20/40
Foreign References:
CN101504697A2009-08-12
Other References:
LI, RUIQIANG ET AL.: "De novo assembly of human genomes with massively parallel short read sequencing", GENOME RESEARCH, vol. 4, no. 4, 30 April 2010 (2010-04-30), XP055070674
YU, JIANMING ET AL.: "Genetic association mapping and genome organization of maize", CURRENT OPINION IN BIOTECHNOLOGY, vol. 17, no. 2, 28 February 2006 (2006-02-28), XP005365882
Attorney, Agent or Firm:
CCPIT PATENT AND TRADEMARK LAW OFFICE (CN)
中国国际贸易促进委员会专利商标事务所 (CN)
Download PDF:
Claims:

1. 组装两个亲本, 即亲本 A和亲本 B, 的基因组的方法, 其 包括下列步骤:

a) 提供测序片段和拼接片段, 其包括

al) 分别对两个亲本进行全基因组测序, 提供两个亲本 的测序片段, 其中亲本 A的测序片段组成数据库 AO, 亲本 B的测 序片段组成数据库 B0;

a2) 将数据库 AO和 B0中的测序片段分别拼接成亲本 A 和 B的拼接片段, 其中亲本 A的拼接片段组成数据库 A1 , 亲本 B 的拼接片段组成数据库 B1 ;

a3) 提供两个亲本的自交系后代群体, 所述群体包含至 少一个自交系后代个体; 和

a4) 分别对每一个自交系后代个体进行全基因组测序, 提供每一个自交系后代个体的成对的测序片段, 这些测序片段组 成数据库 C, 即, 自交系后代群体的测序片段;

b) 鉴别两个亲本的分离位点, 其包括

bl) 当所述亲本所属物种的其他基因组是已知的时, 选 择所述已知的基因组作为参考序列, 并将数据库 AO和 B0中的测 序片段分别与该参考序列比对, 从而分别获得亲本 A和 B的一致 基因型序列; 比较亲本 A和 B的一致基因型序列, 鉴别二者之间 存在差异的位点, 即, 分离位点, 确定亲本 A和 B各自在分离位 点处的基因型, 记录分离位点在参考序列中的位置; 或

b2) 当所述亲本所属物种的其他基因组都是未知的时, 选择两个亲本之一的测序片段, 将其组装成初始基因组序列作为 参考序列, 然后将另一个亲本的测序片段与该参考序列比对, 从 而分别获得两个亲本的一致基因型序列; 比较亲本 A和 B的一致 基因型序列, 鉴别二者之间存在差异的位点, 即, 分离位点, 确 定亲本 A和 B各自在分离位点处的基因型, 记录分离位点在参考 序列中的位置;

C) 组装两个亲本的基因组草图, 其包括

cl) 分别选取亲本 A和 B —致基因型序列中分离位点之 前 10- 9 Obp和 /或之后 10-9 Obp的序列作为亲本 A和 B的标记序列, 记录这些标记序列在步骤 b)的参考序列中的位置;

c2) 使用全局比对软件将亲本 A的标记序列定位到数据 库 A1的拼接片段上, 将亲本 B的标记序列定位到数据库 B1的拼 接片段上, 标记序列与其所定位的拼接片段必须唯一并且完全精 确比对; 和

c3) 根据标记序列在参考序列中的位置, 分别对数据库 A1和 B1 中的含有标记序列的拼接片段依序排列, 相邻的 2个拼 接片段之间的未知序列用 N区来表示, 从而获得亲本 A和 B的基 因组草图;

d) 对数据库 C的测序片段进行分类, 其包括,

dl) 将数据库 C的测序片段与步骤 b)的参考序列进行比 对 , 确定这些测序片段是否包含在参考序列上记录的分离位点, 以及其在分离位点处的基因型;

d2) 根据步骤 bl)亲本 A和 B各自在分离位点处的基因 型以及步骤 dl)测序片段在分离位点处的基因型, 将数据库 C的 测序片段分成 3类:

i) 在分离位点处的基因型与亲本 A 的基因型一致的 测序片段, 其来源于亲本 A, 组成数据库 A2;

i i) 在分离位点处的基因型与亲本 B的基因型一致的 测序片段, 其来源于亲本 B, 组成数据库 B2;

i i i) 无法区分的测序片段; 和

d3) 将数据库 A2的测序片段拼接成新的亲本 A的拼接片 段,其组成数据库 A3 ,将数据库 B2的测序片段拼接成新的亲本 B 的拼接片段, 其组成数据库 B3,

e) 通过如下步骤来获得亲本 A和 B的基因组:

el) 分别用数据库 A3和 B3的拼接片段来完善亲本 A和 B的基因组草图, 其包括

el-1) 分别在亲本 A和 B的基因组草图上非 N区的序 列中每 200-400bp取 50-150bp的连续序列作为亲本 A和 B的标志 序列, 记录这些标志序列在基因组草图中的位置;

el-2) 将亲本 A的标志序列定位到数据库 A3的拼接 片段上,将亲本 B的标志序列定位到数据库 B3的拼接片段上,标 志序列与其所定位的拼接片段必须唯一并且完全精确比对; 和

el-3) 根据标志序列在基因组草图中的位置, 将数据 库 A3和 B3中的含有标志序列的拼接片段分别定位到亲本 A和 B 的基因组草图中该标志序列所在的位置, 然后利用含有标志序列 的拼接片段来填补基因组草图中的 N区; 和 /或

e2) 分别用数据库 A2和 B2中的测序片段的配对关系来 完善亲本 A和 B的基因组草图, 其包括

e2-l) 在数据库 A2 中寻找具有配对关系的成对测序 片段,其中第一个测序片段定位至亲本 A的基因组草图的非 N区, 而第二个测序片段至少部分定位至 N区; 然后利用第二个测序片 段来填补亲本 A的基因组草图中的所述 N区; 和

e2-2) 在数据库 B2 中寻找具有配对关系的成对测序 片段,其中第一个测序片段定位至亲本 B的基因组草图的非 N区, 而第二个测序片段至少部分定位至 N区; 然后利用第二个测序片 段来填补亲本 B的基因组草图中的所述 N区;

f) 任选地, 对步骤 e)的亲本基因组进行单碱基校正, 其包 括

fl) 将数据库 A2中的测序片段与亲本 A的基因组进行比 对, 其中亲本 A的基因组作为参考序列; 寻找纯合 SNP位点; 用 所述测序片段在纯合 SNP位点上的碱基来校正亲本 A的基因组在 该纯合 SNP位点上的碱基; 和 /或

f2) 将数据库 B2中的测序片段与亲本 B的基因组进行比 对, 其中亲本 B的基因组作为参考序列; 寻找纯合 SNP位点; 用 所述测序片段在纯合 SNP位点上的碱基来校正亲本 B的基因组在 该纯合 SNP位点上的碱基; 和

g) 任选地, 进行下述步骤:

gl) 将步骤 c3)的数据库 A1中未整合入亲本 A的基因组 草图的拼接片段与上一步骤获得的亲本 A的基因组进行比对, 如 果所述拼接片段能够定位到基因组上, 则进一步将拼接片段组装 到基因组中; 和 /或

g2) 将步骤 c3)的数据库 B1中未整合入亲本 B的基因组 草图的拼接片段与上一步骤获得的亲本 B的基因组进行比对, 如 果所述拼接片段能够定位到基因组上, 则进一步将拼接片段组装 到基因组中。

2. 权利要求 1的方法, 其中所述亲本是植物。

3. 权利要求 1的方法, 其中在步骤 al)中, 两个亲本的全基 因组测序的深度为至少 5倍, 优选至少 10倍, 例如至少 30倍。

4. 权利要求 1的方法, 其中在步骤 al)中, 使用 solexa测序 法对两个亲本进行全基因组测序。

5. 权利要求 1 的方法, 其中在步骤 a2)中, 使用软件 SOAPDenovo ^

B的拼接片段,

, , 至少 90个, 至少 100 个, 至少 150个, 至少 200个或更多个自交系后代个体,

7. 权利要求 1的方法, 其中在步骤 a4)中, 每一个自交系后 代个体的全基因组测序的深度为至少 2倍, 例如至少 4倍。

8. 权利要求 1的方法, 其中在步骤 a4)中, 使用 solexa测序 法对每一个自交系后代个体进行全基因组测序。

9. 权利要求 1 的方法, 其中在步骤 bl)或 b2)中, 使用短序 列比对软件例如 SOAP或 bwa ,将所述测序片段与所述参考序列进 行比对, 然后使用 SOAPsnp软件分析比对结果, 从而获得亲本的 一致基因型序列。

10. 权利要求 1的方法, 其中在步骤 cl)中, 将分离位点之 50bp以及之后 50bp的序列用作标记序列。

11. 权利要求 1的方法, 其中在步骤 c2)中, 所述全局比对软 件是 Blas tn0

12. 权利要求 1的方法, 其中在步骤 dl)中, 使用短序列比对 软件例如 SOAP或 bwa进行比对,并使用 SOAPsnp软件分析比对结 果。

13. 权利要求 1 的方法, 其中在步骤 d3)中, 使用软件 SOAPDenovo将数据库 A2和 B2中的测序片段分别拼接成新的亲本 A和 B的拼接片段。

14. 权利要求 1的方法, 其中在步驟 el-1)中, 在基因组草图 上非 N区的序列中每 300bp取出 l OObp的连续序列作为标志序列。

15. 用于组装亲本的基因组的装置, 其包括

1 )测序单元,其用于对个体进行测序,提供个体的测序片段; 2 )数据存储单元,其用于接收数据并将数据存储于数据库中; 3) 数据处理单元,其包含用于处理数据的第一亚单元和其他 亚单元, 所述第一亚单元包含:

用于将测序片段拼接成拼接片段的软件, 例如

SOAPDenovo;

用于将测序片段与参考序列比对的软件, 例如 SOAP 或 bwa;

用于分析比对结果的软件, 例如 SOAPsnp;

全局比对软件, 例如 Blas tn; 所述其他亚单元包括:

用于鉴别两个亲本的分离位点的亚单元;

用于组装亲本的基因组草图的亚单元;

用于确定自交系后代个体的测序片段的亲本来源的亚单 元; 和

用于实施权利要求 1的方法的步骤 e)、 f)和 /或 g)的亚 单元。

16. 权利要求 15 的装置, 其中所述数据库包括选自下列的一 个或多个数据库:

数据库 AO, 其用于存储亲本 A的测序片段; 数据库 B0, 其用于存储亲本 B的测序片段; 数据库 C, 其用于存储自交系后代个体的测序片段; 数据库 A1 , 其用于存储亲本 A的拼接片段; 数据库 B1 , 其用于存储亲本 B的拼接片段; 数据库 A2 ,其用于存储数据库 C中的来源于亲本 A的测 序片段;

数据库 B2 ,其用于存储数据库 C中的来源于亲本 B的测 序片段;

数据库 A3 , 其用于存储由数据库 A2的测序片段拼接成 的拼接片段;

数据库 B3 , 其用于存储由数据库 B2的测序片段拼接成 的拼接片段;

数据库 XI , 其用于存储亲本 A的基因组草图; 数据库 Y1 , 其用于存储亲本 B的基因组草图; 数据库 X2 , 其用于存储亲本 A的基因组; 数据库 Y2, 其用于存储亲本 Β的基因组; 和 数据库 Μ, 其用于存储参考序列。

Description:
一种组装双亲基因组的方法 技术领域

本发明涉及基因工程技术领域、 遗传学领域和基因组生物信 息学领域。 特别地, 本发明涉及一种组装双亲基因组的方法, 其 包括使用所述双亲的自交系后代群体的测序数 据来组装和完善双 亲的基因组。 本发明还提供了用于实施所述方法的装置。 背景技术

第二代 DNA测序技术是一种高通量、 低成本的测序技术, 其 基本原理是边合成边测序。 以 solexa测序方法为例, 其包括: 首 先用物理方法将 DNA链随机打断; 然后在获得的 DNA片段两端加 上特定接头, 所述接头上具有扩增引物序列; 然后对带有接头的 DNA片段进行测序。测序时, DNA聚合酶利用接头合成待测片段的 互补链, 并通过检测新掺入的碱基所携带的荧光信号来 读取碱基 序列, 从而获得待测片段的序列。 所获得的这些序列称为测序片 段 ( reads ) 。 solexa 测序方法的基本过程可参见例如 http: //www. i 1 lumina. com。

第二代测序方法为了还原基因组的整体序列情 况(例如, 将 测序序列组装成基因组序列例如染色体序列) , 通常采取的是分 梯度拼接的方式。 首先, 利用测序序列(reads )之间的重叠关系 将测序片段尽可能的延长(即, 拼接在一起) , 从而形成连接片 段(cont ig ) 。 接着, 利用双末端测序中两端测序片段之间的距 离关系, 将拥有双末端测序片段的不同连接片段通过在 中间添加 一定数量的 N 而连接起来, 这样形成的片段叫做拼接片段 ( scaffold ) 。 在拼接片段上, N 区之前与之后的连接片段的顺 序关系已知, 并且也知道它们在 DNA序列上的距离。 最后, 通过 "补洞"的方法将这些 N区的信息还原成序列信息。 一种 "补洞" 的方法是: 寻找这样的双末端测序片段, 其一端落在拼接片段的 已知序列上, 另一端落在拼接片段的 N区上; 统计所有落在 N区 的测序片段, 接着通过重叠关系进行局部组装得到 N区的序列信 息。 序列拼接的大概流程可参见例如 Li, R. et al. De novo assembly of human genomes wi th mass ively paral lel short read sequencing. Genome Res 20, 265-72 (2010)。

虽然已可以使用已知的软件对第二代测序方法 的测序数据 (即, 测序序列)进行拼接, 然而, 由于第二代测序方法所产生 的读长普遍偏短(一般只有 100bp ) , 因而在进行数据拼接时存 在一定的局限性: 很难单纯地依靠组装软件将测序片段拼接形成 基因组序列例如染色体序列。

因此, 本领域迫切需要对测序数据 (即, 测序片段) 的组装 方法进行改进, 以进一步优化测序数据的组装结果, 提高组装结 果的精确度(即, 获得具有高精确度的基因组序列) 。 特别地, 本发明提供了新的组装双亲基因组的方法, 其包括使用双亲的自 交系后代群体的测序数据来组装和完善双亲的 基因组。 发明内容

在本发明中, 除非另有说明, 否则本文中使用的科学和技术 名词具有本领域技术人员所通常理解的含义。 并且, 本文中所用 的遗传学、 分子生物学、 核酸化学和生物信息学术语和相关实验 室操作步骤均为相应领域内广泛使用的术语和 常规步骤。 同时, 为了更好地理解本发明, 下面提供相关术语的定义和解释。

如本文中使用的, 术语 "遗传图谱" , 也被称为连锁图谱和 染色体图谱, 其显示基因或遗传标记之间的相对距离(即遗 传距 离), 而不是显示基因或遗传标记在染色体上的物理 距离。在遗传 图谱中, 用遗传距离来描述基因或遗传标记之间的位置 关系, 并 且遗传距离用重组率来计算。 一般而言, 同一条染色体上的两个 基因或遗传标记相距的距离越远, 那么他们在减数分裂时发生重 组的概率就越大, 共同遗传的概率也就越小。 根据他们后代性状 的分离情况可以计算他们的重组率, 从而可以计算他们在遗传图 谱上的遗传距离。 当 2个基因或遗传标记的重组率为 1 %时, 其 遗传距离定义为 1 cM (cent imorgan)。

目前, 常用的遗传标记主要有限制性片段长度多态性 ( res tr ict ion fragment length polymorphi sm, RFLP ) 、 简单 重复序列 ( s imple sequence repeats , SSR ) 、 序列标签位点 ( sequence-tagged s i te , STS ) 和单核苷酸多态性 ( s ing le nuc leot ide polymorphi sm, SNP )这几种。 这些遗传标记都是本 领域技术人员熟知的, 参见例如 Agarwa l, M. , Shr ivas tava, N. & Padh, H. Advances in molecular marker techniques and thei r appl icat ions in plant sciences. Plant cell reports 27, 617-631 (2008)。

如本文中使用的, 术语 "SNP"是指在基因组水平上由单个核 苷酸的变异所引起的 DM序列多态性。 SNP是生物可遗传的变异 中最常见的一种, 占所有已知多态性的 90%以上。 如本文中使用 的, 术语 "SNP位点"是指具有单核苷酸多态性的位点。 SNP位点 在各个物种的基因组中广泛存在。 特别地, 在人类基因组中, 平 均每 500 ~ 1000个碱基对中就有 1个 SNP位点, 估计其总数可达 300万个甚至更多。 如本文中使用的, 当提及个体的 SNP位点时, 其是指, 该个体的基因组在该位点上, 相对于参考序列, 具有不 同的械基。

如本文中使用的, 术语 "纯合 SNP位点" 是指这样的 SNP位 点, 在该位点上, 所有进行比对的序列都显示相同的碱基, 且该 碱基与参考序列上的碱基不同。 例如, 如果参考序列在某一 SNP 位点上的碱基为 G , 而所有进行比对的序列在该 SNP位点上的碱 基都为 A, 则该 SNP位点被称为纯合 SNP位点 (参见图 1 ) 。

如本文中使用的, 术语 "测序片段" 是指使用各种测序方法 进行测序所获得的测序数据。 例如, 第二代测序方法例如 sol exa 测序法是用于提供测序片段的优选方法。 特别地, 如本文中使用 的,术语"测序片段"优选是指,使用第二代测 方法例如 sol exa 测序法所获得的测序数据。 如本文中使用的, 术语 "成对的测序 片段"是指通过下列方法获得的测序片段对: 使用 so l exa测序 法对 DNA片段进行测序时, 在 DNA片段的两端同时加上接头, 然 后利用接头从两端分别对该片段进行测序, 由此获得成对的测序 片段。 成对的测序片段被称为具有配对关系。

如本文中使用的, 术语 "拼接片段" 是指利用测序片段之间 的重叠关系和物理距离关系对测序片段进行拼 接而获得的片段。

如本文中使用的, 表述 "组装基因组" 是指获得基因组的序 列信息。

如本文中使用的, 表述 "完善基因组" 是指使获得的基因组 序列尽可能地接近于真实的基因组序列 (即, 提高获得的基因组 序列的精确度) , 其包括但不限于, 确定所获得的基因组序列中 N 区的序列和校正所获得的基因组序列中的错误 碱基等。 如本文 中使用的, 术语 "精确度" 用于描述组装得到的基因组序列与真 实的基因组序列的匹配程度。

如本文中使用的, 术语 "自交系后代群体" 是指, 通过下列 步骤获得的双亲的后代群体: 将双亲杂交获得子一代; 然后将子 一代自交一代或多代(例如, 2代, 3代, 4代, 5代, 6代, 7 代, 8代, 9代, 10代, 12代, 14代, 16代, 20代或更多代) , 获得自交系后代群体。 如本文中使用的, 自交系后代群体中的个 体被称为自交系后代个体。

如本文中使用的, 表述 "组装测序片段(或拼接片段) " 是 指将各个测序片段(或拼接片段)按其在基因 组中的相对位置关 系进行排列。 如本文中使用的, 术语 "排列" 不仅意指将各片段 按相对位置关系进行排序, 还意指确定各片段的连接方向。

如本文中使用的, 术语 "一致基因型序列"是指这样的序列, 其具有与参考序列(例如,参考基因组)相同 长度,并且除了 SNP 位点之外, 其它位点上的基因序列信息与参考序列一致。 可使用 任何已知的 SNP软件, 利用贝叶斯模型来确定个体的测序数据中 的 SNP位点以及所述 SNP位点上的基因型。 通常, 通过将个体的 测序数据与参考基因组进行比对, 从而获得个体的一致基因型序 列。

如本文中使用的, 某个位点处的 "基因型" 是指, 基因组在 该位点处所包含的碱基。 因此, 个体 A在某一位点处的基因型与 个体 B在该位点处的基因型不同 (或相同)表示, 个体 A的基因 组在该位点处所包含的碱基与个体 B不同 (或相同) 。

如本文中使用的, 术语 "分离位点" 是指这样的位点, 在该 位点上两个亲本的基因组序列存在差异(即, 具有不同的碱基)。

如本文中使用的, 术语 "基因组草图" 是指, 直接组装亲本 的拼接片段而获得的亲本的基因组, 其未使用自交系后代群体的 测序数据 (即, 测序片段)进行完善。 相对于使用本发明的方法 组装得到的基因组而言, 基因组草图的有效长度较短, 含有较多 的 N区, 精确度较低。 如本文中使用的, 术语 "N区" 是指, 基 因组中序列未知的区域。

如本文中使用的, 术语 "单碱基校正" 是指, 用进行比对的 序列 (例如, 自交系后代群体的测序片段)在纯合 SNP位点上的 碱基来校正参考序列 (例如, 亲本基因组)在该纯合 SNP位点上 的碱基。

如本文中使用的, 术语 "测序深度" 是指, 测序数据的量相 对于全基因组数据的量的倍数。 例如, 测序深度为 2是指, 测序 数据的量为全基因组数据的量的 2倍。

如本文中使用的, 术语 "单元" 或 "亚单元" 是指, 含有并 且能够运行软件和 /或算法以实现预期目的的硬件。此类硬件是 领域公知的, 并且可以被整合到计算机, 服务器等设备中。 在本申请中, 发明人创新性地将自交系后代群体的测序数据 用于组装和完善双亲的基因组, 从而提供了一种新的组装双亲的 基因组的方法, 大大提高了组装得到的亲本基因组的精确度。

特别地, 本发明至少部分基于下列原理: 自交系后代群体的 基因组完全来源于两个亲本, 并且这些自交系后代群体的测序片 段所携带的基因组信息与该片段所源自的亲本 的对应基因组信息 完全一致。 因此, 在确定了自交系后代群体的测序片段的亲本来 源之后, 可以将这些测序片段用于组装和完善其所源自 的亲本的 基因组, 从而大大提高亲本基因组的精度。 因此, 在一个方面, 本发明提供了组装两个亲本, 即亲本 A 和亲本 B, 的基因组的方法, 其包括下列步骤:

a) 提供测序片段和拼接片段, 其包括 al) 分别对两个亲本进行全基因组测序, 提供两个亲本 的测序片段, 其中亲本 A的测序片段组成数据库 AO, 亲本 B的测 序片段组成数据库 B0;

a2) 将数据库 AO和 B0中的测序片段分别拼接成亲本 A 和 B的拼接片段, 其中亲本 A的拼接片段组成数据库 A1 , 亲本 B 的拼接片段组成数据库 B1 ;

a3) 提供两个亲本的自交系后代群体, 所述群体包含至 少一个自交系后代个体; 和

a4) 分别对每一个自交系后代个体进行全基因组测 序, 提供每一个自交系后代个体的成对的测序片段 , 这些测序片段组 成数据库 C, 即, 自交系后代群体的测序片段;

b) 鉴别两个亲本的分离位点, 其包括

bl) 当所述亲本所属物种的其他基因组是已知的时 , 选 择所述已知的基因组作为参考序列, 并将数据库 AO和 B0中的测 序片段分别与该参考序列比对, 从而分别获得亲本 A和 B的一致 基因型序列; 比较亲本 A和 B的一致基因型序列, 鉴别二者之间 存在差异的位点, 即, 分离位点, 确定亲本 A和 B各自在分离位 点处的基因型, 记录分离位点在参考序列中的位置; 或

b2) 当所述亲本所属物种的其他基因组都是未知的 时, 选择两个亲本之一的测序片段, 将其组装成初始基因组序列作为 参考序列, 然后将另一个亲本的测序片段与该参考序列比 对, 从 而分别获得两个亲本的一致基因型序列; 比较亲本 A和 B的一致 基因型序列, 鉴别二者之间存在差异的位点, 即, 分离位点, 确 定亲本 A和 B各自在分离位点处的基因型, 记录分离位点在参考 序列中的位置;

c) 组装两个亲本的基因组草图, 其包括 cl) 分别选取亲本 A和 B—致基因型序列中分离位点之 前 10- 9 Obp和 /或之后 10-9 Obp的序列作为亲本 A和 B的标记序列, 记录这些标记序列在步骤 b)的参考序列中的位置;

c2) 使用全局比对软件将亲本 A的标记序列定位到数据 库 A1的拼接片段上, 将亲本 B的标记序列定位到数据库 B1的拼 接片段上, 标记序列与其所定位的拼接片段必须唯一并且 完全精 确比对; 和

c3) 根据标记序列在参考序列中的位置, 分别对数据库 A1和 B1 中的含有标记序列的拼接片段依序排列, 相邻的 2个拼 接片段之间的未知序列用 N区来表示, 从而获得亲本 A和 B的基 因组草图;

d) 对数据库 C的测序片段进行分类, 其包括,

dl) 将数据库 C的测序片段与步骤 b)的参考序列进行比 对 , 确定这些测序片段是否包含在参考序列上记录 的分离位点, 以及其在分离位点处的基因型;

d2) 根据步骤 bl)亲本 A和 B各自在分离位点处的基因 型以及步骤 dl)测序片段在分离位点处的基因型, 将数据库 C的 测序片段分成 3类:

i) 在分离位点处的基因型与亲本 A 的基因型一致的 测序片段, 其来源于亲本 A, 组成数据库 A2;

i i) 在分离位点处的基因型与亲本 B的基因型一致的 测序片段, 其来源于亲本 B, 组成数据库 B2;

i i i) 无法区分的测序片段; 和

d3) 将数据库 A2的测序片段拼接成新的亲本 A的拼接片 段,其组成数据库 A3,将数据库 B2的测序片段拼接成新的亲本 B 的拼接片段, 其组成数据库 B3, e) 通过如下步骤来获得亲本 A和 B的基因组: el) 分别用数据库 A3和 B3的拼接片段来完善亲本 A和 B的基因组草图, 其包括

el-1) 分别在亲本 A和 B的基因组草图上非 N区的序 列中每 200-400bp取 50-150bp的连续序列作为亲本 A和 B的标志 序列, 记录这些标志序列在基因组草图中的位置;

el-2) 将亲本 A的标志序列定位到数据库 A3的拼接 片段上,将亲本 B的标志序列定位到数据库 B3的拼接片段上,标 志序列与其所定位的拼接片段必须唯一并且完 全精确比对; 和

el-3) 根据标志序列在基因组草图中的位置, 将数据 库 A3和 B3中的含有标志序列的拼接片段分别定位到亲 A和 B 的基因组草图中该标志序列所在的位置, 然后利用含有标志序列 的拼接片段来填补基因组草图中的 N区; 和 /或

e2) 分别用数据库 A2和 B2中的测序片段的配对关系来 完善亲本 A和 B的基因组草图, 其包括

e2-l) 在数据库 A2 中寻找具有配对关系的成对测序 片段,其中第一个测序片段定位至亲本 A的基因组草图的非 N区, 而第二个测序片段至少部分定位至 N区; 然后利用第二个测序片 段来填补亲本 A的基因组草图中的所述 N区; 和

e2-2) 在数据库 B2 中寻找具有配对关系的成对测序 片段,其中第一个测序片段定位至亲本 B的基因组草图的非 N区, 而第二个测序片段至少部分定位至 N区; 然后利用第二个测序片 段来填补亲本 B的基因组草图中的所述 N区;

f) 任选地, 对步骤 e)的亲本基因组进行单碱基校正, 其包 括

fl) 将数据库 A2中的测序片段与亲本 A的基因组进行比 对, 其中亲本 A的基因组作为参考序列; 寻找纯合 SNP位点; 用 所述测序片段在纯合 SNP位点上的碱基来校正亲本 A的基因组在 该纯合 SNP位点上的碱基; 和 /或

f2) 将数据库 B2中的测序片段与亲本 B的基因组进行比 对, 其中亲本 B的基因组作为参考序列; 寻找纯合 SNP位点; 用 所述测序片段在纯合 SNP位点上的碱基来校正亲本 B的基因组在 该纯合 SNP位点上的碱基; 和

g) 任选地, 进行下述步骤:

gl) 将步骤 c3)的数据库 A1中未整合入亲本 A的基因组 草图的拼接片段与上一步骤获得的亲本 A的基因组进行比对, 如 果所述拼接片段能够定位到基因组上, 则进一步将拼接片段组装 到基因组中; 和 /或

g2) 将步骤 c3)的数据库 B1中未整合入亲本 B的基因组 草图的拼接片段与上一步骤获得的亲本 B的基因组进行比对, 如 果所述拼接片段能够定位到基因组上, 则进一步将拼接片段组装 到基因组中。

在一个优选的实施方案中, 所述亲本是植物, 例如种子植物, 例如单子叶植物和双子叶植物, 例如水稻, 小麦, 棉花等。

在一个优选的实施方案中, 在步骤 al)中, 两个亲本的全基 因组测序的深度为至少 5倍, 优选至少 10倍, 例如至少 30倍。 在一个优选的实施方案中, 在步骤 al)中, 使用 solexa测序法对 两个亲本进行全基因组测序。

在一个优选的实施方案中, 在步驟 a2)中, 使用软件

B的拼接片段。

在一个优选的实施方案中, 在步骤 a3)中, 所述自交系后代 群体包含至少 10个, 至少 20个, 至少 30个, 至少 40个, 至少 50个, 至少 60个, 至少 70个, 至少 80个, 至少 90个, 至少 100 个, 至少 150个, 至少 200个或更多个自交系后代个体。

在一个优选的实施方案中, 在步骤 a4)中, 每一个自交系后 代个体的全基因组测序的深度为至少 2倍, 例如至少 4倍。 在一 个优选的实施方案中, 在步驟 a4)中, 使用 solexa测序法对每一 个自交系后代个体进行全基因组测序。

在一个优选的实施方案中, 在步骤 bl)或 b2)中,使用短序列 比对软件例如 SOAP或 bwa,将所述测序片段与所述参考序列进行 比对, 然后使用 SOAPsnp软件分析比对结果, 从而获得亲本的一 致基因型序列。

在一个优选的实施方案中, 在步骤 b2)中, 将一个亲本的测 序片段组装成初始基因组序列的方法是本领域 技术人员已知的。 例如, 可使用遗传图谱来组装初始基因组序列, 参见例如 PCT/CN2011/076840 (其全文通过引用并入本文), 其中详细描述 了, 使用 SNP位点构建遗传图谱的方法以及使用所构建的 遗传图 谱将个体的测序片段组装成初始基因组序列的 方法。 如本文中所 使用的, 初始基因组序列是指, 其序列信息有待进一步完善的基 因组序列。 应注意的是, 在步骤 b2)中, 一个亲本的一致基因型 序列即为参考序列, 而另一个亲本的一致基因型序列是通过与参 考序列比对而获得的。

在一个优选的实施方案中, 在步骤 cl)中, 将分离位点之前 50bp以及之后 50bp的序列用作标记序列, 即, 该标记序列的长 度为 l Olbp (分离位点之前 50bp + 分离位点 + 分离位点之后 50bp)。 在一个优选的实施方案中, 在步骤 c2)中, 所述全局比对 软件是 Blas tn。在一个优选的实施方案中, 步骤 c)中所描述的亲 本基因组草图的组装如图 3所示。

在一个优选的实施方案中, 在步骤 dl)中, 使用短序列比对 软件例如 SOAP或 bwa ,将所述测序片段与所述参考序列进行比对, 然后使用 SOAPsnp软件分析比对结果, 从而确定所述测序片段是 否包含在参考序列上记录的分离位点, 以及其在分离位点处的基 因型。

在一个优选的实施方案中, 在步驟 d3)中, 使用软件 SOAPDenovo将数据库 A2和 B2中的测序片段分别拼接成新的亲本 A和 B的拼接片段。

在一个优选的实施方案中, 在步驟 el-1)中, 在基因组草图 上非 N区的序列中每 300bp取出 l OObp的连续序列作为标志序列。 在一个优选的实施方案中, 步驟 el)中所描述的过程如图 4所示。 在一个优选的实施方案中, 步驟 e2)中所描述的过程如图 5所示。 在另一个方面, 本发明提供了一种用于组装亲本的基因组的 装置, 其包括

1 )测序单元,其用于对个体进行测序,提供个 的测序片段; 2 )数据存储单元,其用于接收数据并将数据存 于数据库中; 3) 数据处理单元,其包含用于处理数据的第一亚 单元和其他 亚单元, 所述第一亚单元包含:

用于将测序片段拼接成拼接片段的软件, 例如

SOAPDenovo;

用于将测序片段与参考序列比对的软件, 例如 SOAP 或 bwa;

用于分析比对结果的软件, 例如 SOAPsnp;

全局比对软件, 例如 Blas tn; 所述其他亚单元包括:

用于鉴别两个亲本的分离位点的亚单元;

用于组装亲本的基因组草图的亚单元;

用于确定自交系后代个体的测序片段的亲本来 源的亚单 元; 和

用于实施本发明的方法的步骤 e)、 f)和 /或 g)的亚单元。 在一个优选的实施方案中, 进行测序的所述个体包括亲本 A, 亲本 B和自交系后代个体。

在一个优选的实施方案中, 所述数据库包括选自下列的一个 或多个数据库:

数据库 A0, 其用于存储亲本 A的测序片段;

数据库 B0, 其用于存储亲本 B的测序片段;

数据库 C, 其用于存储自交系后代个体的测序片段; 数据库 Al, 其用于存储亲本 A的拼接片段;

数据库 Bl, 其用于存储亲本 B的拼接片段;

数据库 A2, 其用于存储数据库 C中的来源于亲本 A的测 序片段;

数据库 B2, 其用于存储数据库 C中的来源于亲本 B的测 序片段;

数据库 A3, 其用于存储由数据库 A2的测序片段拼接成 的拼接片段;

数据库 B3, 其用于存储由数据库 B2的测序片段拼接成 的拼接片段;

数据库 XI, 其用于存储亲本 A的基因组草图; 数据库 Yl, 其用于存储亲本 Β的基因组草图; 数据库 X2, 其用于存储亲本 A的基因组; 数据库 Y2, 其用于存储亲本 Β的基因组; 和

数据库 Μ, 其用于存储参考序列。 发明的有益效果

本发明创新性地将自交系后代群体的测序数据 用于组装双亲 的基因组, 提供了一种新的组装双亲的基因组的方法。 与现有技 术相比, 本发明的技术方案显著提高了组装得到的亲本 基因组的 精确度, 为基因组学研究提供了更强有力的工具。 下面将结合附图和实施例对本发明的实施方案 进行详细描 述, 但是本领域技术人员将理解, 下列附图和实施例仅用于说明 本发明, 而不是对本发明的范围的限定。 根据附图和优选实施方 案的下列详细描述, 本发明的各种目的和有利方面对于本领域技 术人员来说将变得显然。 附图说明

图 1示例性地说明了通过将个体的测序片段与参 序列进行 比对来确定 SNP位点的方法, 其中显示了在个体的测序片段中为 碱基 Α且在参考序列中为碱基 G的 SNP位点, 以及在个体的测序 片段中为碱基 A且在参考序列中为碱基 T的 SNP位点。

图 2示例性地说明了确定后代群体的测序片段的 本来源的 原理和方法。 当后代个体的测序片段在分离位点处的基因型 与父 本一致时, 可判断该测序片段来源于父本。 同样, 当后代个体的 测序片段在分离位点处的基因型与母本一致时 , 可判断该测序片 段来源于母本。 图 3示例性地说明了使用标记序列将亲本的拼接 段组装成 基因组草图的方法。

图 4示例性地说明了使用标志序列将来自自交系 代群体的 新的拼接片段定位到亲本的基因组草图上, 从而利用新的拼接片 段的序列信息进一步组装和完善亲本的基因组 草图。

图 5示例性地说明了利用来自自交系后代群体的 有配对关 系的测序片段进一步组装和完善亲本的基因组 草图的方法。

图 6示例性地说明了后代群体的各个体在分离位 处的基因 型的亲本来源, 其中 0表示来源于亲本 9311水稻, 1表示来源于 亲本 Pa64水稻, -表示未知, 并且第 1行(即, BI 5- BI 18)表示后 代个体的编号,第 1列表示分离位点在基因组序列上的物理位置

图 7在全基因组水平上显示了各后代个体的各区 的亲本来 源, 其中 chrOl- chrl2分别表示 1号- 12号染色体, Het表示杂 合的。

图 8示例性描述了亲本的拼接片段的组装结果, 其中, 第一 行表示的意思是: 编号为 Chr02_l的拼接片段长度为 13389bp, 其被 49 个标记序列精确正向 【+】 定位至连锁群 chr02 【chr02_747m50】 中的第 283到 13670位处; 第二行表示的意思 是: 编号为 Chr02_2的拼接片段长度为 12902bp, 其被 38个标记 序列精确正向 【+】 定位至连锁群 chr02 【chr02_14344m50】 中 的第 14188到 27101位处; 其余的行表示类似的意思。 具体实施方式

为了使本发明的目的、 技术方案及优点更加清楚明白, 以下 结合附图及实施例, 对本发明进行进一步详细说明。 应当理解, 此处所描述的具体实施例仅仅用以解释本发明 , 并且不用于限定 本发明。

在以下实施例中, 以水稻为例, 示例性地描述了使用双亲的 自交系后代群体的测序数据来组装双亲 9311和 PA64的基因组的 方法。 实施例 1. 水稻的自交系后代群体的产生

将 9311水稻 (Yu, J. et al. A draft sequence of the rice genome (Oryza sativa L. ssp. indica) . Science 296, 79 (2002)) 与 PA64水稻 (Wei, G. et al. A transcriptomic analysis of superhybrid rice LYP9 and its parents. Proc Natl Acad Sci U S A 106, 7695-701 (2009) )进行杂交, 产生 Fl 代, 接着将 F1代自交 16代, 从而获得水稻的自交系后代群体。 实施例 2. 双亲与自交系后代群体的测序片段的产生

从自交 16代的后代群体中随机选择 132个后代个体,并根据 制造商的说明书, 使用 solexa测序平台 (Illumina公司) , 进 行测序深度为 2x的个体基因组测序(即, 测序数据量为基因组的 两倍) , 从而提供后代个体的基因组测序数据(测序片 段)。 使用 相同的方法,对双亲(9311水稻与 P A64水稻)的基因组进行测序, 其各自的测序深度为 10X (即, 测序数据量为基因组的 10倍) 。 实施例 3. 双亲(9311水稻与 PA64水稻)的拼接片段的产生 使用本领域公知的方法, 例如 SoapDenovo 组装软件 (http://soap.genomics.org.cn/soapdeiiovo.html ) , 分另' J对

9311水稻与 PA64水稻的测序片段进行拼接, 从而分别获得 9311 水稻与 PA64水稻的拼接片段。 另外,也可使用已公开的 9311水稻与 PA64水稻的拼接片段。 例如,在 2002年,已经使用 Sanger测序平台对 9311水稻与 PA64 水稻的基因组分别进行了 6. 02X的测序, 并且使用了本领域公知 的 RePS 组 装 软 件

( http: //genome, cshlp. org/content/12/5/824. ful l ) 将所获 得的测序片段拼接成拼接片段, 这些拼接片段的序列信息可参见 Yu, Hu et al. 2002。 在以下实施例中, 使用这些已知的拼接片 段。 实施例 4. 鉴别双亲(9311水稻与 PA64水稻)的分离位点 以 已 知 的 水 稻 基 因 组 Tiger (ht tp: //rapdb. dna. affrc. go. jp/)作为参考序列, 使用比对软 件例如 SOAP ( Li, R. et al. S0AP2: an improved ul trafas t tool for short read al ignment. Bioinformat ics 25, 1966-7 (2009) ) , 将双亲的测序片段(10X solexa数据)分别与参考序列 进行比对。 在进行比对时, 使用 SOAP软件的缺省参数, 且不容许 空位的存在, 并且错配数不大于 5个碱基。

使用 SOAP sup软件(参见例如, Li, R. et al. SNP detect ion for mass ively paral lel whole-genome resequencing. Genome Research 19, 1124 (2009) 或 http: //SOAP, genomics, org. cn/SOAPsnp. html ) 来分析 SOAP 软 件的比对结果, 找出双亲相对于参考序列的 SNP位点并获得双亲 的一致基因型序列。 图 1示例性地说明了通过将个体的测序片段 与参考序列进行比对来确定 SNP位点的方法。 特别地, 图 1显示 了在个体的测序片段中为碱基 A且在参考序列中为碱基 G的 SNP 位点, 以及在个体的测序片段中为碱基 A且在参考序列中为碱基 T的 SNP位点。

逐一比较双亲的一致基因型序列, 从双亲的 SNP位点中确认 双亲的分离位点, 即, 双亲存在差异的位点。 将一致基因型序列 中各分离位点前后 50bp的序列用作标记序列。双亲的 SNP位点和 分离位点的统计结果如表 1所示。 表 1、 双亲的 SNP位点和分离位点的统计结果 表 1的统计结果显示, 双亲的分离位点标记不仅数量巨大, 而且在整个基因组中基本上是均勾分布的。 并且, 这些分离位点 标记基本上覆盖了整个基因组, 从而其可以用于将拼接片段组装 成基因组序列。 实施例 5. 自交系后代群体的测序片段 (Reads)的分类 以 已 知 的 水 稻 基 因 组 Tiger (ht tp: //rapdb. dna. affrc. go. jp/)作为参考序列, 使用比对软 件例如 SOAP ( Li, R. et al. S0AP2: an improved ul trafas t tool for short read al ignment. Bioinformat ics 25, 1966-7 (2009) ) , 将自交系后代群体的各个体的测序片段(2X solexa数 据)分别与参考序列进行比对。 在进行比对时, 使用 S0AP软件的 缺省参数, 且不容许空位的存在, 并且错配数不大于 5个碱基。

使用 SOAPsnp软件来分析 S0AP软件的比对结果,从而确定后 代群体的各个体在每个分离位点处的基因型。 根据双亲在分离位 点的基因型以及后代个体在分离位点的基因型 , 可以确定后代个 体中每个分离位点处的碱基是来源于 9311水稻还是来源于 PA64 水稻,从而可以确定各后代个体的各测序片段 是来源于 9311水稻 还是来源于 PA64水稻。图 2示例性地说明了确定后代群体的测序 片段的亲本来源的原理和方法。 当后代个体的测序片段在分离位 点处的基因型与父本一致时, 可判断该测序片段来源于父本。 同 样,当后代个体的测序片段在分离位点处的基 因型与母本一致时, 可判断该测序片段来源于母本。

图 6示例性地说明了后代群体的不同个体在分离 点处的基 因型的亲本来源, 其中 0表示来源于亲本 9311水稻, 1表示来源 于亲本 Pa64水稻, -表示未知,并且第 1行表示后代个体的编号, 第 1列表示分离位点在基因组序列上的物理位置

根据图 6, 可以确定亲本个体中每个分离位点处的碱基在 后 代个体中的分布情况, 从而可以计算分离位点之间的重组率, 并 得到遗传图谱。 另外, 如上所述, 还可以根据图 6来确定自交系 后代群体中各个体的各区域来源于哪一个亲本 。 该分析结果如图

7所示。 图 7在全基因组水平上显示了各后代个体的各区 的亲 本来源。

因此, 通过上述方法, 可以将各后代个体的测序片段分成如 下三类:

1) 来源于 9311水稻的测序片段;

2) 来源于 PA64水稻的测序片段;

3) 无法区分的测序片段。 实施例 6. 将双亲的各拼接片段锚定到相应的染色体连锁 群 并产生基因组草图

如实施例 4所述, 将双亲各自的一致基因型序列中各分离位 点前后 50bp的序列用作标记序列 (分离位点前 50bp+分离位点 + 分离位点后 50bp=总共 l Olbp ) , 并记录这些标记序列在 Tiger 基因组上的物理位置。 使用全局比对软件 Blas tn (参见例如, http: //nebc. nerc. ac. uk/bioinf orma t ics /docs /bias t+. html) , 将这些标记序列锚定到实施例 3获得的双亲各自的拼接片段上 (标记序列必须与拼接片段唯一并且完全精确 对) 。 利用这些 标记序列在 Tiger基因组上的物理位置, 可以确定含有标记序列 的拼接片段之间的先后顺序 (即, 位置)和距离, 从而可以对含 有标记序列的拼接片段进行组装, 获得双亲各自的基因组草图。 组装后的拼接片段之间若存在未知的序列, 则用 N区连接。 该过 程示例性地示于图 3中。

图 8示例性描述了拼接片段的组装结果, 其中,

第一行表示的意思是: 编号为 Chr02-1 的拼接片段长度为 13389bp, 其被 49个标记序列精确正向 【+】定位至连锁群 chr02 【chr02— 747m50】 中的第 283到 13670位处;

第二行表示的意思是: 编号为 Chr02-2 的拼接片段长度为 12902bp, 其被 38个标记序列精确正向 【+】定位至连锁群 chr02 【chr02— 14344m50】 中的第 14188到 27101位处。

根据上面的信息可以知道编号为 Chr02-1和 Chr02-2的拼接 片段的位置, 并且可以知道两者之间的 N 区为 518bp (即, 14188-13670)。 这比遗传图 i普更加精确。

双亲的拼接片段的组装结果的统计信息还示于 表 2中。 表 2: 双亲的拼接片段的组装结果的统计信息

实施例 7. 使用自交系后代群体的测序片段来进一步组装 和 完善双亲的基因组草图

为了充分利用自交系后代群体的测序片段, 本实施例采用了 以下方法来组装和完善双亲的基因组草图, 以最终组装获得双亲 的基因组。

1、 通过新的拼接片段来组装和完善双亲的基因组 草图 使用本领域公知的方法, 例如 SOAPDenovo 组装软件 (ht tp: //SOAP, genomics, org. cn/SOAPdenovo. html),将实施例 5 获得的已确定了亲本来源的测序片段拼接成新 的拼接片段 (scaffolds -new)。 即, 将实施例 5中鉴定的来源于 9311水稻的 测序片段拼接成新的 9311水稻拼接片段;将实施例 5中鉴定的来 源于 PA64水稻的测序片段拼接成新的 PA64水稻拼接片段。

由于自交系后代群体的基因组完全来源于两个 亲本, 因此, 由自交系后代群体的具有确定亲本来源的测序 片段拼接成的新的 拼接片段与其所源自的亲本的基因组是一致的 。 因此, 这些新的 拼接片段可以用于进一步完善和组装其所源自 的亲本的基因组序 列。

为了将这些新的拼接片段定位和整合到亲本的 基因组草图 上,采用了以下方法:从亲本的基因组草图上 每 300bp取出 100bp 的连续序列作为标志序列, 并记录这些标志序列在基因组草图上 的物理位置; 使用全局比对软件 Blas tn, 将这些标志序列锚定到 新的拼接片段上 (标志序列必须与拼接片段唯一并且完全精确 比 对) ; 利用这些标志序列在基因组草图上的物理位置 , 将含有标 志序列的新的拼接片段定位到基因组草图上。 该方法示例性地示 于图 4中。

通过上述方法, 可以将大部分的新的 9311水稻和 PA64水稻 的拼接片段分别定位到其对应的亲本的基因组 草图(如实施例 6 所获得的)上,从而可以利用新的拼接片段的 序列信息来进一步组 装和完善对应亲本的基因组草图 (即, 基因组序列信息) 。

2、通过自交系后代群体的测序片段的配对 系来组装和完善 双亲的基因组草图

在 sol exa测序方法中,在待测序的 DNA片段两端加上特定接 头, 然后从两端分别对带有接头的 DNA片段进行测序。 因此, 通 过 s 01 exa测序方法获得的测序片段是成对的, 具有配对关系。

利用这种配对关系, 可以进一步组装和完善双亲的基因组草 图, 其方法如下: 在确定后代群体的测序片段的亲本来源之后, 寻找配对的测序片段, 其中一个测序片段定位至对应亲本的基因 组草图的 N区附近, 而另一个测序片段定位(或至少部分定位) 至所述 N区; 将定位(或至少部分定位)至 N区的所述测序片段 的序列信息用于组装和完善对应亲本的基因组 草图 (即, 基因组 序列信息) 。 该方法示例性地示于图 5中。

通过上述方法, 可以在确定亲本来源之后, 将自交系后代群 体的具有配对关系的测序片段用于完善实施例 6获得的 9311水稻 和 PA64水稻的基因组草图。 3、 通过单碱基校正来组装和完善双亲的基因组草 图

由于自交系后代群体的基因组完全来源于两个 亲本, 因此, 自交系后代群体的具有确定亲本来源的测序片 段与其所源自的亲 本的基因组是完全一致的。 因此, 当将后代群体的具有确定亲本 来源的测序片段与作为参考序列的对应亲本的 基因组序列 (即, 上述获得的基因组草图)进行比对时, 理论上是不会出现 SNP位 点 (特别是纯合 SNP位点) 的。 如果出现了纯合 SNP位点, 那么 可以认为作为参考序列的基因组序列在该位点 上碱基组装出错。 在这种情况下, 应将基因组序列中该位点的碱基校正为测序片 段 中的对应位点的碱基。 该过程在本文中被称为单碱基校正。

因此,使用 SOAP和 SOAPsnp软件,将自交系后代群体的具有 确定亲本来源的测序片段与 931 1水稻或 PA64水稻的基因组序列 (即, 上述获得的基因组草图, 作为参考序列)进行比对, 以寻 找纯合 SNP位点, 并对亲本的基因组序列进行单碱基较正。 通过上述方法来组装和完善亲本基因组草图后 , 获得亲本基 因组。 进一步, 将实施例 6中的还没有定位至染色体连锁群(即, 基因组草图) 的亲本拼接片段定位至所获得的亲本基因组上 。 如 果亲本拼接片段能完全定位至亲本基因组上, 则说明该拼接片段 已经通过上述方法组装入亲本基因组, 应将其剔除。 如果亲本拼 接片段能部分定位至亲本基因组上, 则可利用该拼接片段与亲本 基因组的重叠关系, 进一步将该拼接片段组装入亲本基因组。

最终获得的 9311水稻和 PA64水稻的基因组的统计信息示于 表 3中。 表 3: 最终获得的 9311水稻和 PA64水稻的基因组的统计信 息

其中, PA64 水稻基因组中进行了单碱基校正的位点共计 36656个, 9311水稻基因组中进行了单碱基校正的位点共 64596 个。

最后, 将最终获得的 9311水稻和 PA64水稻的基因组与已知 的水稻基因组 Tiger相比较。 结果显示, 双亲的基因组的组装水 平已达到已知的水稻基因组的水平。 这表明本发明的方法可用于 快速、 有效地组装和获得具有高精确度的基因组。 实施例 8. 用于实施实施例 1-7的装置

为了实施上述实施例 1-7, 使用了这样的装置, 其包括

1) 测序单元, 其是 HiSeq 2000测序仪(Illumina公司) ;

2) 数据存储单元, 其用于接收和存储在实施例 1-7中产生 的数据, 且被整合到 optiplex 380台式计算机(DELL公司) 中;

3) 数据处理单元, 其用于对实施例 1-7中产生的数据进行 处理, 且被整合到 optiplex 380台式计算机(DELL公司) 中。

通过使用该装置, 本申请成功地利用双亲及其自交系后代群 体的测序数据,组装获得了亲本 9311水稻和 PA64水稻的基因组, 并且所获得的基因组的精确度和组装水平均达 到了已知的水稻基 因组 Tiger的水平, 如实施例 1-7中所证实的。 尽管本发明的具体实施方式已经得到详细的描 述, 但本领域 技术人员将理解: 根据已经公开的所有教导, 可以对细节进行各 种修改和变动, 并且这些改变均在本发明的保护范围之内。 本发 明的全部范围由所附权利要求及其任何等同物 给出。