银河证券历时两个多月,对基因测序行业龙头企业华大基因、贝瑞和康和达安基因相关上市公司进行了全方位调研,梳理了 23andMe、Illumina、罗氏和谷歌的商业模式变革,深入研究基因测序全产业链。 近日,银
银河证券历时两个多月,对基因测序行业龙头企业华大基因、贝瑞和康和达安基因相关上市公司进行了全方位调研,梳理了 23andMe、Illumina、罗氏和谷歌的商业模式变革,深入研究基因测序全产业链。
近日,银河证券历时两个多月,对基因测序行业龙头企业华大基因、贝瑞和康和达安基因相关上市公司进行了全方位调研,对行业政策环境,技术趋势及行业巨头的商业模式和投资逻辑进行了深入全面的分析,深入研究基因测序全产业链,梳理了 23andMe、Illumina、罗氏和谷歌的商业模式变革,并发布了《基因测序的发展趋势与商业模式——探讨精准医疗系列报告之(一)》的深度调研报告。研报指出,短期关注获取基因组样本和临床数据能力强的公司,长期内关注发展三四代测序技术的公司。
随着人类基因组测序技术的飞速提升、生物医学分析技术的快速发展和大数据分析工具的日益完善,我们正进入全新的医疗健康时代——精准医疗。
精准医疗是一种基于“个人”的定制医疗模式,其以个体的组学信息和遗传信息为基础,以环境、生活方式、既往病史及诊疗方式等为跟踪对象,搜集全方位、可量化、有前瞻性和时效性的个体数据,通过数据的综合分析、挖掘形成有价值的医学信息,最终设计出针对个体的最优解决方案。基因测序为个体提供连续基因大数据,是精准医疗的基础和重要实现途径,制药、器械、IT 等行业巨头纷纷布局该领域。
基因测序技术凭借灵敏度高、精度和通量高、价格低廉等优势,成为基因检测技术中获取人体基因组数据的主流技术,通过将基因组数据与无线生物传感器获取的生命体征信息(如血压、心跳、脑电波、体温等),成像设备中的个体信息(如 CT、MRI、超声等)以及传统医学数据相结合,精准医疗为个体提供全新的定制医疗。
传统医学痛点催生精准医疗需求。传统的循证医学是结合临床医生的个人实践经验和客观的科学研究证据,对于症状相同的病人使用相同剂量的同种药物进行治疗,但治疗效果却千差万别。传统治疗方案显示,肿瘤的无效率高达 75%,糖尿病无效率 43%,抑郁症无效率也有 38%。人们逐渐意识到大多数疾病的发生是自身遗传密码和外界环境共同作用的结果。
精准医疗借助可监测的遗传信息和环境信息,针对个体提供定制的优化治疗方案,提升现有治疗水平,并尽量在发病前就有望有效预防。
精准医疗具定量化、个体化、事前预防和连续性四大特点,是对传统医学的重要革新,进一步解决了传统医学的痛点,避免医生由于“只见森林不见树木”导致的过度依赖主观经验、描述和循证医学的大众数据,造成对个体的诊疗有效率低、副作用大、事后举措仓促等问题。精准医疗在提升医疗效率的同时,还可降低不合理医疗造成的高昂费用,具有广泛的社会效益。
1、基因测序是建立“组学”大数据库和分析的基础,推动精准医疗实现“同病异治”和“异病同治”
精准医疗旨在向患者提供疾病精确诊断和个性化的治疗方案,并将医疗技术提升到病前预防水平。
2)探究基因型与样本表型的关联,通过生物信息学分析和遗传诊断,建立遗传信息与临床检验和影像学等数据的关联关系,实现精确的疾病分类和诊断,制定个性化的疾病预防和治疗方案,做到“同病异治”和“异病同治”。
人体基因组由 30 亿对碱基组成,不同人之间基因组的差别只有千分之五。 正是这不到 1%的差别与外部环境共同决定着人体表型,如高矮胖瘦、酒量、乳糖耐受以及疾病等。基因测序是通过采集血液、体液或细胞,使用测序仪器获取被检测者的 DNA 序列,然后利用生物信息学方法将该基因信息与已知的基因突变数据库进行比对,并分析其中的异常突变信息,进而诊断疾病,甚至用于患病风险的预测。
人体基因组测序内容主要包括靶向重测序、外显子测序、转录组测序和全基因组测序。
通过与正常序列的比对,发现异常突变。异常突变信息按发生突变的碱基数量分为 3 类:
基因检测技术,应用分子生物学的方法检测患者体内遗传物质的结构或表达水平的变化,以实现精准诊断,从而指导更优的治疗方案。目前基因检测常见手段包括聚合酶链式反应
(PCR)、荧光原位杂交技术(FISH)、基因芯片技术(Gene Chip)、转录介导的扩增(TMA)和基因测序技术等,其中基因测序是其他四种检测方法的基础和主流技术。
测序的成本和耗时呈指数级下降。 随着二代测序技术 (Next Generation Sequencing, NGS)的不断革新,测定一个人全基因组数据的成本,由原来的上亿美金,快速下降到目前 1000 美元,测序时间也降至 3 天。
经过 10 多年的累积,人体基因组数据库已经初步形成规模。 2003 年,由美中等 6 国科学家历时 13 年、耗资 30 亿美金的“人类基因组计划” (Human Genome Project) 宣布完成。同年,“DNA 元件百科全书计划”启动,并于 2012 年公开发表研究成果,对人类疾病相关的基因序列研究有重大影响。随后,“国际千人基因组计划”、英国“十万基因组计划”、美国“百万基因组计划”先后于 2008 年、 2014 年和 2015 年启动,为人类基因组样本的累积和探究疾病与基因的关系提供了扎实的基础。
人体基因组的分析已初步流程化和标准化。 生物信息学自 1987 年首次提出后,经过近 30年的发展,从最初的基因组数据的收集和存储,到利用数学建模和人工智能思想,挖掘数据背后的生物学意义、对样本数据进行合理分类、建立合理的二级和三级数据库,再到利用比较基因组学的方法,通过短读序列拼接、基因预测和功能注释,已有一定的能力用于处理庞大复杂的基因组数据。
现代科学证实,大部分疾病是基因与外部环境共同作用的结果,几乎所有疾病(除外伤)的发生均与基因有关。 人类基因组研究成果表明绝大部分人群携带有某些类疾病的易感基因,当人群接触某些不良因子和环境时,其发病几率远高于非携带易感基因人群。因此,人们逐渐意识到只有真正了解自身的基因情况,才能通过改善客观环境、定期体检等方式尽可能地延缓或阻止疾病的发生。
我国慢性病患者人数快速增长,对精准医疗有着迫切需求。推动精准医疗需求。目前我国每年 310 万癌症新增案例,高血压患者达 2.6 亿,糖尿病患者超过 1 亿人,糖尿病潜在人群1.5 亿;每年 220 万癌症死亡案例和 300 万心血管疾病死亡案例。上述疾病通过传统方法难以根治或治愈,对精准医疗有着迫切需求。
越来越多的人意识到基因测序对自身健康的重要性。2011 年去世的苹果公司创始人史蒂芬?乔布斯患癌时,曾接受过全基因组测序。2013 年 5 月,奥斯卡影后安吉丽娜?朱莉通过基因检测和相应的切除手术,将患乳腺癌风险从 87%降到 5%。
精准医疗市场增速将远超医药行业整体水平。 据BCC Research 预测, 2015 年全球精准医疗市场规模近 600 亿美元,今后 5 年年增速预计为 15%,是医药行业整体增速的 3 至 4 倍。
基因测序全产业链划分为上游的测序仪器与试剂耗材市场,中游的基因测序服务市场和下游的生物信息学分析市场。中下游市场面向群体包括医院、药厂、科研机构以及消费者等,可分为医疗和非医疗两个领域。
医疗领域可分为人体基因组和人体微生物基因组两个子领域。针对人体基因组的主要产品有肿瘤学(诊断筛查与治疗、靶向用药、伴随诊断等)、生育(无创产前诊断、胚胎植入前检测、新生儿遗传病排查、亲子鉴定等)、遗传学疾病和新药研发指导等。目前人体微生物基因组与宿主健康的关系也已被重视,如 2007 年和 2008 年,美国国立卫生研究院(NIH)和欧盟先后启动了人体微生物组计划(HMP)和人体肠道宏基因组计划(MetaHIT),可通过分析人体微生物基因组检测宿主的肠道疾病、神经系统疾病、肝病、糖尿病、肥胖以及腹腔肿瘤等。
在非医疗领域中,可以通过环境微生物基因组研究治理环境污染的新方法、探测石油存储和地质学研究,也可以用于农牧业配种和司法鉴定等。本篇报告主要讨论基因测序在医疗领域中针对人体基因组的应用。
测序技术是测序仪器的核心所在,迄今为止已历经四代发展。其中主要的是前三代测序技术: 第一代测序技术,即 Sanger 测序技术;第二代测序技术是当今主流技术,主要有 Illumina公司的 Solexa 和 HiSeq 技术, Life Tech 公司的 Solid 技术和 Roche 的 454 技术;第三代 Pacific Biosciences 公司的 SMRT 测序技术。第四代测序技术正向着测序仪器体积更小的方向发展,如 Oxford Nanopore Technologies 公司的 MinIon 纳米孔单分子测序技术。
我们预计 10 年后二代测序技术会被三、四代测序技术所取代。各代测序均有不足之处,一代测序的主要缺陷是低通量和高成本,二代的缺陷是序列长度较短,三四代测序在准确率方面有严重缺陷。由于 NGS 技术面临的短序列缺陷可以通过生物信息学工具在一定程度上进行弥补,因此二代测序技术是现今最稳定,应用范围最广泛的测序技术。但目前科学家正在通过减缓 DNA 序列通过纳米孔速度的方式提高第三代测序的准确度,相关成果已发表在《Nature》子刊。我们预计 10 年内三、四代测序的准确度将会显著提升,届时将在保证测序通量的基础上,凭借着超长序列读长的优势取代二代测序。
基因测序全产业链划分为上游的测序仪器与试剂耗材市场,中游的基因测序服务市场和下游的生物信息学分析市场。中下游市场面向群体包括医院、药厂、科研机构以及消费者等,可分为医疗和非医疗两个领域。
目前全球有上千家厂商提供测序服务,中国有超过 200 家。美国拥有全世界最多得测序仪,中国测序仪数量不超过 500 台。随着市场对测序的需求不断提升,中游市场提供测序服务的对象包括医院、疾控中心、科研机构等,提供包括用于无创产前诊断、肿瘤诊断与治疗、遗传学诊断以及辅助生殖等相关的基因测序服务。
我国测序服务提供商积极地向产业链上游延伸。国内在测序仪器市场的开发策略分为两类:
(1)第一类是通过与国外仪器生产商合作,买断产品在国内的全部权利。如贝瑞和康与Illumina 合作生产的新型测序仪、华大基因收购美国基因测序仪公司 Complete Genomics 后基于该平台开发 BGISEQ1000 测序仪、达安基因与 Life Tech 合作的 DA8600 测序仪。这种模式虽然使用国外的仪器技术,但通过国内的仪器设备通道申报 CFDA,申报和审批相对较快。
(2)第二类是自主研发模式,如紫鑫药业与中科院基因组所合作的自主研发的二代测序仪器已于2014 年 4 月 18 日发布,数据产出量与 Roche 454 相当。
中下游市场结合非常紧密,测序服务公司往往会提供有偿的生物信息学分析服务。美国大型的测序服务公司有:Sequenom, CardioDx 和 Foundation Medicine 等,国内的主流测序服务公司有华大基因、诺禾致源、贝瑞和康、达安基因以及北陆药业等。不同公司根据提供服务的内容有所区分。
二代测序技术凭借通量大、精度高、价格相对低廉等优势,已成为目前主流测序技术。
由于专利保护力度大和技术门槛高,二代测序仪器制造市场壁垒较高,已被欧美公司垄断。
人体基因组共有 23 对染色体,包含超过 30 亿个碱基,而目前仅有 3%能从临床给予解释。由测序服务公司提供的原始序列文件在经过系统地分析处理前,无法提供任何有效的信息。
数据有效分析的三要素包括高性能计算平台、专业的分析软件和高质量的大样本数据库。计算平台用于对测序仪器得出的原始序列文件进行质量剔除、序列匹配等一系列分析的基础工作,分析软件和大样本数据库用于遗传解读和咨询。据 Ebiotrade 调查,69%的被调查人员认为数据的分析解读是影响测序产业链发展最大的瓶颈。
数据分析的有效性将决定下游市场公司的核心竞争力。目前全球有超过 100 家生物信息公司提供基因数据分析服务,成熟的高通量测序技术产生了海量数据,生物信息学分析市场涵盖数据压缩存储、工作平台、数据分析软件等。现阶段生物信息学技术可以对基因组学数据进行初级分析,主要集中在分析人体基因组的 SNP 和 Indel 检测,而分析 SV 和 CNV 则受限于样本量较少和 NGS 测序技术的局限性,无法使用精确的数学模型将上述变异与样本表型相关联。
基因测序服务市场增速快,预计 2016 年超过测序仪器市场。据 Markets&Markets 预测,2014-2020 年上游市场中测序仪的复合增长率是 15.4%。中游测序服务市场重资产、技术附加值低,将是产业链中增速最快的,据 BCC Research 预测 2011-2016 年复合增长率为 29%。下游生物信息学分析市场轻资产、技术附加值高,据 Frost&Sulivan 预测 2012-2018 年复合增长率为 22.7%。
目前中下游市场主要应用领域有无创产前诊断,肿瘤诊断与治疗、遗传病风险评估和辅助生殖等。其中无创产前诊断较为成熟,肿瘤诊断与治疗预计很快将商业化,遗传病风险评估市场仍需要培育。不同领域按照技术成熟度高低,分布在不同的生命周期中。
(一)基因测序相关政策东风频吹,临床级产品受政府试点和监管(二)我国消费级测序产品的配套监管和认证体系有待建立
国外公司对于基因测序领域的部署具有战略性和系统性,各个公司依托自身的先天禀赋,向上游或下游延伸,巩固自身的行业壁垒。
23andMe 专注于降低价格收集人体基因组样本用于后续与药厂的合作;Illumina 在巩固 NGS 测序霸主地位的同时进军中下游市场;罗氏则着力于开发和收购三四代测序,同时开拓中下游市场;谷歌充分利用互联网公司优势,通过发展云端存储分析技术收集基因组样本。
(一)23andMe:大量收集基因组数据,进军药物研发领域(二)罗氏:布局三四代测序,制药、诊断与器械协同发展,构筑精准医疗壁垒
中国的基因测序产业尚处于起步阶段,技术和政策层面尚未成熟。行业领头羊为华大基因,来自华大的人支撑国内基因行业的发展。上市公司中,多家公司通过并购参与基因测序板块的一部分业务,积极地在产业链的上中下游布局。并且除 NIPT 市场成熟度较高外,肿瘤诊断和个性化治疗、胚胎植入前遗传学筛查和诊断和遗传病诊断还没能形成成熟的市场,相关的诊断和治疗不能成为医疗行业的标准,仍需较长时间的累积与发展。
2、分析技术:现有数据分析方法壁垒较低,应积极抢夺基因组数据资源发展高级分析方法
短期内关注获取基因组样本和临床表型数据能力强的公司,长期内关注发展三四代测序技术的公司基因测序技术目前以Illumina 的二代测序(NGS)为主导,预计 10 年内三、四代测序技术将在保证测序准确率和通量的基础下,凭借超长序列读长等优势取代二代测序。短期关注获取基因组样本和临床表型数据能力强的公司。精准解读基因组信息需利用大量基因组数据作为学习集,训练疾病预测模型的参数。
测序成本和耗时的下降、人体基因组数据累积初级阶段完成、标准化的生物信息学分析方法初步建立、个体对疾病预防和个性化治疗的需求驱动基因测序市场飞速发展。全球基因测序市场规模从 2007 年的800万美元增长至 2013 年约45亿美元,据 BCC Research 预计未来几年将保持超过 20%的增速,至 2018 年将达到约117亿美元。
由于通量大、精度高、价格相对低廉等优势,二代测序技术成为目前主流测序技术。但其明显缺陷是序列长度较短,难以完全还原人体基因组数据,为后续生物信息学分析和遗传学解读造成障碍。预计10年后,三、四代测序技术可以在保证精确度的情况下实现长序列(10000bp)测序。
中游测序服务市场重资产、技术附加值低,据 BCC Research 预测将是产业链中增速最快的,预计 2011-2016 年复合增长率为 29%。同时肿瘤诊断与治疗将会占据中下游市场约 60%的市场份额。我们预计 2018 年,二代测序技术在肺癌、肠癌和乳腺癌相关领域的渗透率将会达到或超过 50%,届时我国每年肿瘤测序市场将达到近 150 亿人民币。
银河证券认为基因测序产品发展的长期瓶颈是测序技术水平。NGS 测序读长过短,直接影响对基因组数据的解读能力,包括生物信息学分析技术和遗传咨询。人体基因组包含超过 60 亿个碱基,通过 NGS 测序得到的基因组,只能对其中单个碱基的突变(SNP)或 20bp 以下的碱基突变(Indel)进行分析,仅有 3%序列能从临床给予解释。然而分析基因组序列的结构变异和拷贝数变异将是攻克复杂疾病的突破口。
银河证券认为基因测序产品发展的短期瓶颈是获取高质量基因组数据和临床表型数据的能力。目前公司对于基因组数据的遗传解读大部分通过文献调研,但该方法对不同地区的不同人种并不适用。为通过基因组准确解读患病情况,统计学方法和数学建模必不可少。高质量的基因组样本作为自变量、临床表型数据作为因变量,对模型参数的训练有着举足轻重的作用。
投资策略:短期内关注获取基因组样本和临床表型数据能力强的公司,长期关注发展三四代测序技术的公司。
(1)累积基因组样本,如 23andMe 和 Google 均通过累积基因组样本量分羹市场;
(2)发展超长读长的新型测序技术:如罗氏则放弃二代测序市场,重点布局三四代测序和肿瘤领域。我们认为只有通过累积足够数量的“专病”基因组样本和发展三四代测序技术,才能将疾病的基因型与表型完美关联,最终实现对疾病的有效预防、精确诊断和个性化治疗。
投资时应注意风险因素:短期内基因测序产品难以获得飞跃式发展,大部分处于消费级和科研级应用阶段。