|
36大数据
" T- U+ _; X/ H) t: K7 p前言
: w0 |5 L; ]$ I; t- b" K6 f, c" p; G% a) u
2016年12月8日,2016中国大数据技术大会(Big Data Technology Conference 2016,BDTC 2016)于12月8日在北京拉开帷幕。- }9 O3 F+ w; p ~0 j ]" t; z& Z
^& S/ P) W; M# W" R中国科学院院士—陈润生,作为主讲嘉宾做了《大数据与精准医疗》的演讲,阐述了大数据的收集处理对于生命科学、临床医学、临床药理等的重要意义,他指出,大数据的效用可以体现在譬如对基因突变做出正确解析、标记有临床意义的注释等。因此可以说,大数据分析是精准医疗发展的助推器,同时也是跨界合作的重要领域。陈院士还在演讲中提到了在精准医疗领域创新的机遇在哪里?它的挑战在哪里?: Z. J* Z/ c; Z$ H- f' K& A& e3 N1 Y
9 n0 H1 h: m7 o" c: {' |) u以下即为陈润生院士的演讲速记:8 x3 K: M- E7 \4 j5 u
! N6 H3 K5 h4 |(在不更改原意的前提下,部分有删改)
* z; e$ M- R. K# O" L, G* g& k/ J* W& Z( w& i* _# q$ h
陈润生:尊敬的各位专家,各位朋友,非常荣幸,能够应邀参加这个大会,我今天主要谈一谈关于大数据和精准医学的情况,希望大家批评指正。8 t1 H% P( a# t2 p2 [2 ?; N
/ R1 T* z; {, e- [& F9 ]# K$ u
什么是精准医学7 \( w2 e. J8 J
! |0 m/ e# ?& p/ ^5 X我首先谈一下什么是精准医学,核心就是一句话,组学大数据在医学,特别是在临床医学当中的应用。大家知道随着上世纪九十年代遗传密码的破译,以遗传密码或者基因组为代表的大量的分子水平的数据,我们也称作组学数据不断地产生,现在非常快,增加的速度比任何已知的数据都产生的快。
; L. i1 p# O$ U2 j3 D; y9 f2 N: T, x
由于研究技术的发展,测一个人类的遗传密码,现在已经变的非常非常简单和容易了,比如说我们任何人都可以投资很少的钱,大约在目前据我所知,六七千块人民币,用三四天的时间,你就可以得到你的遗传密码,发现遗传密码和某些疾病是高度相关的。' v9 K: ]# y) i }+ w7 x$ z* S
8 ^7 m! X$ U" c& b7 D$ Z n" B/ d
近年来开展分子水平的信息用到医学特别是临床医学当中来,来提到临床诊断的效率和治疗的效率,这样一种趋势,实际上就缔造了精准医学的应用。% m/ k* f$ O* `$ e; g) @: m
- i" p o+ R& I9 T那么因此精准医学的核心,从大数据这端就是把组学大数据应用到医学当中来,大家知道所有这些组学大数据,都是很大的数据,所以直接作为医学专家,或者分子生物学家是没有办法看懂的,必须经过大数据科学家用特定的理论方法和技术进行挖掘才能获得有关用于临床方面的知识,所以精准医学是组学大数据在临床当中的应用。
3 X( |: W5 i$ D' E5 F8 w' \& l. u( ?2 _" Q
大家知道非常漂亮的就是大家最基本的遗传密码,这个遗传密码的测量现在不成问题了,但数据挖掘找出和疾病相关,将是一个现在非常迫切的问题。因此从人类密码研究以后就产生了转化医学、个体化医学等等的词汇,但是在2011年的时候,国际上出现了“精准医学”这个词,实际上是对这个趋势总体的概括和总结。
( L4 Z' v6 ~% J
) [2 ~$ | r4 O! q; d/ j' o% s% V3 z精准医学带来了什么样的本质变化?
4 |; e" V; I* `9 F: K+ U- |* b
+ }8 C( V6 Z. b" p @& a精准医学本身之所以受到很多国家领导人的重视,由于精准医学有可能产生一些本质性的变化,最主要的本质性的变化,我们也可以概括为一句话。“精准医学”可以使得医疗健康的概念发生本质的变化,这个概念是什么概念?从当年医疗健康体系以诊断治疗为主,使它转变到以健康保证为主。- a) R. P( c8 ?' b4 H5 N" K6 h
5 E& l' M1 V8 q# S大家知道现在的医学都是以病人为对象,以诊断治疗为目的,也就是说由病人、医院和医生组成的这样一个概念化的医疗体系。而随着精准医学的发展,我们可以通过对大数据的分析,在他没有病的时候,了解他的健康状况,预测他未来健康的发展,这种情况下我们医疗健康所面对的对象就不再是病人,而是全民,全体人。8 P7 G3 f8 W, }( z& s) }9 [+ ?
/ c6 @' t1 {3 C8 M3 {. ]这个时候,医疗体系的概念也不是以治疗为目的,是以健康预测,健康评估和健康干预为目的,这样的话整个医疗体系就会发生概念性的变化,从现在看病为主,到以后的预测保证为主。9 `+ }* b3 _+ X+ |
! I0 {5 `4 V( ]. `% `7 x这样一个概念性的根本变化,必然会导致相应产业的发展,因此有人估计到2018年的时候围绕新概念所产生的产业也许能达到2千亿美金以上,所以这是一个能够一定程度上影响GDP的值。因此这样一个精准医学的概念,已经成为引领国际发展潮流的战略制高点,所以才引起各国领导人的重视,所以精准医学实际上是会带来一些,不论医疗概念还是产业上都会有一些本质上的变化,所以才会引起各国领导人的重视。( R+ s9 \; C! E( B: q8 W
$ |8 C) V! ^4 S6 r( B# h/ R
美国也推动精准医学的发展,我不再详细讲了。美国最重要的表现是要测量一百万个自然人的遗传密码,一百万是很大的数。欧盟也在开展精准医学的研究,那么他要测十万个肿瘤和罕见病人的遗传密码。日本也有相应的精准医学的计划。那么精准医学到底在新的产业当中,哪几个方面能带动所谓新的增长点呢?我想至少在如下四个方面:; w5 F" E- Z! B# V
* S3 C0 E! Z1 f( A( T3 x) b. k精准医学可以推动海量的生物样本库和海量的数据库的发展,精准医学会导致十万到百万人的生物样品的测量,这就涉及到海量规模的实质性的生物样品的搜集、保存、样品的制备与提取,以及样品提供使用的各个方面。没有百万量级的数据库,当然就不能适应它的发展,而这些数据测量完以后,这些百万量级的数据应该有相应的数据库来保管,所以第一个要推动海量规模的生物样本库和数据库的发展,有人估计这个在未来一两年可以达到一百亿美元的数据样本。
' F) X0 U% I7 W( E" y0 `( X7 V1 e% O/ q' M b
可以带动基因组序的数据规模,这个产业有人估计2018年可以到117亿美金,我个人和有关测序方面的专家讨论,由于测序如此便宜我觉得这个数据肯定比它多。
- s4 ~. j5 b! Y0 P1 m$ D
' K8 d5 z: Z! Y0 g就会得到很多新药物设计的靶点发展,这个产业直接涉及到医疗诊断和药物设计,这是第三个产业。
! l! ^$ b6 o* U! X3 e! }
2 z8 ~0 N; N9 Q% e- C1 r9 n2 l围绕精准医学概念所产生的实质性的,比方说健康设施、健康从业人员的健康领域的大的产业圈,这个产业圈估计2018年可以到达2千亿美金,这些方面都是精准医学可以带来的,可以预见的实打实的新的产业。我国精准医学的目标和上面国际的是一致和接轨的。
% p5 m7 h* w) S4 g% C" r
& s" M3 }4 @% j6 u0 a要实现精准医学要具备哪些条件?
/ }9 B8 {; n7 w! ~8 W; p3 }( c7 s7 f# J. K7 o) }
我认为至少具备两个条件,这两个条件是精准医学没有开展之前所不具备的。
8 }( q! C! K- K, r( A* n0 G- ]* b; F
; j; I6 c& `% R' g8 g. y/ Z7 T+ P一是要搜集获取大量的组学数据,而这些组学数据必须经过大数据技术的深刻挖掘,所以第一个基础是当前国际两大前沿,就是组学和大数据两大科学的交叉与融合。6 ~. J9 A# L. r( X" V
- x0 R8 N! F. i- i% H) F有了这个结果,我们就可以获得大量跟疾病相关的分子水平上的变异,然后我们要利用这些数据开展第二个基础研究,就是搭建分子水平的信息和宏观疾病之间关联,就是建立分子水平的信息和宏观疾病之间关联的桥梁,也就是发展所谓生物信息学、生物网络、系统生物学等等一系列的东西。有了这两个桥梁,有了分子水平的信息,我们就可以很好的实现精准医学了。: |$ [; @, z* e; H* K* ?) b
0 S! a8 O# K; I2 n
精准医学需要说明的一点,精准医学实际上和现在的传统医学、影像学、生化学、医生的经验是相辅相成的,互相推动与互相促进的,不像我接触的有些过度的宣传精准医学的作用,说我们测序以后什么都能解决了,实际上不是,精准医学是建立在前人知识的基础上,必然与现在的技术紧密结合才能提高医疗的水平。) Z9 x- L7 N1 e1 W# _6 {5 c( m
/ ^0 Z; e( z# @; u$ w r2 v
精准医学才刚刚上路
3 f$ \( S# n6 f
& T& J+ Y& `1 u3 J6 |- n虽然它有很好的概念上的变化,虽然给我们展示了医疗体系未来的美好前景,但由于精准医学的路上不论是组学测量也好,大数据分析也好,都存在着一些非常巨大的障碍,所以我认为精准医学目前才刚刚起步,我们还有太多的事情要做。
0 o+ Q8 k' K6 u1 i; V# U# ?
$ V+ f- |5 s9 u7 B" M% y0 a J/ z到底创新的机遇在哪里?它的挑战在哪里?我想这个是很多的,我今天只就下面组学和大数据处理的一些困难,简单地提一两项困难,大家就可以看到实际上精准医学的路还是相当漫长的。
' x" K7 W( D0 I9 b: t3 z, H4 N+ }3 x! c
第一个我要讲的就是在组学测量当中存在的巨大挑战和困难。
) _ f2 J+ c9 h
: r: V! d* C" G8 d+ `* r4 Q% t5 S& e大家知道现在的精准医学是以遗传密码为依据的,我们首先问一个问题,在当前我们对自身人类的遗传密码了解多少,如果我们都了解了实现精准就有了分子依据,如果我们了解很少,那我们就太多的事情要做。而事实上,恰恰如后者,这是一段人类遗传密码,在座的各位都有,我也有,谁把它去掉了我想他活不了,这样的遗传密码每个人都3乘10的9次方,如果把这个字符装订成书的话,大约四十层楼高的高度,我相信谁也读不了,在当前集全人类的智慧我们只能读懂其中的3%,这就是当前的挑战。4 ~* A# l' ?1 v. s; E% u
; t% G) K+ v6 _! e% O/ k3 f我再次说明,我们的遗传密码大家花七千块钱可以测出来,但你能读懂的部分大约只有3%,这3%就是大家从中学时候知道的编码蛋白质的部分,或者遵从中心法则的部分,我们称作遗传密码当中的编码序列,而另外的97%是不编码蛋白质的,也是迄今为止我们读不懂的部分。换句话说我们的遗传密码里现在还大致有97%现在是读不懂的,既然它干什么都不懂,当它有了变化当然也不知道。在这个含义下,我们用作组学研究的话,当然存在着巨大的困难和障碍。( D) {! l! W+ v" E) S1 u1 \
- z' r# x8 P2 {* c* V: H我引用一篇文章,2010年12月17号的科学杂志,这期杂志评选了两个十大科学突破,一是2010年当年世界自然科学领域的十大科学突破,另外一个人类进入新的世纪,进入21世纪以后,把2001年到2010年这十年加在一起,也就是说最临近我们的十年如果加到一块,自然科学领域里哪十项是最值得我们关注的?第一项就是我刚才讲的主题,基因组当中的暗物质,我自己更清新暗信息,不是物质没测出来,只是读不懂。也就是说即使在当前人的遗传密码当中,仍然有90%以上的遗传密码我们读不懂,因此就不可能做到精准,这就是组学当中最基本与最重要的挑战,那么就是我们还有97%左右的遗传密码不知道。
5 H5 [& O9 E: o* y* U* A s9 `1 n- J
; b! \ w& m) X8 g2 U1 {( i下面我来展开一点给大家做点讨论。首先从遗传密码看,也就是基因组研究,我们知道在人的遗传密码当中迄今为止97%的遗产密码还读不懂,因此当然无法做到精准。而如果我们做个比较研究,从低等生物到高等生物来看,生物越低等,大肠杆菌的遗传密码,我们用原盘表示,85%都是红的,就是能知道规律的编码蛋白质的部分,它占了绝大部分。
7 L9 ^1 V' r" b0 D2 }; i9 c
! y4 z8 l) f3 ~0 K生物高等一点,酵母是单细胞的真核生物,编码蛋白质的部分少了,非编码的多了。线虫,它已经是最简单的多细胞生物了,它用做编码蛋白质的只占28%,非编码占71%。果蝇,这个时候编码的部分已知归类的部分只有17%,非编码占到了80%多,而对人来讲97%~98%都是非编码蛋白质。
% y" x# k; n2 w5 k" f3 C8 B+ b+ C2 a, {1 e: B8 U. B. X
所以也许大家有一个约定俗成的概念生物从简单到复杂从低等到高等一定是蛋白越来越多,实际上不对,它伴随着功能增加是以我们现在不掌握规律的非编码蛋白质的的增加,也就是说非编码蛋白质和高级生物相关,当然也一定和疾病相关。
6 A6 U |% z4 n
X# f$ S3 p' p. n* v转录组研究( b1 v7 w" p N( Y [
, \- W& ^# L+ m0 S7 w( v这个结果是百分之百肯定的,全世界的实验室毫无例外的找到非编码序列信息发放制造功能元件的信息,毫无例外,所以这样的工作,充分证明了这97%是实现重要的生物学功能的,为此我给大家举几个简单例子虽然这97%全貌不理解,但个别的例子,比如97%的一个产物可以导致所谓的前列腺癌。另外一个来自97%的可以导致白血病,另外一个来自97%的可以导致非小细胞肺癌。
7 I; R. M* n$ n5 M, a4 t B4 i3 W- V
这三个例子说明什么?说明来自我们不知道规律的那97%依然能导致肿瘤,大家如果在座的临床医生专家的话,可以知道我们现在对肿瘤在医院当中诊断治疗,所有的对象只利用了3%的信息,从来没有那97%。现在有充分的例子说明,那97%也可以导致非常严重的疾病,如果不把它纳入疾病的诊断治疗当中来,精准又如何实现呢?+ @- o- x$ A% C
. A2 d( w5 g+ h5 V
当然我们知道在97%里也有非常好的东西,请大家记住H19,这是一个非常重要的非编码的元件,它的存在可以让我们已经癌变的细胞通过某种途径进行消亡。+ M9 _, z7 Z5 Q- S
) @2 p+ k7 V* H: U9 U" b
那么有多少这样的元件还没有被发现呢?在座的如果有对生物感兴趣的研究工作者可以参考,大家知道日本在小鼠里边做过实验,发现大约16万个来自那97%的像蛋白一样重要的功能元件迄今为止还没有发现,所以我们还有太多的机会去发现新的重要的功能元件,了解它跟健康、发育、疾病的关系。
, r, J5 n8 N3 ?' A
3 k0 D- R( t( U( ^7 E在这个领域里边,这两位科学家在2006年获得了第一个诺贝尔奖金,有人开玩笑我们估算一下现在对人的遗传密码知道了3%,你可以算算这3%缔造了多少名诺贝尔奖的获得者,我稍微统计一下不少于50名。" Y) Z$ t j1 k
6 g: V u5 o4 n. {$ l我们现在又发现了庞大的97%,说明在这巨大的97%的领域里,还有一千多个诺贝尔奖金的位置,现在只有一个位置被占据了可以忽略不计,所以在大家面前有非常广阔的创造巨大科学成果的机会。
8 a+ i% B A" Z" g/ m" ?' d! O
1 [; L5 O' m5 B3 K5 b因此整个非编码的研究,组学当中的一个巨大的障碍,虽然对精准医学来讲我们只掌握了3%,才刚刚起步,还有漫长的路要走。但是从另一方面考虑非编码的研究一定会给我们提供巨大的机遇,也就是说这97%信息的挖掘一定会为疾病的诊断和治疗提供全新的方向,一定会对全新的药物设计和研发提供全新的平台。0 t* ]2 @5 l+ e" e% F
0 \8 N% k: o+ s8 k5 Y那么也会对动植物新品种,新性状的培育提供新的机遇,所以这当然我讲的在组学当中的这么一个例子就可以看到,精准医学其实才刚刚上路。" }/ [( ?% U+ u% N. O; A/ @
3 l+ H' I* _& w9 y9 T- r
下面,因为是大数据的大会,所以我乐意简单的谈一谈数据处理当中的一些挑战,时间关系,我只是拉样片了,因为在座的都是专家。
6 f" p% f- ~# {, B2 @- n8 F
- k8 X) c+ b3 V2 A# m数据量大。大家知道一个人的遗传密码是3乘10的9次方,但我们知道这个数据的产生是如此容易,现在一台商用测序仪,一次测量可以得到1T的数据,这样的数据作为商品就很容易买到。所以大家可以看到测序现在变得如此容易,我的实验室我组里就有一台,一次性测序可以得到1T人的遗传密码的数据,全世界有数不清的人,你想这样数据的增长速度有多快。9 O' G8 F, r; Q- Y
. _/ r6 [+ I, d, h6 u$ k2 x, i& c分析少。这是沃森拿着自己的遗传密码在他的小盒子里,这个时候大约是人类开展遗传密码测序的十年以后,我们知道到那个时候测序已经变得不那么昂贵了,但还需要一百万美金两个月的时间,又过了十年只需要六七千人民币,三天时间可以得到他的遗传密码,可惜的是他拿着他的小盒子自己也不知道能分析多少。
* E1 R2 U3 o8 A8 O5 ?
% r# |9 ^. ^* Z4 h' B2 i2 i5 Z但现在国际上开展微生物组基因计划,这个时候我们知道人不仅仅是自己生活,如果考虑他的健康的话也要考虑跟人一起生活的微生物,那么微生物的遗传密码现在估计是人的一百倍,如果研究一个广义的人,研究人联同微生物的人,一个人的测序要增加两个数量级。
( C$ O5 D4 P4 j" ]: v7 G7 c
2 J, f1 t" [# l; y5 X u但这样一个数据从数据源来讲不是很好的,它的噪声比较好,因此性噪比比较低,另外有比较多的缺失值。因此从数据源来讲是增速极快,数据质量不高,含有缺失值的数据,这样在数据挖掘当中存在着第一个困难,就是数据源的困难。
6 _ I$ C. y2 h" @5 M- L
& d9 z# `7 Q; c. ^& E0 E& ]: H样品量少。从样品来看,我们总需要样品,比如我们研究肝癌,我们需要肝癌的病人,大家知道针对某一个特殊疾病搜集样品是特别困难的,往往对特定分型的肿瘤,如果搜集两三百个样品已经很不错了,大家知道我们整个的数学体系需要建模的体系往往自变量是成百上千甚至上万的,这种情况下如果我们只能取几百个样品的话,当然我们的边界条件不足以固定内部的自变量数在这种情况下,当然我们的解就不是收敛(音),这将是存在的第二个问题。 O5 F2 K- _3 o3 z( y" `
) ^$ F9 o+ ?7 L" a就是由于样品搜集的困难,很多条件下我们搜集的样品不足以固定体系内部自变量的变化,这样情况下有两个途径,一是加大样品,比如为什么美国要测一百万人的遗产密码,我们中国的精准医学计划也要测一百万人,就是说我的体系测样本量远远大于体系覆盖的自变量,当然可以得到有利的收敛(音)的结果,但这往往是政府的行为,我们自己的研究组是不可能做这件事的,要有巨大花费。+ h: e. |, v& B% e$ t
% M1 k* ?5 s' ^" C8 W, ?% W这种情况下当然就要考虑数学建模,把我们的系统变成子系统,使得外界的边界条件和内部自变量能匹配,这就是所谓在大数据处理上,对于组学数据所需要的非常突出的数学分析当中的问题。0 U8 F: ~; V6 f/ S4 J
/ s* e1 s$ k% T有效事件频率低。不仅仅样品得来不易,而样品的分子基础也是各种各样的,所以会带来更多的样品需求层次的问题。因此这就会导致一个非常重要的所谓精准医学当中的科学哲学问题,什么是共同疾病的共同变化,什么是共同疾病的特异性变化,时间关系我不能在这里更多讨论了。
: f2 V6 m/ y/ O- R
' a/ j! B+ w; ~6 L. |* ]. x上述讲的都是个别基因的变化,但每个基因并不是独立工作的,往往是形成网络,所以我们面对进一步的所谓功能分析的问题,精准医学的问题是复杂网络的问题。大家知道,在座的都是数学家,我们知道这个生物网络是动态的,是有向的,是每个元件做到另外一个元件是定向的;元件不是单一的,既有蛋白也有核算,另外所有作用的方式,很大程度上都是非线性的,对这样一个动态、有向,不同元件组成的这样一个东西,当然是复杂的。
& F) n# j/ |9 ]6 ^# I! N+ K( H a3 P" E7 q8 ?9 Y( A* B
除了这个之外,大家知道我们不仅仅用组学数据还用其它影像学的数据,比如做个核磁、CT这样的数据如何处理,最后是超出学界的问题,如何在全中国的范围内实现数据的有效共享。我们知道现在每个医院里都有数据,如果我们不能在全局上面进行数据共享的话,我们就是在大数据时代做小数据的工作,将来就失掉了大数据的背景和它的意义。
* @; |* N0 w/ v% L' _! V3 u% q/ J6 t4 {3 [9 _. Z
所以看到在数据分享当中依然存在非常艰难的问题,我后面说的比较粗糙,只不过就精准医学的几个概念和大家进行交流,我想精准医学是一个重要的值得大家关注的方向,但由于各种原因,需要我们克服困难,精准医学才刚刚起步。但这些困难恰恰也是我们的机遇,抓住这些机遇,有机会做突出的原创性的重要的工作。 |
|