





















行业老土著,以圈内人的视角,讲讲生物信息学这片新兴却粗粝的土地。
上一篇我们讲述了生物信息学是什么,以及入门的科学学习路径。
今天我们来聊聊——生物信息学的发展史,或者换一种说法,生物信息学这个特殊的学科领域是如何诞生的,而世界,又为何需要它?
一个事物的诞生,会有内诞生和外诞生之分。内诞生是指前提和本质的完备之时,外诞生是指人类发现/发明/定义这个事物为目前最接近我们所说的模样之时。
生物信息学,同样如此。
生物信息学内诞生的标志,是分子生物学的诞生。而分子生物学的诞生,离不开四个人。
沃森(Watson),克里克(Crick),罗莎琳德(Rosalind)和威尔金斯(Wilkins)。
他们的故事和当中的各种戏剧性联系,足以堪比一部大型连续电视剧。
先讲讲大家熟知的版本。
沃森和克里克这两个名字大家并不陌生,因为在初高中的生物课程里就有提及。
1953年,沃森和克里克共同发现了DNA双螺旋结构。
1957年,克里克提出中心法则,阐述了DNA,RNA和蛋白质之间的关系。
1962年,诺贝尔生理学或医学奖授予沃森和克里克,以表彰他们在DNA分子研究方面卓越贡献。
以上是大家耳熟能详的大事件,可是故事的全貌就只是如此吗?

前面提到分子生物学的诞生,除了沃森和克里克,还离不开两个人,罗莎琳德(Rosalind)和威尔金斯(Wilkins)。
她们是谁?她们做了什么?为何高中生物课程没有提及?
其实,罗莎琳德也为DNA双螺旋结构的发现做出了卓越贡献,甚至可以说是真正的起点,可惜最终却未能获得应有的荣誉。
而威尔金斯,则是故事中重要的戏剧性一环。
沃森和克里克之所以能够发现DNA双螺旋结构,其实主要原因是从一张照片中获得的灵感,以此激发了他们的研究方向,才有了后续的故事。
故事要从1951年说起,地点:罗莎琳德和沃森等人所在的伦敦国王学院。
1951年11月,在伦敦国王学院的一次研讨会上的演讲会上,罗莎琳德向包括沃森在内的在场人员介绍了分子的两种形式,即 A 型和 B 型,她认为磷酸单元位于分子的外部,她还根据分子的其他部分指定了分子中水的含量,这些数据对分子的稳定性非常重要。
罗莎琳德是第一个发现并阐明这些事实的人,这构成了后来所有建立分子模型的尝试的基础。然而,沃森当时对化学一无所知,未能理解这些关键信息,这也导致他后续构建了一个错误的三螺旋模型。
1952年5月,罗莎琳德和她的研究生拍到了一张B型DNA的X射线晶体衍射照片,也就是著名的“照片51号”,被誉为“几乎是有史以来最美的一张X射线照片。”

1952年夏天,为准备12月MRC生物物理委员会访问伦敦国王学院,学院将诸多研究成果和进展,包括罗莎琳德以及她的研究生的工作成果,撰写进了一份报告里,而克里克的论文导师、访问委员会成员佩鲁兹向克里克和沃森展示了这份报告,当时克里克还在撰写血红蛋白结构论文。
1952年底,罗莎琳德因事业变动,要离开伦敦国王学院。据说,她让研究生将“照片51号”作为纪念品送给了她的同事威尔金斯,而后者也是在该领域深耕多年。
于是,戏剧性的一幕发生了。
1953年1月,威尔金斯将“照片51号”的副本展示给了沃森和克里克,在此之前,威尔金斯以为二人已经不再进行DNA结构研究了。
沃森回忆当时看到这张照片时的情景描述,自己“get a jolt”(震惊)。他说,尽管自己不是一位受过训练的晶体学家,但也有足够的知识,知道照片中的“X”造型,意味着DNA是一个螺旋线,并且很可能就是双螺旋线。而克里克,即使他是物理学家,也知道“重要的生物体总是成对出现”。
在此之前,沃森其实对DNA结构做了很多研究,但是方向几乎都是错了,而这张“照片51号”,给他们带来了曙光。
1953年2月4日,沃森和克里克做出决定,重启对 DNA 结构模型的建构。并且,出于对学术的尊重,2月8日,他们请求威尔金斯准许他们开展相同的研究,而后者自然是同意的。
1953年3月7日,沃森和克里克在实验室中共同搭建的 DNA 双螺旋模型取得成功。
随后,罗莎琳德受邀来到沃森所在的卡文迪许实验室,观看这一新构建的 DNA 双螺旋模型。她立刻意识到这一结构模型应该是正确的,然而此时的她依旧不清楚,结构模型的成功恰恰是借助了她自己的研究成果。
据说她当时坐在“照片51号”前上好几个月,都没有意识到它的重要性,而沃森一眼就明白了。
接下来的故事,大家也清楚了,最终沃森和克里克于1962年获得了诺贝尔生理学或医学奖。

从沃森和克里克对于DNA双螺旋结构的论文发表后,对于罗莎琳德的学术成果归属权的争论就一直存在。
有人觉得她既然准备离职,之前所有的工作成果应该都属于伦敦国王学院;
也有自称知晓内幕的人称,威尔金斯并不是从罗莎琳德的研究生手上拿到的照片51号,而是自己从富兰克林的抽屉里拿走了这张照片,这涉及到科学伦理问题。
在很长一段时间,罗莎琳德都被学术界认为是双螺旋结构的受害者。
人们往往过于关注人的受害属性,而忽略了其本身所作出的历史贡献。
所幸,罗莎琳德没有因为这件事情耿耿于怀,没有因为舆论而停下过自己研究的脚步。
50年代开始,罗莎琳德转而研究病毒,利用自己擅长的X射线衍射成像技术,取得了诸多成果。
1957年,罗莎琳德开始研究当时令人恐惧的导致小儿麻痹症的脊髓灰质炎病毒。
然而,时间并没有站在罗莎琳德这一边,1958年4月16日,罗莎琳德因乳腺癌去世,享年37岁。
希望,在她前往的另一个世界里,除了学术水平以外的其他因素,不会是评价一个科学家的首要指标。
让我们铭记,这位解决DNA双螺旋结构的重要贡献者之一,伟大的科学家,罗莎琳德·富兰克林(Rosalind Elsie Franklin)。

大家还记得,我们在上一篇文章中给大家推荐的学习生物信息的工具平台Rosalind 吗?
该平台名字的由来,正是开发团队为了纪念罗莎琳德(Rosalind Franklin)的贡献。

The project's name commemorates Rosalind Franklin, whose X-ray crystallography with Raymond Gosling facilitated the discovery of the DNA double helix by Watson and Crick.
该项目的名称是为了纪念Rosalind Franklin,她与 Raymond Gosling 合作的 X 射线晶体学促成了 Watson 和 Crick 发现 DNA 双螺旋结构。
他们还提到一个人Raymond Gosling ,其实便是我上面说的,罗莎琳德的研究生雷蒙·高斯林,是他一同跟罗莎琳德拍下了那张宝贵的“照片51号”,并且也是由他将“照片51号”送给威尔金斯(最官网的记载,至于民间的众说纷纭已经无从考究),最终威尔金斯向沃森和克里克展示了“照片51号”,才有了后续的精彩故事,促成了分子生物学的诞生。

此后,DNA和蛋白质成为的当时热点研究话题,无数科学家关注于如何破解DNA和蛋白质的生物学特征,探究其背后的复杂关系和组成。
而这,也为生物信息学提供了丰富的学术土壤,一个随时可以破土而出的春涧之时。
随着研究的深入,科学家们逐渐发现,因为生命的结构之精细和规模之庞大,对于DNA和蛋白质的研究的速度变得极为缓慢。
在当时,拼装肽段为完整的蛋白序列,往往需要实验室花费几个月的时间。
如今,估算地球上生物的蛋白质种类可能超过 1000 万种。按照当时的速度,单单只是将蛋白质的序列研究透彻,假设10000个实验室团队以平均3个月拼装完一个蛋白质序列,1000万种蛋白质的结构序列,至少需要250年才能全部测定。
似乎,传统的研究方式,已经不适合对这一新兴领域的研究了。
科技的进步,往往并不是一个维度的单独突破,就像现在的人工智能(AI)一样,发展的契机是因为游戏行业的显卡技术的突破,在多个行业的底层技术发生迁移和应用后,才造就了如今的AI时代。
上世纪50年代,计算机和生物的关系,也是如此。
1957年,IBM公司的工程师约翰·巴克斯John Backus及其团队在加州圣何塞开发出“公式翻译”语言 ,也就是大家如今熟知的Fortran编程语言。
在此之前的编程,实际上是手工将电线连接成一排排电路来实现的,尽管后来出现了机器语言和汇编语言,允许用户用代码为计算机编程,但这两种语言都需要对计算机的架构有深入的了解,使得许多科学家难以掌握。
而Fortran编程语言的出现,意味着用户可以用人类可读的指令来编程,例如x = 3 + 5。然后由编译器将这些指令转换成快速、高效的机器代码。

1960年,女科学家玛格丽特·戴霍夫(Margaret Oakley Dayhoff)编写了一系列的Fortran语言程序,用于拼装肽段为完整的蛋白序列,把原本需要几个月时间的工作,变成了几分钟。
这一速度的提升,不可谓不大。
1965年,由玛格丽特主编的《蛋白质序列与结构图集》(Atlas of Protein Sequence and Structure)出版,这本书收录了当时已知的65种蛋白质序列,结构以其相似性。这些成果的计算工作,几乎都是由计算机程序所完成的。
《蛋白质序列与结构图集》也是最早的生物数据库雏形。今天,科学家所用的庞大基因组和蛋白质数据库都源于玛格丽特的工作。

这一跨领域的应用,意味着玛格丽特开创了“应用计算机技术来解决生物学问题”这一全新的研究模式,随着后续的技术发展,又逐渐演变成一个全新的学科领域。
八十年代末,林华安博士首次将这一全新学科领域称为生物信息学(Bioinformatics),而玛格丽特也被称为生物信息学的创始人,生物信息学领域的先驱者。
至此,生物信息学正式诞生了。
生物和计算机的融合造就了生物信息学,而分子生物学为最开始的生物信息学提供了土壤。
越来越多的传统生命科学研究者发现,生物信息学能够获得传统研究手段所无法获得的创新发现,以及极具魅力的科研视角。
十几年前,科学家们都认为蛋白质结构的预测是永远无法解决的问题。
而现在,仅需十分钟,能用一台游戏电脑就能准确计算出蛋白质结构。
2021年7月15日,蛋白质结构两大AI预测算法AphaFold2和RoseTTAFold相继开源,共同被《science》评为 2021 年度突破技术。
这些突破性研究成果将帮助科研人员探索引发某些疾病的机制,并为设计药物、农作物增产,以及可降解塑料的「超级酶」研发铺平道路。
2024年10月7日,诺贝尔生理学或医学奖表彰了两位发现了微小核糖核酸及其在转录后基因调控中的作用的科学家。诺贝尔化学奖表彰了在蛋白质预测方向的开发了AlphaFold这一预测模型的相关几位杰出贡献的科学家。
这些,无不是与生物信息学高度相关的领域。
如今,主流科学界的声音,正在围绕生物信息学这一全新领域的研究模式。
如果有人问,有哪些技术领域,是能让我们走进科幻小说中未来的样子。
我敢说,生物信息学,有一席之地。
下一篇,我将讲讲生物信息学目前的主流应用方向,分别从科研和商业两个角度阐述。
参考文献:
What Rosalind Franklin truly contributed to the discovery of DNA’s structure
The Discovery of the DNA Double Helix
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。