生物信息学笔记

如何自学生物信息学?
生物信息学入门需要具备什么能力?

Image of Interaction Network
(Source: Yugi K, et al. Trends Biotechnol, 2016)

生物信息学: 导论与方法 | 北京大学

高歌 魏丽萍 龙漫远 Michael.S.Waterman Maynard Olson 裴钢

“Essentially, all models are wrong, but some are useful.”
—— George E. P. Box

Coursera 华文慕课 Methods in Bioinformatics

  • 生信历史
  • Needleman-Wunsch全局比对算法
  • Smith-Waterman局部比对算法
  • BLAST算法
  • 马尔科夫链
  • 隐马尔科夫模型
  • 序列回帖 reads mapping
  • SIFT算法
  • PolyPhen算法
  • SAPRED算法
  • RNAseq回帖
  • ncRNA鉴定、差异&聚类分析
  • 本体论 ontology
  • KOBAS分子通路鉴定
  • 演化分析
  • 各种测序原理及仪器介绍
  • 各种数据库,软件、网络工具介绍
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
>sp|P69905|HBA_HUMAN
MVLSPADKTN VKAAWGKVGA HAGEYGAEAL ERMFLSFPTT KTYFPHFDLS
HGSAQVKGHG KKVADALTNA VAHVDDMPNA LSALSDLHAH KLRVDPVNFK
LLSHCLLVTL AAHLPAEFTP AVHASLDKFL ASVSTVLTSK YR

>sp|P60871|HBB_HUMAN
MVHLTPEEKS AVTALWGKVN VDEVGGEALG RLLVVYPWTQ RFFESFGDLS
TPDAVMGNPK VKAHGKKVLG AFSDGLAHLD NLKGTFATLS ELHCDKLHVD
PENFRLLGNV LVCVLAHHFG KEFTPPVQAA YQKVVAGVAN ALAHKYH

>BRCA1_HUMAN
MDLSALRVEEVQNVINAMQKILECPICLELIKEPVSTKCDHIFCKFCMLKLLNQKKGPSQ
CPLCKNDITKRSLQESTRFSQLVEELLKIICAFQLDTGLEYANSYNFAKKENNSPEHLKD
EVSIIQSMGYRNRAKRLLQSEPENPSLQETSLSVQLSNLGTVRTLRTKQRIQPQKTSVYI
ELGSDSSEDTVNKATYCSVGDQELLQITPQGTRDEISLDSAKKAACEFSETDVTNTEHHQ
PSNNDLNTTEKRAAERHPEKYQGSSVSNLHVEPCGTNTHASSLQHENSSLLLTKDRMNVE
KAEFCNKSKQPGLARSQHNRWAGSKETCNDRRTPSTEKKVDLNADPLCERKEWNKQKLPC
SENPRDTEDVPWITLNSSIQKVNEWFSRSDELLGSDDSHDGESESNAKVADVLDVLNEVD
EYSGSSEKIDLLASDPHEALICKSERVHSKSVESNIEDKIFGKTYRKKASLPNLSHVTEN
LIIGAFVTEPQIIQERPLTNKLKRKRRPTSGLHPEDFIKKADLAVQKTPEMINQGTNQTE
QNGQVMNITNSGHENKTKGDSIQNEKNPNPIESLEKESAFKTKAEPISSSISNMELELNI
HNSKAPKKNRLRRKSSTRHIHALELVVSRNLSPPNCTELQIDSCSSSEEIKKKKYNQMPV
RHSRNLQLMEGKEPATGAKKSNKPNEQTSKRHDSDTFPELKLTNAPGSFTKCSNTSELKE
FVNPSLPREEKEEKLETVKVSNNAEDPKDLMLSGERVLQTERSVESSSISLVPGTDYGTQ
ESISLLEVSTLGKAKTEPNKCVSQCAAFENPKGLIHGCSKDNRNDTEGFKYPLGHEVNHS
RETSIEMEESELDAQYLQNTFKVSKRQSFAPFSNPGNAEEECATFSAHSGSLKKQSPKVT
FECEQKEENQGKNESNIKPVQTVNITAGFPVVGQKDKPVDNAKCSIKGGSRFCLSSQFRG
NETGLITPNKHGLLQNPYRIPPLFPIKSFVKTKCKKNLLEENFEEHSMSPEREMGNENIP
STVSTISRNNIRENVFKEASSSNINEVGSSTNEVGSSINEIGSSDENIQAELGRNRGPKL
NAMLRLGVLQPEVYKQSLPGSNCKHPEIKKQEYEEVVQTVNTDFSPYLISDNLEQPMGSS
HASQVCSETPDDLLDDGEIKEDTSFAENDIKESSAVFSKSVQKGELSRSPSPFTHTHLAQ
GYRRGAKKLESSEENLSSEDEELPCFQHLLFGKVNNIPSQSTRHSTVATECLSKNTEENL
LSLKNSLNDCSNQVILAKASQEHHLSEETKCSASLFSSQCSELEDLTANTNTQDPFLIGS
SKQMRHQSESQGVGLSDKELVSDDEERGTGLEENNQEEQSMDSNLGEAASGCESETSVSE
DCSGLSSQSDILTTQQRDTMQHNLIKLQQEMAELEAVLEQHGSQPSNSYPSIISDSSALE
DLRNPEQSTSEKAVLTSQKSSEYPISQNPEGLSADKFEVSADSSTSKNKEPGVERSSPSK
CPSLDDRWYMHSCSGSLQNRNYPSQEELIKVVDVEEQQLEESGPHDLTETSYLPRQDLEG
TPYLESGISLFSDDPESDPSEDRAPESARVGNIPSSTSALKVPQLKVAESAQSPAAAHTT
DTAGYNAMEESVSREKPELTASTERVNKRMSMVVSGLTPEEFMLVYKFARKHHITLTNLI
TEETTHVVMKTDAEFVCERTLKYFLGIAGGKWVVSYFWVTQSIKERKMLNEHDFEVRGDV
VNGRNHQGPKRARESQDRKIFRGLEICCYGPFTNMPTDQLEWMVQLCGASVVKELSSFTL
GTGVHPIVVVQPDAWTEDNGFHAIGQMCEAPVVTREWVLDSVALYQCQELDTYLIPQIPH
SHY

>21A [CPC](http://cpc.cbi.pku.edu.cn/)
AAATAGTTGACCAAGTGTGGTGGCTCACGTAGTCCCAGCACTTTGGGAGGCTGAGGCAGGAGGATCACTTGAGCCCAGGAATTTGAGACCAGCTTGGGCAACATAGTGAGACCTCATCTCTTAAAAAAAAAAATTAGCTGGGTGTGGTAGTGCACACCTGTGGTCCCAGCTACTTTAGAGGCTGAGGTAGAGGATTGCTTGAGCCTGGGAAGTTGGGGCTGTAGTGAGCTTTGATTGCATCACTGCACTCCAGCCTGGGTGACAGAGCAAGACCCTGTCTCTAAAAAATTAAATAAATAATAAAAAAATTAAAAAGTAACTCCC

certificate

从数学物理,到化学材料的科学理论突破,应用到工程界,引发信息编程等领域链式的技术革命,极大地推动了生物、医学等下游学科的发展。随着实验检测技术和试验设计的革新,人群研究逐渐能够摆脱伦理学的困境,内外暴露物质的测量方法也开始了急速地发展,直接从人类身上全面地获取有循证意义的数据成为可能。经典流行病学也将逆转被动研究黑箱问题的局面,使用生物信息学等方法,借助云储存、云计算分析海量组学数据,定量地研究全时空下暴露、分子、结局全水平的互作(interaction),彻底探清疾病机制,构建在人类医学生具有划时代意义的系统流行病学。而本就是限于伦理,“曲线救国”来研究人类疾病的动物实验,其现实意义也将大打折扣,甚至会在不久的将来只有博物馆的一席之地。

“Genetics Loads the Gun, Lifestyle Pulls the Trigger.”
—— Barbara O’Neill

Image of Interaction Network
(Source: Franks PW, et al. Diabetes Care, 2013)

从暴露组学发展到打开流行病学“黑箱子”的遗传组学、代谢组学等,系统流行病学可以多水平、多层次地考虑疾病的发生机制;除了机理研究之外,健康的社会决定因素和遗传易感性的影响因素研究,都进一步拓展了病因学研究的广度和深度。
——李立明

华中科技大学同济医学院公共卫生学院流行病学与卫生统计学系生物信息学方向导师

参考书目

  1. 《生物信息学》, 李霞, 雷健波; 人民卫生出版社, 2015
  2. 《概率论与数理统计》, 盛骤, 谢式千, 潘承毅; 高等教育出版社, 2008

编程语言