Head banner

2014秋季学期 研究生版生物信息学 课程资料

关于作业与考试

  1. 三次作业,你可以做也可以不做。取成绩最好的两次作业计入平时成绩。作业在1月12日0时之前交。
  2. 考试满分100分,平时成绩满分50分。总成绩为考试成绩+平时成绩,最多可以拿150分。但由于教务处系统最多只能输入100分,因此超过100分的将按100分算。
  3. 作业如果抄袭,则总成绩扣5分作为学术不端行为的惩罚。
  4. 考试为笔考,开卷。可以带任何资料入场,但不可以交头接耳,不可以互相传递答案,也不可以使用手机、平板电脑、智能手表等可存储文本的电子设备。

成绩公布点此

高级统计

RDP数据库11.3版真菌部分,收录了目前人类已知所有可培养和不可培养真菌的18S rDNA序列,共102901种。
FASTA格式序列下载地址

请比较一下Agaricomycetes(伞菌纲)23801种物种的18S rDNA序列,可培养的物种和不可培养的物种,18S rDNA序列有何不同?

大规模测序基础分析

大规模测序云分析平台:深圳承启生物公司主页

客户端软件下载:http://www.chi-biotech.com/cloud/Download_cn.aspx

点此下载测试用的测序数据集:
正常肺上皮细胞系HBE的mRNA测序数据集
肺癌细胞A549的mRNA测序数据集
高转移性肺癌细胞H1299的mRNA测序数据集
HeLa细胞mRNA测序数据集(ribominus, 2011年10月Illumina GAIIx测序,自行反向工程破解的试剂盒建库)
HeLa细胞mRNA测序数据集(polyA+, 2012年底Illumina HiSeq-2000测序,Illumina原厂建库试剂盒建库)
Caco-2细胞mRNA测序数据集(polyA+, 2012年底Illumina HiSeq-2000测序,Illumina原厂建库试剂盒建库)

 

差异表达分析使用edgeR软件包,请先安装好R语言运行环境
edgeR软件包的网页:http://www.bioconductor.org/packages/release/bioc/html/edgeR.html

双序列比对

练习1猪流感病毒株数据

 

练习2:病毒疫情快速判断

2013年初,在杭州的肉菜市场中突发急性呼吸道传染病疫情,从病人症状初步判断,病原体是病毒,但何种病毒并不清楚。用病毒培养方法和快速测序手段,得到两条疑似病毒的序列:

序列1:
ATGAGTCTTCTAACCGAGGTCGAAACGTACGTTCTCTCTATCATTCCATCAGGCCCCCTCAAAGCCGAGATCGCACAGAGACTTGAGGATGTTTTTGCAGGGAAGAACGCAGATCTCGAGGCTCTCATGGAGTGGATAAAGACAAGACCAATCCTGTCACCTCTGACTAAGGGGATTTTAGGGTTTGTGTTCACGCTCACCGTGCCCAGTGAGCGAGGACTGCAGCGTAGACGGTTTGTCCAAAACGCCCTAAATGGGAATGGAGACCCAAACAACATGGACAAGGCGGTTAAATTATACAAGAAACTGAAGAGGGAAATGACATTTCATGGAGCAAAGGAAGTTGCACTCAGTTACTCAACTGGTGCGCTTGCCAGCTGCATGGGTCTCATATACAACAGAATGGGGACTGTGACCGCAGAAGGGGCTCTTGGACTAGTATGTGCCACTTGTGAGCAGATTGCTGACGCACAACATCGGTCCCACAGGCAGATGGCGAC

序列2:
GCGGAATTGACAAGGAAGCAATGGGATTCACATACAGTGGAATAAGAACTAATGGAGCAACCAGTGCATGTAGGAGATCAGGATCTTCATTCTATGCAGAAATGAAATGGCTCCTGTCAAACACAGATAATGCTGCATTCCCGCAGATGACTAAGTCATATAAAAATACAAGAAAAAGCCCAGCTCTAATAGTATGGGGGATCCATCATTCCGTATCAACTGCAGAGCAAACCAAGCTATATGGGAGTGGAAACAAACTGGTGACAGTTGGGAGTTCTAATTATCAACAATCTTTTGTACCGAGTCCAGGAGCGAGACCACAAGTTAATGGTATATCTGGAAGAATTGACTTTCATTGGCTAATGCTAAATCCCAATGATACAGTCACTTTCAGTTTCAATGGGGCTTTCATAGCTCCAGACCGTGCAAGCTTCCTGAGAGGAAAATCTATGGGAATCCAGAGTGGAGTACAGGTTGATGCCAATTGTGAAGGGGACTGCTATCATAGTGGAGGGACAATAATAAGTAACTTGCCATTTCAGAACATAGATAGCAGGGCAGTTGGAAAATGTCCGAGATATGTTAAGCAAAGGAGTCTGCTGCTAGCAACAGGGATGAAGAATGTTCCTGAGATTCCAAAGGGAAGAGGCCTATTTGGTGCTATAGCGGGTTTCATTGAAAATGGATGGGAAGGCCTAATTGATGGTTGGTATGGTTTCAGACACCAGAATGCACAGGGAGAGGGAACTGCTGCAGATTACAAAAGCACTCAATCGGCAATTGATCAAATAACAGGAAAATTAAACCGGCTTATAGAAAAAACCAACCAACAATTTGAGTTGATCGACAATGAATTCAATGAGGTAGAGAAGCAAATCGGTAATGTGATAAATTGGACCAGAGATTCTAT

请用这两条序列的信息来判断:

1. 病原体是哪种病毒?病毒分型如何?

2. 由于此前该地区并未发生大规模的呼吸道疾病疫情,从流行病学角度基本排除人传人的可能性,又因该病病人都在肉菜市场工作,高度怀疑该病毒是由动物传染人。请问是什么种类的动物传染给人的?

 

多序列比对

练习1:tRNA的序列保守性

Genomic tRNA database 数据库里收录了许多物种的tRNA序列。我们知道tRNA的结构是高度保守的,那么它们的序列是否也有高度相似性呢?

这里,我们下载大肠杆菌和人的tRNA序列,进行多序列比对。大肠杆菌tRNA序列(FASTA)人tRNA序列(hg19, FASTA)

这些序列之间是否具有相似性?
人的tRNA序列和大肠杆菌的tRNA序列间是否有相似性?

练习2:非典病毒的来源

2003年,中国发生了著名的“非典”疫情。非典病毒很快被归为冠状病毒科(Coronavirus),某些专家宣称其是由果子狸上的某种已知冠状 病毒自然变异而来。然而,2003年4月13日香港《大公报》援引俄罗斯院士的观点,指出非典病毒是美国制造的生物武器,并非自然变异而来。中国国内的部分科学家也持类似观点,认为非典病毒不能由冠状病毒自然突变而来。究竟哪种观点正确?如果非典病毒不是由已知冠状病毒种类自然突变而来,那它最有可能由什么病毒人工改造而来?

请通过对以下序列的分析来得出结论。

广东分离并测序出的第一株SARS毒株GD01全基因组序列:NCBI数据库号为 AY278489
北京分离并测序出的第一株SARS毒株BJ01全基因组序列:NCBI数据库号为 AY278488
请比对其差异,看看非典病毒在传播过程中的自然变异率。

当时已知的冠状病毒科有三大类,即三个Group。这里为简便起见,分别给出三个Group的模式代表病毒全基因组序列:
Group1 代表病毒 HCoV-229E: NC_002645
Group2 代表病毒 BCoV: NC_003045
Group3 代表病毒 IBV: NC_001451

 

基础统计

练习1:【统计描述】

用大规模测序的方法测定HBE细胞(人支气管上皮正常细胞)和Caco-2细胞(人结肠癌细胞)的转录组和翻译组,得到各基因的转录量和翻译量(均以rpkM为单位)。选出在两个细胞中均有转录且有翻译的基因。点此下载Excel数据。其中,length为基因长度,mRNA为转录组数据,RNC为翻译组数据,TR为翻译效率。
问题:
(1) 两个细胞内的基因转录量和翻译量的分布如何?
(2) 两个细胞内的基因翻译效率的分布如何?
(3) 同一个基因,在两个细胞内的转录量和翻译量是否有差别?
(4) 同一个基因,在两个细胞内的翻译效率是否有差别?

注:此数据来源于我们的论文:
J Zhong, Y Cui, J Guo, Z Chen, L Yang, QY He, G Zhang *, T Wang *,
Resolving Chromosome-Centric Human Proteome with Translating mRNA Analysis: A Strategic Demonstration,
Journal of proteome research (2014) 13 (1), 50-59

练习2:【统计检验】

mRNA的翻译速度并非均等,有些地方会翻译得慢一些,称为翻译暂停。这些翻译暂停与蛋白质的折叠有关。详细内容见我们的论文:
Zhang, G., Hubalewska, M., & Ignatova, Z.*,
Transient ribosomal attenuation coordinates protein synthesis and co-translational folding.
Nat Struct Mol Biol, 16(3):274-80 (2009).

翻译暂停可出现在基因内部和基因末尾。现在想比较大肠杆菌中三类基因的长度:
(1) 所有基因
(2) 基因内部有翻译暂停位点的基因
(3) 基因末尾有翻译暂停位点的基因
数据点此下载

请选择合适的统计检验方法,检验这三类基因的长度是否有区别。

注:此问题来源于我们的论文:
Chen W, Jin J, Gu W, Wei B, Lei Y, Xiong S *, Zhang G *.
Rational design of translational pausing without altering the amino acid sequence dramatically promotes soluble protein expression: A strategic demonstration.
Journal of Biotechnology (2014), 189(10), 104-113

练习3:【趋势分析】

网上经常有人发牢骚,说物价在涨工资没涨。

这里是搜罗到的工资、物价指数、基本消费品价格等的数据(点此下载Excel表格)。请用统计分析来说明工资水平相对物价是涨了还是跌了。

练习4:【非线性拟合】

FRAP实验(点击这里看看什么是FRAP)。构建两个GFP-19Q和GFP-71Q融合蛋白,分别含有19Q (19个glutamine) 和 71Q (71个glutamine) 区段,使其形成蛋白质聚集体团块。测定团块局部被光漂白之后的荧光随时间恢复程度。实验原始数据记录点此下载

一个扩散过程的FRAP数据可表示为 y=a*(1-exp(b*x))
两个扩散过程(快过程和慢过程)的FRAP数据可表示为 y=a*(1-exp(b*x))+c*(1-exp(d*x))

请比较GFP-19Q和GFP-71Q的荧光恢复程度及恢复的速率常数有何区别,它们分别有几个扩散过程。

注:本问题来源于我们的论文:
Hinz J., Lehnhardt L., Zakrzewski S., Zhang G., Ignatova Z.*,
Polyglutamine expansion alters the dynamics and molecular architecture of aggregates in dentatorubropallidoluysian atrophy,
J Biol Chem
. (2012) 13;287(3):2068-78.

 

图表要求

要想清晰地传达你的科学思想和实验结果,将图表做得专业是必须的。
建议严格参照 JCI 杂志投稿图标要求 制作任何用于报告和论文的图表。

除此之外,还应有以下注意事项: