Upgrade to Pro — share decks privately, control downloads, hide ads and more …

INTERVIEW FOR JOB

MengLuo
June 05, 2018

INTERVIEW FOR JOB

MengLuo

June 05, 2018
Tweet

More Decks by MengLuo

Other Decks in Research

Transcript

  1. Meng Luo ( Yangzhou University) June 15, 2018 1/71 应聘:美吉生物-生物信息分析工程师(人类遗传)

    Interviewed in Majorbio 应 聘 人: 骆 孟 研究方向: 数量遗传(统计基因组学或遗传学)
  2. Meng Luo ( Yangzhou University) June 15, 2018 2/71 Interviewed

    in Majorbio  关于我 我是骆孟,书名骆臣哲,来自扬 州 大 学,骆孟是我身份 证上的名字。最近,五月三十号硕士论文答辩圆满结束。六月 二十一号将授予硕士学位,导师顾世梁教授,长期从事统计遗 传研究(生物信息)和算法优化的研发。有幸成为顾老师的最 后一位弟子,和他学到了很多关于数据分析和优化的问题,特 别是优化算法。我的研究兴趣主要是利用大数据(基因组测序) 来解析有关生物(人,植物)疾病变异的缘由,同时开发相应 的软件工具。 教育背景 农学学士,专业农学 (数理统计),扬州大学(2011.09— 2015.06) 理学硕士,专业数量遗传,扬州大学(2015.09—2018.06) 个人能力 程序语言:SAS、MATLAB、R、Python、Perl 和 JavaScript(C++)。 网站设计(Logo 设计):JavaScript、 Node.js、HTML5、 CSS、 jQuery、 Jekyll 和Grunt + Gulp。 工具(当前):Adobe lllustrator CC 2018;Adobe Photoshop CC 2018。 语言:外语(六级已过,2018年2月的第一次雅思总分 5.5,第二次在5 月低考总分5.5。);布依语(本地语言);普通话(80)。 操作系统:Win10 和 Linux Mint(CentOS 7)。 工作意向  医学相关(大)数据分析(生物信息)和挖掘及算法研发,同 时开发相关软件工具。也就是利用数学模型和统计学方法,对 和医疗与健康有关的性状进行遗传学大数据分析。通过更大规 模的遗传学和基因组学的大数据分析,建立一个相对准确的基 因预测模型,预测一个健康个体将来得病的概率。另一方面涉 及算法优化(使用机械学习和深度学习)。(希望能够加入一 个很好的研究团队) Meng Luo, YZU
  3. Meng Luo ( Yangzhou University) June 15, 2018 3/71 Interviewed

    in Majorbio  最优化问题(线性与非线性优化及是组合优化)  Curve and surface fitting with improved contraction- expansion algorithm  Solve traveling salesman problem using EMF-CE algorithm  2014.05-2016.12
  4. Meng Luo ( Yangzhou University) June 15, 2018 4/71 Interviewed

    in Majorbio  曲线曲面拟合 Difficulty level Problem Names Source of Problem Classified by Lower Misrela, MisrelB, Chwirut1, Chwirut2, Lanczos3, Gauss1, Gauss2, DanWood, NIST NIST Judge Goffe Author Average ENSO, Gauss3, Hahn, Kirby, Lanczos1,Lanczos2, MGH17, Misra1c, Misra1d, Nelson, Roszman1 NIST NIST Higher Bennett, BoxBOD, Eckerle4, MGH09,MGH10, Ratkowsky42, Ratkowsky43,Thurber NIST NIST Hougen Mathworks.com Author Extra Hard 1stOpt problems (all 9 functions), Mount , SinCos 1stOpt(Auto2Fit) 1stOpt(Auto2 Fit) Table1 Classification of Problems according to Difficulty Level http://www.7d-soft.com/ Table 2 8 datasets with higher level of difficulty Dataset name Nonlinear function Number of Parameters(p) Number of Observations (n) Level of difficulty Thurber 7 37 High MGH09 4 11 High BoxBOD 2 6 High Rat42 3 9 High MGH10 3 16 High Eckerle4 3 35 High Rat43 4 15 High Bennett5 3 154 High 2 3 1 2 3 4 2 3 5 6 7 ˆ 1 b b b X b X Y b X b X b X        2 1 2 2 3 4 ( ) ˆ b X b X Y X b X b     1 2 ˆ (1 exp( )) Y b b X    4 1 1/ 2 3 ˆ (1 exp( )) b b Y b b X    2 1 3 ˆ exp( ) b Y b X b   2 1 3 2 2 2 ( ) ˆ exp( ) 2 b X b Y b b    1 2 3 ˆ 1 exp( ) b Y b b X    3 1/ 1 2 ˆ ( ) b Y b b X   
  5. Meng Luo ( Yangzhou University) June 15, 2018 5/71 Interviewed

    in Majorbio  曲线曲面拟合 Datasets name b1 B2 b3 b4 RSS MHG09 NIST 1.928069346e-1 1.912823287e-1 1.230565069e-1 1.360623307e-1 3.075056039e-4 C-E 1.928069348e-1 1.912823214e-1 1.230565037e-1 1.360623277e-1 3.075056039e-4 BoxBOD NIST 2.138094089e-2 5.472374854e-1 —— —— 1.168008877e-3 C-E 2.138094092e-2 5.472374813e-1 —— —— 1.168008877e-3 Rat42 NIST 7.246223758e+1 2.718076840e+0 6.735920007e-2 —— 8.056522934e+0 C-E 7.246223748e+1 2.718076843e+0 6.735920014e-2 —— 8.056522934e+0 MGH10 NIST 5.609636471e-3 6.181346346e+3 3.452236346e+2 —— 8.484585517e+1 C-E 5.609636714e-3 6.181346326e+3 3.452236340e+2 —— 8.484585517e+1 Eckerle4 NIST 1.556382718e+0 4.088832175e+0 4.515412184e+2 —— 1.463588749e-3 C-E 1.554382716e+0 4.088832156e+0 4.515412184e+2 —— 1.463588749e-3 Rat43 NIST 6.996415127e+2 5.277125303e+0 7.596293833e-1 1.279248386e+0 8.786404908e+3 C-E 6.996415123e+2 5.277125330e+0 7.596293876e-1 1.279248391e+0 8.786404908e+3 Bennett5 NIST -2.52350580e+3 4.673656464e+1 9.321848319e-1 —— 5.240474407e-4 C-E -2.52196804e+3 4.673018418e+1 9.322900378e-1 —— 5.240432639e-4 Table 3 The certified results of NIST and estimated by improved C-E algorithm for 7 datasets 50 60 70 80 90 100 110 120 0.5 1 1.5 2 2.5 3 x 104 X Y data fit MGH10 400 410 420 430 440 450 460 470 480 490 500 0.05 0.1 0.15 0.2 0.25 0.3 0.35 X Y data fit Eckerle4 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 200 400 600 800 1000 1200 1400 X Y data fit Thurber Fig.1 The curve fitting figure of result MGH10, Thurber and Eckerle4
  6. Meng Luo ( Yangzhou University) June 15, 2018 6/71 Interviewed

    in Majorbio  曲线曲面拟合 Test Dataset Regression Equations R2 Notes Dimension(m) Parameters(p) 1 0.996780 1 5 2 0.934642 4 9 3 0.969930 1 3 4 0.805143 4 9 5 0.994633 2 8 6 0.999644 1 7 7 0.971547 2 7 8 0.995372 3 6 9 0.970475 1 4 5 3 4 1 2 1 ˆ ( ) b b Y b X b b X    1 2 1 3 2 4 3 5 4 6 1 7 2 8 3 9 4 ˆ 1 b b X b X b X b X Y b X b X b X b X          1 2 3 ˆ (1 ) b Y b X X b    1 2 1 3 2 4 3 5 4 6 1 7 2 8 3 9 4 ˆ 1 b b X b X b X b X Y b X b X b X b X          3 5 7 8 1 2 1 4 2 6 1 2 ˆ b b b b Y b b X b X b X X     3 5 7 1 2 4 6 ˆ b b b Y b b X b X b X     1 2 1 3 2 4 1 2 5 1 6 2 7 1 2 ˆ 1 b b X b X b X X Y b X b X b X X        6 1 5 3 2 2 1 3 2 3 4 ˆ ( )(1 )( ) b b Y b X b X b X X b      4 1 2 3 ˆ exp( ) b Y b b X b   Table 4 The 1stOpt testing problems and result (R2) N. b1/b6 b2/b7 b3/b8 b4/b9 b5 RSS SSY R2 1 1.77400378E-04 7.11350731E-33 16.7253406 1.21591936E-03 3.04365188 1939218.994 586570000 0.996694 2 4.583533 0.954423E-04 0.262201E-03 -0.30464E-05 -0.795377E-05 -0.66982E-02 -0.270534E-01 0.006681996 0.331803E-01 - 3.479215815 25.2536 0.862229 3 -101.078842 -1258.50245 -170.113551 - - 7.68651757 255.5656 0.969924 4 674.679627 0.572582863 227.745913 5.55642598 2120.32839 0.033438716 1.64255958 -0.560015938 -176.051256 53118.24153 272600 0.805143 5 1.02849313 2.67993125E-3 -2.75083053E-14 0.253301683 4.04558865 1.26806971 -1.36709592E- 03 - 1.62322193 - 1.753875407 326.7796 0.994633 6 -2.43500445 1.74691786 8.88851139 0.818860686 -1.16451411 - -5.5959852E-04 - 4.02126762 - 0.004710731 12.9710 0.999644 7 92.0801585 -3.03915462e-2 -2.67381750e-2 1.07051864e-5 -2.72093319 - 7.44537711e-4 - -3.84596257e-4 - 21.26377223 747.3331 0.971547 8 178962.386 -2.59652299 3672.73182 - 0.530213052 - 27.8050105 - 195.346878 - 0.010560486 2.2822 0.995373 9 19.1581777 -0.362592753 -29.8159227 2.29795107 - 14.66642182 488.5455 0.969979 Table 5 The fitting results of 1stOpt testing problems with improved C-E algorithm N. b1 b2 b3 b4 b5 b6 b7 RSS R2 7-1 92.0801585 -2.67382e-2 -2.7209332 7.445377e-4 -3.84596e-4 -3.03916e-2 1.070517e-5 21.263772 0.971547 7-2 66.313876 -0.013405 -2.0433683 3.60357e-4 -2.1008e-4 -3.2448e-2 5.78165e-6 34.325346 0.954070 7-3 -7190171.8 4480.2531 459000.36 -235.14145 59.44377 1914.3001 -3.20806 49.945287 0.933169 Table 6 Global and local optimal for the problem (7) Fig.4 The surface fitting figure of result 7-1(center), 7-2(left) and 7-3(right)
  7. Meng Luo ( Yangzhou University) June 15, 2018 7/71 Interviewed

    in Majorbio  Traveling Salesman Problem (TSP)  The traveling salesman problem (TSP) is well known the classical and fundamental NP-hard combinatorial optimization problems. The classical TSP that can be described as following: find a path through a weighted graph that starts and ends at the same city, includes every other city exactly once, and minimizes the total distance tour of n cities.  Most exact methods, e.g., Concorde, and heuristic methods, e.g., Lin–Kernighan, 2-Opt or 3-Opt, are not (directly) applicable for asymmetric TSP cases since they are based on the triangle inequality of Euclidean distance associated with symmetric TSPs. Methods for asymmetric TSPs are less studied with only a few exceptions. https://en.wikipedia.org/wiki/Travelling_salesman_problem
  8. Traveling Salesman Problem (TSP) Meng Luo ( Yangzhou University) June

    15, 2018 8/71 Interviewed in Majorbio  Proposed Exchange-Move-Flip Based On CE Algorithm Counterpart Algorithm Processing System Program Language Scaling Coefficients 3GL Prog.Lan MATLAB ASA-GS[26] 2.8GHz C++ 1.00 >1.00 CONN[62] 1.4GHz C++ 0.49 >0.49 eISOM, ESOM, Budinich[19] 1.4GHz C++ 0.48 >0.48 RABNET-TSP[36] 3.0GHz MATLAB 1.06 >1.06 GCGA[68] 2.8GHz C++ 0.99 >0.99 HGA[69] 2.3GHz C++ NA NA GSTM[70] 2.8GHz Delphi NA NA ACS[16] 200MHz C++ NA NA SA[46] SPARCULTRA5 C++ NA NA PSO–ACO–3Opt[38] 2.8GHz C++ NA NA Table I scaling coefficients for counterpart algorithms 0 5 10 15 20 25 30 35 40 43 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 x 105 Test Problems CPU Time (s) Shortest Time Average Time Median Time Fig.1 EMF-CE average CPU time versus the number of cities for 43 benchmark TSPs from TSPLIB Meng Luo..et al,2018, Transactions on Evolutionary Computation
  9. Traveling Salesman Problem (TSP) Meng Luo ( Yangzhou University) June

    15, 2018 9/71 Interviewed in Majorbio  Proposed Exchange-Move-Flip Based On CE Algorithm 0 5 10 15 20 25 30 35 40 43 0 0.5 1 1.5 2 2.5 3 Test Problems Percent Differences (%) Best Tour Length Average Tour Length Median Tour Length Fig.2 EMF-CE percent difference versus the number of cities for 43 benchmark TSPs from TSPLIB EMF-CE LBSA ASA-GS HGA GCGA CONN First Set Second Set All 0 1 2 3 4 5 6 7 3.16 1.54 0.87 4.76 0.4 4.87 0.07 3.34 0.05 2.75 1.05 0.92 0.41 0.47 0.25 0.22 0 0.003 Average Shortest Tour Lengths(%) Scale Problems Algorithms Fig.3 Average shortest tour lengths percent above optimality for EMF-CE and five comparable algorithms
  10. Traveling Salesman Problem (TSP) Meng Luo ( Yangzhou University) June

    15, 2018 10/71 Interviewed in Majorbio  Proposed Exchange-Move-Flip Based On CE Algorithm Fig.3 Compared with Concorde algorithm PR144 PR136 U159 TSP225
  11. Meng Luo ( Yangzhou University) June 15, 2018 11/71 ISR

    for GWAS&E-GWAS&GS Meng Luo ( Yangzhou University) Interviewed in Majorbio Certificate Of Accomplishment For GWAS And GS
  12. Nature Toolbox Adventures With R Data Analytics/Machine Learning • a

    large collection of GNU and Open Source tools which provide functionality similar to a LINUX environment. Flexible & Powerful 数据分析工具及程序语言 General-purpose C/C++ programming language Python https://www.informationweek.com/devops/programming-languages/10-most-in- demand-programming-languages-of-2018/d/d-id/1330856 https://simpleprogrammer.com /top-10-programming- languages-learn-2018- javascript-c-python/ Meng Luo ( Yangzhou University) June 15, 2018 13/71 ISR for GWAS&E-GWAS&GS Meng Luo ( Yangzhou University) Interviewed in Majorbio
  13. 一、优化全基因组关联分析的重复筛选法 Meng Luo ( Yangzhou University) June 15, 2018 14/71

    ISR for GWAS Vicent Arbona.Int. J. Mol. Sci. 2013 https://www.quora.com/What-are-some-good-introductory- papers-on-GWAS http://genetics.thetech.org/ask-a- geneticist/how-gwas-works Meng Luo ( Yangzhou University) Interviewed in Majorbio
  14.  混合线性模型 Adjustment on marker Prof.Zhizu Zhang Compressed MLM (CMLM)

    Genome-wide efficient mixed-model analysis (GEMMA) Prof.Xiang Zhou Brent‘s algorithm or Newton-Raphsons’ algorithm This method was called the approximate method by Zhiwu zhang (NG.2010). This method was called the exact method by Zhou and Stevens (NG.2012). Christoph Lippert. Microsoft research Christoph Lippert et al. Nature Methods. 2011 FaSTLMM Single-locus (mixed) model Vincent Segura et al. NG.2012 Xiaolei Liu et al. PLoS Genetics.2016 Yangjun Wen et al. Briefings in Bioinformatics . 2017 Fast multi-locus random-SNP-effect EMMA (FASTmrEMMA): built on random single nucleotide polymorphism(SNP) effects and a new algorithm. Multi-loci (mixed) model Meng Luo ( Yangzhou University) June 15, 2018 17/71 ISR for GWAS 背景 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  15. 材料与方法  群体数据 Horton, .. et al. Nat Genet 2012

    Arabidopsis dataset McCouch S.. et al, Nature Comm.2016 Rice dataset Chang, C, C.. et al, GigaScience.2015 human dataset Outbred CFW mice Clarissa C Parker et al. Nat Genet 2016. Meng Luo ( Yangzhou University) June 15, 2018 18/71 ISR for GWAS  LD,SD,FLC,FRI,FT,FTGH  n=1,307  p=250,000  Grain length(GL)  n=1,132  p=464,831  n1=1000  p1=100,000  n2=10,000  p2=88,058  BMD,EDL,PPI12,TA,SOL EUS  n=1,171  p=92,734 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  16.  重复筛选回归 (Iterative screen regression, ISR) 图1 基于重复筛选回归模型进行全基因组关联分析的概述图 Meng Luo

    ( Yangzhou University) June 15, 2018 19/71 ISR for GWAS Build screening criterion of regression model Iterative Screen optimize Procedure Input dataset Application (sd) F(p) RIC f   GWAS Scan 0 0 1 1 ,O , m m i j ij i i j ij i j j Y X Y X Q                 r + multiple regression analysis 0 1 , m i j ij i j Y X e        1 ... , j i Y X X X i j        Optimization Optimize procedure 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  17.  重复筛选多位点线性模型 我们考虑如下的多元线性回归模型: 2 , ~ MVN(0, I ) e

    n y W X         Meng Luo ( Yangzhou University) June 15, 2018 20/71 ISR for GWAS 其中y是在n个个体上测量表型数据的 向量; 是协变量(固定效应,可以是基因 型计算的主成分,一般前5个成分) 矩阵,其中也包括截距项的 矩阵(全是1); α 是协 变量的系数 向量; X是基因型数据的 矩阵; β 是效应大小的对应 p 向量;ε是残差的 向量 ,其中每一项都假定服从正态分布; 是一个 的单位矩阵,MVN表示多元正态分布。 1 n   1 2 , c W w w w   1 c n p  n n  n I n c  统计方法 1 n  1 n Meng Luo ( Yangzhou University) Interviewed in Majorbio
  18.  统计功效(敏感度)与错误率和一类错误及特异度的计算方法 10 2 2 2 1 , ~ M

    (0, (1 / ), j 1,2,...,1307 j i i n g i y X b VN h h            模拟一 100 2 2 2 1 , ~ M (0, (1 / ), j 1,2,...,1307 j i i n g i y X b VN h h          50 2 2 2 1 , ~ M (0, (1 / ), j 1,2,...,1161 j i i n g i y X b VN h h          100 2 2 2 1 100 2 2 2 1 , ~ M (0, (1 / ), j 1,2,...,1000 , ~ M (0, (1 / ), j 1,2,...,10000 j i i n g i j i i n g i y X b VN h h y X b VN h h                   100 2 2 2 1 , ~ M (0, (1 / ), j 1,2,...,1161 j i i n g i y X b VN h h          模拟二 模拟三 模拟四 模拟五  在任意的显著水平p 值下,统计功效(power,或者TPR, Truth Positive Rate,同时也称敏感度(Sensitivity),所 以结果中有很多研究者给出不同的呈现,但都是一样的 意思,统计功效常用这三种表达方式)是指概率值小于 此临界值的真实的变异位点个数占设定变异位点总数的 百分比;假发现率(False discovery rate,FDR)概率值 小于此临界值的非变异位点占检测到的变异位点总位点 数的百分比;一类错误(Type Ⅰ error,这里用False Positive Rate,FPR表示)是概率值小于此临界值的非变 异位点个数占非变异位点总数的百分比;此外,特异度 (Specificity,其等于1-FPR)是指概率值小于此临界值 的真实的变异位点的个数占总的变异位点位点个数的百 分比(变异位点是指小于此临界值检测到的位点)。我 们这用ROC曲线(receiver operating characteristic curve, 受试者工作特征曲线)和AUC(Area Under roc Curve) 来衡量不同模型的总体表现优异程度。 Meng Luo ( Yangzhou University) June 15, 2018 21/71 ISR for GWAS 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  19.  评估估计的效应大小及表型解释率的精度  和Wen, zhou等研究员一样对于不同模型估计效应值大小的精度评估用平均平方误差 (Mean squared error,MSE)和平均绝对偏差(Mean absolute deviation,MAD)来衡

    量,而表型解释率(PVE)用均方根误差(Root of mean square error ,RMSE)公式如 下: 2 i 1 1 ( ) , 100 N i i MSE b b N N      2 i 1 1 | | , 100 N i i MAD b b N N      2 1 ( ) D r i PVE PVE RMSE D     Meng Luo ( Yangzhou University) June 15, 2018 22/71 ISR for GWAS 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  20.  比较的方法  我们将我们的方法与最近几年来最常用的六种全基因组关联分析方法。包括:(1) CMLM(Compress Mixed Linear Model),该方法执行在GAPIT R 软件包;(2)LMM

    (Linear Mixed Model)和LM(Linear Model),这两个方法执行在GEMMA(版本0.95, C++语言编写https://github.com/genetics-statistics/GEMMA)软件包;(3)FarmCPU方 法执行在FarmCPU R软件包;(4)FASTMrEMMA 方法执行在mrMLM R 软件包; (5)MLMM 方法执行在MLMM R软件包(或者另个版本Python 包);(6)FaST- LMM 执 行 在 FaST-LMM 软 件 包 中 ( C++ 及 Python 语 言 编 写 https://github.com/MicrosoftGenomics/FaST-LMM);(7)PLINK (Fisher’s exact test, C++语言编写http://www.cog-genomics.org/plink2)。而我们的方法执行在MLLM 软件包 (用MATLAB 语言编写),能够处理各种类型的数据格式,比如最常用的Plink格式。 Meng Luo ( Yangzhou University) June 15, 2018 23/71 ISR for GWAS 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  21. 图3 模拟四、五中不同模型的检测功效与敏感度的ROC曲线图 Human Meng Luo ( Yangzhou University) June 15,

    2018 25/71 ISR for GWAS Mice 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  22. 图4 在模拟一、二中ISR方法与其他六种方法对效应大小及表型解释率的精度比较 Meng Luo ( Yangzhou University) June 15, 2018

    26/71 ISR for GWAS  估计效应值与表型解释率的表现 Arabidopsis 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  23. 图5 在模拟二、四中ISR方法与其他六种方法对效应大小及表型解释率的精度比较 Human Meng Luo ( Yangzhou University) June 15,

    2018 27/71 ISR for GWAS Mice 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  24. 表1 比较结果六种不同方法检测到的位点与已知候选基因的关系 Phenotype ISR FarmCPU GEMMA CMLM MLMM(EBIC&mBonf) FASTmrEMMA LD

    13/20 6/9 9/11 1/1 0/0 5/6 LDV 9/18 5/5 3/5 0/1 0/0 6/10 SDV 15/22 4/7 3/6 0/1 0/0 2/6 SD 15/21 6/7 1/1 0/0 0/0 1/3 FLC 16/23 0/2 1/3 0/0 0/0 3/5 FRI 9/15 1/3 2/9 1/4 0/1 5/8 FT10 15/21 4/9 4/5 0/0 0/2 1/4 FT16 7/14 1/2 1/2 1/1 1/1 4/8 FT22 13/22 6/8 3/3 0/0 0/0 2/6 FTGH 12/21 2/6 13/17 0/0 0/0 2/3 LN10 13/13 5/5 0/0 0/0 3/3 5/9 LN16 14/22 5/7 2/2 0/0 2/2 6/10 LN22 16/22 6/8 0/0 1/1 0/0 8/12 8WGHLN 7/14 3/3 0/0 0/0 2/2 4/9 At1CFU2 14/17 0/0 0/0 0/0 1/1 8/12 RPGH 12/19 0/0 0/0 0/0 0/0 7/12  ISR 在真实性状研究中的表现  拟南芥全基因组关联分析结果 Meng Luo ( Yangzhou University) June 15, 2018 28/71 ISR for GWAS 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  25. Chromosome Expected -log10 (P) 图6 小白鼠骨密度的全基因组关联分析 小白鼠全基因组关联分析结果 Meng Luo (

    Yangzhou University) June 15, 2018 29/71 ISR for GWAS 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  26. 小结与讨论  解决混杂问题  近年来,著名的GWAS方法开发已经经历了从单位点 线性模型(主要是混合模型,如EMMA)到多位点 线性(混合)模型(最近,BLINK)的几个里程碑。 而其中不乏的都是提出了对基于LMM的关联方法的 改进(包括单位点和多位点线性模型)。而所有的改 进都是基于这样的一个假设,即群体结构校正,然而

    阴性效应是不能完全避免,原因是性状并不是近似的 服从无穷小遗传结构。  另外,群体结构导致连锁不平衡(LD)以至于不关 联的位点都可能与关联的位点有强烈的相关(假阳 性)。 Meng Luo ( Yangzhou University) June 15, 2018 30/71 ISR for GWAS 图8 ISR和FASTMrEMMA方法共同检测到的位点的100kb的关联区域 Power | type I error Computing speed GLM t test MLM EMMA P3D/EMMAX GEMMA FaST-LMM GenABEL CMLM MLMM ECMLM Select SUPER Speed improvement Power improvement Current improvement FarmCPU ISR QTCAT FASTmrEMMA 图7 近15年来全基因组关联分析流行算法一览 BLINK Meng Luo ( Yangzhou University) Interviewed in Majorbio
  27. 图10 模拟三中ISR和其他五种方法的平均计算时间 Meng Luo ( Yangzhou University) June 15, 2018

    31/71 ISR for GWAS 图9 ISR模型中alpha值的变化及加入基因型主成分个数做固定效应对模型检 测功效的影响  其他效应的影响及计算时间 小结与讨论 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  28. 二、重复筛选回归模型在数量性状上位性效应遗传作图中的应用 Meng Luo ( Yangzhou University) June 15, 2018 32/71

    ISR for E-GWAS Pandey A .Transl Psychiatry. 2012 Jiang Y, Nat Genet. 2017 Quan Y, Molecules. 2018 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  29. 材料与方法  群体数据 McCouch S.. et al, Nature Comm.2016 Rice

    dataset Chang, C, C.. et al, GigaScience.2015 human dataset Boby Mathew.. et al, Genetics. 2018 barley dataset Meng Luo ( Yangzhou University) June 15, 2018 35/71 ISR for E-GWAS  Grain length(GL)  n=1132  p=464,831  n1=1000  p1=100,000  n2=10000  p2=88,058  FT  n=533  p=3,446  n=278  p=270,820 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  30.  重复筛选逐步回归 (Iterative screen regression, ISR) 图11 基于重复筛选逐步回归模型进行上位性遗传作图的概述图 Meng Luo

    ( Yangzhou University) June 15, 2018 36/71 ISR for GWAS Build screening criterion of regression model Iterative Screen optimize Procedure Input dataset Application (sd) F(p) RIC f   Binomial regression analysis 1 ... , j i Y X X X i j        Optimization Optimize procedure 统计方法 Interaction(Epistasis) Scan 0 1 m m i k k kl k l i j k l y b b x b x x Q e         + 2 2 0 1 m m i k k kl k l k l i j k l y b b x b x x x x e           Meng Luo ( Yangzhou University) Interviewed in Majorbio
  31.  ISR模型  我们考虑如下的多元非线性回归模型: 2 1 , ~ (0, I)

    m m i k k kl k l j k l y x x x Q MVN               + Meng Luo ( Yangzhou University) June 15, 2018 37/71 ISR for E-GWAS 其中 是第i个个体的表型值, 是截距, 是第k个基因型变量, 对应的第k个变量 的效应大小, 是第k和l个的基因型乘积矩阵, 对应的就是这个变量的上位性效 应, 可以是任何的固定效应加入到模型中来, 是残差。 是残差方差, 是单位矩 阵; 是多元正态分布。 i y  k x k  k l x x Q  2  I MVN kl  统计方法  我们本研究中只与一种方法进行比较,该方法是最常 使用的穷举搜索单位点模型执行在PLINK。 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  32.  模拟设定 我们设定的广义遗传率是 ,不同的效应项的遗传方差设定不同,我们设定总的加 性方差为( ),剩下的都是上位性方差的( )。所以设定包含两组如下,第一组 全是加性效应,第二组全是上位性效应,并且每套数据都设定五个不同类型的模拟具体 设定如下: 1,这里我们设定

    ,所以加性的表型解释率(PVE)就是 ,则剩下就 是上位性效应 。 2,P1/P2,分别代表设定两个组变异位点(加性/上位性)的个数。模拟一:10/10;模拟 二:50/10;模拟三:90/10;模拟四:10/50;模拟五:10/90。我们知道 则代表加 性和上位性对表型的贡献是一样的,而 代表着加性是该复杂表型的主要效应。 %  (1- )%  {0.5,0.8}   2 (X ) V H    Meng Luo ( Yangzhou University) June 15, 2018 39/71 ISR for E-GWAS 材料与方法 2 =0.6 H 0.5   0.8   MAPIT, 2017, Plos Genetics lorin Crawford, BU Meng Luo ( Yangzhou University) Interviewed in Majorbio
  33.  ISR模拟中的表现 图13 模拟一、二中两种方法的检测功效和一类错误 Meng Luo ( Yangzhou University) June

    15, 2018 41/71 ISR for E-GWAS 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  34.  水稻IMF2群体 图15 IMF2群体的加性和显性效应之间的互作效应检测 a×a 图14 IMF2群体的加性(显性)效应之间的互作效应检测P<0.01 d×d Meng Luo

    ( Yangzhou University) June 15, 2018 42/71 ISR for E-GWAS 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  35.  大麦MAGIC群体 结果与分析 Meng Luo ( Yangzhou University) June 15,

    2018 43/71 ISR for E-GWAS 图16 大麦开花期关联分析的曼哈顿图与QQ图 图17 大麦开花期基因间的互作网络图 ISR Meng Luo ( Yangzhou University) Interviewed in Majorbio
  36. 小结与讨论 Meng Luo ( Yangzhou University) June 15, 2018 44/71

    ISR for E-GWAS  模拟中的结果展示在 时加性与上位性相同的变异位点下,检测的上位性效应 的功效比设定的加性效应的功效高,这也说明了重复筛选回归方法更适合对于非线 模型的变量筛选。同样的,不管在不同的模拟研究下,不同类型的数据类型中ISR能 够精确地评估出PVE),与zhou和zhu等研究的结果是一致的(RMSE的变幅)。 在人类数据集模拟中,分别在0.05(ISR)和1(PLINK)的Bonfferroni多重矫正下 PLINK的检测功效显著低于ISR方法,而且在同种功效下,PLINK的一类型错误高。 =0.5  Meng Luo ( Yangzhou University) Interviewed in Majorbio
  37. Meng Luo ( Yangzhou University) June 15, 2018 45/71 ISR

    for E-GWAS 小结与讨论  上位性QTL(加性与上位性)关联作图结果鉴定了许多与四个性状相关的QTLs, 其中大多数是涉及基因间相互作用(杂种优势),而且互作效应项的贡献率都是最 高的。另外这些QTL中,在20cM距离内至少有一个是已经克隆的基因 。相比复合区 间作图法,我们检测到了其没能检测到的变异位点。 我们鉴定的基因互作结果与Mathew等研究员运用的贝叶斯多位点模型检测的结果 相对一致,此外我们还检测到了更多的基因互作的QTLs(用的是5% Bonfferroni阈值 进行矫正)。 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  38. Meng Luo ( Yangzhou University) June 15, 2018 46/71 ISR

    for E-GWAS 小结与讨论 给出的真实表型的结果是相对保守的,因为我们都是以严格的显著值(0.05 bonferroni 矫正)来选择变异位点作为最终的结果。如果用相对较高的显著值来选出, 其结果可能会更佳。模型中同样也可以考虑加入环境或者其他的非遗传因素到模型 中进行模型矫正,一方面增加其检测的效率,另一方面降低一类错误的发生。其中 模拟的计算时间如下:平均时间(标准差),第一套数据模拟的平均时间1.34(0.2) 小时;第二套数据模拟的平均时间1.76(0.21)小时;第三套数据模拟的平均时间 1.44(0.16)小时;水稻真实表型的平均计算时间59.72(2.36)小时;大麦的计算时 间是74.38小时。所以可以看出ISR也是存在缺陷的。 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  39. 三、 运用重复筛选回归模型进行全基因组预测 Meng Luo ( Yangzhou University) June 15, 2018

    47/71 ISR for GS Meng Luo ( Yangzhou University) Interviewed in Majorbio Genomic Selection/Prediction
  40. Meng Luo ( Yangzhou University) June 15, 2018 48/71 ISR

    for GS 背景  Genomic Selection/Prediction Peter L. Morrell, Nature Reviews Genetics,2012 https://www.eurofinsus.com/biodiagnostics/our- services/molecular-breeding/genomic-selection/ Zeratsion et al. 2014.TRENDS in Plant science André Eggen, Animal Frontiers, 2012 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  41. 材料与方法  群体数据 Zhe Zhang.. et al, G3.2015 Cattle dataset

    Outbred CFW mice Clarissa C Parker et al. Nat Genet 2016. wheat dataset Prof.Guihhua Bai Meng Luo ( Yangzhou University) June 15, 2018 51/71 ISR for GS McCouch S.. et al, Nature Comm.2016 Rice dataset  MY,MFP,SCS  n=5024  p=42,551  Grain length(GL)  n=1132  p=464,831  GC,PHS  n=185  p=27,521  BMD,EDL,PPI12,TA,SOL EUS  n=1171  p=92,734 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  42. Meng Luo ( Yangzhou University) June 15, 2018 52/71 ISR

    for GS  预测方法  RR-BLUP  在RR-BLUP中,所有标记效应具有相同的方差,α服从均值为0、协方差矩阵为 的多元正态分 布, 被看做一个服从逆卡方分布的未知量。  BayesA  在BayesA中,先验的假定是第j个标记的效应服从均值为0、方差为 σj 2 的正态分布,其中σj 2 服从尺度 逆卡方分布。  BayesB  在BayesB中,第j个标记的效应αj =ξj δj ,其中δj 为对应于第j个标记的贝努利变量,它取值为0的概率是π, 取值为1的概率是1-π,参数π被看作是一个常数。 预测方法 2 a I 2 a  Meng Luo ( Yangzhou University) Interviewed in Majorbio
  43. Meng Luo ( Yangzhou University) June 15, 2018 53/71 ISR

    for GS  BayesC  在BayesC中,每个标记的效应αj 是0的概率为π,服从均值为0方差为σj 2的概率为1-π,其中σj 2服从逆卡 方分布。这里 π =0,且服从均匀先验分布( 若π被当做变量,则称BayesCπ )。  Bayesian LASSO  Bayesian LASSO的模型如下: 其中,回归系数被赋予双指数先验分布,即: 本研究中参数λ的先验分布采用beta分布,即: ) , | Beta( ) | p( 4 3     max ,max ,α α 4 3  } | | ) ( ) ( { 2 min      j j i t y    α Zi ) | | exp(- 2 ) | p( j j α α     预测方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  44. Meng Luo ( Yangzhou University) June 15, 2018 54/71 ISR

    for GS  混合模型的效应大小的假设: 2 ( 0 ) , / . ( ) i b N p      BVSR 假设只有部分的SNPs有效应: 2 0 ( ( 0, / )) ( ) 1 i a N p           所以以上的两个模型的结合就是: Bayesian sparse linear mixed model (BSLMM) Prof.Xiang Zhou /UMICH  BSLMM 预测方法 Xiang zhou, Plos Genetics, 2013.  其主要是不依赖任何特定的假设,而是根据狄利克雷过程回归(Dirichlet Process Regression, 也是一个随机的过程)来给予特定适合模型的假设,并给出了适合的先验分布。研究者给出两 种方法第一种是基于贝叶斯变量筛选的方法(DPR.VB,Variational Bayesian),该方法计算速 度快,但是准确率低;第二种是基于马尔可夫链蒙特卡罗抽样的方法(DPR.MCMC),该方法 的准确率最高但是计算时间较长。  DPR Pin Zeng..., NC, 2017. Meng Luo ( Yangzhou University) Interviewed in Majorbio
  45. Meng Luo ( Yangzhou University) June 15, 2018 55/71 ISR

    for GS 预测方法 Prof. Gerhard Moser /AAC/UQ  BayesR Gerhard Moser…, Plos Genetics,2015  假设所有的SNPs的效应都来自四个分布的叠加, 既是先验假设的效应大小如下:  MultiBLUP Doug Speed…, Genome Res. 2014. Meng Luo ( Yangzhou University) Interviewed in Majorbio
  46.  重复筛选逐步回归 (Iterative screen regression, ISR) 图18 基于重复筛选回归模型进行基因组预测的概述图 Meng Luo

    ( Yangzhou University) June 15, 2018 56/71 ISR for GWAS Build screening criterion of regression model Iterative Screen optimize Procedure Input dataset Application (sd) F(p) RIC f   1 ... , j i Y X X X i j        Optimization Optimize procedure 统计方法 Genomic Selection 2 , ~ MVN(0, I ) e n y W X         2 1 , ~ (0, I) m m i k k kl k l j k l y x x x Q MVN               + Meng Luo ( Yangzhou University) Interviewed in Majorbio
  47.  ISR方法 Meng Luo ( Yangzhou University) June 15, 2018

    57/71 ISR for GS 本研究运用如下重复筛选回归模型: 2 , ~ MVN(0, I ) e n y W X         其中y是在n个个体上测量表型数据的 向量; 是协变量(固定效应,可以是 基因型计算的主成分,一般前5个成分) 矩阵,其中也包括截距项的 矩阵(全是1); α 是协变量的系数 向量; X是基因型数据的 矩阵; β 是效应大小的对应 p 向量;ε 是残差的 向量,其中每一项都假定服从正态分布; 是一个 的单位矩阵,MVN表 示多元正态分布。这里像很多之前的假设方式一样的β的效应大小服从方差为 的正态分布 ( )。 1 n   1 2 , c W w w w   1 c n p  n n  n I n c  1 n 2 ~ (0, ) N   1 n  统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  48.  模拟设定 Meng Luo ( Yangzhou University) June 15, 2018

    58/71 ISR for GS  我们使用来自现黑白花牛GWAS数据集,其包含了5024个体和42551个SNP用来模拟表型。为了涵盖一系列可能 的基因结构,我们考虑了四种不同模拟情景模拟设置。 模拟一是设定随机选择的100个SNP,其中10个SNP作 为第一组,另40个作为第二组,剩下的作为第三组。模拟的效应大小服从标准正态分布,且每个组的表型解释 率分别设定为0.15、0.25和0.6。同样我们设定三种代表着低、中和高的总的表型解释率(PVE,狭义遗传率) 分别为0.2、0.5和0.8。模拟二在模拟一的基础上增加50个SNP,主要加在第三组上,其他的不变。模拟三我们 随机选择500个SNPs,其中50个SNP作为第一组,另150个作为第二组,剩下的作为第三组。模拟的效应大小服 从标准正态分布,且每个组的表型解释率分别为0.15、0.25和0.6。同样我们设定三种低、中和高的总的表型解 释率(PVE,狭义遗传率)分别为0.2、0.5和0.8。模拟四,该模拟主要是与BayesR假设是一致的,我们还是随 机选择500个SNPs,其中50个SNP作为第一组,另150个作为第二组,剩下的作为第三组。三组模拟的效应大小 则服从均值为0,方差分别是10-2、10-3和10-4的正态分布,且每个组的表型解释率分别为0.15、0.25和0.6。同样 我们设定三种代表着低、中和高的总的表型解释率(PVE,狭义遗传率)分别为0.2、0.5和0.8。 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  49.  评估方法 Meng Luo ( Yangzhou University) June 15, 2018

    59/71 ISR for GS  我们主要是用测验集评估的育种值(称GEBV)与真实育种值(TBV)之间的相关系数(R)来代 表其预测准确性(Prediction Accuracy),而其平方称为可靠性。另外参考Zeng与Weissbrod的评估 方法,我们对比了其他方法的预测力与ISR的预测力(相关系数,R)和均方误差(MSE)的差值 来评估。因此,低于零的R差值或高于零的MSE差值表明比ISR表现得更差,反之亦然。  在每个模拟设置中,我们执行了20次模拟重复。在每个重复中,我们将数据随机分为80%个体作 为训练集和其余20%个体的作为测试集。然后,我们对训练集使用不同的方法,并评估它们在测 试集上的预测力(即蒙特卡洛交叉验证)。而在真实的表型分析中除了小麦的数据集,我们都采 用与模拟同样的方法进行分析,这主要是参考了zeng等同样的研究分析方法。由于小麦的数据集较 小,所以我们使用了10倍交叉验证(Cross validation)的方法来分析不同方法预测力的高低,其就 是每次随机都将样本分成十等份,其中九份作为训练样本,另一份用作验证样本,既用九份样本 估计参数来预测剩余的一份,依次循环10次,直至所有个体都被预测。 统计方法 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  50. 结果与分析  ISR模拟中的表现 Meng Luo ( Yangzhou University) June 15,

    2018 60/71 ISR for GS 图19 比较了六种方法与ISR在模拟I中的预测表现 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  51. Meng Luo ( Yangzhou University) June 15, 2018 61/71 ISR

    for GS 图20 比较了六种方法与ISR在模拟III中的预测表现 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  52. Meng Luo ( Yangzhou University) June 15, 2018 62/71 ISR

    for GS 图21 比较了几种方法与ISR来自两个数据集四个性状中的预测表现  ISR真实表型中的表现 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  53.  ISR真实表型中的表现 Meng Luo ( Yangzhou University) June 15, 2018

    63/71 ISR for GS 图22 比较了几种方法与ISR来自小麦数据集五个性状中的预测表现 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  54.  ISR真实表型中的表现 Meng Luo ( Yangzhou University) June 15, 2018

    64/71 ISR for GS 图23 比较了几种方法与ISR来自两个数据集五个性状中的预测表现 结果与分析 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  55. 小结与讨论 Meng Luo ( Yangzhou University) June 15, 2018 65/71

    ISR for GS 图24 模拟和真实表型中不同模型预测力的聚类分析  模拟与真实表型不同模型的预测力的聚类分析(这里变量间(行和列为目标)的距离和类间距离 分别运用切比雪夫距离和离差平方和法)结果发现,正如模拟结果一致的四种方法DPR、ISR和 BayesA、BayesB表现最优。 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  56. March 18, 2017 Meng Luo ( Yangzhou University) June 15,

    2018 66/71 ISR for GS  TOPSIS综合评价:方法(综合得分(排名)):BayesB(0.60(1))、BayesA(0.59 (2))、ISR(0.57(3))、DPR(0.50(4))、BayesLASSO(0.48(5))、rrBLUP (0.47(6))、BSLMM(0.38(7))和BayesC(0.26(8))。  如果该性状是由很多基因及微效基因(所有的SNPs遗传标记都有较小的效应)控制的,则 会出现预测力较低的情况,比如花牛的三个性状的预测力就是相对其他的方法较低,与模 拟500SNPs时的结果是一样的(低中遗传率下)。但是如果结合基因间的互作考虑的话, 其预测力将会有所提高。  虽然,正如模拟与真实表型结果给出的ISR优于其他的模型,但该模型任有很多的改进空 间,比如算法的改进结合模型目标函数的优化都能够使得ISR表现更佳。而对于计算时间 的复杂程度也是有待优化的。 小结与讨论 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  57. March 18, 2017 Meng Luo ( Yangzhou University) June 15,

    2018 67/71 ISR for GS  本文针对全基因组关联分析和基因组选择中面临的遗传力丢失、上位性效应检测困难等问 题(都是统计上的超饱和模型问题)提出了一种新的方法,即重复筛选法。并将之应用到 全基因组关联分析、基因组选择和数量性状上位性的遗传作图中。而且通过实例数据验证 了本方法在在上述应用的可靠性和有效性。研究成果在数量性状的遗传解析中具有重要的 应用价值。 主要结论 Meng Luo ( Yangzhou University) Interviewed in Majorbio
  58. Meng Luo ( Yangzhou University) June 15, 2018 68/71 ISR

    for GWAS&E-GWAS&GS  攻读硕士学位期间的研究成果 • Tao Li, Meng Luo, Dadong Zhang, Di Wu, Lei Li, Guihua Bai. Effective marker alleles associated with type 2 resistance of wheat to Fusarium head blight infection in fields. Breeding Science, 2016, 66(3):350-357. • 钱丹,骆孟,董晶晶,李长成,李磊,李韬.小麦品种宁7840突变体农艺性状和赤霉病抗性解析[J]. 麦类作物学报 . 2016(02) 119 • 李韬,骆孟,钱丹,董晶晶,顾世梁.抗赤霉病小麦地方品种黄方柱和海盐种EMS突变体的变异分析[J]. 植物遗传资源学 报 . 2016(06) 71 • 龚璇,骆孟,肖天晶,曹静,李磊,李韬.小麦突变体群体赤霉病抗性及农艺性状变异解析[J]. 扬州大学学报(农业与生命科 学版) . 2017(04) 28 • 施璇,李磊,郑彤,骆孟,李韬.小麦类过敏反应突变体对氮素的响应及对白粉病的抗性[J]. 麦类作物学报 . 2018(04) • Meng Luo, Tao Li, Shiliang Gu. An Efficient Iterative Screen Regression Method for Genome-Wide Association Studies in Structured Populations. 2018, (Current preprint (BioRxiv)). • Meng Luo, Shiliang Gu. Iterative Screen Regression Models for Genetic Mapping Studies of Epistasis of Quantitative Traits. 2018, (Current preprint (BioRxiv)). • Meng Luo, Shiliang Gu. Genetic Prediction of Complex Traits with Iterative Screen Regression Models. 2018, (Current preprint (BioRxiv)). • Meng Luo, Shiliang Gu. Solve traveling salesman problem using EMF-CE algorithm. Transactions on Evolutionary Computation. (under review). • LUO Meng, ZHANG Ming-Yan, PENG Yong-Xin, GUO Wen-Shan, ZHU Xin-Gai, LI Chun-Yan, BAI Gui-Hua, LI Tao and FENG Chao-Nian. Genome-Wide Association Analysis between SNP Markers and Zinc Content in Wheat Grains. Acta Agronomica Sinica, (in Chinese and under review). Core Journals!  Unpublished Meng Luo ( Yangzhou University) Interviewed in Majorbio
  59. Meng Luo ( Yangzhou University) June 15, 2018 69/71 ISR

    for GWAS&E-GWAS&GS  个人网站  ISR Tutorial http://mengluocv.me Homepage Genotype Data ATTCTG ATTCTG 2/1 ATTCTG ATTGTG 1/0.5 ATTGTG ATTGTG 0/0 Sequence/Genotypes Data procedure Plink&Tassel-JAVA File.Tram to file.mat ISR Methods C++&C&Python Meng Luo ( Yangzhou University) Interviewed in Majorbio Blogs
  60. Meng Luo ( Yangzhou University) ISR for GWAS&E-GWAS&GS Meng Luo

    ( Yangzhou University) Interviewed in Majorbio  下步的工作计划(工作意向)  有遗传大数据分析和公众健康、癌症和免疫治疗以及涉及基因方面的研究等。(最大期望)  利用数学模型和统计学方法,对和医疗与健康有关的性状进行遗传学大数据分析。  能够参于组学相关大数据挖掘分析,其主要是能够负责(参与)蛋白质组、转录组、代谢组 数据的分析。(加入一个好的团队) June 15, 2018 70/71
  61. Meng Luo ( Yangzhou University) ISR for GWAS&E-GWAS&GS Meng Luo

    ( Yangzhou University) Interviewed in Majorbio June 15, 2018 71/71