新浪微博
微信互动

蛋白质组数据的多元分析

     很明显,在实验中能提供大量信息的某项技术如双相电泳,是不适合用常规的统计学方法来分析的。如果一定要用常规的统计学方法,通常含有大量蛋白质点的一些 2D 凝胶就没有足够的自由度来分析。只有在研究蛋白质的上调或下调和有足够的样品时,才可以运用常规的统计学方法来分析。在正常情况下(有限的 2D 凝胶和大量的蛋白质点),想要快速找到感兴趣的蛋白质点,一般采用多元分析方法 [ 1,4] 。
   
     因此我们提出了一个新的涉及工作流程的多元分析方法,即产生假设的(hypothesis  generating ) 而不是假设驱使的(hypothesis driven ) 。这样,我们就能灵活自由地开发数据而不产生偏差,而且最终能运用生物学知识建立相关的假设。
 
     产生假设的分析是多元分析背后的整个概念的一个自然结果。传统的统计学分析往往是先建立一个假设,然后用实验来证明或推翻这个假设,也即是我们所谓的演绎分析。相对于传统的统计学方法,多元分析是一种归纳分析。因此假设是在一系列的计算实验之后建立的。
 
     多元分析以统计学和数学方法为基础,包括一些可视变量的数据分析及一些具有许多重要变化形式的体系研究 [ 5 ] 。
 
     在这里我们介绍主成分分析(principal  component  analysis,PCA ) 及偏小二乘回归(partial  least  squares  regression,  PLSR ) 。PCA 用以获得数据总貌以及数据之间的联系。PCA 分析可以用来找出数据库里的隐藏结构。PCA 提供了低维的数据方案,即将多维导向低维。在此过程中,有可能找出外在的观察结果、相似观察结果的归类及其他数据结构的分析。
 
     这项技术是以主要成分及直角坐标轴的数学技术为基础的。一个主要成分往往是指一个潜在的变量。这个变量不能直接测出但是可以通过和一套输入变量线性组合分析出来 [5] 。数据矩阵 X 可以分成结构和误差两部分。结构部分包含得分矩阵 T 和转置加载矩阵 PT,误差部分记为 E。主成分分析方法的数学方程式如下:
 
     X= T ·PT + E
 
     PCA 可以将大量的可能有关联的变量转化为少量没有关联的变量或主要成分。与初始变量线性组合的主成分坐标轴可以替换初始坐标轴。
 
     数据的结构是用横坐标代表样品,纵坐标代表变量。在本文中,横坐标代表凝胶,纵坐标代表蛋白点(点的强度)。主成分与样品间的关系称为分值,与变量间的关系称为负载。第一主成分包含数据库中尽可能多的变量,接下来的主成分包含尽可能多的剩余变量。
 
     PLS 用来关联校准数据的 y 矩阵(响应数据,response  data) 和定义仪器输出的 x 矩阵(描述性数据, descriptor  data) 。在本文中,y 代表实验样品,x 代表蛋白点。
 
    可以通过回归模型(regression modeling) 将两套数据进行关联加以校准。
 
    用多元数据分析 2D 凝胶的主要步骤如下所述。
 
    ( 1 ) 确定研究方案后建立蛋白的 2D 凝胶。
 
    ( 2 ) 用具备透射模式扫描的扫描仪使凝胶数字化。
 
    ( 3 ) 用数据分析软件分析数字化的 2D 凝胶。
 
    ( 4 ) 产生一张蛋白点列表。
 
    ( 5 ) 将表格数据输入到多元分析软件进行分析。
 
    ( 6 ) 做出关于蛋白点数据的 PCA 图。
 
    ( 7 ) 阐述分值及下载策略。
 
    ( 8 ) 返回到生物学问题。
 
    ( 9 ) 用 PLSR 分析样品蛋白响应变量。
 

 


 

上一篇:醋酸纤维素薄膜电泳简介
下一篇:影响电泳分离的主要因素
分享到: