Sequest是第一个通过将MS-MS数据与数据库序列匹配来鉴定蛋白质的算法,它是由John Yates和Jimmy Eng等人于1995年提出的。和其他类似算法或软件一样,Sequest的价值在于它可以相对快速地将MS-MS谱图分配给数据库中的特定肽序列。这使得蛋白质组学分析中的大量LC-MS-MS数据能够快速减少。这里需要强调一点,Sequest和类似的程序实际上并不能对谱图本身进行从头解析。因此,这些程序的结果输出取决于获得的MS-MS数据的质量以及所用数据库的完整性和准确性。
我们来看看Sequest的工作原理。当MS仪器进行MS-MS扫描时,不仅记录了MS-MS扫描本身,还记录了前体离子的m/z值。此信息与扫描数据一起存储。分析完成后,用户在电脑上打开Sequest程序,然后选择包含要分析的MS-MS扫描的数据文件。用户可以告诉Sequest用什么酶(例如胰蛋白酶)来消化蛋白质样品以及规定了是单电荷离子还是双电荷离子受到MS的影响。最后,用户选择一个要与之比较MS-MS数据的数据库。
启动程序后,数据库中的所有蛋白质都会用用户指定的酶(如胰蛋白酶)进行虚拟消化。这样会生成一个可能的肽的主列表与MS-MS扫描对比,接着对每个MS-MS扫描进行如下分析(图1):
1. 将每次MS-MS扫描的前体m/z用于从数据库中选择质量相同(在规定的质量耐受范围内)的肽。如果没有指定消化酶,程序只需选择所有可能的肽序列,这些序列对应在MS-MS扫描中分析的肽离子的质量。
2. 每个选定的肽产生对应的理论MS-MS图谱。
3. 将分析的MS-MS图谱与从数据库生成的每个理论MS-MS图谱进行比较。
4. 计算MS-MS扫描和理论MS-MS图谱之间每次匹配的相关分数。
图1.MS-MS谱图与数据库中的肽序列相关的序列算法操作示意图。
然后报告分析的每个MS-MS扫描的最佳匹配。数据文件(例如,LC-MS-MS)中所有MS-MS扫描的分析结果显示在基于web浏览器的窗口中,还显示了与任何特定蛋白质的MS-MS谱图相匹配的肽序列摘要(图2)。单个MS-MS扫描与数据库条目的匹配质量可以根据报告的相关性分数进行评估,也可以通过目视检查实际的MS-MS谱图来评估,该谱图覆盖了来自“最佳匹配”肽的预测b-和/或y-离子。从而更容易区分可靠匹配和不可靠匹配。例如,一个多肽中超过一半的预测b-和y-离子与谱图中的主要信号相匹配的MS-MS谱图通常是正确的匹配(图3)。另一方面,大多数突出的片段离子与假定肽的b-和y-离子不匹配的谱图通常是不正确的匹配(图4)。
图2.Sequest browser输出窗口显示实际MS-MS谱图离子与匹配肽序列预测的b-和y-离子的对应关系。
图3.Sequest browser输出窗口显示实际MS-MS谱产品离子与匹配肽序列预测的b-和y-离子的对应关系。实际的谱图与从匹配的肽序列中预测的b-和y-离子匹配不理想。
图4. 基于MS-MS光谱与肽序列的相关性,Sequest browser输出窗口描述匹配蛋白的序列覆盖情况的。
Sequest并不会对分配的匹配质量做出判断。该算法会将识别数据库中的最佳肽序列匹配到分析的每个MS-MS扫描,即使匹配质量很差。因此,用户必须结合自身知识和直觉来决定接受哪些匹配以及拒绝哪些匹配。汇总与MS-MS扫描匹配的数据库蛋白质可作为决策的一个辅助手段,这个显示在浏览器窗口中,按匹配次数逐一减少的顺序列出蛋白质(即MS-MS扫描匹配)。在不同的肽序列上出现几次高质量匹配的蛋白质很有可能被正确地识别出来。另一方面,与MS-MS谱图有一个或两个交叉匹配的蛋白质可能无法正确识别。在那些在被识别的蛋白质中,有几个不同的序列与数据文件中的MS-MS光谱高度匹配,这种情况的蛋白质鉴定是最可靠的。
有许多复杂因素会使Sequest分析耗时加长或精确度和完整降低。首先,许多肽具有共价修饰,这会改变实际分析的肽的m/z值。因此,Sequest要使用与数据库中未修饰肽质量不符的质量。在这种情况下,由于这种质量差异,修饰肽的MS-MS扫描和数据库序列不可能正确匹配。为了解决这个问题,Sequest允许用户指定对氨基酸的特定修饰,这样算法就可以搜索修改过的和未修改的变体。这在例如丝氨酸、苏氨酸或酪氨酸的磷酸化等修饰分析中相当有效。Sequest分析中的另一个问题是电荷状态(例如,单电荷离子与双电荷离子)错误地分配给MS-MS谱图的前体离子。如果一个单电荷离子被错误地指定为双电荷离子,它将与错误质量的数据库肽的理论MS-MS谱图进行比较,也可能会错误地将双电荷离子指定为单电荷离子。
根据所使用的数据库和计算平台,使用Sequest对包含约2000 MS-MS扫描的数据文件的分析可以在一小时内完成。Sequest提供的蛋白质匹配质量有时可以在几分钟内完成,通常在数据审查的一两个小时内进行。这与手动从头解析和BLAST搜索假定序列所需的数百到数千小时形成强烈对比。Sequest等分析软件为用户提供了快速评估大量LC-MS-MS数据以识别蛋白质的能力。当与自动化LC-MS-MS仪器控制(例如,依赖数据的扫描)和自动样品制备方法相结合时,Sequest和类似工具适用于蛋白质的自动化、高通量鉴定。
本文由百泰派克生物科技整理编辑,转载请注明出处。
百泰派克生物科技采用超高分辨率质谱技术,基于Thermo Fisher公司的Q Exactive质谱仪、LTQ Orbitrap Elite质谱仪、Orbitrap Fusion™ Lumos™ Tribrid™ 质谱仪等,结合 Nano-LC液相色谱技术,能够对蛋白质提取物、SDS-PAGE蛋白条带、2D蛋白胶点、pull-down及co-IP等样品中的蛋白质进行高效精准的蛋白质谱鉴定。
我们来看看Sequest的工作原理。当MS仪器进行MS-MS扫描时,不仅记录了MS-MS扫描本身,还记录了前体离子的m/z值。此信息与扫描数据一起存储。分析完成后,用户在电脑上打开Sequest程序,然后选择包含要分析的MS-MS扫描的数据文件。用户可以告诉Sequest用什么酶(例如胰蛋白酶)来消化蛋白质样品以及规定了是单电荷离子还是双电荷离子受到MS的影响。最后,用户选择一个要与之比较MS-MS数据的数据库。
启动程序后,数据库中的所有蛋白质都会用用户指定的酶(如胰蛋白酶)进行虚拟消化。这样会生成一个可能的肽的主列表与MS-MS扫描对比,接着对每个MS-MS扫描进行如下分析(图1):
1. 将每次MS-MS扫描的前体m/z用于从数据库中选择质量相同(在规定的质量耐受范围内)的肽。如果没有指定消化酶,程序只需选择所有可能的肽序列,这些序列对应在MS-MS扫描中分析的肽离子的质量。
2. 每个选定的肽产生对应的理论MS-MS图谱。
3. 将分析的MS-MS图谱与从数据库生成的每个理论MS-MS图谱进行比较。
4. 计算MS-MS扫描和理论MS-MS图谱之间每次匹配的相关分数。
图1.MS-MS谱图与数据库中的肽序列相关的序列算法操作示意图。
然后报告分析的每个MS-MS扫描的最佳匹配。数据文件(例如,LC-MS-MS)中所有MS-MS扫描的分析结果显示在基于web浏览器的窗口中,还显示了与任何特定蛋白质的MS-MS谱图相匹配的肽序列摘要(图2)。单个MS-MS扫描与数据库条目的匹配质量可以根据报告的相关性分数进行评估,也可以通过目视检查实际的MS-MS谱图来评估,该谱图覆盖了来自“最佳匹配”肽的预测b-和/或y-离子。从而更容易区分可靠匹配和不可靠匹配。例如,一个多肽中超过一半的预测b-和y-离子与谱图中的主要信号相匹配的MS-MS谱图通常是正确的匹配(图3)。另一方面,大多数突出的片段离子与假定肽的b-和y-离子不匹配的谱图通常是不正确的匹配(图4)。
图2.Sequest browser输出窗口显示实际MS-MS谱图离子与匹配肽序列预测的b-和y-离子的对应关系。
图3.Sequest browser输出窗口显示实际MS-MS谱产品离子与匹配肽序列预测的b-和y-离子的对应关系。实际的谱图与从匹配的肽序列中预测的b-和y-离子匹配不理想。
图4. 基于MS-MS光谱与肽序列的相关性,Sequest browser输出窗口描述匹配蛋白的序列覆盖情况的。
Sequest并不会对分配的匹配质量做出判断。该算法会将识别数据库中的最佳肽序列匹配到分析的每个MS-MS扫描,即使匹配质量很差。因此,用户必须结合自身知识和直觉来决定接受哪些匹配以及拒绝哪些匹配。汇总与MS-MS扫描匹配的数据库蛋白质可作为决策的一个辅助手段,这个显示在浏览器窗口中,按匹配次数逐一减少的顺序列出蛋白质(即MS-MS扫描匹配)。在不同的肽序列上出现几次高质量匹配的蛋白质很有可能被正确地识别出来。另一方面,与MS-MS谱图有一个或两个交叉匹配的蛋白质可能无法正确识别。在那些在被识别的蛋白质中,有几个不同的序列与数据文件中的MS-MS光谱高度匹配,这种情况的蛋白质鉴定是最可靠的。
有许多复杂因素会使Sequest分析耗时加长或精确度和完整降低。首先,许多肽具有共价修饰,这会改变实际分析的肽的m/z值。因此,Sequest要使用与数据库中未修饰肽质量不符的质量。在这种情况下,由于这种质量差异,修饰肽的MS-MS扫描和数据库序列不可能正确匹配。为了解决这个问题,Sequest允许用户指定对氨基酸的特定修饰,这样算法就可以搜索修改过的和未修改的变体。这在例如丝氨酸、苏氨酸或酪氨酸的磷酸化等修饰分析中相当有效。Sequest分析中的另一个问题是电荷状态(例如,单电荷离子与双电荷离子)错误地分配给MS-MS谱图的前体离子。如果一个单电荷离子被错误地指定为双电荷离子,它将与错误质量的数据库肽的理论MS-MS谱图进行比较,也可能会错误地将双电荷离子指定为单电荷离子。
根据所使用的数据库和计算平台,使用Sequest对包含约2000 MS-MS扫描的数据文件的分析可以在一小时内完成。Sequest提供的蛋白质匹配质量有时可以在几分钟内完成,通常在数据审查的一两个小时内进行。这与手动从头解析和BLAST搜索假定序列所需的数百到数千小时形成强烈对比。Sequest等分析软件为用户提供了快速评估大量LC-MS-MS数据以识别蛋白质的能力。当与自动化LC-MS-MS仪器控制(例如,依赖数据的扫描)和自动样品制备方法相结合时,Sequest和类似工具适用于蛋白质的自动化、高通量鉴定。
本文由百泰派克生物科技整理编辑,转载请注明出处。
百泰派克生物科技采用超高分辨率质谱技术,基于Thermo Fisher公司的Q Exactive质谱仪、LTQ Orbitrap Elite质谱仪、Orbitrap Fusion™ Lumos™ Tribrid™ 质谱仪等,结合 Nano-LC液相色谱技术,能够对蛋白质提取物、SDS-PAGE蛋白条带、2D蛋白胶点、pull-down及co-IP等样品中的蛋白质进行高效精准的蛋白质谱鉴定。