您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 蛋白质的功能与结构预测
基础生物信息学及应用李裕强2009.09基础生物信息学及应用第Ⅲ部分生物分子信息的分析第十章蛋白质的功能与结构预测基础生物信息学及应用本章内容:蛋白质家族和结构域数据库蛋白质功能预测蛋白质结构预测基础生物信息学及应用第一节蛋白质家族和结构域数据库本节内容:蛋白质模体及结构域数据库蛋白质家族数据库蛋白质结构数据库其它生物大分子数据库基础生物信息学及应用1、蛋白质模体及结构域数据库模体和结构域PROSITE数据库PRINTS数据库BLOCKS数据库ProDom数据库Pfam数据库SMART数据库InterPro数据库ConservedDomain数据库CDART基础生物信息学及应用蛋白质模体及结构域数据库模体(motifs)和结构域(domains):Biologistscangaininsightoftheproteinfunctionbasedonidentificationofshortconsensussequencesrelatedtoknownfunctions.Theseconsensussequencepatternsaretermedmotifsanddomains.AmotifisashortconservedsequencepatternassociatedwithdistinctfunctionsofaproteinorDNA.Itisoftenassociatedwithadistinctstructuralsiteperformingaparticularfunction.Atypicalmotif,suchasaZn-fingermotif,istentotwentyaminoacidslong.基础生物信息学及应用Adomainisalsoaconservedsequencepattern,definedasanindependentfunctionalandstructuralunit.Domainsarenormallylongerthanmotifs.Adomainconsistsofmorethan40residuesandupto700residues,withanaveragelengthof100residues.Adomainmayormaynotincludemotifswithinitsboundaries.Examples,transmembranedomains,ligand-bindingdomains.蛋白质模体及结构域数据库基础生物信息学及应用IdentificationofmotifsanddomainsheavilyreliesonmultiplesequencealignmentaswellasprofileandhiddenMarkovmodel(HMM)construction蛋白质模体及结构域数据库基础生物信息学及应用PROSITE(蛋白质家族及结构域数据库):Thefirstestablishedsequencepatterndatabase是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等。PROSITE还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个(未知)序列是否具有相应的特征。Thefunctionalinformationofthesepatternsisprimarilybasedonpublishedliterature.蛋白质模体及结构域数据库基础生物信息学及应用Tosearchthedatabasewithaquerysequence,PROSITEusesexactmatchestothesequencepatterns.基础生物信息学及应用PRINTS(蛋白质模体指纹数据库):Afingerprintisagroupofconservedmotifsusedtocharacteriseaproteinfamily;itsdiagnosticpowerisrefinedbyiterativescanningofaSWISS-PROT/TrEMBLcomposite.Usuallythemotifsdonotoverlap,butareseparatedalongasequence,thoughtheymaybecontiguousin3D-space..提供蛋白质同源性分析,蛋白质模体指纹分析,系统发生和序列进化分析,以及微阵列分析,并提供生物信息学和PRINTS数据库数据下载。蛋白质模体及结构域数据库基础生物信息学及应用基础生物信息学及应用BLOCKS:AdatabaseofblocksBlocks:ungappedmultiplealignmentsderivedfromthemostconserved,ungappedregionsofhomologousproteinsequences.Theblocks,whichareusuallylongerthanmotifs,aresubsequentlyconvertedtoPSSMs.Becauseblocksoftenencompassmotifs,thefunctionalannotationofblocksisthusconsistentwiththatforthemotifs检测和鉴定蛋白质模体,有BLOCKsearch、GetBlocks和BlockMaker工具Aquerysequencecanbeusedtoalignwithprecomputedprofilesinthedatabasetoselectthehighestscoredmatches.蛋白质模体及结构域数据库基础生物信息学及应用基础生物信息学及应用ProDomDomaindatabaseProDomisacomprehensivesetofproteindomainfamiliesautomaticallygeneratedfromtheSWISS-PROTandTrEMBLsequencedatabasesThedomainsarebuiltusingrecursiveiterationsofPSI-BLAST.提供相似性搜索、来自SWISSPROT相关结构域的多序列比对蛋白质模体及结构域数据库基础生物信息学及应用Pfam(ProteinfamiliesdatabaseofalignmentsandHMMs)AdatabasewithproteindomainderivedfromsequencesinSWISSPROTandTrEMBL.EachmotifordomainisrepresentedbyanHMMprofilegeneratedfromtheseedalignmentofanumberofconservedhomologousproteins.ThePfamdatabaseiscomposedoftwopartsPfam-AinvolvesmanualalignmentsPfam-B,automaticalignmentinawaysimilartoProDom(PSI-BLAST).ThefunctionalannotationofmotifsinPfam-AisoftenrelatedtothatinPROSITE.Pfam-BonlycontainssequencefamiliesnotcoveredinPfam-A.Becauseoftheautomaticnature,Pfam-BhasamuchlargercoveragebutisalsomoreerrorpronebecausesomeHMMsaregeneratedfromunrelatedsequences.蛋白质模体及结构域数据库基础生物信息学及应用基础生物信息学及应用SMART(SimpleModularArchitectureResearchTool):ContainsHMMprofilesconstructedfrommanuallyrefinedproteindomainalignments.AlignmentsinthedatabasearebuiltbasedontertiarystructureswheneveravailableorbasedonPSI-BLASTprofiles.AlignmentsarefurthercheckedandrefinedbyhumanannotatorsbeforeHMMprofileconstruction.Proteinfunctionsarealsomanuallycurated.蛋白质模体及结构域数据库基础生物信息学及应用SMART(SimpleModularArchitectureResearchTool):ThedatabasemaybeofbetterqualitythanPfamwithmoreextensivefunctionalannotations.ComparedtoPfam,theSMARTdatabasecontainsanindependentcollectionofHMMs,withemphasisonsignaling,extracellular,andchromatin-associatedmotifsanddomains.Sequencesearchinginthisdatabaseproducesagraphicaloutputofdomainswithwell-annotatedinformationwithrespecttocellularlocalization,functionalsites,superfamily,andtertiarystructure.蛋白质模体及结构域数据库基础生物信息学及应用基础生物信息学及应用基础生物信息学及应用基础生物信息学及应用基础生物信息学及应用InterPro:AnintegratedpatterndatabaseThedatabaseintegratesinformationfromPROSITE,Pfam,PRINTS,ProDom,andSMARTdatabases.Thesequencepatternsfromthefivedatabasesarefurtherprocessed.Onlyoverlappingmotifsanddomainsinaproteinsequencederivedbyallfivedatabasesareincluded.Apopularfeatureofthisdatabaseisagraphicaloutputthatsummarizesmotifmatchesandhaslinkstomoredetailedinformation.蛋白质模体及结构域数据库基础生物信息学及应用基础生物信息学及应用CDD(ConservedDomainDatabase)acollectionofmultiplesequencealignmentsforancie
本文标题:蛋白质的功能与结构预测
链接地址:https://www.777doc.com/doc-4544169 .html