Quantitative structure-activity relationships and quantitative structure-biodegradability Zhao Yuanhui, Liu Xitao, Yuan Xing, Lu Guanghua 定量结构-活性相关及定量结构-生物降解性相关 赵元慧 刘希涛 袁星 陆光华 (东北师范大学环境科学系,长春 130024) 2001年5月11日收稿;国家自然科学基金资助项目(No.29877004) 摘要 本文以定量结构-活性相关研究理论为基础,介绍了定量结构-活性相关基本原理、方法,定量结构-活性相关研究中使用的各种分子结构描述符、毒性分类和定量结构-活性相关方程,并对有机污染物生物降解性的分类、生物降解速率限制步骤、定量结构-生物降解性相关的建立方法和模型作了综述。关键词 定量结构-活性相关,分子描述符,急性毒性,生物降解性。
有机污染物的危险性评价主要包括:污染物在环境中残余浓度的评价和生态效应的评价两部分,这就需要进行理化性质和生物活性实验,以预测它们在环境中的迁移、转化及生态效应。但是对污染物质进行危险性评价将耗费大量的人力、物力和财力,而利用定量结构-活性相关可以大大的简化这一过程,该方法是研究结构-性质之间的因果关系、结构-活性之间的量变规律、性质-活性之间的相互联系,利用统计学方法,建立一系列化学物质的生物活性、迁移转化性质与它们的理化性质、结构参数的相关性,从而达到预测和研究化学物质的生物毒性、穿透生物膜能力、生物降解性、代谢和沉积物吸附等目的。 1.1 QSAR的原理 有机化合物定量结构与活性相关(QSAR)的研究最初作为定量药物设计的一个研究分支领域,是为了适应合理设计生物活性分子的需要而发展起来的。近20多年来,随着计算机技术的发展和广泛应用,QSAR的研究已经提高到了一个新的水平,并在环境化学等领域得到了广泛的应用。许多环境科学研究者通过各种污染物结构参数与毒性数据之间的定量关系研究,建立了许多具有毒性预测能力的环境模型,对已进入环境的污染物及尚未投放市场的新化合物的生物活性、毒性乃至环境行为进行了成功的预测、评价和筛选。QSAR在环境领域中已显示出极其广阔的应用前景。 1.2 QSAR的作用 QSAR作为一种预测技术的优点已很明显,它具有预测化学物质的生态效应和环境性质的潜在能力,以减少动物实验次数,QSAR的其它优点还包括它可以帮助我们理解化合物对生物毒性作用的机制。QSAR的作用有以下几点:(1)提供可靠、简便的估算污染物质潜在危害的方法,以便减少或避免耗时、耗力的实验方法;(2)提供化学物质分类原则,区别离群化合物;(3)帮助理解化学物质作用机理。 得到可靠QSAR模型的基本条件是[18]:化学物质的结构和作用机理应相似;具有可靠、有关的分子描述符,来描述分子的结构特征;代表性化合物;可靠的数据分析统计学方法;同种方法测量的数据;及获得可靠的模型。 1.3 QSAR分析方法 在QSAR研究中,一般可将数据分析方法分成三大类:(1)多元回归分析(又称单变量方法univariate method):主要用来研究相似性化学物质。(2)多变量方法:研究不同类型的化学物质,以获得结构信息模型,通常采用的方法有判别分析、模型识别技术、主成分分析和因子分析。(3)亚结构分析:一般用于研究可降解和不可降解性化学物质潜在的降解能力,如聚类分析和序列分析。其中,多元回归分析是环境化学、环境毒理学QSAR研究中最普通、最常用的分析方法。 1.4 描述符 QSAR研究基础是分子和分子碎片描述符,分子描述符有:理化参数、几何参数、电子参数和拓扑指数,Gvers和Voogt[19]对分子描述符进行了详细分类。 1.4.1 结构描述符 分子结构系统是由小的单位构成,系统中每个小单位有其相对位置和准确的大小。 ·电子结构描述符:代表电子的数量,描述电子在分子和原子中的分布方式,它们可根据拓扑学和量子化学方法直接计算获得,和结构有关的分子性质也属这类描述符,许多这些性质可根据宏观实验方法直接得到,较常用的电子结构描述符有:价连接指数、原子上的电子电荷、电矩(如偶极矩)和极化率。 ·原子/碎片/分子结构描述符:代表着原子、原子基团的数量或原子、基团组成分子的方式,它们可能因为构成分子的原子和键的取值不同而不同,这些描述符可通过量子力学、半经验(原子-原子势)、数学方法及实验测量来获得。 这些描述符又可进一步分成几何描述符和拓扑描述符。几何描述符可根据准确的原子中心的位置及原子半径计算得到(非立体描述符和分子内部结构有关,立体描述符和分子外部结构有关),对称性描述符也可属这类描述符,它们描述分子叠加在本身上的一种操作符,在其操作过程中,分子的几何结构没有变。几何结构描述符有长度、宽度比、距离指数、Van der Waals 体积和立体重叠体积。 拓扑描述符用来描述分子结构性质,当分子变形但键没有断裂时,其描述符值不变。拓扑描述符包括:原子数量(或原子团数量)和连接指数,连接指数由分子的拓扑学确定,对应于邻近非氢原子数,分子中每个原子被给定一定的数值(δ),这样一阶连接指数为所有相连2个原子i和j的集合值(δi·δj)-1/2[20]。 ·分子间结构描述符:描述分子间相对位置及方位,例如:生物活性化合物和受体靶位的结合方式或连接方式,量子化学、几何方法和半经验(原子-原子势)方法及实验方法可以获得这些描述符。 ·宏观结构描述符:用来描述宏观状态结构,它们可以用来计算前面提到的结构描述符及预测物理化学性质,通常可用实验方法获得,较普遍使用的宏观结构描述符有摩尔体积和密度。 1.4.2 (自由)能量描述符 自由能描述符是描述系统中元素间或系统和其环境之间的反应,在分子或亚分子水平上,当处理少量粒子时,仅仅(量子力学)能量是相关的,在宏观水平上或处理大量粒子时,(统计)热力学自由能或焓和熵是相关的。 ·熵:描述系统有序的程度。象摩尔体积一样,其又可划分到宏观描述符中,而且,熵的热力学表达式和信息理论表达式很相似。 ·电子(自由)能描述符:描述原子、键和分子的电子能量,包括原子、分子中电子间的吸引和排斥,它们可用量子力学方法计算或由实验测得的性质中获得,代表性的电子能量描述符有:电负性、离子势、电子亲合性、Hammett电子常数、还原势及Hückel π键能。 ·原子/分子(自由)能描述符:如键长、分子间力和分子内的原子-原子势,反映原子键的长度,分子中原子间的吸引和排斥作用,它们和分子的化学稳定性和分子活性有关,这些性质可用量子力学和半经验(原子原子势)方法计算得到或由实验测得的宏观性质推得。 ·分子间(自由)能描述符:如Taft常数,势能场参数(Potential Energy Field Parameters)和反相色谱保留指数,用来描述Van der Waals(静电、诱导和色散)作用、分子间H-键能、分子间电荷转移能和排斥能。这些性质可由量子力学和半经验(原子--原子势,Lippingcot-Schröder势)方法计算得到,也可根据宏观测得的性质推得,如:苯甲酸的离解常数和醚的水解常数。 ·宏观(自由)能描述符:如辛醇/水分配系数、色谱保留指数、酸/碱离解常数(pKa)和醚的水解常数,这些分子描述符的计算方法如上,它们主要用来研究性质--活性相关(PAR,Physical Property--Activity Relationships)。 2 有机污染物对水生生物的毒性及构效关系 2.1 化学物质对水生生物的急性毒性分类 有机化学物质对生物的急性毒性作用可分为2大类,非反应性和反应性化合物,Lipnick和Verhaar[21,22]等对化合物的分类进行了详细描述。 (1)非反应性化合物:非反应性物质包括:非极性麻醉型(如:烷烃,烯烃,醚,氯代苯,烷基苯等)和极性麻醉型(如pKa>8.0的酚、胺),这类化合物的毒性作用机制是临界体积理论[23,24]。该理论认为毒性物质穿过细胞膜进入了细胞类脂双层结构组织(如神经细胞),当达到一定水平时,即邻界体积,由于化学物质的膨胀阻塞了离子通道,破坏了细胞正常代谢作用,产生了麻醉作用,其效应的大小和化合物的亲脂性大小成正比,因此这类化合物的毒性效应(非极性麻醉型和极性麻醉型)分别与辛醇/水分配系数有良好的相关性。 (2)反应性化合物:反应性化合物可分为:①亲电性化合物[25,26]。这类化合物能与亲核靶位发生双分子亲核取代反应,形成共价键,而使靶分子失去生物活性。如a,b-未饱和酮[21,25],其能与生物分子中(如酶中的-SH)亲核部分形成共价键,环氧化合物可与蛋白质中的硫氢基、羧基、氨基、酚等形成不可逆的亲电反应,在神经生理条件下,生物内的亲核基团(如-SH)可能与碳原子发生双分子亲核取代反应(伯>仲>叔)。另一类亲电性化合物是硝基苯类。Cronin[26,27]等认为该类化合物能与细胞中的亲核物质如核酸或蛋白质发生反应,最近研究表明硝基苯类可与皮肤蛋白发生作用,用来研究皮肤的敏感度[25,28,29]。②弱酸呼吸去偶合化合物(Weak Acid Respiratory Uncoupler)[30,31]。这类化合物通常含有弱酸基团(如氨或羟基)、体积较大的疏水性芳香基团部分和多重电负性基团(如硝基、卤代基团),这些化合物的pKa一般小于6.3,如2,4-二硝基酚和五氯酚,这类化合物被认为通过去质子化作用(Protonophoric Action)产生毒性效应。③其它的毒性机制。丙烯醇为超亲电性化合物[21],多环芳烃为致突变性化合物[32],醛类为Schciff--base物质,a-二酮是精氨酸残余物(Arginine Residues)的阻断剂,g-二酮是微管蛋白(Tubulin)的阻断剂等[33]。 2.2 化学物质与生物作用的靶位 化学物质在生物体内的作用靶位主要有5个:(1)细胞复制和蛋白质合成部位;(2)酶(代谢活性):制造新分子的地方;(3)接受体(传播信息物质):通过荷尔蒙作用改变细胞活性的地方;(4)传输系统:有选择性的穿透组织(如细胞壁);(5)储存地:分子以非活性形式被储存、以后使用的地方。 2.3 非反应性化合物QSAR理论方程 根据“临界体积”理论,麻醉现象的发生是由于化合物进入了靶位(如神经细胞类脂双层),当化合物积累到一定的体积(临界体积)时,由于膨胀破坏了细胞的正常结构和功能,产生麻醉作用,也称基本毒性模型[34]。根据麻醉机理,化合物的麻醉效应(E)应正比于靶位上化合物的临界体积(VC): E= KC VC = KC VM [A] VT (1) 这里,VM是化合物的摩尔体积(L/mol),[A]是化合物在靶位上的浓度(mol/L),VT是靶位总体积(L),对于给定的生物,其是个常数。[A]VT是化合物质在靶位上摩尔数(mol),VM[A]VT=VC是化学物质在靶位上所占的体积,KC为比例常数。 当化合物产生同样麻醉效应时,不同化合物在靶位上的临界体积VC应相等。 E = KC VM1 [A1] VT = KC VM2 [A2] VT =…… = KC VMi [Ai] VT (2) 整理方程(2)得到: VM1 [A1] = VM2 [A2] = …… = VMi [Ai] = E/KCVT = c (3) 这里c为一常数。 通常我们观测的生物效应为水中有机物浓度[A]W,而不是靶位中有机物浓度[A]。如果假设化学物质在水中的积累与释放可用一级动力学来描述,并假设毒性实验用动力学方法测得(即水相浓度不随时间而变化),则化合物在水相与在靶位上浓度的关系为: [A]=[A]W k1/k2 [1- exp(k2t)] (4) 代入方程(3)得: log(1/[A]W)=logBCF + logVM + log[1- exp(k2t)] + c (5) 这里,k1和k2为积累和释放速率常数,BCF=k1/k2为生物富集因子。如果在毒性实验期间,化学物质可以达到富集分配平衡,则[1- exp(k2t)]≈1,方程(5)为: log(1/[A]W)=logBCF + logVM + c (6) 许多研究显示BCF和Kow具有良好的相关性,logBCF=alogKow + c,代入(6)式得: log(1/[A]W)=alogKow + logVM + c (7) 如果所研究化合物的摩尔体积与辛醇/水分配系数具有良好的相关性,则方程(7)可以进一步简化为: log(1/[A]W)=alogKow + c (8) 从方程(7,8)可以看到,如果化合物为麻醉型,其毒性效应应与logKow和logVM(式(7))或与logKow(式(8))具有良好的相关性[3,4]。 2.4 反应性化合物QSAR理论方程 根据反应性化合物理论,有毒化学物质对生物的急性毒性作用是化合物和生物体内靶位作用,使靶位分子失去活性而产生毒性效应[35,36],如果假设化学物质与靶分子的反应为可逆反应,则: A + R = RA , K = [RA]/[A][R] (9) 式中,A为化学物质,R为靶分子,RA为被化学物质结合的靶分子,K为平衡常数。设靶分子的总浓度用RT表示,则[R]=[R]T-[RA],代入(9)式得: [RA] = [A][R]T/(1/K + [A]) (10) 假设有机物与靶分子结合后靶分子失去了其功效,则生物效应(E)与化合物和靶分子结合的数目成正比: E = KC [RA] = KC[A][R]T/(1/K + [A]) (11) KC为比例常数。式(11)是理想的效应与剂量关系,当[A]® ∞ 时,E=KC[R]T=EM,为最大生物效应,一般设EM=100%。通常观测生物产生某一特定的生物效应,如鱼的致死效应,发光菌的发光抑制效应等。设产生某一特定效应时靶细胞内不同有机物浓度分别为[RA1],[RA2]......[RAi],则产生特定效应(ES)时,被化合物结合的靶分子的浓度应是相等的,[RA1]=[RA2]=……=[RAi],由(11)式得: ES = KC[A1][R]T/{1/K1 + [A1]} = KC[A2][R]T/{ 1/K2 + [A2]} = ......= KC[Ai][R]T/{1/Ki + [Ai] } (12) 整理(12)式得: K1[A1] = K2[A2]= ......=Ki[Ai] = 1/c (13) 式中,c = Kc[R]T/ES - 1,为常数。通常我们观测的生物效应为水中有机物浓度[A]W,而不是靶位中有机物浓度[A]。如果假设化学物质在水中的积累与释放可用一级动力学来描述,并假设毒性实验用动力学方法测得(即水相浓度不随时间而变化),则化合物在水相与在靶位上浓度的关系为(4)式,将(4)式代入方程(13)得: 1/[A]W = c K BCF [1 - exp(k2t)] (14) BCF=k1/k2,为生物富集因子。 一般认为有机物在生物体上的富集是分配过程,则logBCF=alogKow+c,Kow为辛醇/水分配系数。代入(14)式并两边取对数得: log1/[A]W = logK + alogKow + c + log[1 - exp(k2t)] (15) c为常数。对于分子较小的有机物(通常logKow<6), 假设在给定的毒性试验时间内接近富集平衡(如鱼的毒性试验为96小时), 即log[1-exp(k2t)]→0, 则: log1/[A]W = logK + alogKow + c (16) 从方程(16)可见,化学物质的活性大小取决于化合物与靶分子的结合能力(K)和穿透生物组织的能力(Kow),化学物质的结构不同和生物组织结构的差异,均会影响化合物的毒性效应[34,37]。 3 定量结构生物降解性相关(QSBR) 3.1 生物降解的分类 一般来说,生物降解过程可分为2种类型:(1)初始生物降解:改变母体化合物分子完整性的任何生物诱导的结构转化过程。(2)最终生物降解或矿化过程:生物催化由有机物到无机物的代谢过程。Kameya[38]等在这方面有详细的描述。 3.2 生物降解的限制步骤 微生物代谢是环境中化学物质归趋一个最重要的过程之一,在某些情况,微生物用合成有机物作为食物源时,传统的微生物技术(包括生物生长Michaelis-Menten-Monod动力学方程)可用于化学归趋模型中。在实验室研究中,用合成化学物质作为唯一碳源和食物源的研究,很难外推到实际情况,而且,在自然情况下,合成化学物质是被多种微生物集合体所降解,生物降解速率是一系列过程速率的函数,如果知道这些过程中的一个是速率的决定因素,将会有助于建立生物降解速率与结构的相关性。 一般情况,决定生物降解速率过程可分为2种类型:(1) 吸附速率和传输速率(例如:物质在微生物细胞上吸附速率或在细胞内迁移到有关酶上的传输速率);(2) 和酶的结合速率或在酶上的转化速率。 由于缺乏特殊的吸附机制,合成有机物也许是通过扩散穿过类脂膜进入微生物细胞内,如果化学物质在细胞膜内和水相是分配过程,则该扩散系数将正比于油脂/水分配系数,如辛醇/水分配系数。因此,如果扩散吸附速率是生物降解的限制步骤,生物降解速率常数与宏观疏水性参数,如正-辛醇/水分配系数应具有相关性。 化合物酶的催化转化是通过和酶的活性点形成氢键或共价健而进行的,其相互作用能力受化学物质的电子结构及化学物质与活性点相吻合的空间结构影响,其相互作用能力也决定于化合物的电子和空间性质,因此,如果和酶的结合速率或转化速率决定着生物降解速率,生物降解速率常数将与影响这种化学物质与酶的结合或反应因素有关(例如空间或电子参数),但是有时很难区分它们的作用,例如:空间因子不仅仅影响与酶的结合性和反应性,而且还会影响化合物的疏水性。 3.3 QSBR技术 到目前为止,用于生物降解预测技术主要分为5类:Boolean分类法、回归分析、判别分析、神经网络和比较分子力场分析(CoMFA)。 Boolean分类方法又可称为基团贡献法,它是以大量的分子中敏感官能团为基础,将化合物分成可降解性或难降解性的化合物。Kuenemann[39]在该方面具有详细描述。Howand等[40]根据34种亚结构将化合物分成可迅速降解和不可迅速降解2大类,其所研究的264个化合物中,分类正确率为92%。Deger等[41]利用ADAPT软件和9种亚结构,将112个化合物分类成可降解和不可降解2大类,其正确率90%。Boethling 和 Klopman[42,43]以基团贡献法建立的专家系统来预测生物降解能力,和其相似的有MicroQSAR较件,可用于预测生物降解半衰期。 线性相关分析是目前为止最广泛使用的数据定量相关方法,在这方面已有详细的描述,其缺点是它要求所研究化合物的作用机理要一致,因此需要将化合物分成不同的特殊类型。 Cambon 和 Devillers[44]利用神经网络方法和20个结构描述符,将127个芳香化合物分类,正确率达92%。郭明等[45]直接应用化合物的分子结构产生的描述符辛醇/水分配系数logP、log2P,分子的范德华体积V、V2,Am3 拓扑指数,研究了45个酚类化合物训练组的麻醉毒性和分子结构之间的相关性。分别使用多元回归分析和ANN法建立了模型。并对测试组的5个化合物的麻醉毒性进行了预测。对训练组而言,回归分析法和ANN法的均方根偏差分别为0.159和0.0885, 对测试组分别为0.207及0.131。同样,张爱茜等人[46]也分别使用回归分析和ANN法研究了26种含硫芳香族化合物的一级好氧生物降解速率常数(其中21个样品为训练组,5个样品为测试组)。结果ANN的预测均方误差(0.00102)远低于线性回归模型的预测误差(0.01591)。神经网络方法具有很好的预测价值,相比线性回归分析法目前还没有得到广泛的使用。 Dearden[47]最近应用比较分子力场分析(CoMFA)预测生物降解性,发现醇、羧酸、直链烷基苯磺酸的BOD与CoMFA具有良好的相关性,但对于其它类型的化合物,如醚、酚却相关性不好。 3.4 QSBR工作展望 REFERENCES
|
|