039047pc

http://www.chemistrymag.org/cji/2001/039047pc.htm	Sep. 1, 2001 Vol.3 No.9 P.47 Copyright

Studies of the relations between their structure and Tg of polymers using artificial neural network

Sun Hong, Wu Guoshi, Tang Yingwu
(Department of chemistry, Tsinghua University, Beijing, 100084)

Abstract Using artificial neural network (ANN) approach, this paper studied the relations between the glass transition temperature (Tg) and the side chain structure for 5 different families of polymers. A neural network simulator in Matlab5.3 was used for this study. The results of this investigation indicate that the ANN accurately gave Tg of different polymers with a low standard deviation of 8K. Also the ANN could used to predict Tg of some polymers with a standard deviation of 10K. This demonstrated superiority over other quantitative structure/property relationships for polymers.
Keywords artificial neural network, glass transition temperature, QSPR

用人工神经网络法研究聚合物结构与玻璃化温度的定量关系

孙红吴国是唐应武
（清华大学化学系，北京，100084）

2001年5月15日收稿

摘要 本文用人工神经网络方法研究了几类聚合物的玻璃化温度与其侧链结构间的定量关系。用三种简单的表示定量描述出了聚合物的侧链结构，并作为人工神经网络的输入矢量来对网络进行训练。训练好的网络不仅拟合出了结构与性质间的定量关系（训练标准偏差为8K，其给出的大多数聚合物（97％）的玻璃化温度与实验值的绝对误差小于20K），而且可以用于预测具有特定结构的聚合物的玻璃化温度（预测标准偏差为10K，绝对误差小于20K）。
关键词 人工神经网络，玻璃化温度，结构与性质定量关系

1.引言
    性质预测是分子设计的重要环节，结构与性质定量关系（quantitative structure-property relationship，即QSPR）则是化合物性质预测的一种简便有效的方法。在聚合物研究和分子设计中广泛采用的QSPR方法主要有基团贡献法^{[1, 2]}、分子连接性指数法^{[3, 4]}和人工神经网络法^[5-9]。
    三种方法中，最早提出的是基团贡献法。它将聚合物重复单元中每个基团划分为最小基本单位，并认为每个基团对聚合物的给定性质有独立的贡献，从而聚合物的性质可视为各基团相应的贡献值的加和。各种基团对聚合物每一性质的贡献值，可根据大量聚合物的已知实验数据拟合出。
    分子连接性指数法则是有机化合物QSPR的分子连接性指数法向高分子化合物的推广，它首先通过一定的公式确定高分子化合物的分子连接性指数，然后利用已知实验数据拟合出给定性质与这些指数间的函数关系。后者可用于预测未知聚合物的性质。
    基团贡献与连接性指数法均主要采用线性函数来拟合聚合物的性质与结构的关系。因实际体系的复杂性，简单的线性拟合难以获得满意的精度，在QSPR上的适用范围有颇大的局限性。人工神经网络（Artificial neural network，即ANN）法则在拟合中允许并普遍使用非线性方法，且通过特定的算法来模拟人类神经系统的自学习和记忆、分析、归纳和推断等功能。它为复杂体系因果关系的定量剖析提供了强有力的工具，已被成功地应用于许多科技领域。在聚合物的QSPR研究上，预计将会有良好的应用和发展前景。本文采用自行设计的ANN研究C-C主链上含单一侧链的高分子化合物的玻璃化温度（T_g）与侧链结构参数间的定量关系，取得较满意的结果。

2. 原理及计算方法
ANN是由人工建立的以有向图为拓扑结构的动态非线性系统，它将处理对象的某一特定性质或技术指标作为目标函数Y，其近似值为“输出层”（output layer）的计算结果。通过适当的规则把影响目标函数的各种因素定量地定义为“输入层”（input layer）输入向量X的分量，即X=(x₁, x₂, ···)。网络的记忆、分析、归纳和推断的功能则由“隐含层”（hidden layer）完成。使用ANN程序时首先要利用属同一系列对象的大量已知实验数据对网络进行训练，后者通过学习、分析能将计算机已读取的输入向量与已知目标性质拟合成广义的函数关系并记忆下来。尔后，对于属于该系列的任一新对象，只要正确提供其相应的输入向量，ANN即可迅速预测出其目标性质并在输出层输出。在网络训练阶段，可采用逐步逼近法寻求目标函数的近似表达。基本原理为：设精确的目标函数为Y=F(X)且输入向量已合适确定。程序先选择一个试探函数F'，再根据已输入的一系列已知体系（训练集，即training set）的X值计算出F'(X)并与准确的实验观测值Y相比较。然后通过特定的算法调整F'中的ANN参数或其函数形式，使方差|F'(X)-Y|²逐步减小并达到许可的误差限。若以上过程正常收敛，则训练顺利完成。此时，需进一步采用未包含在训练集的另一组对象（测试集，即testing set）的已知数据对结果函数进行检验。如测试集的预测精度也达到要求，则认为函数F'是F合格的近似；若训练过程未能正常收敛，或测试集的预测结果未符合要求，则表明输入向量X的分量选择不当，或遗漏了某些重要的影响因素，需作适当补充、调整，然后重复以上步骤，直至达到要求为止。

Fig.1 Architecture of "NN-Tg": R is the input number, P is the input vector, S1 and S2 are the numbers of the nodes in the hidden layer and in the output layer.

图1为本文设计的一个包括输入层、隐含层和输出层的前向反馈型人工神经网络（记为“NN-Tg”）的结构图。软件主要的运算子程序从Matlab5.3的神经网络工具箱中直接调用。“NN-Tg”中的隐含层为一层，含11个神经元（即S1=11），采用tansig型非线性传递函数tan sig(n)= 2/[1+exp(-2n)]-1。输出层含一个神经元（即S2=1），采用purelin型线性传递函数purelin(n)=n。训练计算选用trainlm算法，它使用了一种改进的梯度下降法来加速收敛。

Fig.2 Effect of the number of nodes in the hidden layer on the "NN-Tg"

    “NN-Tg”的上述参数主要通过实验方法确定。以隐含层中包含的神经元的个数为例，图2为不同神经元个数下“NN-Tg”的训练和测试结果。可以看到，11个神经元时训练集的误差适中而测试集的误差最小，因此，隐含层中选择了11个神经元。其他的参数也是用类似的方法确定的。
    ANN处理必须以大量可靠的已知数据为依据。我们从文献上收集了包括聚烯烃类、聚丙烯酸类、聚苯乙烯类、聚苯酰类、聚烷氧类等共计231个聚合物的实验T_g值^[10]，随机取11个构成测试集，余下220个为训练集。这些聚合物均属－(CH₂－CHR)n－型均聚物，其实验T_g值的范围为183－450 K。
    为简便而合理地确定ANN的输入矢量，我们首先参照基团贡献法的处理，将聚合物的侧链（即－(CH₂－CHR)n－中的R）按照其构成基团进行分割，共得到73种基团。若用“1”和“0”来表示是否含有该基团，需要一个含73个分量的矢量来做输入，这对有限数据下的网络训练是不利的，为此，我们设计了这样一种方法来表示：
    首先，给73种基团分别给定一个“g₁参考值”，具体做法是：对于某一基团g_i（i=1-73），计算出包含该基团的所有聚合物的T_g的平均值，按下式计算出其所对应的“g₁参考值”：

(1)

式中，T_gmin和T_gmax分别表示训练集中最小和最大的T_g值。这样，给出-0.95< g_1i<0.95，符合ANN算法对输入矢量分量取值的约定。
然后，因最长的侧链中仅包含四个基团，就设计了一个由4个分量构成的矢量来作为“NN-Tg”的第一种输入矢量，即X₁={x_i, i=1- 4} 。x_i（i=1- 4）的取值等于其所对应的基团的g₁参考值，若侧链中不含第i个基团，则取x_i=0。
用4个分量代替上述73个分量是大大地简化了问题，但由于取平均值使不同的基团可能有相同或相近的g₁参考值，这样，对网络而言就无法识别了。为此，又给73种基团分别给定了一个“g₂参考值”和“g₃参考值”。具体做法是：对于某一基团g_i（i=1-73），计算出包含该基团的所有聚合物的T_g对于平均值的二阶中心矩和三阶中心矩，按下式计算出其所对应的“g₂参考值”和“g₃参考值”：

	(2)
	(3)

相应地就得到了第二和第三种输入矢量：
X₂={x_i,i=1-8} （x_i(i=1-4)由g₁参考值确定，x_i(i=5-8)由g₂参考值确定）
X₃={x_i,i=1-12} （x_i(i=1-8)同上式，x_i(i=9-12)由g₃参考值确定）

Fig.3 Record of the training course of "NN-Tg" by using X₃as the input vector

3.结果与讨论
3.1“NN-Tg”的训练及测试结果
将收集的数据分成训练集和测试集两组。采用上述三种不同的输入方法，训练和测试的结果列于表1中。

表1 三种输入方法的训练集和测试集的结果比较

输入矢量	X₁	X₂	X₃
训练集的标准偏差	25K	18K	8K
测试集的标准偏差	85K	14K	10K

其中的标准偏差由下式求得：

(4)

可以看到，X₁的结果最差，X₂较X₁有很大的改善，但还是X₃的结果最好。说明引入二阶中心矩和三阶中心矩是合理的，确实减小了训练和测试的误差。
    图3给出了以X₃为输入矢量的训练过程。可以看到，训练集和测试集的训练曲线都是收敛的，也就是说，这种训练好的网络可以用于预测一些新的聚合物的T_g值，且可以达到一定的精度（预测结果的标准偏差是10K）。
    图4是以X₃为输入矢量时“NN-Tg”所给出的训练集和测试集的聚合物的T_g与文献值的绝对误差值。如图4(a)所示，绝大部分数据是落在阴影的方框内的，而方框内的高分子化合物的预测值与文献值的差值是小于20K的，这说明“NN-Tg”所给出的高分子化合物的T_g值与文献值是基本吻合的。同时，用于预测时也达到了预期的误差小于20K的目标（见图4(b)）。这样，通过训练后的“NN-Tg”就可以用于预测包括某些特定结构的高分子化合物的T_g值了。
3.2 “NN-Tg”与其他相关研究结果的比较
   “NN-Tg”与其他研究的一个主要不同就在于输入方法上。Stumpter^[6-8]是用ANN研究聚合物的QSPR方面工作做得最完善的。其前期工作^[6,7]中的输入矢量中包含18个分量，是用一定的方法^[6]从Bicerano的书中所列出的所有变量中选出的，包括零阶、一阶以及二阶分子连接性指数、重复单元中原子的个数、摩尔粘着能等。Joyce^[5]是从单体的结构来预测Tg。其用SMILES格式^[11]来表示单体的结构，分别采用了80个、1120个、800个分量的输入矢量，相应的采用了隐含层中包含40、240、80个神经元的网络。可以看到这是一个十分庞大的网络，要用有限的数据（如文中提到的499个已知数据）来训练网络是十分不够的（其训练集和测试集的最大误差都在160K左右，标准偏差在40K左右）。本文采用了与上述方法不同的思路，考虑到ANN内部的复杂连接，试图利用ANN来拟合可能的影响因素，而输入则采用了相对简单的方法，即用了基团贡献法中用基团表示结构的方法。仅输入给ANN有哪些基团以及基团之间的相互连接的信息，至于基团以及基团之间的相互作用是如何影响T_g的则试图通过ANN来确定。这样就有了“NN-Tg”的输入矢量X₁，X₂和X₃。较上述方法的优点在于减少了输入矢量的维数，而这在已知数据有限的情况下是十分重要的。

(a)

(b)
Fig.4 Distribution of the errors of T_g: (a) fited for the 220 polymers of the training set, and (b) predicted for the 11 polymers of the testing set

由于所研究的对象不相同，本文的研究对象是聚合物的侧链对T_g的影响，所以无法简单地从训练或预测误差的角度与上述研究的结果进行比较。但仅从本文的结果来看，从较简单的表示方法入手应用ANN研究聚合物的结构与性质间的关系仍是可行的。

4. 结论
本文通过自行设计的人工神经网络 “NN-Tg”，采用了三种相对简单的描述聚合物结构的参数X₁，X₂和X₃，拟合出了几类高分子化合物的T_g与其侧链结构间的定量关系。将该网络用于预测、研究聚合物的T_g与结构间的定量关系，取得了良好的结果。若在结构描述方面和神经网络的内部分析上有新的突破，有望获得更好的结果。

REFERENCES
[1] Krevelen D W. Properties of polymers. Second edition. Amsterdam: Elsevier, 1976.
[2] Krevelen D W. Properties of polymers. Third edition. Amsterdam: Elsevier, 1990.
[3] Bicerano J. Prediction of polymer properties. New York: Marcel Dekker, 1993.
[4] Bicerano J et al. J.M.S. REV. Macromol.chem.phys., 1996, C36 (1): 161-196.
[5] Seven J J et al. J. Chem. Soc. Faraday Trans., 1995, 91 (16): 2491-2496.
[6] Sumpter B G et al. Macromol. Theory Simul., 1994, 3: 363-378.
[7] Sumpter B G et al. Journal of thermal analysis, 1996, 46: 833-851.
[8] Ulmer C W, Sumpter B G et al. Computational and theoretical polymer science, 1998, 8 (3/4): 311-321.
[9] Ebube N K, et al. International journal of pharmaceutics, 2000, 196: 27-35.
[10] Brandrup J. Polymer handbook. Third edition. New York, 1989.
[11] David W J. Chem. Inf. Comput. Sci., 1988, 28 (1): 31-36.

[ Back ] [ Up ] [ Next ] Mirror Site in USA Europe China CSTNet ChinaNet