专利转让平台_买专利_卖专利_中国高校专利技术交易-买卖发明专利上知查网

全部分类
全部分类
基于支持向量机的有机化合物燃爆特性预测方法

基于支持向量机的有机化合物燃爆特性预测方法

IPC分类号 : G01N33/22,G06N1/00

申请号
CN200810022518.X
可选规格
  • 专利类型: 发明专利
  • 法律状态: 有权
  • 申请日: 2008-08-14
  • 公开号: 101339180A
  • 公开日: 2009-01-07
  • 主分类号: G01N33/22
  • 专利权人: 南京工业大学

专利摘要

一种基于支持向量机的有机化合物燃爆特性预测方法,它根据各种燃爆特性由其分子结构决定的原理,利用反映分子结构特征的各种结构参数来描述有机物的燃爆特性。通过引入强大的机器学习算法支持向量机方法,可对有机物各燃爆特性与分子结构间存在的非线性、不确定性和复杂性进行有效的训练和预报,从而建立稳定、高效的预测模型。将建立的预测模型应用于其他未知化合物燃爆特性的预测,具有预测精度高、快捷方便的优点。

权利要求

1、一种基于支持向量机的有机化合物燃爆特性预测方法,其特征在于:以有机化合物的分子基团作为描述分子结构特征的结构描述符,实现分子结构信息的参数化;利用支持向量机分别针对各燃爆特性与其结构描述符之间的内在定量关系进行模拟,建立相应的基于分子基团的支持向量机预测模型;将需要预测的有机化合物的分子基团作为输入参数输入所得的预测模型中即可得到相关燃爆特性值。

2、根据权利要求1所述的预测方法,其特征是所述的支持向量机采用径向基核K(x,xi)=exp(-γ||x-xi||2)作为支持向量机的核函数;将样本数据线性映射到[-1,1]区间,进行归一化处理;采用格点搜索方法确定支持向量机的最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);模型输入参数分别对应相应的分子基团,输出参数为相应的燃爆特性。

3、根据权利要求1所述的预测方法,其特征是所述的燃爆特性:包括闪点、自燃点、爆炸极限、燃烧热和撞击感度。

说明书

技术领域

技术领域

本发明涉及有机化工技术领域,尤其是一种预测有机化合物燃爆特性的方法,具体地说是一种基于支持向量机的有机化合物燃爆特性预测方法。

技术背景

背景技术

近年来,随着科技的迅猛发展,新材料、新物质层出不穷。目前已经发现和合成的化学物质有四千万种以上,其中常用的化学品就有七万多种,且每年还有数万种新的化学品问世。在众多的化学物质中,有许多物质具有易燃易爆等危险特性,在生产、使用、贮存和运输过程中存在着发生火灾、爆炸事故的可能性。

对于如此众多的化学物质,掌握它们的各类物化性质在化学工业和石油化学工业生产中有着重要的现实意义。例如,化工生产、工程设计、科学研究和工艺技术的开发等都需要大量准确、可靠的物性数据。化工过程设计中常常要用三分之一的工时用于查找、筛选和估算物性数据;化工流程模拟中,物性数据的计算更是占据举足轻重的地位。可以说没有化工物性的计算,就没有化工模拟研究,化工物性数据是进行化工研究、生产、设计及开发的基石。

在众多的化工物性中,闪点、自燃点、爆炸极限等燃爆特性是一类较为特殊的物性,因其与可燃物质发生火灾爆炸的难易程度密切相关,因而常被用于衡量可燃物质在生产、加工、储存和运输过程中的危险程度,指导工程设计和危险性评估等工作的开展。因此,掌握有机物的燃爆特性对于安全理论研究和化工安全生产都显得尤为重要,具有重要的理论意义和实用价值。然而,当前研究者们对这些燃爆特性的研究还比较滞后,相关数据还比较缺乏。

目前,利用实验测定是确定有机物燃爆特性最常用的方法。但实验测定方法往往存在着如下的不足:(1)实验方法不仅要求具备良好的实验设备,而且测定过程需经过物质制备、纯度鉴定、测定方法及仪器的选择、仪器校准、实验测试、数据整理及筛选等一系列步骤,工作量巨大;(2)由于物质燃爆特性之间存在的差异,所具备的实验仪器难以对各类别物质进行评价,必须同时考虑仪器的特性和物质的燃爆特性,对它们的实验方法进行有效的组合,因此,要对它们一一进行试验是不可能的;(3)考虑到实验过程中的安全问题,一般的实验研究(尤其是爆炸极限的研究)只能是小规模、小尺寸的实验,用一级近似的模拟实验尚无法较好地体现规模效应;(4)对于那些有毒、易挥发、爆炸性或有辐射的物质,测量上存在着一定的困难;(5)对于那些尚未合成的物质以及易分解的反应性化学物质,也无法基于实验来确定其危险性。

因此,单纯地应用实验研究来确定有机物的燃爆特性是不可取的,有必要在更高的水平上将实验科学与理论科学联系起来,把宏观与微观、定性与定量结合起来,借助理论预测方法对已有的实验数据进行整理和概括,在此基础上建立起简便可靠的燃爆特性理论预测模型,最大限度地扩大实验数据的应用范围和使用价值,有效地解决有机物燃爆特性实验数据缺乏的问题,为化工过程设计与安全科学研究提供理论依据与技术支持。

近年来,定量结构-性质相关性研究(QuantitativeStructure-Property Relationship,QSPR)逐渐成为基础研究领域的热点。它根据化合物性能与分子结构密切相关的原理,寻求分子结构与物质性质之间的内在定量关系。其基本假设是有机物的性能与分子结构密切相关,分子结构不同,性能就不同。而分子结构可以用反映分子结构特征的各种参数来描述,即有机物的各类理化性质可以用化学结构的函数来表示。其主要思路是:首先根据分子结构确定所选用的结构参数作为分子描述符,随后针对所选用的描述符与所研究理化性质之间的内在定量关系,采用合适的统计建模方法进行关联,建立相应的QSPR预测模型。一旦建立了可靠的定量结构-性质相关模型,仅需要分子的结构信息,就可以用它来预测新的或尚未合成的有机物的各种性质。目前,该研究方法已被广泛应用于有机物包括燃爆特性在内的各类理化性质及生物活性的预测研究之中。

由于能够应用于QSPR研究的结构参数种类繁多,且各参数之间往往存在着较强的非线性关系,如组成参数、电性参数、拓扑参数等对理化性质的影响很难用准确的数学方程进行描述。因此,当前QSPR研究的主要热点之一就是开发或引入各种高效的统计建模方法,对有机物各种理化性质与其分子结构间的内在定量关系进行有效关联,以建立高效的QSPR模型。目前常用的统计建模方法主要包括多元线性回归、偏最小二乘、人工神经网络等。然而,对于复杂的非线性体系,线性方法的使用往往受到较大的限制;而作为目前应用最为广泛的非线性拟合技术神经网络方法,其本身也存在着一定的缺陷,如易于产生“过训练”、“过拟合”、网络不易优化、结果无法重复等。

支持向量机算法是Vapnik及其合作者在统计学习理论的基础上,于1995年提出的一种新型机器学习方法。它具有严格的理论基础,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误的识别任意样本的能力)之间寻找最佳折中,以期获得最好的泛化能力,因此在模式识别、函数回归等多个领域得到了广泛的应用。与传统的统计建模方法相比,支持向量机方法具有如下的优点:

(1)专门针对有限样本情况的,其目标是得到有限信息下的最优解而不仅仅是样本数趋于无穷大时的最优值;

(2)算法最终将转化成为一个二次寻优问题,从理论上说,得到的将是全局最优点,解决了神经网络等方法无法避免的局部最优问题;

(3)算法将实际问题通过核函数的非线性变换转换到高维特征空间,在高维空间中构造线性判别函数来实现原有空间中的非线性判别函数,有较好的泛化能力,同时它巧妙地解决了维数问题,其算法复杂度与样本维数无关。

发明内容

发明内容

本发明的目的是针对现有的有机化合物燃爆特性预测方法预测精度差、计算繁琐、适用范围小等问题,发明一种基于支持向量机的有机化合物燃爆特性预测方法。

本发明的技术方案是:

一种基于支持向量机的有机化合物燃爆特性预测方法,其特征在于:以有机化合物的分子基团作为描述分子结构特征的结构描述符,实现分子结构信息的参数化;利用支持向量机强大的非线性映射能力分别针对各燃爆特性与其结构描述符之间的内在定量关系进行模拟,建立相应的基于分子基团的支持向量机预测模型;将需要预测的有机化合物的分子基团作为输入参数输入所得的预测模型中即可得到相关燃爆特性值。

所述的支持向量机采用径向基核K(x,xi)=exp(-γ||x-xi||2)作为支持向量机的核函数;将样本数据线性映射到[-1,1]区间,进行归一化处理;采用格点搜索方法确定支持向量机的最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);模型输入参数分别对应相应的分子基团,输出参数为相应的燃爆特性。

所述的燃爆特性:包括闪点、自燃点、爆炸极限、燃烧热和撞击感度。

本发明的预测方法的要点是在选取能够有效表征分子结构信息的结构描述符的基础上,采用支持向量机方法,通过对现有结构描述符和相关燃爆特性数据进行学习训练而实现的:

(1)结构-性质关系模型的建立要求选择能够有效描述所研究化合物分子结构特征的结构参数作为分子描述符。为了描述分子的结构特征,前人已经提出大量可以用于QSPR研究的分子结构参数,这些结构参数可以反映分子的组成、拓扑以及电子结构等多方面的结构信息。其中,分子基团是一类使用较为广泛的结构参数,其特点是基团划分简单易行、计算简单、使用简便,往往根据几十个基团贡献的参数,就可预测包括这些基团的大量物质的性质,因此已被广泛地用于预测有机物包括燃爆特性在内的各种物理化学性质,并且显示出较强的预测能力。

(2)成功的结构-性质关系模型主要依赖于所采用的统计建模方法的有效性。本发明选择具有强泛化能力的支持向量机方法。近期,大量的QSPR研究证明,支持向量机在不同程度上可以比其他的统计建模方法给出更为精确的学习和预测效果。支持向量机方法具有强大的非线性拟合能力,能够克服传统线性回归方法不适用于复杂非线性体系的缺陷;同时,它基于结构风险最小化原则,追求置信范围值的最小化,而非训练误差的最小化,理论上能够达到全局最优解,因此能够克服传统神经网络方法易于产生“过训练”、“过拟合”等缺点,特别适用于小样本的QSPR研究体系,并具有更好的泛化性能;此外,一旦参数设定后,支持向量机的解还具有惟一性和可重复性,这一点更是明显优于人工神经网络。因此,在本发明中我们采用支持向量机方法建立最后的燃爆特性预测模型。

支持向量机的算法步骤如下:

假设给定训练样本集{(xi,yi),i=1,……n},其中xi∈Rn是第i个学习样本的输入值,yi∈R为对应的目标值。对于线性回归,应用线性函数

f(x)=(w·x)+b            (1)

进行估算。为了保证式(1)的平坦,必须寻找一个最小的w。假设所有训练数据(xi,yi)都可以在精度ε下用线性函数拟合,那么寻找最小w的问题就转变为最小化模型复杂度,其等价于 转化成相应的二次规划问题即:

min12||w||2---(2)]]>

(yi-w·x-b≤ε,w·x+b-yi≤ε)

考虑到允许拟合误差的情况,引入松弛因子ξ≥0,ξ*≥0以及惩罚因子C,相应的二次规划问题改写为

min12||w||2+CΣi=1n(ξi+ξi*)---(3)]]>

(yi-w·x-bϵ+ξi,w·x+b-yiϵ+ξi*,ξi,ξi*0)]]>

其中,惩罚因子C>0用来平衡回归函数f(x)的平坦程度和偏差大于ε样本点的个数。式(3)是基于以下的ε-不敏感损失函数得出,该函数|ξ|ε表示如下:

|ξ|ϵ=0(|ξ|ϵ)|ξ|-ϵ(otherwise)---(4)]]>

在样本数较少时,求解上面的支持向量机一般采用对偶理论,将它转化为二次规划问题。建立如下Lagrange方程:

l(w,ξ,ξ*)=12(w·w)+CΣi=1n(ξi+ξi*)-Σi=1nαi(ϵ+ξi+yi-<w,xi>-b)-]]>

Σi=1nαi(ϵ+ξi*+yi-<w,xi>-b)-Σi=1n(ηiξi+ηi*ξi*)---(5)]]>

上式对于参数w,b,ξi,ξi*的偏导数都等于0,代入上式得到对偶优化问题

min12Σi,j=1n(αi-αi*)(αj-αj*)<xi,xj>+Σi=1nαi(ϵ-yi)+Σi=1nαi*(ϵ+yi)---(6)]]>

(Σi=1n(αi-αi*)=0,αi,αi*[0,C])]]>

对于非线性回归,支持向量机的解决思路是通过一个非线性映射φ,将样本映射到一个高维的特征空间中并用常规的线性方法来解决。假设样本X用非线性函数φ(X)映射到高维空间,则非线性回归问题转化为:

min12Σi,j=1n(αi-αi*)(αj-αj*)<φ(xi),φ(xj)>+Σi=1nαi(ϵ-yi)+Σi=1nαi*(ϵ+yi)---(7)]]>

(Σi=1n(αi-αi*)=0,αi,αi*[0,C])]]>

从而得到w=Σi=1n(αi-αi*)φ(xi).]]>

支持向量机通过核函数变换将样本映射到高维特征空间,核函数K(x,x′)满足K(x,x′)=<φ(x),φ(x′)>。因此式(6)改写为

min12Σi,j=1n(αi-αi*)(αj-αj*)K(xi,xj)+Σi=1nαi(ϵ-yi)+Σi=1nαi*(ϵ+yi)---(8)]]>

核函数的引入使得函数求解绕过特征空间直接在输入空间进行,从而避免了计算非线性映射φ。目前支持向量机常用的核函数主要有线性核、多项式核、径向基核和sigmoid核等4种类型。本发明选用径向基核K(x,xi)=exp(-γ||x-xi||2)作为核函数。

本发明的有益效果:

本发明发明了一种基于支持向量机方法的预测有机物燃爆特性的新方法。它根据结构决定性质的原理,仅以分子结构基团作为表征有机化合物分子结构特征的结构描述符;利用支持向量机强大的统计学习能力,对已有的燃爆特性实验数据与相应的分子结构基团间的定量函数关系进行模拟,在此基础上建立起稳定可靠的燃爆特性理论预测模型,从而解决有机物燃爆特性实验数据缺乏的问题。本发明预测效果好、适用范围广、计算简单,仅需化合物分子结构就能实现其相关燃爆特性,如闪点、自燃点、爆炸极限、燃烧热、撞击感度等的预测。利用本发明的方法可以仅根据有机化合物分子结构就能准确、快速地预测出其燃爆特性,为过程设计、流程模拟、安全评估等工作提供直接的数据,而且可免去大量实验测定所带来的不便和经济上的损失,因此在化工过程设计与化工流程模拟等工作中有着良好的应用前景,其经济性十分可观。

附图说明

附图说明

图1为支持向量机方法用于回归问题的原理描述。

图2为本发明预测模型建立的主要步骤示意图。

图3为支持向量机模型所得闪点预测值与实验值的比较。

图4为支持向量机模型预测相对误差范围示意图。

具体实施方式

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图1、2、3、4所示。

一种基于支持向量机的有机化合物燃爆特性预测方法,它包括模型的建立和应用,其中模型的建立是关键,建模完成后,仅需将需要预测的有机化合物的分子基团作为输入参数输入所建模型中即可得出相应的燃爆特性值。其中建模主要涉及六个步骤:

(1)实验数据的整理

根据一定的统计标准和结构标准选择一系列有机化合物,构成QSPR研究的样本集。化合物选择的条件是统计上的随机性、结构上的代表性和全面性,以及数据的可获得性。针对样本集中的系列化合物,收集所关注的燃爆特性数据。数据收集的途径主要有3种:各种权威性质数据库、各种手册以及实验测定的结果。数据选择的原则是必须可靠和标准化。本发明推荐使用的有联合国环境规划署(UNEP)、国际劳工组织(ILO)和世界卫生组织(WHO)的合作机构国际化学品安全规划署(IPCS)与欧洲联盟委员会(EU)合作编辑的《国际化学品安全卡》(ICSC)、美国阿克伦大学的危险化学品数据库、英国牛津大学的危险化学品数据库,以及美国化学工程师学会下属的 (The DesignInstitute for Physical Properties)数据库。

(2)样本集的划分

将样本集随机划分为训练集和预测集两个部分,其中训练集用于建立模型,预测集用于对所建模型进行评价和验证。

(3)分子基团的划分

针对样本集中有机物的结构特征,根据一定的标准和规则进行分子结构基团的划分,以所划分出的分子基团作为表征有机物结构特征的分子描述符,实现分子结构的参数化描述。

(4)预测模型的建立

以划分的分子基团作为输入变量,所研究燃爆特性作为输出变量,应用支持向量机方法对分子结构与相关燃爆特性之间的内在关系进行模拟,寻求两者之间存在的定量函数关系,建立相应的预测模型。

决定支持向量机模拟性能的相关参数主要包括:核函数、核函数的参数、惩罚系数C以及ε-不敏感损失函数中ε的大小。本发明中,核函数选用径向基核K(x,xi)=exp(-γ||x-xi||2),因为它具有较高的学习效率和学习速率。其它参数通过“格点搜索”方法确定。

参数搜索范围如下:惩罚系数C——0-1024;核函数的宽度γ——0-1024;ε-不敏感损失函数中的ε——0-1024。

搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE)。“留1/10法”交互验证是指从训练集中每次筛除训练样本数的1/10个化合物,用其余的化合物建模,来预测所筛除化合物的性质,这样得到一个交互验证的均方根误差(RMS)来评价模型性能的好坏,其计算公式为:RMS=Σi=1n(yi,pred-yi,exp)2n.]]>通过搜索,选取“留1/10法”交互检验的最小RMS所对应的那组参数作为模型的输入参数。

应用搜索出的最优参数作为支持向量机的输入参数,建立相应的预测模型。

(5)模型的评价与验证

对所建立的QSPR模型的可靠程度及模型的预测能力进行评价和验证。评价主要针对几个方面:模型的拟合优度、稳健性和预测能力。本发明中,模型的拟合优度采用复相关系数(r2,即回归系数的平方,代表模型所解释的方差)来评价;模型的稳健性采用“留一法”(Leave-one-out,LOO)交互验证方法来进行检验,“留一法”交互检验是指从训练集中每次筛除一个化合物,用其余的化合物建模,来预测筛除化合物的性质,这样得到一个交互验证的r2(即Q2)来评价模型稳健性,其计算公式为:QLOO2=1-Σi=1training(yi-yi,pred)2Σi=1training(yi-y)2;]]>模型预测能力的验证通过用所建立的模型来预测测试集化合物的相关性质,然后计算相应的均方根误差(RMS)和平均绝对误差(AAE)的方式进行。只有具有统计上的显著性、稳健的和具有高度预测能力的模型才能够进行应用。

(6)预测模型的应用

利用所建模型的预测能力对其它未知化合物的相关燃爆特性进行预测,为化工生产和工程设计等工作提供所缺失的燃爆特性数据。

下面以闪点预测为例,对本发明做进一步说明。

样本集共包含1282种有机化合物,其闪点数据从美国化学工程师学会下属的 数据库获得。该样本集中的化合物涵盖广泛的化学多样性空间,为建立健壮、有效的预测模型奠定了基础。随后,对样本集进行划分,随机选择1026种化合物作为训练集,用于建立预测模型;选择剩余256种化合物作为外部预测集,用于对所建模型的可靠程度和预测能力进行评价验证。

随后,根据样本集中化合物的分子结构,对分子基团进行划分,共提取57种分子基团作为表征有机物分子结构特征的分子描述符,具体基团类别列于表1。

表1.对应于分子描述符的57种分子基团

as=单键(-),a=芳香键(a),R=脂肪环,-X=与卤素原子相连

然后,应用支持向量机方法对有机物闪点与结构基团间的内在定量关系进行模拟。将样本数据线性映射到[-1,1]区间,进行归一化处理;采用格点搜索方法确定支持向量机的最优参数,格点搜索的搜索方向为“留1/10法”交互检验的最小均方根误差(RMSE);通过搜索,确定模型选取的最优参数为:惩罚系数C=16,ε-不敏感损失函数中的ε=0.01,核函数的宽度γ=0.0625,相应的支持向量数为817。应用确定的最优参数,建立相应的预测模型。应用该模型对样本集化合物进行预测。所得预测值与实验值的比较见附图3。

表2中列出了本发明基于支持向量机预测模型的整体性能参数。对于训练集,我们的支持向量机模型显示了强劲的数据拟合能力,复相关系数达0.98;对于外部测试集,我们的模型可以给出9.985℃的预测误差,在±10℃的实验允许误差范围之内。这说明我们的预测模型是成功的。从表2还可以看出,本预测模型所得预测性能与拟合性能较为接近,这说明本模型还具有较强的泛化能力即预测稳定性。此外,我们对样本集中所有1282种有机化合物的预测相对误差进行了计算,所得预测平均相对误差为1.984%,最大相对误差为19.23%。详细结果见附图4。从图4可以看出,预测相对误差大于10%的化合物仅有21种,而预测相对误差小于1%的化合物有671种,超过样本集中所有1282种化合物的一半。由此可见,本发明基于支持向量机方法开发的闪点预测模型是成功的,能够被有效地应用于预测未知化合物的闪点数据。

表2.所建模型的主要性能参数

目前,国内外所使用的闪点预测模型多是基于多元线性回归、主成分回归和神经网络方法而建立的。Suzuki等应用主成分回归方法针对400种有机物建立了闪点预测模型,该模型的预测平均绝对误差为10.3℃。Tetteh等使用神经网络方法针对400种有机物建立了闪点预测模型,该模型的预测平均绝对误差为10.2℃。Katritzky等分别应用多元线性回归和神经网络方法针对758有机物建立了相应的闪点预测模型,所得平均绝对误差分别为13.9K and 12.6K。Gharagheizi和Alamdari应用基于遗传算法的多元线性回归技术,针对1030种有机物建立了闪点预测模型,其预测平均绝对误差为10.2K。上述预测模型与本发明所建模型的比较见表3。

表3.本模型与已有模型的比较

从表3可以看出,与已有模型相比,本发明基于支持向量机方法建立的预测模型具有更高的预测精度。同时,它建立在更大的样本集基础之上,因此具有更大的广泛性和代表性。由此可见,支持向量机方法作为一种新型的机器学习算法,由于具有强大的非线性映射能力和良好的泛化性能,在参数选择合理、训练方法得当的情况下,是能够充分表达有机化合物燃爆特性与其分子结构基团之间的复杂关系,从而建立有效的燃爆特性预测模型的。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

基于支持向量机的有机化合物燃爆特性预测方法专利购买费用说明

专利买卖交易资料

Q:办理专利转让的流程及所需资料

A:专利权人变更需要办理著录项目变更手续,有代理机构的,变更手续应当由代理机构办理。

1:专利变更应当使用专利局统一制作的“著录项目变更申报书”提出。

2:按规定缴纳著录项目变更手续费。

3:同时提交相关证明文件原件。

4:专利权转移的,变更后的专利权人委托新专利代理机构的,应当提交变更后的全体专利申请人签字或者盖章的委托书。

Q:专利著录项目变更费用如何缴交

A:(1)直接到国家知识产权局受理大厅收费窗口缴纳,(2)通过代办处缴纳,(3)通过邮局或者银行汇款,更多缴纳方式

Q:专利转让变更,多久能出结果

A:著录项目变更请求书递交后,一般1-2个月左右就会收到通知,国家知识产权局会下达《转让手续合格通知书》。

动态评分

0.0

没有评分数据
没有评价数据
×

打开微信,点击底部的“发现”

使用“扫一扫”即可将网页分享至朋友圈

×
复制
用户中心
我的足迹
我的收藏

您的购物车还是空的,您可以

  • 微信公众号

    微信公众号
在线留言
返回顶部