倾向性分类论文-崔志刚

倾向性分类论文-崔志刚

导读:本文包含了倾向性分类论文开题报告文献综述及选题提纲参考文献,主要关键词:岩石力学,室内试验,岩爆倾向性,评价指标

倾向性分类论文文献综述

崔志刚[1](2019)在《基于室内试验的岩爆倾向性评价指标及其分类》一文中研究指出岩爆现象直接威胁地下洞室施工人员、设备的安全,影响工程进度。目前,通常采用室内试验的方法对岩石的岩爆倾向性进行判断。针对目前岩爆倾向性评价指标繁多的现象,对现有岩爆倾向性评价指标按获取方法分为叁类:①应力-应变曲线;②强度特性;③综合指标。同时,针对黑龙江荒沟抽水蓄能电站地下洞室开挖区可能存在岩爆现象的问题,采用岩爆倾向性指数W_(et)对地下厂房处岩石进行岩爆倾向性评价,结果表明该处岩石具有轻微岩爆倾向性。(本文来源于《抽水蓄能电站工程建设文集2019》期刊2019-10-23)

廖小琴,徐杨[2](2019)在《面向BSP-CNN的短文本情感倾向性分类研究》一文中研究指出针对消费短文本评论中的情感倾向性分类问题,提出了一种BSP-CNN混合神经网络模型。模型先使用双向简单循环单元(BiSRU)对数据进行特征表示,再使用逐点卷积神经网络(P-CNN)进一步学习语义特征,并输出情感倾向性分类结果。实验结果表明,与传统的长短期记忆神经网络(LSTM)和卷积神经网络(CNN)相比,BSPCNN混合神经网络模型有效简化了计算,缩短了运行时间,并且在不同大小和不同文本长度的数据集上均能取得更高的F1值。(本文来源于《计算机工程与应用》期刊2019年23期)

徐婷,张香,张亚坤,王健[3](2019)在《基于AdaBoost算法的货车驾驶人安全倾向性分类》一文中研究指出为了研究货车驾驶人驾驶行为的差异性,对不同货车驾驶人实行分类管理。通过车载OBD设备获取39位货车驾驶人在自然驾驶状态下的车辆行驶数据,采用均值滤波方法对数据进行平滑滤波处理,以消除车辆行驶过程中由于路面颠簸、发动机抖动等外界环境对数据的影响。选择最高车速、横向加速度峰值、行车方向加速度峰值、车速与发动机转速的最大相对比值作为货车驾驶人安全倾向性评价指标。在对数据进行K-means聚类分析的基础上,应用AdaBoost算法建立货车驾驶人安全倾向性分类模型,将货车驾驶人分为激进型驾驶人或保守型驾驶人。数据验证分类结果表明,基于AdaBoost算法的货车驾驶人安全倾向性分类模型的平均准确率可以达到98. 74%,可有效区分激进型货车驾驶人及保守型货车驾驶人。(本文来源于《安全与环境学报》期刊2019年04期)

郭轶斌[4](2019)在《分类资料全局最优倾向性评分区间匹配的研究与应用》一文中研究指出研究背景:随机对照试验(Randomized Controlled Trial,RCT)被认为是证据等级最高的研究设计,是研究因果效应(Causal Effect)的金标准。但RCT研究并不能解决医学研究中的所有问题。由于观察性研究(observational study)不对研究对象进行随机分组,并且相对RCT更加节省费用和时间,因此越来越受到生物医学科研人员的关注。但观察性研究的研究对象基线变量在各个分组间存在着明显差异,存在混杂偏倚,从而影响处理效应估计(estimation of treatment effects)的准确性。倾向性评分法(Propensity Score,PS)是常见的可以用来控制可观测混杂的方法,其中,倾向性评分匹配法(Propensity Score Matching,PSM)应用最为广泛。PSM的基本思想是将PS相同或相近的处理组与对照组对象进行匹配,从而使得匹配后两组对象基线协变量均衡可比,控制混杂效应对处理效应估计的偏倚。为了控制匹配质量,只有处理组与对照组对象的PS距离小于设定好的一个值(卡钳值,caliper)时,才能形成匹配,该匹配方法称为倾向性评分卡钳匹配(Propensity Score Caliper Matching,PSCM)。此时由于部分处理组对象无法再对照组中找到PS距离小于卡钳值的对象从而排除匹配,因此会损失部分的样本。样本量损失的多少与卡钳值设置的大小有关。传统的PSM使用的是PS的点估计,未考虑抽样误差,损失了部分倾向性评分的信息。因此有学者提出使用倾向性评分的置信区间(confidence Interval,CI)进行匹配,称为倾向性评分区间匹配(Propensity Score Interval Matching,PSIM)。PSIM能使匹配率得到显着提升,尤其是在样本量较小的情况下。但可能导致匹配后组间协变量均衡性变差。基于运筹学整数规划问题中的指派问题(assignment problem)基本思想所构建的全局最优匹配(global optimal matching),着眼于使所有形成配对对象的倾向性评分距离之和达到最小或倾向性评分置信区间重合度之和达到最大,从而提高匹配质量,增加组间协变量的均衡性。因此,本研究将全局最优匹配算法用于优化PSIM,构建全局最优的倾向性评分区间匹配(Global Optimal Propensity Score Interval Matching,GOPSIM)算法,在增加匹配率的同时进一步平衡组间协变量,并将该算法扩展到处理因素为无序叁分类的情形,以满足实际研究中的需要。研究目的:观察性研究中存在较强混杂效应或样本量较小的情形下,使用PSCM会损失较多样本。若不使用卡钳匹配,组间协变量的均衡性就可能较差。本研究针对这一系列问题,提出能提高匹配率、提升效应估计准确度以及增加统计效率的PSIM方法。并将能进一步优化匹配质量,提升匹配后基线均衡性的基于“指派问题”的全局最优算法应用于PSIM中。并将该匹配算法从处理因素为两分类扩展到无序叁分类的情形。通过数据模拟研究,探索最优的PSIM的卡钳重合度,以及评价全局最优倾向性评分区间匹配的估计效应的准确性和精确性,从而构建最优的匹配算法。再将优化后的匹配算法应用于第五次全国卫生服务调查(上海地区)的实例研究中。研究方法:1.匹配算法构建本研究分别针对对两分类和无序叁分类两种处理因素类别数,从优化性能(局部最优、全局最优)、匹配方法(点估计匹配、置信区间匹配)和卡钳设置情况(卡钳值、卡钳区间)等3个方面的不同水平组合进行匹配算法的构建,各构建2*2*2=8种匹配算法,共计16种。2.模拟数据集生成(1)两分类处理因素首先生成自变量,根据变量关系矩阵生成18个自变量,其中9个服从发生事件率为0.5的伯努利分布的两分类自变量X_1-X_9,以及9个服从均数为0,方差为1的正态分布连续性自变量X_1 _0-X_1 _8。使用logit函数和伯努利函数,并根据混杂效应的叁种强度生成两分类处理变量,调整常数项使接受处理的对象比例控制在30%左右。最后,根据结局变量和处理变量与协变量的相关关系,使用logit函数和伯努利函数生成两分类结局变量,调整常数项使发生结局的比例控制在20%左右。两分类处理因素的模拟研究设置了3种样本量大小(200、500和1000)、3种混杂效应大小、6种处理效应大小共3*3*6=54种情形。每个情形生成1000个数据集,共产生了54,000个模拟数据集。(2)无序叁分类处理因素自变量的生成跟处理因素为两分类一致。使用logit函数和多项分布函数,并根据混杂效应的叁种强度生成叁分类处理变量,调整常数项使叁个处理水平发生的比例控制在2:3:5左右。最后根据处理变量、协变量和结局变量的关系,logit函数和伯努利函数生成两分类的结局变量,调整常数项使结局变量发生的比例控制在20%左右。无序叁分类处理因素的模拟研究设置了2种样本量(500和1000)、3中混杂效应大小、两种处理效应大小,共2*3*2=12种情形。每种情形生成1000个数据集共12,000个模拟数据集。3.匹配算法的评价本研究根据以下7种评价指标来评价不同匹配算法的表现性能,包括:处理效应估计的绝对偏倚(absolute bias)、处理效应估计的相对偏倚(percent bias)、处理效应估计的方差(variance)、处理效应估计的均方误差(mean squared error)、处理效应估计的95%置信区间覆盖率(coverage of 95%CI)、匹配率和协变量组间标准化差异(standardized difference)。使用一般线性模型(general linear model,GLM)估计不同匹配方法7个评价指标的边际均数(marginal means),从而判断不同匹配方法的匹配性能的优劣。4.实例分析以上海区第五次国家卫生服务调查数据作为实例分析部分的资料来源。处理因素为二分类的实例为上海市郊区65岁以上独居老人与非独居老人的自评健康状况差异;处理因素为无序叁分类的实例为上海市某区参保叁种不同基本医疗保险的65岁以上老年女性居民的卫生服务利用情况比较分析。研究结果:1.模拟研究结果(1)倾向性评分区间匹配(1)处理因素为两分类两分类处理的局部最优匹配共四种,分别是两分类倾向性评分最邻近匹配(PSNNM2)、倾向性评分卡钳匹配(PSCM2)、倾向性评分最大区间重合度匹配(PSMIOM2)和倾向性评分区间匹配(PSIM2)。这4种匹配方法均能很大程度上降低处理效应的估计偏倚,并使得协变量在组间相对均衡。在未进行匹配时,处理效应估计的绝对偏倚和相对偏倚均很大。PSNNM2、最优卡钳值的PSCM2和PSMIOM2较其他方法绝对偏倚和相对偏倚均较大。其余匹配方法均能达到非常好的处理效应估计准确性。除了PSMIOM2外,其余匹配方法均能使协变量达到均衡状态。PSIM2绝对偏倚的绝对值在大多数的卡钳区间下均小于最优卡钳匹配,且有较高的匹配率。随着卡钳区间的减小,绝对偏倚也随之增加,当卡钳区间为0.60时绝对偏倚最接近0。此外,随着卡钳区间的增加,匹配率的逐渐下降。相反地,组间均衡性却增加。匹配率和协变量的组间均衡性互相矛盾,匹配率的增加会使协变量组间均衡性变差。(2)处理因素为无序叁分类无序叁分类处理的局部最优匹配共四种,分别是处理因素为无序叁分类倾向性评分最邻近匹配(PSNNM3)、倾向性评分卡钳匹配(PSCM3)、倾向性评分最大区间重合度匹配(PSMIOM3)和倾向性评分区间匹配(PSIM3)。对于不同卡钳区间的PSIM3,随着卡钳区间的增加,协变量的平均标准化差异随之降低。相应地,匹配率也会随之下降。当实际数据的叁个处理组的基线协变量差异较大时,模拟研究结果显示,卡钳区间设置为2.8时,可以更好地控制组间协变量的均衡性。反之,当基线协变量较均衡时,可以选取2.4作为卡钳区间来保证较高的匹配率,使得更多的对象可以形成匹配。(2)全局最优倾向性评分匹配(1)处理因素为两分类变量两分类的全局最优倾向性匹配共四种:两分类处理全局最优倾向性评分最邻近匹配(GOPSNNM2)、全局最优倾向性评分卡钳匹配(GOPSCM2)、全局最优倾向性评分最大区间重合度匹配(GOPSMIOM2)和全局最优倾向性评分区间匹配(GOPSIM2)。GOPSMIOM2的处理效应估计的绝对偏倚和相对偏倚均较大,但其处理效应估计的方差与其他匹配方法差不多。由于偏倚较大的原因,该匹配方法的均方误差较大、处理效应估计的95%置信区间覆盖率较低、协变量的组间均衡性较差。在各种卡钳区间重合度的GOPSIM2中,随之卡钳值的增加,处理效应估计的绝对偏倚也随之增加。匹配率和协变量平均标准化差异均随着卡钳区间重合度的增加而增加。当卡钳区间重合度为0.45时,匹配率较低,此时的平均标准化差异最小当卡钳区间重合度为0.90时,匹配率较高,此时的协变量平均标准化差异为5.02%,也远远小于10%的阈值。总的来看,所有匹配方法均能得到一个偏倚较小的处理效应估计。绝对偏倚最大的匹配方法是GOPSMIOM2,最小的是GOPSIM2-60。相对偏倚与绝对偏倚相类似。各个匹配方法的处理效应估计的方差均较小且很接近。基线协变量的平均标准化差异和匹配率呈正比关系。在没有进行卡钳区间筛选之前,协变量的平均标准化差异较大。通过卡钳区间的筛选,协变量的平均标准化差异显着下降。随着卡钳区间重合度的增加,平均标准化差异逐渐下降。匹配率也随之减小。总体来看,GOPSIM2-90的标准化差异较小,匹配率较高。(2)处理因素为无序叁分类变量在GOPSCM3和GOPSNNM3中,不同匹配方法得到的处理效应估计的绝对偏倚和相对偏倚相对接近。绝对偏倚最大的匹配方法为卡钳值0.01的GOPSCM3。绝对偏倚最小的匹配方法是卡钳值0.02的GOPSCM3。处理效应估计的方差与偏倚的大致呈反比,偏倚越小方差越大。不同匹配方法间方差的差异不大。基线协变量的平均标准化差异和匹配率呈正比,匹配率越高,平均标准化差异也越大。GOPSNNM3的匹配率100.00%,随着卡钳值从0.5减小到0.01,匹配率从99.04%下降到56.47%,平均标准化差异从18.62%下降为6.44%。除了卡钳值为0.01的GOPSCM3,其余所有匹配方法协变量平均标准化差异小于10%,可认为协变量均衡可比。在GOPSMOIM3和GOPSIM3中,绝对偏倚最大的匹配方法是GOPSMIOM3(0.096),最小的是GOPSIM3-75(0.069)。相对偏倚与绝对偏倚相类似,也是GOPSMIOM最大(5.903%),GOPSIM3-75最小(4.384%)。各个匹配方法的处理效应估计的方差均较小,基本在0.075附近。由于GOPSMIOM3的处理效应的偏倚和方差均较大,因此其处理效应估计的均方误差也最大(5.094)。7种卡钳区间的GOPSIM3的均方误差较接近。基线协变量的平均标准化差异和匹配率呈正比关系。在没有进行卡钳区间筛选之前,协变量的平均标准化差异较大(16.14%),大于了10%的推荐阈值。通过卡钳区间的筛选,协变量的平均标准化差异显着下降。总体来看,GOPSIM3的标准化差异较小,匹配率较高。2.实例研究结果(1)上海市郊区65岁以上空巢老年居民自评健康状况研究排除了协变量或处理变量存在缺失的居民,最终477名独居老人和902名非独居老人纳入倾向性评分估计的模型。PSNNM2、PSMIOM2、GOPSNNM2和GOPSMIOM2的匹配率均为100%,GOPSCM2的匹配率最低,为38.99%,PSIM2匹配率最高45.49%。协变量平均标准化差异(Standardized Difference,SD)在匹配前为23.01%,四种没有设置卡钳值和卡钳区间,因此,这四种方法的协变量平均SD比较大,均大于10%。PSCM2的平均SD最小为5.28%。使用Wilcoxon秩和检验比较独居老人和非独居老人的自评健康状况,在匹配前,独居老人和非独居老人的自评健康差异有统计学意义,P<0.0001。但在进行PSM后,8种匹配方法的结果均为独居老人和非独居老人的自评健康状况差异无统计学意义(P值均大于0.05)。区间匹配能比点估计的匹配增加一定的匹配率,例如把PSCM2的匹配率从41.51%提升到PSIM2的45.49%,把GOPSNNM2的38.99%提升到GOPSIM2的44.86%。但是,协变量的标准化差异变化不大,增加了不到2%。说明不论是否联合和全局最优匹配的算法,区间匹配能在几乎不影响协变量组间均衡性的情况下,一定程度的提升匹配率,尤其是在样本量比较小,或者两个处理组间协变量分布差异较大时,优势更加明显。(2)上海市某区老年女性居民医保类型对卫生服务利用的影响本实例研究对象纳入标准为上海市某区65岁以上老年女性居民,若其基本医疗保险参保情况缺失则排除本实例研究。通过整理数据,本实例共纳入了532名参保城镇职工基本医疗保险居民、343民城镇居民基本医疗保险参保居民以及235名新农村合作医疗系统参保居民,共1110人。PSNNM3、PSMIOM3、GOPSNNM3和GOPSMIOM3的匹配率为100%。但这四种匹配方法的协变量均衡性较差,均大于了10%,但显着地低于匹配前的27.88%。PSIM3的匹配率在其余的四种匹配方法中最高,达到了58.88%。GOPSCM3的匹配率最低,仅为42.26%。通过卡钳值或卡钳区间的控制,这四种匹配方法的协变量均衡性有了很大的提升,协变量平均SD均小于了10%。其中GOPSCM3的协变量均衡性最好,平均SD仅为6.42%。在匹配前,由于存在大量混杂偏倚,未能检验出叁组间的两周就诊率的差异。但在经过PSM后,PSNNM3、PSIM3、GOPSNNM3和GOPSMIOM3卡方检验的P值均小于0.05,认为参保叁种医保类型的居民两周就诊率差异有统计学意义。与模拟研究相类似,PSNNM3、PSMIOM3、GOPSNNM3和GOPSMIOM3四种匹配方法没有设置卡钳值或卡钳区间,匹配率为100%,但这四种方法的协变量均衡性就稍差一些。其余四种方法设置了卡钳值或卡钳区间,因此协变量均衡性有所提升。使用PSNNM3匹配有统计学意义,而设置了卡钳值后PSCM3就没有统计学意义了。这可能是由于设置了卡钳值后导致了样本量的损失,使得检验效率降低。但是,使用了区间匹配后,PSIM3的匹配率比PSCM3高出了一些,提升了部分的检验效率,因此又检验出了统计学差异。研究结论:卡钳区间为0.60的PSIM2在探索的16种卡钳区间的PSIM2中有着最优的表现。因此,通过本研究的模拟实验,推荐在进行PSM时,尤其是样本量比较小的时候,使用卡钳区间为0.60的PSIM2能得到较好的匹配。随着卡钳值的减小或卡钳区间重合度的增加,PSCM3或PSIM3的组间协变量均衡性会变的更均衡,但是匹配率会随之下降。通过权衡两者,并且结合处理效应估计的指标,本研究推荐使用卡钳区间为2.6的PSIM3进行处理效应为无序叁分类的PSM。通过实例研究,进一步验证了匹配算法有着较好的表现性能。经过8种两分类倾向性评分匹配分析,上海郊区65岁以上独居与非独居老年女性居民的自评见状况差异均无统计学意义,敏感性分析的结果也显示差异无统计学意义。使用8种无序叁分类倾向性评分匹配分析上海市某区65岁以上老年女性居民医保类型对两周就诊率是否存在差异。经过PSNNM3、PSIM3、GOPSNNM3和GOPSMIOM3后,假设检验P值小于0.05,说明参保叁种基本医疗保险的居民的两周就诊率差异有统计学意义。敏感性分析结果也得到类似的结果。(本文来源于《中国人民解放军海军军医大学》期刊2019-05-20)

王文琦,汪润,王丽娜,唐奔宵[5](2019)在《面向中文文本倾向性分类的对抗样本生成方法》一文中研究指出研究表明,在深度神经网络(DNN)的输入中添加小的扰动信息,能够使得DNN出现误判,这种攻击被称为对抗样本攻击.而对抗样本攻击也存在于基于DNN的中文文本的情感倾向性检测中,因此提出了一种面向中文文本的对抗样本生成方法 WordHanding.该方法设计了新的词语重要性计算算法,并用同音词替换以生成对抗样本,用于在黑盒情况下实施对抗样本攻击.采用真实的数据集(京东购物评论和携程酒店评论),在长短记忆网络(LSTM)和卷积神经网络(CNN)这两种DNN模型上验证该方法的有效性.实验结果表明,生成的对抗样本能够很好地误导中文文本的倾向性检测系统.(本文来源于《软件学报》期刊2019年08期)

唐利[6](2018)在《网络电影评论的情感倾向性分类研究》一文中研究指出足不出户看电影俨然成为一种流行。一方面不受时间和空间的约束、方便快捷;另一方面可在观影之余进行评论,发布个人看法及感受。由于电影评论褒贬不一,情感倾向不同,对这些数据进行挖掘分析,使之成为有效数据而作为其他用户成为观影者的依据,同时帮助企业、电影网站更好地了解观众的需求,为今后电影制作或投放做出更合理的决策。本研究作为电影行业的辅助决策手段,有良好的应用实践意义与商业价值。(本文来源于《遵义师范学院学报》期刊2018年06期)

陈振彬,谢博,黎树俊,陈珂[7](2018)在《机器人对话中的情感倾向性分类模型研究》一文中研究指出如何使机器人能够像普通人一样识别情感,有针对性地与人聊天是目前人工智能领域研究的核心问题。将情感识别任务看成一个分类问题,构建了两种分类模型,一是基于PCA-SVM的情感倾向性分类模型,有效地提取主要特征,从而转换到一个低维空间去处理数据,有利于提高分类效率和质量;二是基于LSTM的情感倾向性分类模型,利用Word2vec进行特征选择与组合,送入长短记忆神经网络(LSTM)进行特征表示学习,输出分类结果。实验表明,针对中小规模的评论语料数据,LSTM模型比SVM模型的分类效果更好。(本文来源于《广东石油化工学院学报》期刊2018年04期)

马金金[8](2018)在《基于深度学习的多分类中文短文本情感倾向性研究》一文中研究指出随着互联网产业的飞速发展,改变了人们之间传统的交流方式,网络上短文本数据大量积累,短文本大数据分析迫在眉睫。短文本情感分类是当前短文本研究领域的极其重要的一部分,也是自然语言处理研究方向中不可忽视的一个重要方面,我们需要的不仅仅是对于短文本粗浅的正负向情感的分析,更多类别、更深层次、更加准确的细致情感的划分才是我们现阶段要达到的研究目的。传统的分类模型主要是机器学习的各类模型,例如支持向量机、贝叶斯分类器、决策树等等。近年来,深度学习模型凭借着其独特的优势,俨然有盖过机器学习模型的势头。本篇论文提出了一种VC语料库合成方式、一种WCMG语料库合成方式和一种新的深度学习融合模型。在VC语料库合成方式中,将匮乏的、样本类别数目极不平衡的多情感分类标注的小语料库通过VC二项生成的方式重新构成新语料库,以实现小语料库的扩充和样本类别的平衡;在WCMG语料库合成方式中,将经过VC方式处理的Word2vec预训练词向量和经过VC方式处理的Glove预训练词向量以新的张量连接方式,重新对词向量进行架构,完成两种预训练词向量方式的优势融合,更好的提取出样本数据的特征;在新的深度学习融合模型中,通过对已然提出的多种深度学习分类模型的重现和实验分析,尝试着进行了一定程度的变形实验,提出了一种独特的模型融合方式。从众多的实验结果对比分析来看,VC语料库合成方式可以显着提升模型的准确率,而WCMG语料库合成方式和新的深度学习融合模型则是略微的提升模型的准确率,仍然有一定的改进空间。由此可见,本篇论文提出的VC语料库合成方式、WCMG语料库合成方式和一种新的融合模型相较于传统的语料库处理方式和深度学习模型,具有更强的特征提取能力和模型泛化性,提升了短文本情感分类的准确率。(本文来源于《华中师范大学》期刊2018-04-01)

杨新元[9](2017)在《基于神经网络的文本倾向性分类研究》一文中研究指出互联网是随着时代发展产生的新型信息交流工具,如今已经进入了我们学习生活中的方方面面。与此同时网络上可交流的平台越来越多,在这些平台中各种各样的评论性文本也呈爆发式增长,对这些文本进行倾向分类,挖掘文本中潜在的价值具有十分重要的意义。各种平台的评论性文本包含着对时事、物品的正负评论等,对此类文本进行倾向性分类主要是以情感、舆论导向为主线进行分类。如今,这项工作越来越被关注同时吸引了大批学者。关于对文本进行倾向性分类主要有两类方法,一是借助于词典、语料库的方法。此方法在文本分类方面具有良好的效果,但是此方法过多依赖词典等外部元素,分类结果的好坏与词典等外部元素有直接关系,同时计算量较大。第二种方法是机器学习方法,该方法结合特征抽取技术,对文本用特殊的方式进行表示进而使用机器学习方法分类。不同的机器学习方法分类效果不同,且容易受到文本好坏的影响。本文以论坛评论性文本和电子商务网站评论性文本为载体,对文本进行倾向性分类。结合不同文本的特点,本文中人工采集了一组含噪声较多的论坛数据同时在网站采集了一组规范的电商评论数据。评论性文本结构复杂、语言风格多样,针对此类现象,首先对文本进行了处理,将文本格式等进行规范化,然后专门构造了分词词典并应用到了分词过程中去。结合文本向量表示方法及X 2统计量特征抽取方法构造了文本的向量矩阵。由于论坛和电商网站评论性文本存在噪声较多且特征多变,结合文本倾向分类的方式,本文选择利用文本预处理结合机器学习进行文本倾向性分类。在众多机器学习方法中,本文选用BP神经网络模型作为文本倾向性分类模型。本文中在文本分类模型训练过程中,构造了一层到两层的神经网络分类模型然后在不同的训练集上进行了比对实验,选出了最优模型进而对测试文本进行了测试实验。通过不同数据集对该模型的实验结果的分析,验证了 BP神经网络分类模型对含有噪声的文本的容错能力,分类效果较好。(本文来源于《内蒙古大学》期刊2017-06-08)

王丽霞[10](2017)在《基于情感字集的中文情感倾向性分类研究》一文中研究指出情感倾向性分类一般是指对文本的情感极性,如:积极、消极、中性等,进行自动化分类,在大数据时代主要用于调查大众对某事件、人物或团体所持态度。传统的方法特别费时且有很大的局限性,现如今通过搜取互联网上的海量信息可以更加快速、方便的得到他人的意见,并且根据这些大量信息得出的意见可靠性往往更高。本文首先分析了基于情感词典的中文情感倾向性分类的情况并利用ICTCLAS分词和知网情感词典进行传统的中文情感倾向性分类实验,对实验结果进行分析总结后,发现不管是用哪种分词工具或情感词典都将给情感倾向分类结果带来一些不确定的干扰,特别是不同的情感词典在可靠度和分析的类别上都有很大的差别。针对以上这些情况,本文提出了 "情感字集"的概念,这些"字"不仅与使用类别无关且不需要中文分词。所以这里首先欲找出这样的一个情感字集:这些字本身就能影响其所组词后的词的情感倾向,或者字本身就带有强烈的情感倾向。本文从两个不同的来源挖掘出两个不同版本的"情感字集",并且分别对这两个版本进行了实验得到了不同的实验结果,最后选择实验效果更好的版本对情感倾向值的计算方法进行了以下改进。因为没有分词的过程,针对常用的否定词与程度词分别归纳整理了常用的"否定字"与"程度字"并将这些"否定字"、"程度字"对情感字的影响加入到实验算法中。基于情感字集的情感倾向性分类,在计算句子的情感倾向值时是根据每个字的情感值进行计算的,且所有的字都是完全独立,而一些特殊词组被拆分后有可能会影响句子的情感倾向性,所以本文使用了最大正向匹配法对这些词进行识别。最后又通过查找字间关联,减少了连续同类型字的信息熵,进一步提高实验的准确率,最高准确率相对于传统按词的准确率提高了近20%。(本文来源于《昆明理工大学》期刊2017-03-01)

倾向性分类论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

针对消费短文本评论中的情感倾向性分类问题,提出了一种BSP-CNN混合神经网络模型。模型先使用双向简单循环单元(BiSRU)对数据进行特征表示,再使用逐点卷积神经网络(P-CNN)进一步学习语义特征,并输出情感倾向性分类结果。实验结果表明,与传统的长短期记忆神经网络(LSTM)和卷积神经网络(CNN)相比,BSPCNN混合神经网络模型有效简化了计算,缩短了运行时间,并且在不同大小和不同文本长度的数据集上均能取得更高的F1值。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

倾向性分类论文参考文献

[1].崔志刚.基于室内试验的岩爆倾向性评价指标及其分类[C].抽水蓄能电站工程建设文集2019.2019

[2].廖小琴,徐杨.面向BSP-CNN的短文本情感倾向性分类研究[J].计算机工程与应用.2019

[3].徐婷,张香,张亚坤,王健.基于AdaBoost算法的货车驾驶人安全倾向性分类[J].安全与环境学报.2019

[4].郭轶斌.分类资料全局最优倾向性评分区间匹配的研究与应用[D].中国人民解放军海军军医大学.2019

[5].王文琦,汪润,王丽娜,唐奔宵.面向中文文本倾向性分类的对抗样本生成方法[J].软件学报.2019

[6].唐利.网络电影评论的情感倾向性分类研究[J].遵义师范学院学报.2018

[7].陈振彬,谢博,黎树俊,陈珂.机器人对话中的情感倾向性分类模型研究[J].广东石油化工学院学报.2018

[8].马金金.基于深度学习的多分类中文短文本情感倾向性研究[D].华中师范大学.2018

[9].杨新元.基于神经网络的文本倾向性分类研究[D].内蒙古大学.2017

[10].王丽霞.基于情感字集的中文情感倾向性分类研究[D].昆明理工大学.2017

标签:;  ;  ;  ;  

倾向性分类论文-崔志刚
下载Doc文档

猜你喜欢