文本关联分析论文-朱琢珩

文本关联分析论文-朱琢珩

导读:本文包含了文本关联分析论文开题报告文献综述及选题提纲参考文献,主要关键词:网络舆情,信息检索,文本倾向性关联分析,情感倾向性分析

文本关联分析论文文献综述

朱琢珩[1](2018)在《基于文本倾向性关联分析的网络舆情监测应用研究》一文中研究指出由于信息的高度发展,信息大部分的来源都已转向网络。如今网络媒体已经成为了广大民众使用最广泛的平台,网络媒体成为反映社会舆情的主要载体之一。研究基于文本倾向性关联分析的网络舆情监测系统对维护社会的安定以及促进企业的发展有着重要意义。本文主要针对实际应用需求,分析研究了网络爬虫技术在网页采集中的应用、中文分词索引技术及网页去重技术的常用算法、网页去噪和文本倾向性分析技术及数据库技术。从技术可行性、经济可行性、法律可行性等方面进行可行性分析;从系统的叁个主要层次对系统功能进行了需求分析;从系统响应速度、扩展性以及安全性进行了系统的性能需求分析。设计了信息采集、信息预处理、信息分析模块中的算法及核心代码,并对数据库中用到的数据库表进行了详细设计。设计实现了用户登录界面、用户检索系统界面、网络热点发现子系统、网络舆情综合分析子系统。使用结果表明系统人机交互友好,实用性强,能够检测网络舆情信息,设计满足了要求和需求,提高了网络舆情文本采集的准确性与情感性向分析的准确率。(本文来源于《华北电力大学》期刊2018-03-01)

夏雪,陈敏,方圆[2](2017)在《基于文本挖掘技术的精神障碍患者常用治疗手段与不良反应关联分析》一文中研究指出目的:了解精神障碍患者治疗常用手段及其相关不良反应发生率,挖掘精神障碍患者常用治疗手段之间以及多种手段联用与不良反应之间的关联规则,为精神障碍治疗方案的选择提供参考。方法:收集并整理2014-2015年北京市某精神专科医院的电子病历文件,基于文本挖掘技术提取其病程记录中患者治疗手段与不良反应相关信息,进而采用Aproior算法生成常用治疗手段之间以及多种手段联用与不良反应之间的关联规则。对于治疗手段与不良反应间关联规则的挖掘采用分层分析方法,以便更加有针对性地揭示不同类型的精神障碍患者其治疗方案与不良反应间的关联。结果:2014-2015年北京某精神专科医院共收治精神障碍患者14454人次,诊疗信息完整有效者12516人次,其中因精神障碍相关治疗发生不良反应者3982人次,发生率约为31.8%。无抽搐电休克治疗与心境稳定剂丙戊酸钠,抗精神病药奥氮平、利培酮及抗躁狂药碳酸锂的组合是本研究中最常见的联合治疗方案。氯氮平及其与阿立哌唑或奥氮平的组合可使心电图异常的发生率增加,椎体外系反应相关药品主要为抗精神病类药物,与既往报告相一致;米氮平与肝功能损害的关联在既往报道中尚不明确,有赖于后续探索。利培酮与苯二氮?类药物的合用对于精神分裂症患者锥体外系反应发生具有较大影响,而碳酸锂及MECT与异丙嗪联用则会增加躁狂患者锥体外系反应的发生率。双相情感障碍,目前为混合发作的患者联用富马酸喹硫平及奥沙西泮可导致心律及心率改变,抗抑郁药文拉法辛则会导致震颤等相关不良反应的发生。结论:将文本挖掘技术应用于电子病历信息采集中能够有效提高效率,快速实现文本信息的筛选。精神障碍的治疗常采用多种治疗手段联用的方案,其不良反应以神经系统症状为主,在不同治疗方法、不同诊断类型间存在一定差异。多种治疗手段联用时其不良反应与单独用药存在差异,在临床实践中应注意监测。(本文来源于《2017年(第五届)全国大学生统计建模大赛获奖论文选》期刊2017-12-05)

范恒亮,成卫青[3](2014)在《一种基于关联分析的KNN文本分类方法》一文中研究指出KNN算法在数据挖掘的分支-文本分类中有重要的应用。在分析了传统KNN方法不足的基础上,提出了一种基于关联分析的KNN改进算法。该方法首先针对不同类别的训练文本提取每个类别的频繁特征集及其关联的文本,然后基于对各个类别文本的关联分析结果,为未知类别文本确定适当的近邻数k,并在已知类别的训练文本中快速选取k个近邻,进而根据近邻的类别确定未知文本的类别。相比于基于传统KNN的文本分类方法,改进方法能够较好地确定k值,并能降低时间复杂度。实验结果表明,文中提出的基于改进KNN的文本分类方法提高了文本分类的效率和准确率。(本文来源于《计算机技术与发展》期刊2014年06期)

周振煜[4](2011)在《基于审计知识库的文本关联分析研究》一文中研究指出随着政府部门政务信息化程度的进一步提升,大量的信息开始以电子数据的形式存储起来,并被信息系统统一管理。但大量的文本信息仍以文档的形式被使用,文档中大部分的信息未能被深入使用。本文以国家社会保险审计工作的实际需要为出发点,深入研究社会保险领域文本信息知识发现的途径。本文首先研究了国内外数据挖掘领域关联规则挖掘的研究成果,总结了文本关联分析方法的一般过程。其次,针对文本数据的非结构化的特点,分析在处理文本数据中存在的困难和问题,并就文本预处理工作中的方法进行了讨论。再次,在文本预处理的基础之上,讨论文本特征化表示结构上的关联分析的方法,以及结合审计知识库的语义关系特点,提出基于审计知识库的文本关联分析方法。最后分析了文本关联规则在审计领域中的应用。基于社会基本养老保险的相关文本数据,对本文中提出的文本关联分析策略的实际效果进行验证,基于审计知识库的文本关联分析系统具备了领域内的适用性。(本文来源于《哈尔滨工程大学》期刊2011-12-30)

席峰[5](2011)在《基于命名实体及关系的网页文本关联分析方法》一文中研究指出针对传统关联分析技术应用于网页文本分析上存在的问题,提出一种基于命名实体及实体关系的网页文本关联分析方法.该方法以命名实体和实体关系作为特征来代替传统高频词,首先采用基于向量相似度比较的修正策略来提取网页文本中的命名实体,然后分析Maxfpminer算法并对其进行改进,利用改进的Maxfpminer算法对网页文本进行关联分析.实验结果表明,该方法分析得到的知识模式的有效性和可读性均优于传统方法.(本文来源于《微电子学与计算机》期刊2011年08期)

张彪,刘贵全[6](2010)在《基于关联分析的文本分类特征选择算法》一文中研究指出提出一种在选取特征时考虑特征与特征之间联系的算法。对特征词之间的关联关系进行挖掘,找出那些对类别有重要影响的特征词组,而这些特征词组中的每个单词在传统单独打分策略的特征选择算法中很可能会因分值过低而被丢弃。在Ruters21578、20Newsgroup文本数据集上进行实验,将算法与广泛应用的特征选择算法(信息增益、CHI等)进行对比、分析。实验结果表明该方法是一种有特点、有效的特征选择方法。(本文来源于《计算机工程》期刊2010年22期)

郝枫[7](2008)在《基于FP-Growth算法的文本关联分析》一文中研究指出关联规则挖掘是数据挖掘领域重要的挖掘技术,与之类似,将非结构化的文本内容转化成结构化的特征向量形式后,也可以在大规模文本集中发现基于特征词的频繁模式或关联规则。关联规则挖掘是一个标准的数据挖掘任务,开创性工作始于文献Mining association(本文来源于《电脑开发与应用》期刊2008年06期)

王春锋[8](2008)在《基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统》一文中研究指出随着人类基因组计划(Human Genome Project)以及分子生物学、信息科学的发展,不同学科的生物医学数据“爆炸”式增长。如何整合这些数据资源发现其中隐藏的知识一直是系统生物学研究的难点。传统中医学和现代生物医学是完全不同的学科,是一个互补性知识系统。本文结合中医药文献库和Medline开展整合文本挖掘(Integrative Text Mining),对中医证和分子生物学进行的关联分析研究具有重要意义。信息抽取是文本挖掘中一项重要技术,是在非结构化的自然语言文本中定位相应的结构化数据单元,从而使自由文本数据成为相应的结构化数据。信息抽取是文本挖掘的前期步骤和基础,基于信息抽取的文本挖掘系统是研究趋势所在。本文在系统分析和阐述信息抽取技术的基础上,结合实际应用开展了生物医学文本挖掘研究。在利用Bubble-bootstrapping算法抽取中文实体名称研究的基础上,对该算法进行了必要的改进,将其应用到基因名称的抽取中。通过对2000篇英文摘要的抽取实验,表明Bubble-bootstrapping算法在英文实体名称抽取领域同样具有良好的应用前景。其次,在信息整合的思路下,本文结合中医药文献和生物医学文献进行了中医证候基因相关关系知识发现研究。设计实现了基于整合挖掘的中医证和分子生物学知识的关联分析系统Medisco-3S。该系统具备Medline数据自动下载、术语实体识别、实体相互关系计算、可视化展现和网络图分析等功能。(本文来源于《北京交通大学》期刊2008-06-01)

郝枫[9](2008)在《文本关联分析中频繁项集挖掘算法的研究与改进》一文中研究指出信息时代为我们带来了海量数据,如何帮助人们有效地收集和选择感兴趣的信息,并且在日益增多的信息中发现潜在有用的知识已经成为信息技术领域的热点问题。面对这样的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展。文本关联分析是文本挖掘领域的重要挖掘任务之一,它是从文档集合中找出不同词语之间的关系的过程。其多数方法是从数据挖掘领域的关联规则挖掘借鉴而来。首先,本文对基于关键字的文本关联分析的特点进行了研究,它与传统关系数据库项集间的关联分析类似。可以把文本看成事务、文本中的关键词看成事务中的项,这样文本数据库中关键字的关联分析问题就转化成事务数据库中事务项的关联分析问题。但由于文本数据库的高维稀疏性,对不同的文本集使用相同的最小支持度阈值而产生的频繁项集,其规模大小相差甚远。因此阈值的设定成为文本关联分析的一个难点。其次,本文重点研究了N个最频繁项集挖掘算法—IntvMatrix。该算法使用了阈值动态调整策略,这样就解决了阈值难以设定的问题,从而可以通过指定的频繁项集数目N来控制产生频繁项集的规模。但其缺点是构造倒排矩阵容易造成空间上的浪费,并且倒排矩阵中建立项之间的联系又需要多次扫描数据库,造成了时间上的浪费。然后,针对IntvMatrix算法存在的问题,本论文提出了一种基于改进的FP-Tree挖掘N个最频繁项集的算法。先对文本数据库的事务项以及整个数据库进行排序,同时将非频繁项删除,这样就大大减少了生成FP-Tree时搜索共享前缀的时间。接着在改进的FP-Tree的基础上来构造局部频繁项的COFI-Tree,就可以省去对非频繁项集的扫描。本算法依然采用了阈值动态调整这一策略,从而在技术上为产生N个最频繁项集作了保证。最后,通过在同一文本数据库的基础上设置不同频繁项集数N,对改进后的算法与IntvMatrix算法进行分析与比较。实验结果证明,由于采用改进后的FP-Tree来构造局部COFI-Tree,以及对算法中数据结构的优化,在挖掘文本数据库时,算法的时间和空间利用率得以提高。(本文来源于《太原理工大学》期刊2008-05-01)

文本关联分析论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

目的:了解精神障碍患者治疗常用手段及其相关不良反应发生率,挖掘精神障碍患者常用治疗手段之间以及多种手段联用与不良反应之间的关联规则,为精神障碍治疗方案的选择提供参考。方法:收集并整理2014-2015年北京市某精神专科医院的电子病历文件,基于文本挖掘技术提取其病程记录中患者治疗手段与不良反应相关信息,进而采用Aproior算法生成常用治疗手段之间以及多种手段联用与不良反应之间的关联规则。对于治疗手段与不良反应间关联规则的挖掘采用分层分析方法,以便更加有针对性地揭示不同类型的精神障碍患者其治疗方案与不良反应间的关联。结果:2014-2015年北京某精神专科医院共收治精神障碍患者14454人次,诊疗信息完整有效者12516人次,其中因精神障碍相关治疗发生不良反应者3982人次,发生率约为31.8%。无抽搐电休克治疗与心境稳定剂丙戊酸钠,抗精神病药奥氮平、利培酮及抗躁狂药碳酸锂的组合是本研究中最常见的联合治疗方案。氯氮平及其与阿立哌唑或奥氮平的组合可使心电图异常的发生率增加,椎体外系反应相关药品主要为抗精神病类药物,与既往报告相一致;米氮平与肝功能损害的关联在既往报道中尚不明确,有赖于后续探索。利培酮与苯二氮?类药物的合用对于精神分裂症患者锥体外系反应发生具有较大影响,而碳酸锂及MECT与异丙嗪联用则会增加躁狂患者锥体外系反应的发生率。双相情感障碍,目前为混合发作的患者联用富马酸喹硫平及奥沙西泮可导致心律及心率改变,抗抑郁药文拉法辛则会导致震颤等相关不良反应的发生。结论:将文本挖掘技术应用于电子病历信息采集中能够有效提高效率,快速实现文本信息的筛选。精神障碍的治疗常采用多种治疗手段联用的方案,其不良反应以神经系统症状为主,在不同治疗方法、不同诊断类型间存在一定差异。多种治疗手段联用时其不良反应与单独用药存在差异,在临床实践中应注意监测。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

文本关联分析论文参考文献

[1].朱琢珩.基于文本倾向性关联分析的网络舆情监测应用研究[D].华北电力大学.2018

[2].夏雪,陈敏,方圆.基于文本挖掘技术的精神障碍患者常用治疗手段与不良反应关联分析[C].2017年(第五届)全国大学生统计建模大赛获奖论文选.2017

[3].范恒亮,成卫青.一种基于关联分析的KNN文本分类方法[J].计算机技术与发展.2014

[4].周振煜.基于审计知识库的文本关联分析研究[D].哈尔滨工程大学.2011

[5].席峰.基于命名实体及关系的网页文本关联分析方法[J].微电子学与计算机.2011

[6].张彪,刘贵全.基于关联分析的文本分类特征选择算法[J].计算机工程.2010

[7].郝枫.基于FP-Growth算法的文本关联分析[J].电脑开发与应用.2008

[8].王春锋.基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统[D].北京交通大学.2008

[9].郝枫.文本关联分析中频繁项集挖掘算法的研究与改进[D].太原理工大学.2008

标签:;  ;  ;  ;  

文本关联分析论文-朱琢珩
下载Doc文档

猜你喜欢