一、一种基于潜在语义结构的文本分类模型(论文文献综述)
邓钰[1](2021)在《面向短文本的情感分析关键技术研究》文中研究指明社交网络和电子商务平台已变成庞大的公共信息集散地,海量信息数据的挖掘与价值赋能一直在进行。数据科学第四范式的提出,为深度学习在大数据和人工智能(Artificial Intelligence,AI)领域大显身手提供了理论基础,自然语言处理(Natural Language Processing,NLP)也深受其益,迅猛发展。利用海量互联网数据对人们的情感和观点进行分析,有着重要的科研价值和社会价值。NLP中的情感分析是最活跃的研究领域之一,已经从计算机科学扩展到管理学和社会学,如市场营销、金融、政治、历史甚至医疗。观点几乎是所有人类活动的核心,是影响人们行为的关键因素,如何利用NLP技术对主观意见文本进行情感分析,被越来越多的研究人员关注。在NLP中,不同于传统语义分析,情感分析更聚焦与观点有关的情感语义,包括文本情感极性分类问题等,需要更深层次的理解和建模。另外,社交网络文本和产品评论篇幅短,针对性强,往往包含更丰富的情感信息。相较于传统机器学习算法,深度学习不依赖人工构建特征,具有特征的自学习能力,非常适合语言文本的抽象、高维、复杂等特点。本文针对短文本情感分析问题,依据不同的任务阶段、场景和粒度,研究设计有效的深度学习解决方案。论文的主要工作和成果如下:1.提出了一种基于混合词嵌入的交互注意力网络(Hybrid Word Embedding Based Interactive Attention Network,HWE-IAN),该模型主要解决传统词嵌入对文本情感语义表达不足,以及不同领域间语义鸿沟的问题。HWE-IAN利用预训练算法Bidirectional Encoder Representations from Transformers(BERT)对传统词嵌入的情感语义表征能力予以补充,在任务预处理阶段充分挖掘文本蕴含的情感语义信息;同时融入了词性信息、位置信息和n-gram信息等多种语义特征,使模型具有更加丰富的情感语义表达;模型还使用注意力机制让各类特征进行交互,抽象更深层次的上下文内部语义关联,以提升模型的情感分类性能。最后,在两个公开英文情感分类语料上进行实验,结果证明HWE-IAN模型优于其他对比模型,有效提高了情感分类性能。2.提出了一种多头注意力记忆网络(Memory Network based on Multi-head Attention,MAMN),该模型解决了多头注意力机制和记忆力网络的性能瓶颈,进一步充分挖掘短文本蕴含的情感语义特征和上下文内联结构关系。MAMN模型利用n-gram特征和ON-LSTM网络对多头自注意力机制进行改进,以对文本内联关系进行更深层次的提取,使模型可以获得更丰富的文本特征信息;同时利用多头注意力机制对多跳记忆网络结构进行优化,以对短文本上下文内部语义结构进行有效建模,充分挖掘高层情感语义特征。最后在三个公开英文用户评论数据集上对模型进行实验评估,结果验证了MAMN在情感分类任务中的有效性,其分类性能优于CNN、LSTM和胶囊网络架构的其它基线任务模型。3.提出了一种结合多跳注意力的迁移胶囊网络(Transfer Capsule Network with Multi-hop Attention,MHA-TCap),该模型针对特定领域中有标注训练数据稀缺的问题。同时,从面向领域类别的细粒度情感分类任务入手,MHA-TCap模型探究了小数据集上性能提升的方法。模型采用深度记忆力网络和胶囊网络构造迁移学习框架,有效借助胶囊网络的迁移学习特性,将相近领域大规模标注数据蕴含的知识迁移至目标领域,提升在小数据集上的分类性能。MHA-TCap使用多维组合特征弥补一维特征注意力机制的不足,而多个基于领域类别的注意力计算层进行叠加,可以获取更深层次针对特定领域的情感特征信息。实验在一个公开中文评论数据集(包含六类领域数据)上进行,结果不仅表明该模型具有良好的分类性能,还验证了其迁移学习能力,最后证明MHA-TCap对于更细粒度面向目标的情感分类任务也有很好的泛化能力。4.提出了一种基于注意力机制的混合胶囊网络(Attention-based Aspect-level Sentiment Capsule Network,ABASCap),该模型主要针对面向目标(aspect)的细粒度情感分类问题,通过研究目标与上下文之间内部关联更合理的建模方式,更加有效的挖掘与目标有关的情感语义特征。模型使用改进的多头注意力机制对n-gram特征进行加工,以捕获文本内部结构以及目标与上下文之间的语义关联;定义了局部窗口大小(Local Context Window,LCW)来明确目标相关局部上下文区域,提出局部上下文掩码机制(Local Context Mask Mechnism,LCM)对其进行处理,并结合多头注意力机制对目标与局部上下文的强关联进行建模;采用胶囊网络生成最终的文本表征,并根据任务特点对路由算法和激活函数进行优化。最后在三个细粒度情感分类数据集上对模型进行评估,实验结果表明ABASCap模型的性能优于其他基线模型,在结合BERT之后性能提升更加显着,充分证明其在面向目标情感分类任务中的有效性。
刁宇峰[2](2020)在《双关语识别与生成关键技术研究》文中认为双关语是一种用来描述和理解词义歧义的修辞表达,主要通过词的多重含义或者同音近音的方式,从而使得双关语在上下文语境中具有双重含义,其语言表达更为含蓄、幽默。双关语不但是一种语言学的修辞现象,也是一种隐式情感表达方式,具有独特的研究风格,给人们留下深刻的印象。近年来,随着互联网及其技术的不断发展,微博、推特、论坛等社交媒体平台成为全球最大规模的公共数据源,而双关语文本出现在更加多元化的社交媒体平台上,得到了大多数研究学者更为广泛的关注。因此,研究学者们迫切需要利用自然语言处理技术深入理解和加工双关语信息。双关语研究旨在赋予计算机像人类一样分析双关语的能力,是一项富有挑战的研究课题。针对目前国内外双关语研究中语义信息利用不足、外部资源利用不充分等问题,本文深入研究双关语的语言学现象和表达特点,展开双关语识别研究、双关词定位研究和双关语生成研究,具体完成的工作主要如下:(1)对于双关语识别任务,双关语从类别上分为语义双关语和谐音双关语,对两类双关语分别进行识别。首先针对语义双关语识别方法存在由于词的一词多义性引起的语义理解不充分问题,提出了一种基于上下文表示和门控注意力机制的语义双关语识别方法。该方法深入挖掘语义双关语的歧义性,通过引入不同的语言环境中使用上下文语义表示来解决语义双关的一词多义性。另一方面,针对谐音双关语识别方法存在由于词的同音引起的语义表示不丰富问题,提出一种融合发音和拼写的注意力机制谐音双关语识别方法。该方法深入挖掘谐音双关语的语言特性,通过构建发音语义表示和拼写语义表示来捕获谐音双关语的歧义信息。实验表明,上述的双关语识别方法能够有效利用语义信息提升双关语识别的性能。(2)对于双关词定位任务,针对语义双关词定位方法存在忽视了语义双关语的语言学和语用学信息,提出了一种基于多维语义关系和语义相似度匹配的语义双关词定位方法。该方法根据相关的语言学理论,引入低维分布语义空间和外部语义资源提供的同义词信息。另一方面,针对谐音双关词定位方法存在忽视了谐音双关语的语言学和语用学信息,提出了一种基于细粒度语义表示和BiGRU-CRF的谐音双关词定位方法。该方法深入挖掘谐音双关词在双关语中的表达方式,构建融合字符、音素、词性、位置、词等级别的细粒度语义表示,利用新的标签策略和命名实体框架定位谐音双关词。实验表明,上述的双关词定位方法均获得了比目前先进的方法更好的结果。(3)对于双关语生成任务,针对生成的语义双关语缺乏歧义性和流畅性从而引起生成文本的质量不佳问题,提出了一种基于歧义性和流畅性的语义双关语生成方法。该方法引入生成对抗网络,由生成器和判别器组成,前者由层次ON-LSTM注意力机制构成,后者通过语义双关词及其不同的词义作为输入判断是真实文本还是生成文本,并结合层次的奖励机制和强化学习机制训练生成器。另一方面,针对生成的谐音双关语存在缺乏上下文语境信息从而引起生成文本的质量不佳问题,提出了一种基于语境理解和语义修正的谐音双关语生成方法。该方法包含语境理解模块和语义修正模块两个部分,前者包括局部语境理解和全局语境理解,后者首先通过预训练模型作为生成器生成谐音双关语,然后利用谐音双关语分类器获得激励得分,通过强化学习机制优化生成的谐音双关语。实验表明,上述提出的生成方法能够生成高质量的语义双关语和谐音双关语。
聂维民[3](2020)在《融合多粒度特征的文本向量表示模型及其应用》文中研究表明随着第五代移动通信技术的迅猛发展,移动互联网进入一个新的发展阶段,用户不仅是互联网内容的消费者,还是互联网内容的创造者。这些用户产生的数据在互联网海量数据中占据着举足轻重的地位,而这其中相当一部分是以文本的形式呈现的,例如即时通信工具的聊天内容、电子商务网站的评论、社交媒体上的发布和评论等。这些移动互联网新时代的文本数据蕴含着丰富的信息和知识,不论是从商业还是公共领域来看,都具有极高的价值。例如,对商品评论进行分析,商家可以收集产品反馈,挖掘用户痛点,提高产品竞争力,增强营利能力。然而,上述数据具有其独特的性质及模式。统计自然语言处理面对这些文本时表现往往差强人意,暴露出其提取文本语义特征能力的不足。本文为更加全面提取文本语义特征,提高文本向量对文本语义的表示能力,通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量,接着通过“融合门”机制将三种特征向量融合得到最终的文本向量,并在短文本分类任务上进行实验。本文首先对统计特征提取、神经网络模型相关研究进行梳理,并将其作为理论基础;接着提出通过卷积神经网络、潜在狄利克雷分布、词的分布式表示方法提取文本字粒度和主题粒度特征向量,同时提出“融合门”机制应对不同粒度特征向量融合问题;在此基础上本文设计了融合多粒度特征的文本向量表示模型;最后本文在短文本分类任务上进行实验,验证了本文所提方法、模型的有效性。本文贡献如下:为更加全面提取文本语义特征,在目前已有文本词粒度特征基础上,考虑提取文本其他粒度特征;并提出提取文本主题粒度特征和字粒度特征的方法;为处理由此产生的多特征向量融合问题,提出“融合门”机制;最后提出一种融合多粒度特征的文本向量表示模型,并通过短文本分类任务验证了其有效性。
柳泽波[4](2020)在《数据驱动的互联网违法广告主题挖掘与关联识别研究》文中认为近年来,随着互联网的快速发展和普及,我国加快了信息化发展的进程,步入了大数据时代。以互联网为依托所进行的各种经济活动形成的互联网经济成为市场经济不可或缺的组成部分,而其中市场规模高速发展的互联网广告也逐渐成为互联网经济的支柱性产业。如今,互联网充斥着形式各样的广告信息,其中包含大量会侵害用户权益、影响用户体验的违法广告。我国互联网广告行政监管部门正致力于构建完善的监管体系,以保障互联网广告行业健康发展。然而,由于多方面因素的影响,目前的监管体系发展仍无法匹配高速增长的市场规模,其中违法广告智能监管技术的滞后、智能化检测和分析水平不高是关键的技术原因。同时,缺少违法广告数据集也导致相关研究无法深入开展。因此,本文采集大量互联网广告,并由法律专业人士参与,结合机器学习算法,构建高质量违法广告数据集。并基于数据集,研究用于挖掘违法广告热点内容和主题分布的主题模型,以及用于准确识别违法广告所违反法条的关联识别模型,为实现监管体系从采集-识别-追责的全流程智能化提供技术支持。具体贡献如下:首先,针对目前相关研究领域缺少可用数据集的问题,通过多种方式采集互联网广告数据,并有法律专业人士参与数据集构建,使用小样本标注训练+大样本分类+人工复查的方式构建数据集,保障数据集的严谨性和可用性。并基于数据集进行违法广告特性分析。其次,为挖掘违法广告的热点内容和主题分布,以对违法广告进行内容追踪和舆情分析,本文构建了基于命名实体增强的半监督主题模型Lead LDA。模型从多角度提取违法广告关键词作为主题引导词,以半监督的方式引导主题分布,并通过命名实体词汇进一步提高主题之间的区分度和表达能力。最后,为准确识别违法广告所违反的法条,提高违法广告追责效率和准确率,本文从语义结构特征融合和抽象语义关联两个不同角度构建了两种关联识别模型,分别是基于Lead LDA的多特征融合关联识别模型和IAD-Net。多特征融合模型充分丰富了违法广告的语义特征,达到了先进水平。IAD-Net基于深度学习并针对违法广告的特殊性质设计多种结构,捕捉广告和法条的抽象语义关联,识别准确性超过目前先进水平。
周阳[5](2019)在《基于机器学习的医疗文本分析挖掘技术研究》文中认为随着医疗行业信息技术的引入,该行业的信息化和自动化水准不断提高。医学文本信息处理技术正逐渐成为一个新的研究热点。医疗文本,以电子病历为代表,包含了大量丰富的医疗信息,是进行疾病预测、个性化信息推荐、临床决策支持、用药模式挖掘等的重要资源,并且可以以此为基础进行医院机构服务价值的衡量。医学文本中尽管蕴藏着丰富的医疗知识,但处理起来也更加困难。由于以电子病历为主的医疗文本中包括大量非结构化的自由文本以及图像影像信息,且医生自行录入可能导致文本的拼写错误、医学名词简写以及不同医生不同地区的惯用语,电子病历中所包含的医疗信息还不能被计算机有效利用。因此,机器学习和自然语言处理相关技术将在医学文本的分析和挖掘中发挥重要作用。为了更好地探索和利用医学文本,特别是电子病历的半结构化和非结构化信息,对其中非结构化自由文本进行标准化和结构化非常的重要,而医疗信息对时间特征具有较高的敏感性,使得时间信息也成为了更好分析医疗文本必不可少的因素。传统的文本分类需要先进行一系列预处理和特征工程的建模,在医疗文本中存在大量的专业术语和知识、不准确的分词或难以理解的语义特征会影响分类的正确性。医疗文本被分析处理,最终需要产生有价值的信息和知识提供辅助决策,如从电子病历中挖掘患者的用药模式,从而为医生的诊断和用药决策甚至提供个性化临床路径提供帮助。且依据循证医学,所有的过程和结果是透明和可解释的,而不是一个黑盒,这也是一个具有挑战性和实际意义的问题。本文主要研究医学文本的分析与挖掘技术。在深入研究医疗文本的特点并广泛分析相关研究工作的基础之上,本论文提出了一系列用于知识抽取、建模、分类、挖掘的算法和模型,并在数据集上进行了性能评估与验证。具体来说,本文的主要研究工作和成果包括:(1)结合医学领域知识,研究了一种医学领域词典自动构建方法,能从医学文本语料库中提取有效的医学术语。在现有中文分词算法基础上,对医学文本语料库拆分、标注,并识别医学新词、区分医学术语歧义,进一步提高面向医学领域的中文分词精度。基于对电子病历文本精确有效的分词拆分和词性标注,分别从病程发展和时间线角度对电子病历文本进行结构化建模研究,对电子病历中病历文本的时间表述规则进行研究,结合语义分析技术,从文本中抽象出基于时间的患者疾病发展模型,实现基于规则的电子病历的结构化分析。通过将构建后的领域词典应用在不同病历的筛选分类中,验证构建的领域词典对医学文本分类器的性能影响。实验表明,结合医学领域知识的构建词典更好地识别医学新词以及改善机器学习的文本分类算法。电子病历一般会记录患者患病的时间和情况,而这些信息一般存在于以自然语言描述的文本中,相关规则的挖掘是研究的重点。一般的信息系统难以对其进行多维度的分析,而本文提出基于时间信息的电子病历文本结构化模型,通过基于规则匹配的语义分析技术,自动从电子病历中现病史、家族史结合相关的医疗记录中,提取患者的病情发展时间线,用于疾病分析和预测。该模型的提出,能解决非结构化的电子病历内容患者信息难以定量分析的问题,对有效利用电子病历的非结构化数据具有借鉴意义。(2)借鉴深度学习技术在图像识别领域的巨大成功,针对中文医疗文本分类问题设计了字符级深度神经网络模型。并引入双向长短时记忆和注意力池化操作层,使模型更好地结合上下文进行分类判断。模型采用Google的Tensorflow框架实现并训练调参,实验表明模型具有良好的收敛速度和准确率,并在不同主题领域的文本分类中都有不错的表现。传统中文文本分类方案通常离不开对文本的预处理,例如分词、特征抽取,然后结合语义分析使计算机一定程度上理解文本。本文提出的字符级卷积神经网络可以直接以字符为最小单位进行学习训练,不需要分词或基于单词的特征提取器,也不需要语法或语义结构方面的知识,训练完成后就可以直接对高层的目标进行分析和推断。这也推翻了之前普遍认为的结构化预测和语言模型对于高层次文本理解是必要的假设。通过本研究发现,深度学习可以处理文本理解问题,并且可以不事先了解任何关于单词、短语、句子或任何的知识与语言相关的其他句法或语义结构。从而解决由于医学领域存在大量的专业术语和知识,分词不准确或语义特征理解不到位而影响整个模型分类效果的问题。(3)提出了一个基于机器学习的框架来挖掘电子病历文本中隐藏的药物模式。该框架系统地集成了Tanimoto相似性评估,谱聚类,改进的LDA主题模型和多个特征之间的交叉匹配,以找到描述隐藏在高度复杂的药物模式的多个视角中的额外知识和聚类的残差。通过这些方法,一步一步地一起工作以揭示出潜在的用药模式。然后,本文使用来自中国某大型医院的电子病历文本(的实际数据来评估该方法。实验发现该框架优于其他药物模式发现的方法,特别是对于这种疾病,具有微妙的药物治疗差异。结果还显示发现的模式之间几乎没有重叠。因此,通过提出的框架很好地研究了每种模式的独特特征。对比其他已有的机器学习方法,该方法有效地发现了电子病历文本中针对高度复杂疾病和混合药物模式的主要药物模式;将高度混合的药物治疗分为不同的聚类药物模式,而不是模糊的聚类,把每个项目分类为一种治疗模式,尽管相似性较弱;与无监督的基于深度学习的治疗模式发现方法不同,该分类方法导致框架的每个步骤都是可解释的而不是黑盒子。这种方法对于临床知识发现(因为它是基于证据和可解释的)来理解用于临床目的的某些药物的分类过程是重要的。
李珍[6](2019)在《基于语义扩展的短文本分类研究》文中研究表明互联网的迅速发展加剧了信息时代的进步,短文本作为一种简单高效的表达方式广泛存在于各种社交网站中,如微博、新闻标题、商品评论、论坛、朋友圈等,想要从这些海量的文本资源中挖掘出有用的信息变得愈加困难。由于短文本具有稀疏性、即时性、海量性、不规则性等特点,传统的分类方法仍然存在文本语义信息提取不足和严重的数据稀疏问题。目前,引入外部知识库来扩展短文本的语义信息是较为热点的研究方向,如何才能获得文本中多层语义表达,并且消除短文本中不相关术语的影响,成为当前短文本分类研究的一个重要课题。针对上述问题并参考已有的研究成果,本文引入语义特征扩展的思想,将Probase语义网络作为外部知识库,通过词语概念化和增加语义共现词的方式对短文本进行扩充,使其能够更好地表达短文本中隐含的信息,达到消歧的效果。然后再结合Word2vec模型训练语义信息词向量,很好地解决了文本表示所面临的数据稀疏性和词语之间语义不足的问题,在传统分类模型的基础上,提出了一种基于语义扩展的短文本分类方法。本文首先仔细分析了短文本独有的特点和传统短文本分类技术,指出了传统短文本分类模型中存在的缺陷,确定了Probase知识库相较于其他知识库在扩展短文本语义信息上的优势;其次,推断出短文本中每一个词语符合该语境的概念词和共现词,然后作为词语的语义信息添加到文本中,同时根据上下文语境选取最具代表性的概念进行匹配,并删除模糊术语。结合Probase语义网络和Word2vec词向量对文本进行特征向量表示,该方法不仅能够丰富短文本语义信息,而且还能准确地表现出词语之间的相互联系以及上下文结构表达;再次,针对传统分类模型,从短文本预处理、文本表示等步骤进行优化,概念化的短文本采用基于Word2vec模型的短文本分类方法解决传统分类模型中存在的文本特征向量维度过高和稀疏性的问题,获得高质量的语义特征词向量表示;最后,通过比较目前已有的分类方法,选择LIBSVM算法进行短文本分类,将本文提出的基于语义扩展的短文本分类方法与传统的分类方法进行对比。实验结果表明,本文所提出的方法可以取得更好的分类效果。
王庆嘉[7](2019)在《基于文本倾向性分析的高校舆情系统研究与实现》文中认为随着高校网络舆情的快速发展,越来越多的高校大学生喜欢在互联网平台上畅谈个人理想、发表个人见解和发泄个人情绪。虽然高校舆情的发展让高校大学生拥有了更多的话语权,但是高校舆情信息数量的快速增长使其管理变得更加困难,从而引发了一系列的高校舆情危机,对高校造成了严重的负面影响。基于上述问题,本文构建了一套基于文本倾向性分析的高校舆情系统。系统使用网络爬虫获取高校舆情数据,经过数据预处理后,对高校舆情数据进行文本倾向性分析和关联查询。本文利用基于情感词典和朴素贝叶斯的方法实现对高校舆情文本倾向性分析功能,该方法使用情感词典作为特征选择方法,利用朴素贝叶斯理论构建高校舆情文本情感分类器,然后对高校舆情文本进行文本倾向的判断。本文使用潜在语义分析算法实现高校舆情数据的关联查询功能,该方法先对高校舆情文本构建词语-文档矩阵并进行降维构建潜在语义空间,在潜在语义空间中将用户的查询语句表示成查询向量,并计算与其他文本向量的相似度,最后根据相似度值从大到小将查询结果返回给用户。基于文本倾向性分析的高校舆情系统的构建对于维护高校乃至社会的安全与稳定,促进高校健康发展具有重要意义。本系统已经通过系统测试并在济南大学进行应用,效果达到了预期。
曾子豪[8](2019)在《保险条款文本结构化系统设计与实现》文中研究指明近年来,自然语言处理技术的不断发展使得文本结构化系统在不同知识领域得到了广泛应用。诸如医疗、新闻等领域的文本结构化研究已经取得了较大突破,而在保险领域尚未出现较成熟的文本结构化系统。由于专业知识的不同以及文本内容描述形式的不同,目前还不具备一个通用的文本结构化系统满足各个领域信息抽取的需求。保险文本独特的语言风格,使得面向保险领域的文本结构化系统研究仍存在着新的挑战。保险条款是保险购买人以及保险公司双方确立的有关权利与义务的条文,其核心内容保障责任描述了保险公司承担的责任范围,以及被保险人发生保险事故时保险公司应负的赔偿责任。将该非结构化的文本进行结构化处理有助于实现用户对保障责任内容的快速阅读以及有效理解。本文提出了面向保险领域的保险条款文本结构化方法,并以此作为支撑构建了保险条款文本结构化原型系统,模拟提出的算法在实际的保障责任条件查询过程中系统的应用场景。本文主要内容包括以下几个部分:(1)通过网络爬虫采集各个保险公司的保险条款原始PDF文件,并针对不同文本格式的PDF文件设计不同的文件解析策略以获取保险条款中保障责任文本内容;(2)本文提出了应用于非结构化的保障责任文本数据的结构化方案,即通过保障责任长文本语义分割、保障责任短文本分类、保障责任实体信息抽取以及短文本结构化结果融合的多阶段文本处理方法,最终实现人寿险、意外险、重大疾病险、理财险和医疗险五大类中包含的共98524条保障责任文本的结构化;(3)基于所提的方法,设计并实现保险条款文本结构化系统。测试结果表明,本文所提出的多阶段文本处理方法有效的实现了保险条款中文本的结构化,达到了系统预期设计的要求。
赵婧[9](2019)在《中文文本分类中特征降维方法的研究》文中研究表明为了有效地组织和处理海量文本数据,文本挖掘技术越来越受到关注,文本分类是文本挖掘中重要技术之一。基于机器学习的文本自动分类的总体思路大致为:文本预处理;特征降维;文本表示模型构建;分类算法分类;分类模型评估。其中,特征降维是文本分类中的重要步骤,特征降维包括特征选择和特征抽取。文本预处理后,文本变为由词项表示,训练集预处理后即为原始特征空间。该原始特征空间具有稀疏性和高维性,拥有如下问题:首先,训练和分类时间开销大;其次,过多的特征可能会导致“维数灾难”。特征降维,即将数据从高维降低到低维层次。本文针对文本分类中的传统特征选择方法的不足进行了分析,得出文本分类的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计(Document Frequency of Within-class and Between-class and Term Frequency Statistics,DFCTFS)的特征选择评估函数,并利用该特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为各类别特征词库的并集。通过基于SVM的中文文本分类实验表明,该方法与传统的卡方统计量和信息增益相比,在一定程度上提高了文本分类的效果。本文提出的DFCTFS特征选择方法与传统特征选择方法一样,基于的假设是词项之间相互独立,通过计算词项和类别之间的特定关系来过滤词项,不考虑文本中词项之间的语义信息,但是,文本中的词语具有隐含语义结构。因此,使用隐含狄利克雷分配模型(Latent Dirichlet Allocation,LDA),对经过DFCTFS特征选择后的特征空间中融入文本词项间的语义关系,实现进一步的特征降维,优化文本与词语间的语义结构。通过基于SVM的中文文本分类实验表明,该方法与DFCTFS特征选择、LDA特征抽取方法相比,在一定程度上提高了文本分类的效果。本文构造了一个中文文本分类系统,并且在该系统中通过上述实验验证了本文所提出的改进的特征降维方法的有效性。
陆青梅[10](2019)在《基于语义分析的网络舆情研究》文中研究指明近年来中国互联网用户数量逐年增加,互联网用户通过网络平台宣泄情绪、表达诉求,使得政府、商业参与的热情和频率越来越高。然而社会转型时期出现的各种社会矛盾往往首先集中在网络平台上,形成强大的舆论压力。而Web2.0的快速发展,使互联网成为文化思想和各种言论观点的主要传播渠道。同时,每天不断大规模增长的舆情数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。因此,本文在国内外学者研究成果的基础上,结合机器学习、信息处理、新闻传播学、自然语言处理、数据挖掘等多学科理论和技术,从网络舆情分析的方法理论、技术和应用以及演化等方面进行了多角度的研究。本文的主要研究内容和创新点包括以下几个部分:第一部分(对应第二章)构建并阐释了网络舆情分析方法理论体系,即以基础方法为参考、常用分析方法为支撑、现代智能信息处理方法为导向的网络舆情分析方法体系。重点对文本内容挖掘法、智能分析法、网络测量分析法等方法进行了分析,并以网络舆情传播中的热点事件“长生疫苗”事件为例,利用内容分析法对该事件相关报导进行实验分析研究。在智能分析方面,本部分详细分析文本内容挖掘和主题结构挖掘的相关概念和算法思想以及其在网络舆情中的应用,并对Single-pass增量聚类算法在文本聚类方面的不足提出通过引入种子话题,新加入的文档只需要与聚类中的种子话题进行比较,并且在比较的过程中不断的更新种子话题来进行改进。第二部分(对应第三章)在第二章的基础上进一步完善网络舆情分析方法体系里的智能分析法。本部分重点探讨了基于外部语义知识的语义分析和潜在语义分析(LSA)。首先,基于外部语义知识的语义分析,本部分以知网为例,利用其作为系统的语义知识资源,分析了基于Hownet语义词典的相似度计算方法并针对词语间相似度计算方法只考虑义原间的距离因素,没有考虑义原深度等对相似度计算的影响,通过引入义原相对位置的影响因子和深度影响因子进行改进,并将其应用到句子相似度和段落相似度的计算过程中,通过相关实验验证改进后的方法计算结果更加准确,符合实际。其次,本部分通过研究潜在语义分析(LSA)的原理和奇异值分解法(SVD)的计算思想,针对SVD中奇异值k数量过大,生成的语义空间和原始向量空间模型高度相似,奇异值k数量过小,则会丢失有用的信息生成的语义空间中有用的结构太少的问题,给出奇异值k数量取值的两种方法,一是在实验过程中可将奇异值降幅最大的点作为临界点,此点对应的奇异值序号则是k值,二是在参考因子分析理论的基础上设定阈值选取前k个文本最大主因子,并给出了具体的降维步骤。最后,本部分针对LSA方法在文本表示和文本类别信息考虑上的不足,通过分析局部区域生成方法,提出了基于文本对类别相关度的大小作为局部区域生成的方法R-LLSA,并通过SVM分类器获取文本类别的相关度参数,同时将其用于局部空间生成过程。最后通过模拟实验将R-LLSA和LLSA-C、LSA-GL分类结果进行对比分析后发现,LLSA-R是一种效率更高的文本分类表示方法,且所需要的特征维度数最小,进一步优化了SVD过程。第三部分(对应第四章)将情感倾向性分析按照处理文本的粒度不同分为词语级、句子级、段落级以及篇章级并加以分析,重点探讨了最小粒度—词语的情感倾向性分析的两种方法:基于词典和基于语料。并且因为情感倾向性判断问题实际可以转化为序列标注问题,本部分参考相关标注模型---CRFs模型,并针对该模型在处理序回归问题时的不足提出了扩展式CRFs模型并得到良好的实验效果。第四部分(对应第五章)分析了网络舆情事件的内涵与特征,并对网络舆情事件的发生频度、趋势、网民群体行为以及演化特点进行了梳理和分析,以“长生疫苗”事件为例利用趋势分析法中的回归分析探讨舆情事件关注度。本部分主要通过选取新浪微博上2018年7月2229日的10万条数据并将其作为训练数据,在进行数据噪声过滤、消歧去重等一系列处理后获得了活跃期内(50个小时)的1200条数据,以此为样本,构建了关于舆情关注度的两个指标(微博数和微博用户数量)的回归模型,并拟合其变化趋势生成相应的趋势线,得到合适的回归函数和最大拟合值,因此可以利用该模型预测出整个舆情事件中微博用户关注度的变化趋势情况。本部分通过参考Weisbuch-Deffuant模型的建模思想,结合网络舆情生成的特殊性以及个体观点接受度的异质性提出网络舆情演化过程中的个体观点交互规则并构建模型。并针对提出的交互规则通过三个仿真实验分别分析了个体观点接受度δ的分布状况、信任阈值θ以及意见领袖对网络舆情演化过程的影响。实验结果表明,相较于δ随机分布这一情况来讲,若δ服从均值为0.5的正态分布,那么网络舆情会快速收敛。而信任阈值θ体现的是群体的特征,若信任阈值θ值偏小,即意味着群体成员基本上不和其他个体产生观点交互,若信任阈值θ取值偏大,即意味着群体成员容易产生观点交互并在交互的过程中调整个人观点。最后一个结论是如果存在意见领袖对网络舆情演化过程有群体极化的影响。
二、一种基于潜在语义结构的文本分类模型(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、一种基于潜在语义结构的文本分类模型(论文提纲范文)
(1)面向短文本的情感分析关键技术研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外相关研究进展 |
1.2.1 句级别文本情感分析 |
1.2.2 面向目标的情感分析 |
1.3 研究内容与创新点 |
1.3.1 主要研究内容 |
1.3.2 主要创新点 |
1.4 论文的组织结构 |
第二章 相关理论基础 |
2.1 词的向量表示 |
2.1.1 向量空间模型 |
2.1.2 语言模型 |
2.1.3 词嵌入 |
2.2 卷积神经网络 |
2.3 循环神经网络 |
2.4 注意力机制 |
2.5 分类评价指标 |
2.6 本章小结 |
第三章 基于混合词嵌入的交互注意力网络研究 |
3.1 引言 |
3.2 关键技术 |
3.3 网络模型设计 |
3.3.1 BERT基础模型 |
3.3.2 HWE-IAN网络模型 |
3.3.3 模型训练 |
3.4 实验设计与分析 |
3.4.1 实验数据 |
3.4.2 实验设置 |
3.4.3 词向量性能对比 |
3.4.4 模型性能对比 |
3.4.5 模型结构性能分析 |
3.5 本章小结 |
第四章 基于多头注意力的情感分析记忆网络研究 |
4.1 引言 |
4.2 关键技术 |
4.2.1 多头注意力机制 |
4.2.2 记忆力网络 |
4.3 网络模型设计 |
4.3.1 词嵌入层 |
4.3.2 特征提取层 |
4.3.3 注意力编码层 |
4.3.4 多跳记忆结构 |
4.3.5 预测输出层 |
4.3.6 模型训练 |
4.4 实验设计与分析 |
4.4.1 实验数据 |
4.4.2 实验设置 |
4.4.3 模型性能对比 |
4.4.4 多头注意力结构性能分析 |
4.4.5 多跳结构性能分析 |
4.4.6 实际场景应用分析 |
4.5 本章小结 |
第五章 用于领域情感分析的迁移胶囊网络研究 |
5.1 引言 |
5.2 关键技术 |
5.2.1 迁移学习 |
5.2.2 胶囊网络 |
5.3 网络模型设计 |
5.3.1 多跳注意力卷积网络 |
5.3.2 迁移学习胶囊网络 |
5.4 实验设计及分析 |
5.4.1 实验数据 |
5.4.2 实验设置 |
5.4.3 模型性能对比 |
5.4.4 多跳与窗口选择 |
5.4.5 迁移学习性能测试 |
5.4.6 迁移学习扩展实验 |
5.5 本章小结 |
第六章 用于细粒度情感分析的混合胶囊网络研究 |
6.1 引言 |
6.2 任务定义 |
6.3 网络模型设计 |
6.3.1 词嵌入层 |
6.3.2 特征提取层 |
6.3.3 注意力编码层 |
6.3.4 初级胶囊层 |
6.3.5 分类胶囊层 |
6.3.6 模型训练 |
6.4 实验设计及分析 |
6.4.1 实验数据 |
6.4.2 实验设置 |
6.4.3 模型性能对比 |
6.4.4 模型结构性能分析 |
6.4.5 局部上下文窗口设置分析 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(2)双关语识别与生成关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状与发展趋势 |
1.2.1 文本情感分类 |
1.2.2 双关语相关介绍 |
1.2.3 双关语的研究任务 |
1.3 面临的问题与挑战 |
1.4 本文的主要工作 |
1.5 本文的内容安排 |
2 双关语识别技术研究 |
2.1 引言 |
2.2 相关工作 |
2.3 基于上下文表示和门控注意力机制的语义双关语识别方法 |
2.3.1 语义表示向量 |
2.3.2 全局语义理解表示 |
2.3.3 局部语义理解表示 |
2.3.4 整合语义信息 |
2.3.5 语义双关语识别 |
2.3.6 实验与分析 |
2.4 融合发音和拼写理解的谐音双关语识别方法 |
2.4.1 发音理解模块 |
2.4.2 拼写理解模块 |
2.4.3 融合模块 |
2.4.4 实验与分析 |
2.5 本章小结 |
3 双关词定位技术研究 |
3.1 引言 |
3.2 相关工作 |
3.3 基于多维语义关系和语义相似度匹配的语义双关词定位方法 |
3.3.1 语义透明度 |
3.3.2 语义相关性 |
3.3.3 语义特征集 |
3.3.4 语义双关词定位MSRLP算法 |
3.3.5 实验与分析 |
3.4 基于细粒度语义表示和BiGRU-CRF的谐音双关词定位方法 |
3.4.1 问题定义 |
3.4.2 细粒度语义表示 |
3.4.3 FR-BiGRU-CRF模型 |
3.4.4 实验与分析 |
3.5 本章小结 |
4 双关语生成技术研究 |
4.1 引言 |
4.2 相关工作 |
4.2.1 文本生成 |
4.2.2 双关语生成 |
4.2.3 生成对抗网络 |
4.3 基于歧义性和流畅性的语义双关语生成对抗方法 |
4.3.1 双关语生成器 |
4.3.2 双关语判别器 |
4.3.3 训练方式 |
4.3.4 实验与分析 |
4.4 基于语境理解和语义修正的谐音双关语生成方法 |
4.4.1 语境理解模块 |
4.4.2 语义修正模块 |
4.4.3 实验与分析 |
4.5 本章小结 |
5 结论与展望 |
5.1 结论 |
5.2 创新点 |
5.3 展望 |
参考文献 |
攻读博士学位期间科研项目及科研成果 |
致谢 |
作者简介 |
(3)融合多粒度特征的文本向量表示模型及其应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景及研究意义 |
1.2 国内外研究进展 |
1.2.1 文本特征提取 |
1.2.2 短文本分类 |
1.2.3 研究现状小结 |
1.3 研究内容和技术路线 |
1.3.1 研究内容 |
1.3.2 技术路线 |
1.4 主要工作及创新点 |
第二章 相关理论基础 |
2.1 统计特征提取 |
2.1.1 向量空间模型 |
2.1.2 潜在语义分析 |
2.1.3 潜在狄利克雷分布 |
2.1.4 统计语言模型 |
2.2 神经网络模型 |
2.2.1 词的分布式表示 |
2.2.2 卷积神经网络 |
2.2.3 循环神经网络 |
第三章 多粒度特征提取及融合 |
3.1 词粒度特征向量提取算法 |
3.2 字粒度特征向量提取算法 |
3.3 主题粒度特征向量提取算法 |
3.4 向量融合算法 |
3.5 本章小结 |
第四章 基于多粒度特征融合的短文本分类算法 |
4.1 数据转换 |
4.2 输入层 |
4.3 卷积层和池化层 |
4.4 融合层和输出层 |
4.5 本章小结 |
第五章 实验设计与结果分析 |
5.1 实验环境 |
5.2 实验数据 |
5.2.1 数据来源 |
5.2.2 分词 |
5.2.3 清洗 |
5.3 实验设置 |
5.3.1 对比模型 |
5.3.2 评价指标 |
5.3.3 评估方法 |
5.3.4 模型参数 |
5.4 结果比较分析 |
5.4.1 统计自然语言处理学习器表现 |
5.4.2 单粒度特征表现 |
5.4.3 三种粒度特征向量两两融合表现 |
5.4.4 三种粒度特征融合表现 |
5.5 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
致谢 |
在学期间的研究成果及发表的学术论文 |
(4)数据驱动的互联网违法广告主题挖掘与关联识别研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.1.1 互联网广告发展简介 |
1.1.2 互联网广告中存在的问题 |
1.2 相关技术及研究现状 |
1.2.1 文本分布式的表示方式 |
1.2.2 短文本分类模型 |
1.2.3 短文本主题挖掘的主题模型 |
1.3 本文工作和章节安排 |
1.4 本章小结 |
第二章 数据集构建及预处理分析 |
2.1 广告文本数据采集与清洗 |
2.2 数据预处理与数据集构建 |
2.2.1 新词挖掘和文本分词 |
2.2.2 广告词汇语义消歧 |
2.2.3 广告文本分类与识别 |
2.2.4 违法广告数据集标注与描述 |
2.3 广告数据集统计分析 |
2.4 本章小结 |
第三章 违法广告主题挖掘模型构建与分析 |
3.1 研究背景与问题描述 |
3.2 基于Lattice-LSTM的广告领域命名实体识别 |
3.2.1 命名实体识别模型 |
3.2.2 命名实体识别效果评估 |
3.3 违法广告主题挖掘Lead LDA模型构建 |
3.3.1 Lead LDA模型概述 |
3.3.2 违法广告关键词提取 |
3.3.3 Lead LDA主题模型构建 |
3.4 Lead LDA模型实验评估与违法广告主题挖掘 |
3.4.1 实验评估准则 |
3.4.2 Lead LDA模型评估 |
3.4.3 基于Lead LDA的违法广告主题挖掘 |
3.5 本章小结 |
第四章 违法广告与违反法条的关联识别 |
4.1 研究背景与问题描述 |
4.2 基于Lead LDA模型的多特征融合广告法条关联识别 |
4.2.1 多特征融合关联识别模型概述 |
4.2.2 基于Lead LDA的多特征融合关联识别模型构建 |
4.2.3 多特征融合过程 |
4.3 基于IAD-Net模型的广告法条关联识别 |
4.3.1 IAD-Net模型概述 |
4.3.2 注意力机制简介 |
4.3.3 IAD-Net模型构建 |
4.4 广告法条关联识别模型实验评估 |
4.4.1 基准模型对比实验分析 |
4.4.2 IAD-Net模型结构分析 |
4.4.3 IAD-Net实例分析 |
4.5 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 本文研究展望 |
参考文献 |
发表文章目录 |
(5)基于机器学习的医疗文本分析挖掘技术研究(论文提纲范文)
致谢 |
摘要 |
ABSTRACT |
1 引言 |
1.1 研究背景和意义 |
1.2 研究内容和主要贡献点 |
1.3 论文组织结构 |
2 文献综述和相关理论 |
2.1 文献综述 |
2.1.1 电子病历分析技术 |
2.1.2 医疗文本分词技术 |
2.1.3 文本分类技术 |
2.1.4 医疗文本挖掘技术 |
2.2 相关理论 |
2.2.1 从神经网络到深度学习 |
2.2.2 卷积神经网络 |
2.2.3 递归神经网络 |
2.2.4 分类性能度量指标 |
2.2.5 LDA主题模型 |
2.3 本章小结 |
3 基于时间规则的中文电子病历文本结构化模型研究 |
3.1 医疗文本语料分析及词典自动构建 |
3.1.1 医学文本语料库的建立 |
3.1.2 领域词典自动构建方法 |
3.1.3 基于医学文本语料库的分词方法 |
3.2 电子病历的结构化分析 |
3.2.1 病历文本的复杂性分析 |
3.2.2 患者病情发展模型 |
3.3 患者时间信息模型的建立 |
3.4 测试与讨论 |
3.4.1 词典构建和分词测试 |
3.4.2 电子病历结构化模型测试 |
3.4.3 分析和讨论 |
3.5 本章小结 |
4 基于深度学习的字符级医疗文本分类算法研究 |
4.1 问题背景 |
4.2 文本分类的基本框架 |
4.2.1 一般方法 |
4.2.2 基于深度学习的字符级卷积神经网络 |
4.3 词向量 |
4.4 卷积层 |
4.5 改进池化技术 |
4.6 SOFTMAX分类器 |
4.7 模型训练和参数 |
4.7.1 模型实现 |
4.7.2 数据集与预处理 |
4.7.3 中文编码方式 |
4.7.4 实验结果和分析 |
4.8 本章小结 |
5 基于电子病历的用药模式挖掘方法研究 |
5.1 问题背景 |
5.2 发现潜在用药模式的框架和方法 |
5.2.1 发现用药模式的一般方法 |
5.2.2 混合用药模式发现方法 |
5.3 基于机器学习的用药模式挖掘框架 |
5.3.1 患者——用药(Patient-Medicine)矩阵 |
5.3.2 用Tanimoto相似系数测量规定用药的相似性 |
5.3.3 LDA主题模型 |
5.3.4 用谱聚类方法对患者用药进行聚类 |
5.3.5 最大化模式识别覆盖率的交叉匹配 |
5.3.6 时间尺度的标准化处理 |
5.4 实际场景分析 |
5.4.1 数据集与数据预处理 |
5.4.2 用药模式挖掘 |
5.4.3 交叉匹配和用药模式分析 |
5.5 结论 |
5.6 本章小结 |
6 总结与展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
作者简历及攻读博士学位期间取得的研究成果 |
学位论文数据集 |
(6)基于语义扩展的短文本分类研究(论文提纲范文)
摘要 |
ABSTRACT |
符号对照表 |
缩略语对照表 |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 短文本分类研究现状 |
1.2.2 短文本词义消歧研究现状 |
1.2.3 主要面临的问题 |
1.3 短文本分类研究的难点 |
1.4 本文的主要工作 |
1.5 论文的组织结构 |
第二章 短文本相关理论研究 |
2.1 短文本分类概述 |
2.1.1 短文本的含义及特点 |
2.1.2 短文本分类的应用领域 |
2.2 文本分类的关键技术 |
2.2.1 文本预处理 |
2.2.2 文本表示 |
2.2.3 特征选择 |
2.2.4 文本分类算法 |
2.2.5 分类性能评估 |
2.3 Word2vec词向量学习模型 |
2.3.1 词向量 |
2.3.2 统计语言模型 |
2.3.3 神经网络语言模型 |
2.3.4 层次soft-max |
2.3.5 Word2vec |
2.4 本章小结 |
第三章 基于Probase和 Word2vec的短文本语义信息表示 |
3.1 构建语义信息的意义 |
3.2 Probase知识库 |
3.3 短文本语义信息处理的关键过程 |
3.3.1 词语概念化 |
3.3.2 语义共现词提取 |
3.3.3 词向量训练 |
3.4 本章小结 |
第四章 基于语义扩展的短文本分类模型 |
4.1 基本思想 |
4.2 短文本分类模型 |
4.3 短文本分类关键步骤设计 |
4.3.1 预处理过程 |
4.3.2 语义特征扩展过程 |
4.3.3 分类器的选择 |
4.4 本章小结 |
第五章 实验设计与结果分析 |
5.1 实验设计 |
5.1.1 实验环境 |
5.1.2 实验语料 |
5.1.3 实验步骤 |
5.2 实验结果与分析 |
5.2.1 实验结果 |
5.2.2 结果分析 |
5.3 本章小结 |
第六章 总结与展望 |
6.1 总结 |
6.2 进一步工作 |
参考文献 |
致谢 |
作者简介 |
(7)基于文本倾向性分析的高校舆情系统研究与实现(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 引言 |
1.2 课题研究背景及意义 |
1.3 国内外研究现状 |
1.3.1 高校网络舆情的国内外研究现状 |
1.3.2 文本倾向性分析的国内外研究现状 |
1.3.3 潜在语义分析的国内外研究现状 |
1.4 课题的主要研究内容 |
1.5 论文的组织结构 |
1.6 本章小结 |
第二章 基于文本倾向性分析的高校舆情系统需求分析与设计 |
2.1 需求分析 |
2.1.1 需求概述 |
2.1.2 系统功能性需求分析 |
2.1.3 系统非功能性需求分析 |
2.2 系统开发环境说明 |
2.3 系统软件模型设计 |
2.4 系统功能详细设计 |
2.5 数据库设计 |
2.5.1 E-R图 |
2.5.2 数据库表 |
2.6 系统逻辑架构设计 |
2.7 本章小结 |
第三章 基于文本倾向性分析的高校舆情系统关键问题研究 |
3.1 文本倾向性问题分析 |
3.2 文本预处理与特征选择 |
3.2.1 中文文本分词 |
3.2.2 去除停用词 |
3.2.3 特征选择与特征权值计算 |
3.3 朴素贝叶斯文本分类器构建方法研究 |
3.3.1 朴素贝叶斯分类的原理及流程 |
3.3.2 朴素贝叶斯分类器的构建 |
3.4 高校舆情文本的文本倾向性实验结果与分析 |
3.4.1 数据集 |
3.4.2 实验评价标准 |
3.4.3 实验结果与分析 |
3.5 基于潜在语义分析的关联查询 |
3.5.1 潜在语义分析 |
3.5.2 基于潜在语义分析的关联查询研究 |
3.6 本章小结 |
第四章 系统主要功能实现与测试 |
4.1 系统用户管理模块实现与测试 |
4.2 系统信息获取模块实现与测试 |
4.3 系统文本倾向性分析模块实现与测试 |
4.4 系统数据查看与查询模块实现与测试 |
4.5 系统性能测试 |
4.6 系统安全测试 |
4.7 本章小结 |
第五章 总结与展望 |
5.1 论文概述 |
5.2 论文工作总结 |
5.3 研究展望 |
参考文献 |
致谢 |
附录 |
(8)保险条款文本结构化系统设计与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 选题来源 |
1.2 研究背景与意义 |
1.2.1 研究背景 |
1.2.2 研究意义 |
1.3 国内外研究现状 |
1.4 本文的研究内容与组织结构 |
1.4.1 研究内容 |
1.4.2 组织结构 |
1.5 本章小结 |
第2章 相关技术简介 |
2.1 网络爬虫技术 |
2.2 自然语言处理技术 |
2.2.1 中文分词技术 |
2.2.2 词向量构建技术 |
2.2.3 文本相似度计算方法 |
2.2.4 命名实体识别 |
2.2.5 文本分类方法 |
2.3 本章小结 |
第3章 保险条款的文本结构化方法 |
3.1 问题描述与挑战 |
3.2 保障责任文本数据获取 |
3.3 保障责任长文本语句分割 |
3.4 保障责任短文本分类 |
3.4.1 文本特征工程 |
3.4.2 基于SVM的多文本分类器构建 |
3.5 保障责任短文本的实体信息识别 |
3.5.1 实体信息模板构建 |
3.5.2 特征模板选择 |
3.5.3 实体信息识别模型的训练 |
3.5.4 实体信息识别模型的测试 |
3.5.5 实体信息抽取 |
3.6 保障责任短文本结构化结果融合 |
3.7 本章小结 |
第4章 保险条款文本结构化的系统设计与实现 |
4.1 系统需求分析 |
4.1.1 功能需求 |
4.1.2 性能需求 |
4.2 系统总体架构设计 |
4.3 数据库设计 |
4.4 系统后台功能模块 |
4.4.1 文本数据获取模块 |
4.4.2 文本结构化模块 |
4.5 系统交互模块 |
4.6 本章小结 |
第5章 保险条款文本结构化系统测试 |
5.1 文本数据获取测试 |
5.2 实体信息识别模型测试 |
5.3 文本结构化功能测试 |
5.4 本章小结 |
结论 |
参考文献 |
附录 A 攻读硕士学位期间所发表的学术论文目录 |
附录 B 攻读学位期间参与的主要项目 |
致谢 |
(9)中文文本分类中特征降维方法的研究(论文提纲范文)
摘要 |
Abstract |
第1章 引言 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 研究内容 |
1.4 论文的章节组织 |
第2章 文本分类概述 |
2.1 文本预处理 |
2.1.1 分词 |
2.1.2 去除停用词 |
2.1.3 词性标注 |
2.2 特征降维 |
2.3 文本表示模型 |
2.3.1 概率模型 |
2.3.2 布尔模型 |
2.3.3 向量空间模型 |
2.4 分类算法 |
2.4.1 KNN分类算法 |
2.4.2 SVM分类算法 |
2.4.3 朴素贝叶斯分类算法 |
2.5 分类模型评估 |
2.6 本章小结 |
第3章 一种改进的特征选择方法 |
3.1 传统的特征选择方法 |
3.1.1 文档频率 |
3.1.2 互信息 |
3.1.3 信息增益 |
3.1.4 卡方统计量 |
3.2 基于类内类间文档频和词频统计的特征选择方法 |
3.2.1 特征词的类间集中度、类内分散度 |
3.2.2 词频 |
3.2.3 DFCTFS评估函数 |
3.3 DFCTFS特征选择的实现思路 |
3.4 实验与分析 |
3.4.1 语料库 |
3.4.2 分类器 |
3.4.3 评价标准 |
3.4.4 实验结果及分析 |
3.5 本章小结 |
第4章 特征选择与LDA相结合的特征降维方法 |
4.1 隐含狄利克雷分配模型 |
4.1.1 LDA的基本原理 |
4.1.2 吉布斯采样方法推断LDA模型参数 |
4.2 改进的特征选择方法与LDA相结合 |
4.2.1 应用LDA模型对语料库主题建模 |
4.2.2 改进的特征选择与LDA相结合的实现思路 |
4.3 实验与分析 |
4.3.1 分类器 |
4.3.2 评价标准 |
4.3.3 实验结果及分析 |
4.4 本章小结 |
第5章 中文文本分类系统的设计与实现 |
5.1 中文文本分类系统框架 |
5.2 中文文本分类系统各功能模块及实现细节 |
5.2.1 文本预处理模块 |
5.2.2 特征降维模块 |
5.2.3 文本表示模型构建模块 |
5.2.4 分类算法分类模块 |
5.2.5 分类模型评估模块 |
5.3 本章小结 |
第6章 总结与展望 |
6.1 本文总结 |
6.2 本文展望 |
参考文献 |
致谢 |
附录 |
(10)基于语义分析的网络舆情研究(论文提纲范文)
论文创新点 |
中文摘要 |
ABSTRACT |
第一章 引言 |
1.1 课题研究的背景及研究意义 |
1.2 国内外研究现状 |
1.2.1 网络舆情的研究现状 |
1.2.2 基于语义分析的网络舆情研究现状 |
1.2.3 网络舆情演化研究现状 |
1.3 研究思路、研究路线及方法 |
1.3.1 研究思路 |
1.3.2 技术路线 |
1.3.3 研究方法 |
1.4 研究框架和主要内容 |
第二章 网络舆情分析方法 |
2.1 网络舆情分析方法体系的构建 |
2.2 网络计量法 |
2.3 内容分析法 |
2.4 网络舆情智能分析法 |
2.4.1 网络舆情文本内容挖掘 |
2.4.2 网络舆情主题结构挖掘 |
2.4.3 基于主题挖掘的话题发现 |
2.5 本章小结 |
第三章 基于语义分析的智能分析 |
3.1 语义分析基本理论 |
3.2 基于外部语义知识的语义分析 |
3.2.1 词语相似度计算 |
3.2.2 句子相似度计算 |
3.2.3 段落相似度计算 |
3.3 潜在语义分析 |
3.3.1 潜在语义分析的原理 |
3.3.2 奇异值分解 |
3.3.3 潜在语义分析的应用 |
3.3.4 潜在语义分析的局限性 |
3.3.5 潜在语义分析的改进 |
3.3.6 实验及结果分析 |
3.4 本章小结 |
第四章 网络舆情的情感倾向性分析 |
4.1 情感倾向的特征分析 |
4.2 情感倾向分析的应用 |
4.3 不同粒度的情感倾向性分析 |
4.4 CRFs模型构建及改进 |
4.5 语料词典资源及相关评测 |
4.6 本章小结 |
第五章 网络舆情演化分析 |
5.1 网络舆情的相关理论 |
5.1.1 网络舆情事件的内涵与特征--以公共卫生事件为例 |
5.1.2 网络舆情的发生频度与趋势--以公共卫生事件为例 |
5.1.3 突发公共卫生事件网络舆情演化特点 |
5.2 网络舆情中的群体行为分析 |
5.2.1 网络舆情中的网民构成及情绪分析 |
5.2.2 网络舆情中的群体行为识别和特征分析 |
5.2.3 网络舆情中的群体行为趋势分析 |
5.3 网络舆情演化机制分析 |
5.3.1 网络舆情因素分析 |
5.3.2 网络舆情演化的三个阶段 |
5.3.3 网络舆情演化模型 |
5.3.4 Weisbuch-Deffuant模型构建 |
5.3.5 实验仿真 |
5.4 本章小结 |
第六章 全文总结及展望 |
6.1 全文总结 |
6.2 研究展望 |
参考文献 |
攻读博士学位期间的主要科研成果 |
致谢 |
四、一种基于潜在语义结构的文本分类模型(论文参考文献)
- [1]面向短文本的情感分析关键技术研究[D]. 邓钰. 电子科技大学, 2021(01)
- [2]双关语识别与生成关键技术研究[D]. 刁宇峰. 大连理工大学, 2020(01)
- [3]融合多粒度特征的文本向量表示模型及其应用[D]. 聂维民. 南京航空航天大学, 2020(07)
- [4]数据驱动的互联网违法广告主题挖掘与关联识别研究[D]. 柳泽波. 浙江大学, 2020(02)
- [5]基于机器学习的医疗文本分析挖掘技术研究[D]. 周阳. 北京交通大学, 2019(01)
- [6]基于语义扩展的短文本分类研究[D]. 李珍. 西安电子科技大学, 2019(02)
- [7]基于文本倾向性分析的高校舆情系统研究与实现[D]. 王庆嘉. 济南大学, 2019(01)
- [8]保险条款文本结构化系统设计与实现[D]. 曾子豪. 湖南大学, 2019(07)
- [9]中文文本分类中特征降维方法的研究[D]. 赵婧. 湖北工业大学, 2019(06)
- [10]基于语义分析的网络舆情研究[D]. 陆青梅. 武汉大学, 2019(08)