导读:本文包含了文本向量论文开题报告文献综述及选题提纲参考文献,主要关键词:短文本,主题建模,同义词,SWEM
文本向量论文文献综述
黄婵[1](2019)在《基于语义词向量的自媒体短文本主题建模》一文中研究指出短文本建模的稀疏问题是短文本主题建模的主要问题,文章提出基于词向量的短文本主题建模模型—语义词向量模型(Semantics Word Embedding Modeling,SWEM)。采用半自动的方法对短文本信息进行扩充,对短文本相应词语进行同义词林处理,增加短文本集合中词共现信息,丰富文档内容,推理出较高质量的文本主题结构,解决短文本的词共现信息不足的问题。实验表明,SWEM模型优于LDA、BTM等传统模型。(本文来源于《计算机时代》期刊2019年12期)
吕建新,郑伟,马林,李明,谷翠梅[2](2019)在《基于词向量语义扩展的网络文本特征选择方法研究》一文中研究指出【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。(本文来源于《情报科学》期刊2019年12期)
方秋莲,王培锦,隋阳,郑涵颖,吕春玥[3](2019)在《朴素Bayes分类器文本特征向量的参数优化》一文中研究指出采用朴素Bayes算法建立中文文本自动分类器,并研究相关参数的选择问题,以实现中文文本的高效分类.首先在模型训练阶段,采用N-gram模型处理训练数据集提取特征向量;然后使用朴素Bayes算法建立文本分类器;最后在模型测试阶段,为提高分类准确率,使用词频-反文档频率算法对测试样本进行特征向量提取.实例分析结果表明,在提取训练集特征向量时,2-gram模型和4-gram模型的特征提取效果最佳;在选取特征向量长度时,长度为25 000的特征向量可使分类准确率出现最大增幅并保证较高准确率;在确定特征项词性方面,同时选取动词和名词可使分类器准确率达到最高,仅选取动词时准确率最低.(本文来源于《吉林大学学报(理学版)》期刊2019年06期)
翟剑锋[4](2019)在《基于多原型词向量的情感分析在评教文本中的应用》一文中研究指出近年来,随着高等学校教学改革的不断深化,人们日益关注高校教学质量。在高校的教务系统中,每学期均保存大量的课堂教学评价文本信息,由于这些评价文本难以进行量化分析,没有发挥其应有的价值,而逐条阅读这些文本信息,需花费大量的时间和精力。通过对课堂教学评价文本信息的进行情感倾向分析,可以使得教师客观地认识到自己的优缺点,同时能够改进教师教学中的方式和方法。采用基于多原型词向量的长短期记忆网络(LSTM)方法,对课堂教学评价文本进行情感倾向分析,是对现有教学评价体系的有益探索。(本文来源于《电脑编程技巧与维护》期刊2019年11期)
徐鑫鑫,刘彦隆,宋明[5](2019)在《利用加权词句向量的文本相似度计算方法》一文中研究指出传统词游走距离算法基于word2vec词向量以及词频特征向量计算文档距离,存在忽略词语语义的上下文语境以及无法充分提取词语中的语义信息等问题.因此,本文提出一种基于联合词句的文本相似度计算方法.该方法利用训练好的词向量和句向量构建特征权重系数,对词游走距离计算公式进行改进后,选取一定比例关键词的词向量与句向量计算词句转移成本,从而得到文档的文本相似度.通过叁组对比实验表明,该方法的效果优于其他文本相似度计算方法和原始词游走距离算法.(本文来源于《小型微型计算机系统》期刊2019年10期)
牛雪莹[6](2019)在《结合主题模型词向量的CNN文本分类》一文中研究指出挖掘微博文本中的信息对自动问答、舆情分析等应用研究具有重要意义。文本数据的分类研究是文本数据挖掘的基础。本文提出将Word2vec和LDA(Latent Dirichlet Allocation)的文本表示同时输入卷积神经网络模型进行高层语义特征抽象和分类学习,使得输入的词向量既能表现词语之间的语义信息又能体现文本的主题思想。首先用Word2vec和LDA模型分别在语料库中学习产生词向量,然后词向量分别级联得到各自的文本矩阵表示,最后将文本矩阵作为2个通道同时输入到卷积神经网络做分类训练,并通过微博数据实验验证了该方法的有效性。(本文来源于《计算机与现代化》期刊2019年10期)
何焱[7](2019)在《文本分类中支持向量机研究》一文中研究指出随着我国现代科技的快速发展,文本分类逐渐在信息化技术与数字化技术领域得到重视。利用计算处理系统处理文本信息,能够有效提升文本分类的质量与效率,提升数据信息的利用率,从而促进信息化技术的普及。而支持向量机是处理文本内容,加强文本分类速度,并通过文档建模、中文分词、分类器评估等形式,构建出的行之有效的统计语言模型,它可以推动文本分类工作的发展。本文结合国内外研究现状,探析文本分类内涵及支持向量机原理,提出基于支持向量机的文本分类算法。(本文来源于《河南科技》期刊2019年29期)
杨波,杨文忠,殷亚博,何雪琴,袁婷婷[8](2019)在《基于词向量和增量聚类的短文本聚类算法》一文中研究指出由于微博短文本的高维稀疏和传统Single-Pass聚类算法对文本数据顺序敏感等问题,导致短文本聚类准确率较低。针对上述问题提出一种基于词向量和增量聚类的短文本聚类算法(improved single-pass algorithm based on word embedding,ISWE)。通过词向量模型得到文本的词向量矩阵,利用金字塔池化(spatial pyramid pooling,SPP)策略对文本词向量矩阵进行处理得到文本表示,使用改进的Single-Pass算法进行微博短文本聚类。实验结果表明,使用SPP策略的文本表示使聚类准确率明显提高,ISWE算法相较于传统的Single-Pass算法有更高的准确率和调整兰德系数,验证了其有效性和准确性。(本文来源于《计算机工程与设计》期刊2019年10期)
聂维民,陈永洲,马静[9](2019)在《融合多粒度信息的文本向量表示模型》一文中研究指出【目的】更加全面地提取文本语义特征,提高文本向量对文本语义的表示能力。【方法】通过卷积神经网络提取词粒度、主题粒度和字粒度文本特征向量,通过"融合门"机制将叁种特征向量融合得到最终的文本向量,并进行文本分类实验。【结果】该模型在搜狗语料库文本分类实验上的准确率为92.56%,查准率为92.33%,查全率为92.07%,F1值为92.20%,较基准模型Text-CNN分别提高2.40%,2.05%,1.77%,1.91%。【局限】词序关系范围较小,语料库规模较小。【结论】该模型可以更加全面地提取文本语义特征,得到的文本向量对文本语义表示能力更强。(本文来源于《数据分析与知识发现》期刊2019年09期)
张贺威,刘晓洁[10](2019)在《基于文本向量的php-webshell检测方法》一文中研究指出常见的php-webshell检测方法主要有静态检测方法和动态检测方法两类,相较于动态检测方法,静态检测方法以其占用资源少,检测周期短,效率高的优点,获得了更为广泛的应用,但是传统的基于正则匹配的静态检测方法,不能有效识别混淆后的php-webshell脚本,也不能有效识别从未出现过的php-webshell脚本,新兴的使用机器学习算法的静态检测方法又有着特征普适性差的缺点。针对以上问题,提出了一种基于文本向量的php-webshell检测方法,使用n-gram算法和TF-IDF算法将php脚本执行过程中产生的操作码序列转化为文本向量,以文本向量作为输入特征,使用极限梯度提升算法XGBoost对php脚本分类,通过判断分类结果,实现phpwebshell检测,实验结果表明,所提方法能有效地检测php-webshell,提高了php-webshell静态检测方法的准确率。(本文来源于《数据通信》期刊2019年04期)
文本向量论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
【目的/意义】现有特征选择方法可以计算特征所携带的类别信息量,但却不能计算出与主题相关的语义信息。针对其不足,为了提高分类准确率,提出一种基于词向量语义扩展的特征选择方法。【方法/过程】该方法引入了词向量进行主题语义计算,筛选出具有类别语义信息的词条实现特征候选集的特征扩展,并采用K近邻分类方法进行分类实验。【结果/结论】实验结果显示新方法能够有效提取主题语义特征并提高分类准确率。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本向量论文参考文献
[1].黄婵.基于语义词向量的自媒体短文本主题建模[J].计算机时代.2019
[2].吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学.2019
[3].方秋莲,王培锦,隋阳,郑涵颖,吕春玥.朴素Bayes分类器文本特征向量的参数优化[J].吉林大学学报(理学版).2019
[4].翟剑锋.基于多原型词向量的情感分析在评教文本中的应用[J].电脑编程技巧与维护.2019
[5].徐鑫鑫,刘彦隆,宋明.利用加权词句向量的文本相似度计算方法[J].小型微型计算机系统.2019
[6].牛雪莹.结合主题模型词向量的CNN文本分类[J].计算机与现代化.2019
[7].何焱.文本分类中支持向量机研究[J].河南科技.2019
[8].杨波,杨文忠,殷亚博,何雪琴,袁婷婷.基于词向量和增量聚类的短文本聚类算法[J].计算机工程与设计.2019
[9].聂维民,陈永洲,马静.融合多粒度信息的文本向量表示模型[J].数据分析与知识发现.2019
[10].张贺威,刘晓洁.基于文本向量的php-webshell检测方法[J].数据通信.2019