导读:本文包含了文档表示论文开题报告文献综述及选题提纲参考文献,主要关键词:文档表示,文本分类,分布式语义,叁元组
文档表示论文文献综述
冯雪[1](2019)在《基于叁元组文档表示的文本分类》一文中研究指出为解决现有文档表示方法中不包含结构特征以及难以融入外部知识的问题,提出基于叁元组的文档表示方法,并结合分布式向量语义表示。基于叁元组的文档表示方法的另一个优势是可以非常方便地融入词向量特征,扩展叁元组的语义表示。该方法在完全相同且不使用外部知识的实验设置下,能显着提升文本分类的性能;当词向量特征被利用后,文本分类性能增强了约0.8%;当融入自动抽取的外部背景叁元组知识后,进一步带来了1.2%的性能提升。(本文来源于《计算机工程与设计》期刊2019年02期)
马永军,李亚军,汪睿,陈海山[2](2019)在《基于Wasserstein GAN的文档表示模型》一文中研究指出文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。(本文来源于《计算机工程与科学》期刊2019年01期)
刘剑,黄桂敏,潘婷婷[3](2018)在《基于文档分布式表示的英语作文跑题分析模型》一文中研究指出针对传统英语作文跑题检测方法需多篇参考范文进行对比的局限性,提出一种基于文档分布式表示的英语作文跑题分析模型。该模型将词的分布式表示方法与文档的分布式表示方法相结合,从而充分利用作文标题的语义信息对待测作文进行跑题分析,并在真实的数据集中进行实验。实验结果表明,该方法仅需作文标题就可以有效判断英语作文是否跑题,并且具有较高的准确率和较好的实用性。(本文来源于《桂林电子科技大学学报》期刊2018年05期)
欧阳文俊,徐林莉[4](2018)在《基于层级注意力模型的无监督文档表示学习》一文中研究指出许多自然语言应用需要将输入的文本表示成一个固定长度的向量,现有的技术如词嵌入(Word Embeddings)和文档表示(Document Representation)为自然语言任务提供特征表示,但是它们没有考虑句子中每个单词的重要性差别,同时也忽略一个句子在一篇文档中的重要性差别.本文提出一个基于层级注意力机制的文档表示模型(HADR),而且考虑文档中重要的句子和句子中重要的单词因素.实验结果表明,在考虑了单词的重要和句子重要性的文档表示具有更好的性能.该模型在文档(IMBD)的情感分类上的正确率高于Doc2Vec和Word2Vec模型.(本文来源于《计算机系统应用》期刊2018年09期)
欧阳文俊[5](2018)在《文档表示与双语词嵌入算法研究》一文中研究指出文档表示和双语词嵌入是自然语言处理中两个重要的文本表示学习技术,它们为其它自然语言处理任务提供了良好的特征表示。这两个方向是本文的主要研究内容。文档表示将文档表示成一个固定长度的向量,现有的工作简单地认为文档是一个文本序列,没有考虑文档中的层级关系,另一方面也忽视了文档不同部分有不同重要性。本文提出一个基于层级注意力机制的文档表示模型(HADR),同时考虑了文档中句子的差异性和句子中词的差异性两方面因素。实验结果表明,在考虑了词重要性和句子重要性差异之后,得到文档表示具有更好的性能。并且HADR模型在文档的情感分类上效果高于Doc2vec和word2vec模型。由于表示学习在单语上的成功应用,一些方法因为跨语言自然语言处理任务的需求开始研究跨语言的本文表示,构建双语词嵌入模型。双语词嵌入既可以在共享的向量空间中表示不同的语言,又可以进行跨语言知识转移。为了学习这样的表示,大多数现有工作需要具有词对齐的平行句子,并假定对齐的词具有相似的词袋(BoW)上下文。但是,由于不同语言的语法结构存在差异,不同语言对齐词的上下文可能出现在句子的不同位置。为了解决不同语言中不同语法的问题,我们提出了一种双语词嵌入模型(DepBiWE),通过生成依赖分析树得到语法依赖关系,该分析树可以找到对齐词上下文的准确相对位置。此外,本文还提出了一种新的方法,用于从基于依赖的上下文和词袋上下文中同时学习双语词嵌入。在真实数据集的实验结果验证了本文提出的DepBiWE模型对各种自然语言处理任务的有效提升。(本文来源于《中国科学技术大学》期刊2018-04-01)
方天红,陈庆虎,鄢煜尘,周前进[6](2016)在《基于Gabor特征和稀疏表示的激光打印文档鉴别》一文中研究指出为了解决计算机打印文档的自动鉴别问题,提出了Gabor特征结合稀疏表示的计算机激光打印文档鉴别算法。针对激光打印文档字符墨粉堆积纹理,提取字符图像的Gabor幅值特征,并将提取的特征进行主成分分析;最后利用不同的分类识别算法,对打印文档进行分类鉴别。在自建数据库上的实验结果表明了本文算法的有效性,打印文档源打印机准确鉴别率可达94.74%。(本文来源于《武汉大学学报(信息科学版)》期刊2016年11期)
唐明,朱磊,邹显春[7](2016)在《基于Word2Vec的一种文档向量表示》一文中研究指出在文本分类中,如何运用word2vec词向量高效地表达一篇文档一直是一个难点。目前,将word2vec模型与聚类算法结合形成的doc2vec模型能有效地表达文档信息。但是,这种方法很少考虑单个词对整篇文档的影响力。为了解决这个问题,利用TF-IDF算法计算每篇文档中词的权重,并结合word2vec词向量生成文档向量,最后将其应用于中文文档分类。在搜狗中文语料库上的实验验证了新方法的有效性。(本文来源于《计算机科学》期刊2016年06期)
田丰[8](2016)在《PCAOB对审计文档不当改动表示忧虑》一文中研究指出本报讯(田丰)美国公众公司会计监督委员会(PCAOB)近日发布了《PCAOB工作人员审计实务警示》,表达了他们对于审计师不当改动与PCAOB检查或调查有关的审计文档记录的忧虑。在过去几年中,PCAOB针对不当删除、添加或修改与检查或调查有关(本文来源于《财会信报》期刊2016-05-09)
蒋辉,阳小华,刘志明,闫仕宇,马家宇[9](2013)在《基于一种文档表示模型的站内搜索引擎设计与实现》一文中研究指出根据全信息理论,认识论信息是语法信息、语义信息和语用信息的叁位一体,在信息检索的过程中加入语用信息能有效的提高信息检索的质量.基于查询与内容的文档表示模型较好的利用了语用信息,对站内搜索引擎的查准率的提高有着很好作用;Lucene是一个用java语言开发的开源的全文搜索引擎架构.本文利用Lucene设计和实现一个基于查询与内容的文档表示模型的站内搜索引擎,实验结果表明该模型能有效的提高信息检索的查准率.(本文来源于《南华大学学报(自然科学版)》期刊2013年04期)
朱京辉,刘婧[10](2013)在《信息检索中的文档表示综述》一文中研究指出本文对信息检索中文本分类、文本聚类等技术所涉及到的文档表示问题进行了详细的阐述。文中给出了各种特征选择、特征抽取方法的基本原理和计算公式,并对各种方法的优缺点做了比较。(本文来源于《科技经济市场》期刊2013年12期)
文档表示论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
文档表示模型可以将非结构化的文本数据转化为结构化数据,是多种自然语言处理任务的基础,而目前基于词的模型在文档表示任务中有着无法直接表示文档的缺陷。针对此问题,基于生成对抗网络GAN可以使用两个神经网络进行对抗学习,从而很好地学习到原始数据分布的特点,提出了文档表示模型WADM,使用去噪自编码器作为其判别网络,由其隐层直接得到文档的分布表示。实验表明,WADM能够准确抽取文档特征,相比基于词的模型具有更强的文档表示能力。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文档表示论文参考文献
[1].冯雪.基于叁元组文档表示的文本分类[J].计算机工程与设计.2019
[2].马永军,李亚军,汪睿,陈海山.基于WassersteinGAN的文档表示模型[J].计算机工程与科学.2019
[3].刘剑,黄桂敏,潘婷婷.基于文档分布式表示的英语作文跑题分析模型[J].桂林电子科技大学学报.2018
[4].欧阳文俊,徐林莉.基于层级注意力模型的无监督文档表示学习[J].计算机系统应用.2018
[5].欧阳文俊.文档表示与双语词嵌入算法研究[D].中国科学技术大学.2018
[6].方天红,陈庆虎,鄢煜尘,周前进.基于Gabor特征和稀疏表示的激光打印文档鉴别[J].武汉大学学报(信息科学版).2016
[7].唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学.2016
[8].田丰.PCAOB对审计文档不当改动表示忧虑[N].财会信报.2016
[9].蒋辉,阳小华,刘志明,闫仕宇,马家宇.基于一种文档表示模型的站内搜索引擎设计与实现[J].南华大学学报(自然科学版).2013
[10].朱京辉,刘婧.信息检索中的文档表示综述[J].科技经济市场.2013