概率文档论文-强继朋

概率文档论文-强继朋

导读:本文包含了概率文档论文开题报告文献综述及选题提纲参考文献,主要关键词:多文档摘要,通配符,序列模式,主题模型

概率文档论文文献综述

强继朋[1](2016)在《基于带有通配符序列模式和概率主题模型的多文档摘要技术研究》一文中研究指出随着信息技术的迅猛发展,人们可以获取大量的文本数据;例如:Web新闻、科技文献、数字图书、电子邮件和微博等。如何有效地组织和管理海量的文本数据,快速、准确地从中找到用户所需的信息,成为智能信息处理研究领域面临的挑战之一。为此,从大量文档中提取简洁摘要信息的多文档摘要技术吸引了研究人员的广泛兴趣。近年来,电子商务和社交网络的快速发展催生出大量的书评影评、网络聊天、产品介绍等形式的短文本。这些短文本数据包含了大量有价值的隐含信息,对人们的日常生活产生了很大的影响。与长文档处理方法相比,因为短文档词汇具有非常少的词共现信息,使得传统的多文档摘要方法直接进行处理时效果不佳。因此,有效地提供精简内容的多文档摘要技术具有重要的研究价值和现实意义。本文在长文档的摘要技术和短文档的摘要技术研究的基础上,提出几种基于带通配符序列模式和概率主题模型的多文档摘要技术算法。主要研究工作如下:(1)提出一种基于闭合模式的多文档摘要算法。从词的计算角度上说,已有的多文档摘要提取方法可以分为基于词的方法和基于本体的方法:基于词的方法很难处理一词多义和多词一义的问题,基于本体的方法考虑了词语的语义信息,但是受限于具体的领域。为了克服这些问题,本文探索利用闭合模式从多文档中提取最精简的句子和缩减摘要中的冗余,并提出一种基于闭合模式的多文档摘要方法。该方法通过联合每个句子中闭合模式的权重和闭合模式的分布,迭代地选择高得分且低相似于已选择摘要的句子,直到满足摘要长度约束。本文提出的的方法不仅具有基于词的方法的统计特性,而且保留了部分语义信息。实验结果表明:基于闭合模式的方法优于对比的其他方法。(2)提出一种基于用户评论的多文档摘要提取算法。用户评论里隐含了用户关心的主题,而多文档摘要的目标就是提取最符合用户关心的摘要,为此,利用用户评论辅助多文档摘要是一个很好的研究问题。概率主题模型作为最好的摘要系统方法之一,我们尝试使用概率主题模型提取摘要。首先,新闻文档是长文档,用户评论一般是短文档,它们的集合这里被称之为异质文档。从长文档中发现主题通常基于一个文档含有多个隐含主题的假设去学习,而短文档主题模型假设每个文档只有一个主题取得更好的效果。从而,两种假设方法都不适合从异质文档中提取隐含的主题。为此,本文提出了一种基于异质文档的主题模型,然后根据从异质文档中提取的主题从新闻文档中选择核心的句子作为摘要。这样,摘要信息不仅包含了新闻数据的核心信息,也包含了用户的评论的核心信息。实验结果验证了该方法的有效性。(3)提出一种基于词嵌入模型的短文档主题提取算法。由于短文本中有着非常受限的词共现信息,使已存在的方法不能很好的解决这个问题,如概率隐式语义分析和隐式狄利克雷分配。由于基于词嵌入模型能很好的从大语料中学习到词语的语义表示,为此,提出一种新颖的短文档主题模型方法,称之为基于词嵌入的主题模型(Embedding-based Topic Modeling, ETM)。通过利用词嵌入信息对短文档聚合成伪长文本,ETM解决了短文本中非常受限的词共现问题。然后,利用马尔科夫随机场正则化模型使伪长文档中相似的词语更高的概率属于同一个主题。与最好的算法进行对比,实验验证了 ETM的有效性。(本文来源于《合肥工业大学》期刊2016-09-01)

杨学峰[2](2016)在《概率XML文档的查询研究》一文中研究指出随着数据采集和处理技术的不断发展和进步,使得人们对不确定性数据的认识逐步加深,对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的一种标记语言。XML所具有的灵活特性非常适合描述、表示、存储,不确定性数据,利用XML表示不确定性数据正越来越多的应用于各个不同的领域中,进而导致概率XML文档的数量呈现出急剧增长的态势。使用传统的XML聚类和查询技术处理海量概率XML文档所造成的时空消耗令人无法接受。尽管针对不确定XML聚类和查询的技术的研究已经有很多,但仍有一些方面需要进行改进和完善。针对概率XML文档的查询研究,本文深入研究了当前已提出的方案,分析了其中存在的问题,并对这些问题提出了针对性的改进策略。本文所做的工作有:第一,直接聚类XML文档精度较高但存在时空消耗大等缺点,利用聚类DTD文档的时空消耗较小的优势,提出了基于DTD的XML文档聚类方法WSDTD。DTD文档可以从一定程度上反应出XML文档的内容和结构,通过聚类XML文档对应的DTD间接聚类XML文档。定义DTD文档对应的树形结构的结构相似度和语义相似度,用K-Means聚类算法对DTD文档树进行聚类,达到对XML文档聚类的目的,从而有效地缩小了查询范围,为海量XML文档查询奠定基础。第二,针对概率XML文档的特点,本文设计了概率XML文档的查询算法pTwigList。在TwigList算法的基础上,加入了 Top-K关键字查询思想,进行了叁次阈值过滤,对存在概率较低或非法的查询结果予以舍弃,形成了 pTwigList算法。并辅以改进的区域编码,这样就能达到查询概率XML文档的目的。第叁,通过仿真实验验证本文所提出WSDTD和pTwigList的有效性。实验采取了查询时间来衡量查询效率。仿真实验分成两个部分,第一部分用来验证先使用WSDTD算法聚类,后使用pTwigList进行查询的时间消耗小于直接对海量XML文档进行pTwigList查询。第二部分用来验证pTwigList算法在不同的测试用例下、不同的K值下、不同的文件大小下的有效性。通过与其他算法的结果对比,验证方法有效减少了查询时间。结果表明,本文提出的方案减少了概率XML查询时间。(本文来源于《哈尔滨工程大学》期刊2016-01-06)

徐迪[3](2015)在《基于概率主题模型的文档自动分类》一文中研究指出近年来,随着因特网的高速发展,各种原始信息和数据如雨后春笋般的出现并大量充斥着网络,这种海量的原始数据和信息包括图片信息和数据,文本信息和数据、声音信息和数据、视频信息和数据等等。如何在难以估量的文档中获得和掌握最有效的、最关键的、最有用的信息和数据始终是信息处理的一大目标[1][2][3][4][5]。其中对文档进行准确、高效的分类是解决这个问题非常重要的部分。本人通过研究目前文档分类的现状以及中文分词的方法,设计出两种基于概率主题模型实现文档分类的方法,并将开发成软件。可以分别针对有监督的和没有监督的情况,实现了中文文档分类。对于监督的文档时,设计实现了基于概率主题模型的文档分类方法。根据一定量已经区分好的训练文档,计算每类文档的主题分布概率分布。通过比较新文档和训练文档集概率主题分布的接近程度,从而确定新文档所属分类。对于无监督无监督的文档不包含已分类文档库的情况。设计实现了基于模糊KMeans的概率主题的文档分类方法。首先在文档库中提取关键词,并抽取一定数量的文档,利用这些关键词和文档抽取出主题,计算被抽取出的文档的主题分布,然后将剩余文档根据主题分布的接近程度与这些文档进行聚类。完成第一次聚类后,将重新确定主题和主题分布,并再次根据主题分布对文档来进行第二次、第叁次聚类,直到不再发生变化,分类完成。此外,中文分词是处理中文文档的基础,我们也将实现通过一些共享的词库,完成文档的中文分词。软件采用C#语言制作开发,界面良好,运行速度较快,可以兼顾中文分词,分词排序,两种文档分类,批量处理以及导入导出等功能。(本文来源于《宁波大学》期刊2015-04-12)

孙凤姣[4](2014)在《概率XML数据文档的分发技术研究》一文中研究指出随着不确定数据的广泛应用,现有的文档分发技术无法针对用户的需求为用户提供确切的信息,往往将用户需要和不需要的信息都分发给用户,造成了用户查阅信息上时间的开销和网络流量的浪费。为了深入挖掘、检索到满足用户请求的信息,依据用户提供的概率值来过滤掉不符合用户需求的信息,设计了一种处理不确定数据的文档分发系统,从而提高用户信息的准确性,满足用户的需求。本论文采用概率XML文档分发技术实现用户个性化需求的文档过滤,其基本思想是:全面表达用户的个性化需求信息,通过概率XML文档过滤算法实现用户需求信息与数据源文档的匹配,进而把匹配成功的文档分发给用户。首先,本文以XPath表达式来全面表达用户需求,以XPath表达树的形式表达用户查询内容、结构信息和概率阈值信息,然后把用户查询XPath表达式分解成查询子串,通过构建PXtrie概率索引结构完成多用户查询子串与数据源文档的高效匹配。其次,设计概率XML文档过滤算法,以SAX文档解析方式解析包含不确定数据的数据源XML文档,文中通过结点查找算法进行用户个性化需求内容的匹配,以子串匹配算法执行用户查询信息、结构信息和概率阈值信息的过滤,用匹配更新算法更新查询信息。最后,设计并实现了概率XML文档分发系统,该系统分为查询分解、索引构建、概率XML文档过滤和预分发处理四个模块。本论文提出的概率XML文档分发技术能够解决多用户XPath表达的压缩存储及高效索引问题,同时能够提供给用户确切的信息。通过构建PXtrie概率索引结构,提高多用户查询下的子串匹配效率,减少了冗余匹配。最终通过实验数据验证系统的可用性和有效性,解决了不确定数据的文档分发问题。实验结果表明:概率XML文档分发系统不仅能处理包含不确定数据的XML文档,而且可以为用户个性化需求提供确切的信息。(本文来源于《大连海事大学》期刊2014-11-01)

朱燕,马海涛[5](2013)在《概率XML文档实例生成算法研究》一文中研究指出为了提高不确定XML数据管理和查询处理效率,基于不确定XML的可能世界语义的概率XML模型,采用具有独立分布和互斥分布的两种不确定文档节点类型,研究了概率XML文档可能世界实例生成问题,提出了具有线性时间复杂性的概率XML文档实例生成算法,该算法通过随机选择分布节点的孩子节点子集,根据该节点子集生成随机XML文档实例,该实例可用于处理不确定XML数据查询、索引等XML数据管理问题。实验分析验证了该算法具有良好的实用性和高效性。(本文来源于《燕山大学学报》期刊2013年05期)

郭洪禹,赵晓群,黄冬梅[6](2013)在《基于特定位置后验概率网格的开集语音文档检索》一文中研究指出提出一种以词片为识别基元的特定位置后验概率网格方法,解决了语音检索中的集外词处理问题,实现开集语音文档检索。通过引入前端查询扩展技术生成多个候选查询以补偿语音识别过程带来的误差及用户输入误差。在检索过程中引入编辑距离权重来实现模糊查询,提高系统的查全率并增强系统鲁棒性。实验表明该方法在集外词处理和系统鲁棒性等方面优于传统方法。(本文来源于《燕山大学学报》期刊2013年04期)

周小平,史一民,张俊[7](2013)在《概率XML文档Top-k关键字并行检索算法》一文中研究指出概率XML是描述不确定数据的有效方式,Dewey编码是一种重要的XML文档关键字索引编码技术。在概率XML大文档关键字索引检索过程中,频繁地比较关键字索引Dewey编码非常耗时。针对上述问题,对概率XML文档进行分区,并设计了适合概率XML文档特点的关键字索引的Dewey编码策略,提出了一种概率XML文档Top-k关键字并行检索算法PTKS(Parallel Top-k Keyword Search Algorithm)。实验证明,PTKS提高了概率XML文档关键字检索的时间效率,尤其在文档结构复杂度高的情况下检索效率提高更加显着。(本文来源于《计算机科学》期刊2013年03期)

王李冬,魏宝刚,袁杰[8](2012)在《基于概率主题模型的文档聚类》一文中研究指出为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法.(本文来源于《电子学报》期刊2012年11期)

周小平[9](2012)在《概率XML文档Top-κ关键字检索算法研究》一文中研究指出目前,互联网中越来越多的数据以XML的格式进行传输和操作,XML结构的灵活性使复杂的半结构化数据的交换更加方便。但是,在实际工作中,如传感器噪声数据、信息抽取时包含错误数据的数据源以及图像处理等用XML描述的半结构化数据会存在一些不确定性。作为不确定性数据研究领域的核心内容,概率XML能够以明确的方式表示不确定性数据,它是不确定性数据的结构化描述语言。由于概率XML文档内数据的不确定性,通过传统的XML查询语言已不能够准确地查询出用户期望的信息。因此,在研究以往XML文档的关键字检索算法的基础上,本文提出了一个概率XML文档Top-k关键字检索模型,该模型主要包括概率XML文档分区处理、概率XML文档关键字索引构建以及概率XML文档Top-k关键字检索叁个部分。当进行概率XML大文档中关键字检索时,检索时间效率会明显降低,本文引入普通XML文档的分区技术(XML Partition),(?)将概率XML文档分区分别存储在相互独立的服务器节点中,对各分区节点并行执行关键字检索。为了在概率XML文档关键字索引结构中体现分布结点类型信息,本文扩展了传统关键字索引编码方法-Dewey编码,设计了一种符合概率XML文档结构特点的关键字索引编码方法。在此基础上,本文设计了概率XML文档Top-k关键字检索PTKS (Probabilistic XML Top-k Keyword Search)算法,并实现了原型系统。实验结果表明,PTKS算法具有良好的时间效率,特别是针对复杂结构的概率XML文档的关键字检索时间效率提升更加显着。(本文来源于《大连海事大学》期刊2012-05-01)

刘潘[10](2010)在《概率XML文档中Twig查询处理算法的研究与实现》一文中研究指出随着互联网技术的发展,XML作为信息存储和数据交换的标准被广泛采用,由于客观世界的复杂性,不确定数据存在于一些应用领域。通常不确定信息以概率值的形式在XML文档中表示,这样的文档称为概率XML文档,概率XML文档受到大家越来越多的关注。普通XML文档的查询处理已提出许多算法,但概率XML文档的查询处理研究较少,本文提出了p-TJFast算法和ProFirstTwig算法。p-TJFast算法是传统TJFast算法的改进,改进后的p-TJFast算法能够处理概率XML文档。概率XML文档不同于普通XML文档,其数据的存在具有一定的概率值,为了能够在概率XML文档中进行Twig模式查询,需要对扩展Dewey编码进行相应的改进,增加概率信息。由于概率XML文档中数据存在的概率特性,低概率的结果被舍弃,算法运行的过程中加入过滤操作。实验结果表明p-TJFast算法能够很好地实现概率XML文档查询处理。ProFirstTwig算法采取的编码方式和p-TJFast算法相同,但与p-TJFast算法不同的是ProFirstTwig算法的标签流是概率序排列的,而包括p-TJFast算法在内的大多数算法的标签流都是基于字典序排列的。基于概率序标签流而提出了概率序标签流的下界的概念,概率值低于下界的标签流元素不被处理,这极大地减少了被处理的元素个数,同样地,ProFirstTwig算法运行的过程中加入过滤操作。实验结果表明ProFirstTwig算法处理简单查询时具有较高的效率。(本文来源于《东北大学》期刊2010-06-10)

概率文档论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

随着数据采集和处理技术的不断发展和进步,使得人们对不确定性数据的认识逐步加深,对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的一种标记语言。XML所具有的灵活特性非常适合描述、表示、存储,不确定性数据,利用XML表示不确定性数据正越来越多的应用于各个不同的领域中,进而导致概率XML文档的数量呈现出急剧增长的态势。使用传统的XML聚类和查询技术处理海量概率XML文档所造成的时空消耗令人无法接受。尽管针对不确定XML聚类和查询的技术的研究已经有很多,但仍有一些方面需要进行改进和完善。针对概率XML文档的查询研究,本文深入研究了当前已提出的方案,分析了其中存在的问题,并对这些问题提出了针对性的改进策略。本文所做的工作有:第一,直接聚类XML文档精度较高但存在时空消耗大等缺点,利用聚类DTD文档的时空消耗较小的优势,提出了基于DTD的XML文档聚类方法WSDTD。DTD文档可以从一定程度上反应出XML文档的内容和结构,通过聚类XML文档对应的DTD间接聚类XML文档。定义DTD文档对应的树形结构的结构相似度和语义相似度,用K-Means聚类算法对DTD文档树进行聚类,达到对XML文档聚类的目的,从而有效地缩小了查询范围,为海量XML文档查询奠定基础。第二,针对概率XML文档的特点,本文设计了概率XML文档的查询算法pTwigList。在TwigList算法的基础上,加入了 Top-K关键字查询思想,进行了叁次阈值过滤,对存在概率较低或非法的查询结果予以舍弃,形成了 pTwigList算法。并辅以改进的区域编码,这样就能达到查询概率XML文档的目的。第叁,通过仿真实验验证本文所提出WSDTD和pTwigList的有效性。实验采取了查询时间来衡量查询效率。仿真实验分成两个部分,第一部分用来验证先使用WSDTD算法聚类,后使用pTwigList进行查询的时间消耗小于直接对海量XML文档进行pTwigList查询。第二部分用来验证pTwigList算法在不同的测试用例下、不同的K值下、不同的文件大小下的有效性。通过与其他算法的结果对比,验证方法有效减少了查询时间。结果表明,本文提出的方案减少了概率XML查询时间。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

概率文档论文参考文献

[1].强继朋.基于带有通配符序列模式和概率主题模型的多文档摘要技术研究[D].合肥工业大学.2016

[2].杨学峰.概率XML文档的查询研究[D].哈尔滨工程大学.2016

[3].徐迪.基于概率主题模型的文档自动分类[D].宁波大学.2015

[4].孙凤姣.概率XML数据文档的分发技术研究[D].大连海事大学.2014

[5].朱燕,马海涛.概率XML文档实例生成算法研究[J].燕山大学学报.2013

[6].郭洪禹,赵晓群,黄冬梅.基于特定位置后验概率网格的开集语音文档检索[J].燕山大学学报.2013

[7].周小平,史一民,张俊.概率XML文档Top-k关键字并行检索算法[J].计算机科学.2013

[8].王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报.2012

[9].周小平.概率XML文档Top-κ关键字检索算法研究[D].大连海事大学.2012

[10].刘潘.概率XML文档中Twig查询处理算法的研究与实现[D].东北大学.2010

标签:;  ;  ;  ;  

概率文档论文-强继朋
下载Doc文档

猜你喜欢