中文文档论文-县小平,马国俊

中文文档论文-县小平,马国俊

导读:本文包含了中文文档论文开题报告文献综述及选题提纲参考文献,主要关键词:中文文档,信息处理模型,随机游走,数据挖掘

中文文档论文文献综述

县小平,马国俊[1](2019)在《基于随机游走算法的中文文档信息处理模型》一文中研究指出由于中文信息处理的复杂性和特殊性,中文搜索引擎技术需要不断改进,中文搜索引擎不能直接照搬国外技术,研究和分析中文的专业知识,可以准确地发现在海量信息库中对中文信息的需求。本文在字符识别中引入了随机游走模型的字典学习和稀疏表示,解决了钢笔字符和传真字符的噪声问题,提出了一种新的分析框架用来帮助处理。该识别方法不需要预处理操作如字符二值化和细化,仅需要一个特征和一个分类器,与当前的多特征多级联分类器融合识别。提出的方法具有低复杂度的特点,实验结果也反映了该模型的鲁棒性。(本文来源于《青海科技》期刊2019年03期)

程雷雷[2](2018)在《基于深度神经网络的形变中文文档矫正研究》一文中研究指出文档图像处理在办公自动化、数字化图书馆、工业自动化等领域具有广泛的应用。与扫描仪相比,数字相机成本低、操作方便、普及率高。当文档表面发生弯曲时,容易造成图像不同程度的畸变,导致字符识别率下降,因此有必要对文档图像进行矫正,以提高文档图像中字符的识别率。本文针对手持相机拍摄的表面自然弯曲的中文印刷体文档图像,提出一种利用深度神经网络估计形变参数的矫正算法。文中假设,拍摄时书本处于展开平放状态,利用深度神经网络同时估计出书本的多项式形变参数和相机姿态参数,进而实现对畸变图像的矫正。本文的主要工作如下:(1)针对最常见的应用场景,本文主要研究自然打开且水平放置的书籍造成的文档表面的弯曲,并采取叁次多项式对其进行拟合。首先,在文档中选取连续数行以汉字为主的字符,并将这些字符的归一化坐标作为深度神经网络的输入,同时以与之对应的形变多项式系数和相机姿态参数作为输出。然后,基于透视投影原理自动生成附加扰动的训练样本,经过训练,深度神经网络能够根据归一化字符坐标估计出弯曲文档形变系数和相机姿态参数。本文分别对无形变文档图像和有形变文档图像进行了研究,都得到了理想的结果。(2)为确定字符位置,首先采用最稳定极值区域算法获取字符的初步定位结果,然后利用非极大值抑制算法去除其中重迭的检测结果,最后根据字符合并算法去除对单个字符的重复但不重迭的检测框结果。由于检测得到的结果中不包含行索引信息,因此通过预处理中的行索引信息确定操作,自动提取深度神经网络输入端所需的字符坐标值。(3)考虑到印刷体中半角和全角字符宽度不同,为了对字符坐标进行正确归一化,利用支持向量机对字符间距发生异常变化的字符进行分类,并结合字符间距信息进行字符间距调整。对于段落开头和结尾处的空白,基于邻域变化一致性,设计了一个字符补全算法,以得到连续数行完全排满的字符序列。本文以不同相机姿态采集实用场景中不同文档在不同弯曲情况下的图像,然后进行字符定位与字符预处理,将归一化坐标输入到深度神经网络,得到形变和相机姿态参数,最后利用正向矫正和逆向矫正算法对其进行矫正,并与经典的“四点法”矫正结果进行对比,用OCR识别软件的识别率对矫正算法的效果进行评价。实验结果表明,本文提出的矫正算法对发生透视变形的平面文档变形图像和弯曲文档变形图像都有较好的矫正效果。(本文来源于《青岛理工大学》期刊2018-12-01)

沈力,刘洪星,李勇华[3](2018)在《基于版本控制的中文文档到源代码的自动跟踪方法》一文中研究指出软件文档和源代码之间的可追踪性研究广泛使用了信息检索(IR)技术,但由于中文文档和源代码用不同的语言书写,使用传统IR技术进行自动跟踪时会导致精度不高。针对上述问题,提出一种基于版本控制的中文文档到源代码的自动跟踪方法。首先,结合文本到源代码的启发式规则,采用IR方法计算出文本和源代码之间的相似度得分;然后,使用软件开发和维护过程中提交到版本控制软件的更新信息来修正该分数;最后,根据设定的阈值确定中文文档与源代码之间的跟踪关系。实验结果表明,改进方法的精确度和召回率相比传统IR方法均有一定的提高,并且该方法能提取出传统IR方法中遗漏的跟踪关系。(本文来源于《计算机应用》期刊2018年10期)

王炜[4](2018)在《基于深度学习的中文单文档自动文摘方法研究》一文中研究指出自动文摘就是通过编写程序让计算机自动的从原始文档中提取摘要,所提取的摘要必须是全面准确的反映原始文档中心内容并且形式上是简单连贯的短文。基于神经网络的生成式文本摘要一般是通过将原始文档的内容加以“理解”,和抽取式摘要相比,它可以言简意赅的概括文本摘要,语法也很简洁且可读性强。然而在实际应用中,由于技术的限制,现如今一些主流的基于神经网络的生成式文本摘要方法生成的摘要中经常会出现OOV(Out of Vocabulary)问题以及原文中某些重要的语义单元不断地重复于最后的摘要中的问题。造成这种现象的原因主要有:第一,原文中出现次数少但是又极其重要的词、短语等语义单元很难被很好的捕捉到并作为摘要的一部分输出;第二,由于人工神经网络自身的弊端导致生成通顺的语句比较困难。本文以提高中文单文档摘要的生成质量为目的,针对上述自动摘要所面临的问题做了以下两个方面的研究:1.提出了一种融合词抽取的策略来改善一些在原文中极其重要的低频词无法被很好的生成在最后的摘要中。传统的注意力机制只能关注到哪些输入对输出有着更加大的影响,本文的策略通过增加一个词表,该词表在原有语料库的词表的基础上加上所有原文中包含的词但是初始词表中没有包含的词,这样在生成词的时候就可以考虑到原文中低频词的概率分布并生成这些词作为最后的摘要。实验结果表明该策略能在LCSTS以及NLPCC2017两个数据集上相较传统的抽取式方法以及基于基础的端到端的神经网络模型更好地结果。2.提出了一种消重策略来改善摘要中单个词的重复出现的问题。每次生成当前单词的时候都会将前一个生成摘要单词作为输入,所以在解码过程中,会出现注意力过分其中在编码器的某一部分,从而造成了错误,然后就出现无休止的短语重复,基于这个问题,我们加入了新的融合机制,在每次生成词的时候对之前“关注过”的词在这一轮给予一定的“惩罚”,这样就可以避免之前由于生成过的单词在这一轮再次受到较高的“关注度”。实现表明该策略在生成的摘要中能有效地避免重复出现某个重要的单词,使生成的语句可读性更好。(本文来源于《华中师范大学》期刊2018-05-01)

贾晓婷[5](2018)在《基于深度学习的中文文档自动摘要方法研究》一文中研究指出随着科技水平的进步及互联网的不断深入发展,互联网上各种各样的信息堆积如山,并且每天以惊人的速度快速增长。此背景下,如何快速便捷的在海量的互联网信息中提取感兴趣的知识成为了信息时代最亟待解决的问题之一。自动摘要是有效解决这一问题的关键技术。通过对海量的互联网文本信息进行自动摘要,能够有效提高用户浏览和获取信息的效率,从而为人们快速解决生活和工作中遇到的问题提供有效的信息支持。近年来,深度学习技术兴起并蓬勃发展,深度文本表示模型也受到了国内外研究者们的广泛关注,这为自动摘要技术的进一步发展奠定了基础。由于传统文本表示模型存在无法充分提取文本语义、语境、语法等信息的缺点,本文在引入深度文本表示模型Word2vec和Doc2vec基础上,在两种不同的文本数据类型上分别对经典的文本自动摘要技术进行了研究和改进,主要内容如下:(1)针对论文单文档文本,提出了一种结合Doc2vec和改进聚类算法的自动摘要提取方法。对从中国知网获取的论文文本数据,引入Doc2vec文本表示模型,在充分考察语句上下文的语义、语法等信息基础上实现语句的向量化表达;结合密度和距离两种度量确定K-means聚类算法的初始聚类中心并对语句向量进行聚类,以弥补原方法因随机选定初始中心导致的聚类结果不稳定的缺陷;在每一个类簇内部抽取具有最大信息熵的语句作为该类簇的中心句,完成自动摘要的抽取过程。(2)针对新浪微博多文档文本,结合Word2vec能够充分提取词汇上下文的语义、语法等信息的优势以及主题模型在多文档文本聚类效果方面的优秀表现,将二者优势互补,提出一种基于加权主题分布表达的文本向量化方法并应用在自动摘要过程中。该方法利用Word2vec训练词向量,然后将词向量聚类成主题词类;以主题词类为特征,根据微博语句相对于主题词类的隶属度和主题词类自身的权重得到微博语句的加权主题分布表达。通过K-means聚类微博语句向量并提取具有最大信息熵的句子,从而实现自动的抽取。实验结果显示,相对于传统的自动摘要提取方法,由本文方法生成的自动摘要能够更有效地表征文档的主要思想内容,在准确率、召回率和F值上都取得了更好的效果,在一定程度上提升了中文文档自动摘要的效果,这为在其他应用领域实现更好的自动摘要提取提供了一定的借鉴。(本文来源于《东北林业大学》期刊2018-04-10)

张波飞[6](2018)在《基于LDA和TextRank相结合的中文多文档自动摘要提取》一文中研究指出新闻已经成为日常生活中获取消息的一种有效途径,用户主要通过搜索引擎获取新闻。网络为人们提供丰富信息资源的同时,也伴随着大量冗余信息的出现,获取信息这一过程必然会浪费大量不必要的时间。多文档自动摘要技术的出现很好地解决了这一问题,利用机器学习、神经网络等技术获取主要的信息,对文档进行摘要提取,最终得到可以诠释文档主要内容的简短摘要以实现对文档有用信息的精确提取。这种技术可以方便用户及时有效的获取有用信息,抽取到新闻中的关键部分,极大地提高了效率。目前比较常用的摘要提取技术基于抽取式的方法即在原文文档中抽取关键句作为文本的摘要句。在此基础上,本文针对如何在摘要提取过程中选择一种能够准确为句子打分的方法这一关键问题,提出了将潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型与TextRank(图模型)算法相结合的一种算法。首先,通过对预处理后的新闻文档集建立LDA主题模型得到相应的主题词概率分布,并对每一个句子所包含词项的概率求和得到句子的概率模型;其次,将预处理后的句子作为TextRank的输入,完成对文档的TextRank图模型构建,同时在计算图节点的最终权重时以LDA主题模型得到的主题概率为依据,其中,概率大的句子优先计算其节点权重,于是得到了更准确的句子排序;最后,分别根据压缩比例10%和20%抽取排序靠前的句子作为摘要句。利用上述方法,本文通过对同一主题下的新闻语料进行摘要提取,得到该主题下的概括性摘要。最终利用ROUGR-1、ROUGE-2、P、R、F这5个指标对得到的结果进行性能评价,实验表明该方法与单一算法相比,所生成的摘要效果更好,结果准确率明显提高,同时具有主题明显、关键词突出等优点。(本文来源于《内蒙古师范大学》期刊2018-04-08)

贾晓婷,王名扬,曹宇[7](2018)在《结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究》一文中研究指出【目的】引入深度神经网络模型Doc2Vec,以综合考察文本的上下文语境信息。结合改进的K-means聚类算法,实现中文单文档摘要的提取。【方法】利用Doc2Vec模型,提取语句的语义、语法、语序等特征,将其转化为固定维度的向量。基于密度最大距离最远原则为K-means聚类算法选取初始聚类中心,对语句向量进行聚类。在每个类簇内计算句子的信息熵,提取类内与其他语句均具有较高相似度的句子作为摘要句。【结果】相对于传统的向量化表示方法 PLSA,利用本文方法生成的摘要效果在准确率、召回率、F值上分别提高了9.57%、7.62%、10.30%。【局限】提取的摘要句来源于正文,而标准摘要是对正文的高度凝练总结,二者通常难以完全匹配。【结论】实验结果表明,相对于常见的向量化表示方法,本文提出的方法能较为显着地提升自动摘要的效果,对多文档自动摘要的实现提供了一种思路。(本文来源于《数据分析与知识发现》期刊2018年02期)

胡媛[8](2018)在《中文名称规范文档与VIAF共享问题分析》一文中研究指出在信息技术不断发展的过程中,我国图书馆对规范控制也从以往的独立模式慢慢转向合作模式。因为不同国家之间的图书馆规范文档在形式方面存在较大差异,因此,实现不同成员库信息资源共享逐渐成为协作规范控制工作的重要内容。文章通过构建中心式模型,对我国不同成员馆数据库中规范文档进行整合,并且探讨了中文名称规范文档与VIAF共享的方式,以期为中文名称规范文档与VIAF共享工作提供一定帮助。(本文来源于《河南图书馆学刊》期刊2018年02期)

张浩[9](2017)在《基于智能手机的中文文档数字化研究与实现》一文中研究指出智能手机已经实现普及,随着智能手机拥有越来越强大的拍摄和处理能力,基于智能手机实现一套文档数字化系统,能够在一定程度上替代扫描仪,可以给人们的工作和生活带来更多的便利。本文主要工作包括:深入分析研究谷歌开源项目Tesseract-OCR,并针对简体中文识别进行了优化,在提高简体中文识别速度超过4倍的同时还在一定程度上提高了识别率,对简体中文的优化成果也同样适用于繁体中文、日文、韩文等;由于手机拍摄图像质量不稳定,本文讨论了图像采集阶段的用户引导措施和采集后进行倾斜弯曲校正、去噪和二值化等图像处理过程以提供高质量的图像输入,并提出了一种用于复杂背景和光照条件下进行图像二值化的自适应双阈值法实现方案;在上述工作的基础上,设计和实现了一个基于安卓手机平台的文档数字化系统原型,利用增强的图像处理模块和优化后的谷歌开源OCR项目Tesseract进行文字和版面识别,最后将识别结果与处理后的图片结合生成可搜索的双层PDF格式文件。(本文来源于《华南理工大学》期刊2017-10-23)

王兆亮[10](2017)在《基于Snakes模型的中文扭曲文档图像校正技术研究》一文中研究指出随着互联网和计算机信息技术的发展,数字图像处理技术已经深入到我们生活中的方方面面,通过图像采集将传统纸质文档电子化已经成为一种趋势;然而,在通过扫描仪或数码产品获得图像的过程,可能伴随着文档表面倾斜、弯曲或人工操作的视角倾斜等原因,仪器得到的图像可能会有一定程度的失真,如倾斜、扭曲、形变等,这些问题都会对文字处理软件如OCR识别、版面分析等的处理造成极大的困难,也可能这些软件根本无法识别获得的文档图像;因此,需要对这些变形扭曲的文档图像进行校正复原。本文将致力于解决扭曲图像的校正恢复问题;通过对扭曲文档图像特征及中文汉字结构的分析,并参考国内外相关的经典校正算法,对比分析各种方法的优缺点,针对中文扭曲文档图像给出了基于Snakes模型的校正算法。该方法为实现扭曲文档图像的校正处理,考虑到光照不均、过度曝光等因素造成较差二值化效果的不利影响,本文不做二值化处理,直接从灰度化后的图像着手。在灰度图像的基础上,通过优化后的高斯滤波处理使得文字行实现平滑的效果,达到增强文本行结构的同时也能很好的保护图像边缘信息的目的;然后利用脊线检测找出文本行的中心线,并将其初始化作为Snakes模型的初始轮廓线;然后利用图像分割的思想通过对Snakes模型的能量泛函迭代法求极小值的过程,使得中心线向文本行上下边缘移动,并根据图像的阈值信息把两条线闭合,然后根据字符文本的灰度信息进行扩张或缩放,完成文本行的分割并获得其文本线,最后利用文本行信息拟合重构其文本线实现校正。实验结果表明该算法能有效地恢复扭曲,使得校正后的OCR文字识别率比之前有明显的提升;而且该算法实现简单,对于扭曲文本行的分割精度非常高,算法鲁棒性较强,基本满足实用性需求。(本文来源于《北方工业大学》期刊2017-06-12)

中文文档论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

文档图像处理在办公自动化、数字化图书馆、工业自动化等领域具有广泛的应用。与扫描仪相比,数字相机成本低、操作方便、普及率高。当文档表面发生弯曲时,容易造成图像不同程度的畸变,导致字符识别率下降,因此有必要对文档图像进行矫正,以提高文档图像中字符的识别率。本文针对手持相机拍摄的表面自然弯曲的中文印刷体文档图像,提出一种利用深度神经网络估计形变参数的矫正算法。文中假设,拍摄时书本处于展开平放状态,利用深度神经网络同时估计出书本的多项式形变参数和相机姿态参数,进而实现对畸变图像的矫正。本文的主要工作如下:(1)针对最常见的应用场景,本文主要研究自然打开且水平放置的书籍造成的文档表面的弯曲,并采取叁次多项式对其进行拟合。首先,在文档中选取连续数行以汉字为主的字符,并将这些字符的归一化坐标作为深度神经网络的输入,同时以与之对应的形变多项式系数和相机姿态参数作为输出。然后,基于透视投影原理自动生成附加扰动的训练样本,经过训练,深度神经网络能够根据归一化字符坐标估计出弯曲文档形变系数和相机姿态参数。本文分别对无形变文档图像和有形变文档图像进行了研究,都得到了理想的结果。(2)为确定字符位置,首先采用最稳定极值区域算法获取字符的初步定位结果,然后利用非极大值抑制算法去除其中重迭的检测结果,最后根据字符合并算法去除对单个字符的重复但不重迭的检测框结果。由于检测得到的结果中不包含行索引信息,因此通过预处理中的行索引信息确定操作,自动提取深度神经网络输入端所需的字符坐标值。(3)考虑到印刷体中半角和全角字符宽度不同,为了对字符坐标进行正确归一化,利用支持向量机对字符间距发生异常变化的字符进行分类,并结合字符间距信息进行字符间距调整。对于段落开头和结尾处的空白,基于邻域变化一致性,设计了一个字符补全算法,以得到连续数行完全排满的字符序列。本文以不同相机姿态采集实用场景中不同文档在不同弯曲情况下的图像,然后进行字符定位与字符预处理,将归一化坐标输入到深度神经网络,得到形变和相机姿态参数,最后利用正向矫正和逆向矫正算法对其进行矫正,并与经典的“四点法”矫正结果进行对比,用OCR识别软件的识别率对矫正算法的效果进行评价。实验结果表明,本文提出的矫正算法对发生透视变形的平面文档变形图像和弯曲文档变形图像都有较好的矫正效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

中文文档论文参考文献

[1].县小平,马国俊.基于随机游走算法的中文文档信息处理模型[J].青海科技.2019

[2].程雷雷.基于深度神经网络的形变中文文档矫正研究[D].青岛理工大学.2018

[3].沈力,刘洪星,李勇华.基于版本控制的中文文档到源代码的自动跟踪方法[J].计算机应用.2018

[4].王炜.基于深度学习的中文单文档自动文摘方法研究[D].华中师范大学.2018

[5].贾晓婷.基于深度学习的中文文档自动摘要方法研究[D].东北林业大学.2018

[6].张波飞.基于LDA和TextRank相结合的中文多文档自动摘要提取[D].内蒙古师范大学.2018

[7].贾晓婷,王名扬,曹宇.结合Doc2Vec与改进聚类算法的中文单文档自动摘要方法研究[J].数据分析与知识发现.2018

[8].胡媛.中文名称规范文档与VIAF共享问题分析[J].河南图书馆学刊.2018

[9].张浩.基于智能手机的中文文档数字化研究与实现[D].华南理工大学.2017

[10].王兆亮.基于Snakes模型的中文扭曲文档图像校正技术研究[D].北方工业大学.2017

标签:;  ;  ;  ;  

中文文档论文-县小平,马国俊
下载Doc文档

猜你喜欢