导读:本文包含了作者特征提取论文开题报告文献综述及选题提纲参考文献,主要关键词:作者特征提取,文本处理,自然语言处理,数据挖掘
作者特征提取论文文献综述
董乃鹏,赵合计,SCHOMMER,Christoph[1](2009)在《作者写作特征提取引擎(英文)》一文中研究指出随着计算机网络的发展,电子文章逐渐繁荣.电子文章版权保护近年来也越来越受关注.电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判断版权所属.目前作者特征提取方向的研究多集中在寻找新的更有效的特征上.如何更加有效的提取一个作者的写作特征仍是一件富有挑战性的工作.本文建立了一个作者特征提取引擎模型,该引擎以某个作者某一类型的文章作为输入,以该作者在这一类型文章上的写作特征为输出.应用这个引擎模型,在可能的作者列表中,可以确定一篇文章倾向属于某个作者的可能性.本文主要对英文文章进行特征提取.作者的特征通过各种语言学上特征和语言学度量来表示,并采用标准差和主成分分析法分析这些特征的有效性.(本文来源于《山东大学学报(工学版)》期刊2009年05期)
董乃鹏[2](2009)在《作者写作特征提取引擎》一文中研究指出随着计算机网络的发展,电子文章逐渐繁荣。电子文章版权保护近年来也越来越受关注。电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判断版权所属。目前作者特征提取方向的研究多集中在寻找新的更有效的特征上。如何更加有效的提取一个作者的写作特征仍是一件富有挑战性的工作。本文创新性的提出并建立了一个作者特征提取引擎模型,该引擎以某个作者某一类型的文章作为输入,以该作者在这一类型文章上的写作特征为输出。应用这个引擎模型,在可能的作者列表中,我们可以确定一篇文章倾向属于某个作者的可能性。作者写作特征提取引擎包含两个子引擎,训练子引擎和比较子引擎。训练子引擎以某个作者某一类型的文章作为训练数据,以该作者的写作特征指纹作为输出。比较子引擎以任意文本作为输入,以该文本属于某个作者的可能性作为输出。一个作者的写作特征指纹包括叁部分:第一部分由那些表征性强的文本度量组成,第二部分有那些表征性相对较弱的文本度量组成。这两部分中的文本度量都很容易用数值或向量表示。剩下的那些不容易用数值或向量表示的复杂文本度量构成了第叁部分。该引擎的处理过程大致如下:首先提取文本度量值,然后,分别比较提取处理的文本度量值和某作者写作特征指纹的叁个部分,得到每部分的概率,最后给每个概率一个权重,计算最终结果。引擎的实现用了VC++和MATLAB两个环境,选择了205个文本度量。文本度量值的提取算法是在VC++中实现的,数据分析是在MATLAB中实现的。为了验证该引擎是否能很好的工作,我们选择了一些文本度量,做了简单的实验。实验结果表明,该作者写作特征提取引擎可以正确的指示出文章的作者。本文主要对英文文章进行特征提取。作者的特征通过各种语言学上特征和语言学度量来表示,并采用标准差和主成分分析法分析这些特征的有效性。(本文来源于《山东大学》期刊2009-04-05)
杨群英[3](2006)在《统计分析法对文书作者推定研究中的文体特征提取》一文中研究指出文章作者归属(authorshipattribution)问题是从古至今引人注目的研究领域之一。在IT不断发展的现代社会,用文书处理软件制作的文书作者鉴定、制作时间鉴定也成为司法鉴定研究领域的新课题。目前,在欧美、日本等国,文体计量分析已运用于刑事侦查和司法证据鉴定中的文书作者认定或推定,以及文书制作时间推定中。我国运用统计学方法对文体进行计量分析的研究报导较少,运用于司法鉴定领域还是空白。本文就利用统计学对文体计量分析在文书作者推定中的运用作了介绍及初步论述,供大家参考。(本文来源于《中国司法鉴定》期刊2006年02期)
作者特征提取论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
随着计算机网络的发展,电子文章逐渐繁荣。电子文章版权保护近年来也越来越受关注。电子文章版权保护的一个解决方案是,首先提取一个作者的写作特征,通过写作特征的比较来判断版权所属。目前作者特征提取方向的研究多集中在寻找新的更有效的特征上。如何更加有效的提取一个作者的写作特征仍是一件富有挑战性的工作。本文创新性的提出并建立了一个作者特征提取引擎模型,该引擎以某个作者某一类型的文章作为输入,以该作者在这一类型文章上的写作特征为输出。应用这个引擎模型,在可能的作者列表中,我们可以确定一篇文章倾向属于某个作者的可能性。作者写作特征提取引擎包含两个子引擎,训练子引擎和比较子引擎。训练子引擎以某个作者某一类型的文章作为训练数据,以该作者的写作特征指纹作为输出。比较子引擎以任意文本作为输入,以该文本属于某个作者的可能性作为输出。一个作者的写作特征指纹包括叁部分:第一部分由那些表征性强的文本度量组成,第二部分有那些表征性相对较弱的文本度量组成。这两部分中的文本度量都很容易用数值或向量表示。剩下的那些不容易用数值或向量表示的复杂文本度量构成了第叁部分。该引擎的处理过程大致如下:首先提取文本度量值,然后,分别比较提取处理的文本度量值和某作者写作特征指纹的叁个部分,得到每部分的概率,最后给每个概率一个权重,计算最终结果。引擎的实现用了VC++和MATLAB两个环境,选择了205个文本度量。文本度量值的提取算法是在VC++中实现的,数据分析是在MATLAB中实现的。为了验证该引擎是否能很好的工作,我们选择了一些文本度量,做了简单的实验。实验结果表明,该作者写作特征提取引擎可以正确的指示出文章的作者。本文主要对英文文章进行特征提取。作者的特征通过各种语言学上特征和语言学度量来表示,并采用标准差和主成分分析法分析这些特征的有效性。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
作者特征提取论文参考文献
[1].董乃鹏,赵合计,SCHOMMER,Christoph.作者写作特征提取引擎(英文)[J].山东大学学报(工学版).2009
[2].董乃鹏.作者写作特征提取引擎[D].山东大学.2009
[3].杨群英.统计分析法对文书作者推定研究中的文体特征提取[J].中国司法鉴定.2006