导读:本文包含了常识语料论文开题报告文献综述及选题提纲参考文献,主要关键词:在线评论,情感常识,情感图式
常识语料论文文献综述
崔大志[1](2010)在《在线评论语料情感常识的图式标注研究》一文中研究指出在情感语料库构建和情感计算领域,情感常识的建立起到了基础性的作用。情感图式是情感常识的认知描述构件。本文以情感图式标注分析为基础,提出了适宜于在线评论的情感图式XML标注方法,并利用情感常识对在线评论进行了语义示例分析,验证了所提构想的可行性。(本文来源于《山东农业大学学报(社会科学版)》期刊2010年03期)
朱耀[2](2008)在《从大规模Web语料中获取常识语料》一文中研究指出常识知识获取一直是人工智能研究领域的一个核心难题。过去的常识获取主要以人工自省的方式由知识工程师手工输入。Web语料以其大规模性、易获得性和整体的领域无关性而成为常识获取的另一个可能的知识源。从Web语料获取常识的一个重要步骤是对Web语料中的句子进行挑选,从中导出适合于常识获取的句子,这些句子组成的语料称为常识语料。通过一个手工从Web语料获取常识的实验,我们研究了从是否适合作为常识获取的知识源的角度对句子进行区分的可行性。同时发现了两个可能用来刻画句子的常识获取合适程度的特征。我们通过一组规则从直接由Web网页抽取的句子中得到适合进行句子常识获取合适程度分析的品优句子。为了利用两个手工实验中发现的特征对品优句子进行分析,我们提出了带权词汇网络模型及其训练算法和利用Web语料对封闭体词表中的体词进行认知显着性计算并排序的方法。并利用这两个从Web语料获得的资源对句子常识获取合适程度进行了分析。(1)进行了一个有叁个人工被试参加的从Web语料手工获取常识知识的实验,并且从一致性检验、相合性检验、获取结果相似性检验叁个角度对手工实验结果进行了分析。同时也讨论了两个用来刻画句子常识获取合适程度的特征,即语义相关词的共现率和体词的认知显着性。(2)给出了筛选适合作句子常识获取合适程度分析的品优句子的筛选规则。从Web网页抽取出的独立句子并不适合直接用作句子常识获取合适程度的分析。主要表现在这些句子容易发生分词和词性标注错误,含有成语、非语素字等难以分析的字词,含有切碎的命名实体、古文等等。为了使对句子进行常识获取合适程度分析避免这些因素的干扰,本文给出了对句子进行词级别预处理的方法,完成了这些处理方法所依赖的词表资源的建立,并总结了品优句子的筛选规则。(3)提出了带权词汇网络及从Web语料获取带权词汇网络的算法。从对句子进行常识获取合适程度分析的角度,给定了带权词汇网络中的允许词,并建立了相应的词表资源。为了对带权词汇网络中的词与词之间的前驱后继关系进行约束,我们给出了带权词汇网络中允许词的各种词性之间的二元搭配关系,并给出了训练时的具体处理策略。我们利用Jaccard系数对带权词汇网络进行了清洗。(4)提出了从Web语料计算体词的认知显着性分值的方法。我们讨论了句子中出现的体词对于从该句子中获取常识有很大的影响。借鉴认知科学中关于基本层次范畴的认知显着地位及其成因的研究,我们提出了从Web语料构建体词关系网络并利用该网络计算体词的认知显着性分值的算法。(5)利用带权词汇网络和体词认知显着性分值对句子进行常识获取合适程度分析的方法。我们给出了从带权词汇网络建立句子词汇网络的算法。利用根据句子词汇网络和体词认知显着性提取的特征对句子的常识获取难度进行了分析。我们提出了句子的极小语义成分的概念,并给出了基于词性序列的极小语义成分类型系统,在此基础上设计了从句子中抽取极小语义成分的算法。我们给出了利用带权词汇网络中的信息估计语义成分的概率的方法。我们提出了语义成分的内向扩展和外向扩展,并给出了利用极小语义成分、内向扩展、外向扩展和语义成分频繁性阈值对句子进行常识丰富度分析的方法。(本文来源于《中国科学院研究生院(计算技术研究所)》期刊2008-04-01)
常识语料论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
常识知识获取一直是人工智能研究领域的一个核心难题。过去的常识获取主要以人工自省的方式由知识工程师手工输入。Web语料以其大规模性、易获得性和整体的领域无关性而成为常识获取的另一个可能的知识源。从Web语料获取常识的一个重要步骤是对Web语料中的句子进行挑选,从中导出适合于常识获取的句子,这些句子组成的语料称为常识语料。通过一个手工从Web语料获取常识的实验,我们研究了从是否适合作为常识获取的知识源的角度对句子进行区分的可行性。同时发现了两个可能用来刻画句子的常识获取合适程度的特征。我们通过一组规则从直接由Web网页抽取的句子中得到适合进行句子常识获取合适程度分析的品优句子。为了利用两个手工实验中发现的特征对品优句子进行分析,我们提出了带权词汇网络模型及其训练算法和利用Web语料对封闭体词表中的体词进行认知显着性计算并排序的方法。并利用这两个从Web语料获得的资源对句子常识获取合适程度进行了分析。(1)进行了一个有叁个人工被试参加的从Web语料手工获取常识知识的实验,并且从一致性检验、相合性检验、获取结果相似性检验叁个角度对手工实验结果进行了分析。同时也讨论了两个用来刻画句子常识获取合适程度的特征,即语义相关词的共现率和体词的认知显着性。(2)给出了筛选适合作句子常识获取合适程度分析的品优句子的筛选规则。从Web网页抽取出的独立句子并不适合直接用作句子常识获取合适程度的分析。主要表现在这些句子容易发生分词和词性标注错误,含有成语、非语素字等难以分析的字词,含有切碎的命名实体、古文等等。为了使对句子进行常识获取合适程度分析避免这些因素的干扰,本文给出了对句子进行词级别预处理的方法,完成了这些处理方法所依赖的词表资源的建立,并总结了品优句子的筛选规则。(3)提出了带权词汇网络及从Web语料获取带权词汇网络的算法。从对句子进行常识获取合适程度分析的角度,给定了带权词汇网络中的允许词,并建立了相应的词表资源。为了对带权词汇网络中的词与词之间的前驱后继关系进行约束,我们给出了带权词汇网络中允许词的各种词性之间的二元搭配关系,并给出了训练时的具体处理策略。我们利用Jaccard系数对带权词汇网络进行了清洗。(4)提出了从Web语料计算体词的认知显着性分值的方法。我们讨论了句子中出现的体词对于从该句子中获取常识有很大的影响。借鉴认知科学中关于基本层次范畴的认知显着地位及其成因的研究,我们提出了从Web语料构建体词关系网络并利用该网络计算体词的认知显着性分值的算法。(5)利用带权词汇网络和体词认知显着性分值对句子进行常识获取合适程度分析的方法。我们给出了从带权词汇网络建立句子词汇网络的算法。利用根据句子词汇网络和体词认知显着性提取的特征对句子的常识获取难度进行了分析。我们提出了句子的极小语义成分的概念,并给出了基于词性序列的极小语义成分类型系统,在此基础上设计了从句子中抽取极小语义成分的算法。我们给出了利用带权词汇网络中的信息估计语义成分的概率的方法。我们提出了语义成分的内向扩展和外向扩展,并给出了利用极小语义成分、内向扩展、外向扩展和语义成分频繁性阈值对句子进行常识丰富度分析的方法。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
常识语料论文参考文献
[1].崔大志.在线评论语料情感常识的图式标注研究[J].山东农业大学学报(社会科学版).2010
[2].朱耀.从大规模Web语料中获取常识语料[D].中国科学院研究生院(计算技术研究所).2008