开放域论文-夏艳辉,聂百胜,胡金凤

开放域论文-夏艳辉,聂百胜,胡金凤

导读:本文包含了开放域论文开题报告文献综述及选题提纲参考文献,主要关键词:开放域,中文问答系统,问题分类

开放域论文文献综述

夏艳辉,聂百胜,胡金凤[1](2019)在《中文开放域问答系统的问题分类研究》一文中研究指出中文问答系统通常由问题分析、信息检索、答案抽取组成。其中,问题分析中的问题的分类是否准确会直接关系到提取答案的准确度,所以在问答系统中起到关键性作用。本文主要介绍了中文问答系统的结构、问题分类体系以及方法,并提出结合基于规则的模式匹配与基于统计的机器学习的方法对问题进行分类,从而提高分类的准确度。(本文来源于《价值工程》期刊2019年16期)

刘勇杰[2](2019)在《基于注意力机制的开放域实体关系抽取》一文中研究指出大词林是一个有自动构建能力的网状知识图谱,所谓的网状结构,是指知识的横向性与纵向性。实体之间的关系、一个上位词的同义词都属于横向上的关系,而实体与上位词的关系、上位词之间的层次关系,都属于纵向上的关系。本课题主要为大词林提供辅助,旨在为大词林提供稳定的横向关系补充,即实体间关系的补充。1.针对大词林中纵向关系中实体与横向关系中实体不统一的问题,即实体路径消歧,本文首先提出基于词向量相似度计算的方法,将实体路径信息与实体义项对应,将实体路径信息与实体义项当做两个字符串,利用腾讯提供的词向量计算余弦相似度。该方法对于语义特征较为明显的情况处理效果较好。但在中文中,有很多词是具有对立含义的,为了挖掘文本背后的“对立”关联,本文引进了基于深度学习的实体路径消歧,包括ELMO模型与Bert模型,并对两类模型结果进行了分析。2.在开放域关系抽取任务中,针对中文领域关系抽取任务缺少语料的问题,本文提出了一种基于启发式规则的关系抽取方法,采用4类启发式规则模板并辅以搜索引擎结果计算置信度,得到初步实验效果,并为有监督方法提供语料。随后,针对开放域关系抽取难度大的特点,本文引入了端到端的关系抽取方法,以改善主流方法依赖命名实体识别且关系类型限定的不足,模型在获得关系的同时,将头实体与尾实体一并得出,将命名实体识别与关系抽取任务的联系在一起,最后辅以搜索引擎进一步增强实验结果,使得模型更加适应于中文数据集。3.在从文本中获取完关系叁元组后,需要将关系叁元组中的头实体,尾实体对应到具体的实体义项,即实体映射。本文提出了一种结合本文信息的实体映射方法,通过transformer网络结构来学习文本信息与实体义项的特征表示,通过带有实体义项信息的特征表示来预测文本中抽取的头尾实体是否属于该实体义项的概率。实验显示该方法达到了预期效果。(本文来源于《哈尔滨工业大学》期刊2019-06-01)

周昆[3](2019)在《开放域党建信息自动获取及智能标引系统的设计与实现》一文中研究指出“互联网+党建”概念提出以来,互联网上党建领域信息日趋丰富。面向党建领域的垂直检索系统可以为党建用户提供专业准确且低冗余的领域内容。构建党建垂直领域检索系统需要以党建领域文本作为基础数据。同时为了提升党建领域垂直检索系统的检索质量,需要将党建领域文本中包含的关键信息标引出来,作为检索结果展示给用户,使返回结果更加直观。如果可以挖掘出用户检索内容中潜在的实体关系,并结合从党建数据中标记出的实体关系对待检索内容进行处理,则可以改善党建领域垂直检索系统中用户查询内容与检索结果之间的相关性。为解决党建领域文本数据的采集问题,本文设计了开放域党建信息自动获取系统,提出了基于语义关系与链接结构、用于预测未访问链接主题相关性的链接主题相关度预测算法,并基于此算法实现了党建领域语义相关度主题爬虫,用于采集互联网开放域中的党建信息。根据选定的主题词,利用页面描述信息,基于维基百科中文语料训练出的词向量综合HowNet计算页面的语义相关度,结合URL的结构信息预测未访问URL链指的页面与党建领域的相关程度。最终将系统采集到的党建领域数据作为构建党建领域垂直搜索引擎的基础数据。为解决目前缺少用于提升党建领域垂直检索系统检索结果的直观度、改善检索结果相关性的标注数据的问题,并兼顾批量数据更新场景下数据的完整性与时效性,本文设计了一种用于综合考虑历史全量数据与实时增量数据查询更新处理过程的系统架构,并基于该架构实现了智能标引系统。该系统抽取采集到的党建语料中的关键词与实体间关系作为标引结果,并将其应用到党建领域检索的结果展示中;将全量数据处理与流数据处理结合,综合考虑了标注结果的完整性与时效性。开放域党建信息自动获取及智能标引系统能够解决党建信息采集以及标注问题,并在性能以及准确性上进行了一定验证。(本文来源于《中国科学院大学(中国科学院沈阳计算技术研究所)》期刊2019-06-01)

王策[4](2019)在《面向开放域的自动问答系统的设计与实现》一文中研究指出随着互联网数据的快速增长,传统的基于关键字的信息检索方法存在着准确性低、信息冗余量大、需要用户自己筛选大量文档进等缺点,传统的检索方式已经很难满足用户在信息检索中的需求。随着自动问答系统的出现,计算机可以直接查询用户输入的自然语言问题,理解和分析用户输入的自然语言句子,然后返回简洁准确的答案,大大提高了用户的查询效率。因此,自动问答系统已成为自然语言处理和信息检索领域的共同研究方向和核心任务。本文主要使用现有的研究技术成果,在自动问答系统的搭建过程中,对系统搭建、问句分析以及候选答案评分模型叁个方面进行研究和实现,研究成果如下:1、使用Java语言和Maven环境构建问答系统。首先是数据库的构建,数据库建立两张表格,一张为证据表用于存储证据片段,一张为问题表用于存储问题便于出现重复时直接提取答案;数据库内数据主要是在用户在使用系统时匹配到的<问句,答案句>对,实时存储于数据库中,实时更新。2、根据问句确定问题类别。本系统预先定义几类问题的匹配模式,与问句进行模式匹配,目前可识别的问题类有人名、地名、机构名等。3、使用候选答案评分模型,对候选答案进行评价。在候选答案评分模型中,有八种基本的评价方法:基于词频的评价模型、基于词距的评价模型、基于最短词距的评价模型、基于文本对齐的评价模型、基于宽松文本对齐的评价模型、基于回带文本对齐的评价模型和基于热词的评价模型、综合评价模型。针对以上方法本文融入深度学习方法进行改善,采用分步抽取答案的方法,先从答案片段中抽取包含答案的句子,再从提取到的答案句中进行最终答案的抽取。在抽取答案句过程中,采用Bi-LSTM和Max pooling构造了答案句抽取模型。实验结果表明,在答案句的抽取中,本模型取得了可观的效果,MRR指数达到了0.75。(本文来源于《西北民族大学》期刊2019-05-01)

王春柳[5](2019)在《面向开放域对话系统的自动化评测方法研究》一文中研究指出智能对话系统由于其发展潜力和商业价值受到了越来越多的关注,已经成为自然语言处理(Natural Language Processing,NLP)领域研究的热点。特别是近年来,深度学习和强化学习等学习方法的出现,使开放域对话系统逐步进入人们的视野,然而目前还没有存在一个良好的方法能够实现对开放域对话系统的快速评测,这在一定程度上阻碍了开放域对话系统的长远发展,因此开展开放域对话系统的评测研究将对其快速发展起到积极的促进作用。本文对开放域对话系统的各类评测方法进行调研,将这些评测方法分为人工评测和自动化评测两种,并对目前已有的几种基于深度学习的自动化评测方法进行了详细描述,同时对这些评测方法的优缺点进行了对比分析。针对目前评测方法需要大量人工标注数据和评测准确率较低等问题,本文提出了AB-LSTM-bi-MLP评测模型。该评测模型的设计出发点是判别问题-回复对是否为真实的对话,即判断两个句子是否是语义连贯和相关的句子。该模型基于连续的对话语料进行建模,目的在于解决目前基于参考回复的评测模型需要大量标注数据的弊端。该评测模型的核心内容是在基于注意力机制(Attention Mechanism)和双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)的基础上,再对特征融合层进行改进,引入了 Severyn等人提出的“二次特征”(Quadratic Feature)方法,并对该方法进行了部分改进,以进一步提高评测的准确度。为证明该评测模型的有效性,本文在Cornell和Reddit两种对话数据集上验证本文的模型。首先将目前已有的几种评测模型作为基准模型,分别在Reddit和Cornell两种数据集上进行实验对比,证明了本文提出的模型相比于现有的几种评测模型在特定数据集上能够取得更高的评测准确率;然后通过消融测试实验证明了本文模型各模块的有效性。(本文来源于《中国工程物理研究院》期刊2019-05-01)

方艺臻[6](2019)在《基于深度学习的开放域情感对话生成研究》一文中研究指出开放域情感对话旨在非任务型的闲聊式对话中,为机器生成的应答语句赋予相应情感,从而使人机对话交互更加自然、亲切和生动。伴随着社交网络的迅猛发展,海量的对话语料为对话系统提供了丰富的数据资源支撑,而计算机硬件和深度学习的发展又为对话生成提供了强大的技术支持。近年来,对话系统在学术界和工业界已受到得越来越多的青睐和关注。在人机对话发展中,赋予对话系统情感感知和互动是一个重要方面,然而目前解决这一问题也存在着诸多困难和挑战。首先,在数据方面需要大规模的具有情感标注的对话语料。其次,在对话生成的质量上如何做到流畅通顺、上下文相关,另外如何使得生成的对话蕴含相应的情感色彩。最后,开放域对话并无唯一标准的应答语句,如何对机器生成的对话进行评测是面临的又一难题。本文采用了NLPCC 2017情感对话生成任务中数据集,利用深度学习模型解决情感对话生成中的挑战,尝试和采用了多种评测指标和方法。具体来说,本文在带有情感标签的大规模对话语料集上,利用深度学习技术训练序列到序列模型生成对话语句,在此基础上,使用预训练的情感监督模型为序列到序列模型生成的应答语句赋予相应情感。评测上采用了自动评测指标和人工评测的方法。本文的具体工作如下:本文提出了一种基于深度学习的具有情感监督的开放域对话生成模型。本文先采用单词和字符结合的方法为对话的输入语句和回复语句进行词向量表示,利用双向LSTM对输入语句词向量进行编码得到隐向量,再使用LSTM对隐向量解码来预测回复语句。此外,预训练过的情感分类器可辅助话模型对对话文本进行情感分类。本文基于此进行了两类情感对话任务的研究,分别是指定情感的对话生成和非指定情感的对话生成。指定情感的对话生成中可为回复语句赋予五类具体情感,分别是快乐、悲伤、愤怒、厌恶和喜欢。借助情感分类器得到生成回复在情感向量空间上的表示,计算其与指定情感对应的情感向量的余弦相似度,使之在情感向量空间上不断接近指定情感向量,从而生成具有指定情感的回复语句。非指定情感任务是生成与当前输入语句情感相近或相远的回复语句。借助情感分类器分别得到当前输入语句和生成的回复语句在情感空间上的向量,计算其二者的余弦相似度,若最小化该相似度则生成情感相近的对话,反之,最大化则生成情感距离相远的对话。(本文来源于《华中师范大学》期刊2019-05-01)

韩涛涛[7](2019)在《基于跨域学习和双链融合网络的开放域动作识别算法研究》一文中研究指出近年来,人体动作识别在计算机视觉和机器学习领域已经受到了越来越多的关注。尽管现在已经提出了许多相关的动作识别算法,但是这些方法常常假设数据来源于同一个域,在相同场景中提取动作特征,并且在训练样本充足的情况下才能训练出一个可靠的模型。然而,在真实的应用场景中,有标签的训练数据是很少的,并且由于摄像机位置和角度的变化,相同动作的人体姿势和运动范围都会发生明显的变化,所在的特征空间和相对应的数据分布也会发生显着的改变。因此,在多个域中进行跨域的动作识别是一个具有挑战性的课题。基于上述动作识别领域的发展趋势,本文的研究工作主要包括了以下叁个部分:1)构建了多视角多模态的人体动作数据集(简称为MMA);2)探讨了基于特征学习和跨域学习的开放域动作识别;3)提出了双链融合网络的开放域动作识别算法。具体工作为:1)构建了多视角多模态的人体动作数据集(简称为MMA)。现存的大多数动作数据集的动作类别、样本数量、相机视角和拍摄场景的数目往往是有限的,此外,这些数据集仅能够用于某个学习任务,例如,单视角学习、跨视角学习和多任务学习,这不利于后续的动作识别研究。因此,构建了多视角多模态的人体动作数据集,该数据集总共包含7080个动作样本,它们分别来自于两个场景,每个场景包括叁个视角,此外,这些样本包含25个动作类别,分为15个单人动作和10个双人动作。为了充分地评估该数据集,通过不同的任务对其进行了实验。实验结果表明,由于显着的类内变化、遮挡问题、视角和场景的变化以及多个动作类别的相似性,MMA数据集对这叁个学习问题都具有挑战性。2)探讨了基于特征学习和跨域学习的开放域动作识别。采用了叁种不同的方法探讨了开放域的动作识别问题:1)特征学习:分别对视频提取手工设计特征和深度学习特征,然后评估和讨论它们在可控的和不受控制环境中的性能;2)无监督的跨域学习:因为很难在目标域中获得有标签的样本,因此,可以借用无监督的跨域学习算法来进行动作识别;3)有监督的跨域学习:如果目标域中有一些有标签的样本,但是它们的数量非常有限,那么有监督跨域学习方法将会是不错的选择,因此,六种有监督的跨域学习算法也在相同的数据集上进行了评估。此外还进一步探索了MMA数据集上的跨域学习问题。3)提出了双链融合网络的开放域动作识别算法(PFN,Pairwise Fusion Network)。在这个算法中提出了一种端到端的双链网络结构,它可以从视频中共同融合不同的时空特征,学习源域和目标域的域不变特征并构建分类模型。为了模拟从源域到目标域的转变,要求PFN的相应层中的参数是相关的,但不完全相同。由于现有的动作数据样本数目较少,导致网络的训练不够充分,所以为了增加训练样本的数目,构建了源域和目标域的成对样本,从而直接增加了网络的训练样本数目。通过在两个不同的动作数据集MMA和ODAR上进行的大量实验表明,PFN算法在跨域动作识别任务上有较好的性能。(本文来源于《天津理工大学》期刊2019-02-01)

宋皓宇,张伟男,刘挺[8](2018)在《基于DQN的开放域多轮对话策略学习》一文中研究指出有效地进行多轮对话是开放域人机对话系统的主要目标之一。目前的神经网络对话生成模型在开放域多轮对话过程中存在着容易产生万能回复、很快陷入死循环的问题;而已有的多轮对话研究工作存在着没有考虑未来对话走向的问题。借鉴强化学习方法考虑全局的视角,该文利用深度强化学习算法DQN(deep Q-network),提出了使用深度价值网络对每一轮的候选句子进行评估,并选择未来收益最大的而非生成概率最大的句子作为回复的多轮对话策略学习方法。实验结果表明,该文提出的方法将多轮对话的平均对话轮数提高了两轮,同时在主观对比评价指标上获胜比例高出了45%。(本文来源于《中文信息学报》期刊2018年07期)

姜天文,秦兵,刘挺[9](2018)在《基于表示学习的开放域中文知识推理》一文中研究指出知识库通常以网络的形式被组织起来,网络中每个节点代表实体,而每条连边则代表实体间的关系。为了利用这种网状知识库中的知识,往往需要设计专门的、复杂度较高的图算法。然而这些算法并不能很好适用于知识推理,尤其是随着知识库的知识规模不断扩大,基于网状结构知识库的推理很难较好地满足实时计算的需求。该文使用基于TransE模型的知识表示学习进行知识推理,包括对实体关系叁元组中关系指示词以及尾实体的推理,其中关系指示词推理的实验取得了较好的结果,且推理过程无需设计复杂的算法,仅涉及向量的简单运算。另外,该文对原始TransE模型的代价函数进行改进,以更好地适用于开放域中文知识库表示学习。(本文来源于《中文信息学报》期刊2018年03期)

刘明童,张玉洁,徐金安,陈钰枫[10](2018)在《开放域上基于深度语义计算的复述模板获取方法》一文中研究指出利用实体关系从网络大规模单语语料获取复述模板的方法可以规避对单语平行语料或可比语料的依赖,但是后期需要人工对有语义差异的关系模板分类后获取复述模板。针对这一遗留问题,该文提出基于深度语义计算的复述模板自动获取方法,首先设计基于统计特征的模板裁剪方法,从非复述语料中获取高质量的关系模板,然后设计基于深度语义计算的关系模板聚类方法获取高精度的复述模板。我们在四类实体关系数据上的实验结果表明,该方法实现了关系模板的自动获取与自动聚类,可以获得语义相近度更高、表现形式多样的复述模板。(本文来源于《中文信息学报》期刊2018年02期)

开放域论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

大词林是一个有自动构建能力的网状知识图谱,所谓的网状结构,是指知识的横向性与纵向性。实体之间的关系、一个上位词的同义词都属于横向上的关系,而实体与上位词的关系、上位词之间的层次关系,都属于纵向上的关系。本课题主要为大词林提供辅助,旨在为大词林提供稳定的横向关系补充,即实体间关系的补充。1.针对大词林中纵向关系中实体与横向关系中实体不统一的问题,即实体路径消歧,本文首先提出基于词向量相似度计算的方法,将实体路径信息与实体义项对应,将实体路径信息与实体义项当做两个字符串,利用腾讯提供的词向量计算余弦相似度。该方法对于语义特征较为明显的情况处理效果较好。但在中文中,有很多词是具有对立含义的,为了挖掘文本背后的“对立”关联,本文引进了基于深度学习的实体路径消歧,包括ELMO模型与Bert模型,并对两类模型结果进行了分析。2.在开放域关系抽取任务中,针对中文领域关系抽取任务缺少语料的问题,本文提出了一种基于启发式规则的关系抽取方法,采用4类启发式规则模板并辅以搜索引擎结果计算置信度,得到初步实验效果,并为有监督方法提供语料。随后,针对开放域关系抽取难度大的特点,本文引入了端到端的关系抽取方法,以改善主流方法依赖命名实体识别且关系类型限定的不足,模型在获得关系的同时,将头实体与尾实体一并得出,将命名实体识别与关系抽取任务的联系在一起,最后辅以搜索引擎进一步增强实验结果,使得模型更加适应于中文数据集。3.在从文本中获取完关系叁元组后,需要将关系叁元组中的头实体,尾实体对应到具体的实体义项,即实体映射。本文提出了一种结合本文信息的实体映射方法,通过transformer网络结构来学习文本信息与实体义项的特征表示,通过带有实体义项信息的特征表示来预测文本中抽取的头尾实体是否属于该实体义项的概率。实验显示该方法达到了预期效果。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

开放域论文参考文献

[1].夏艳辉,聂百胜,胡金凤.中文开放域问答系统的问题分类研究[J].价值工程.2019

[2].刘勇杰.基于注意力机制的开放域实体关系抽取[D].哈尔滨工业大学.2019

[3].周昆.开放域党建信息自动获取及智能标引系统的设计与实现[D].中国科学院大学(中国科学院沈阳计算技术研究所).2019

[4].王策.面向开放域的自动问答系统的设计与实现[D].西北民族大学.2019

[5].王春柳.面向开放域对话系统的自动化评测方法研究[D].中国工程物理研究院.2019

[6].方艺臻.基于深度学习的开放域情感对话生成研究[D].华中师范大学.2019

[7].韩涛涛.基于跨域学习和双链融合网络的开放域动作识别算法研究[D].天津理工大学.2019

[8].宋皓宇,张伟男,刘挺.基于DQN的开放域多轮对话策略学习[J].中文信息学报.2018

[9].姜天文,秦兵,刘挺.基于表示学习的开放域中文知识推理[J].中文信息学报.2018

[10].刘明童,张玉洁,徐金安,陈钰枫.开放域上基于深度语义计算的复述模板获取方法[J].中文信息学报.2018

标签:;  ;  ;  

开放域论文-夏艳辉,聂百胜,胡金凤
下载Doc文档

猜你喜欢