导读:本文包含了答案排序论文开题报告文献综述及选题提纲参考文献,主要关键词:大众性问答社区,答案质量排序,感知价值,粗糙集理论
答案排序论文文献综述
易明,张婷婷[1](2019)在《大众性问答社区答案质量排序方法研究》一文中研究指出【目的】针对大众性问答社区答案质量参差不齐的现状,对答案质量排序方法进行探讨。【方法】依据信息接受模型,从感知价值角度构建答案质量排序初始指标体系;采用K-Medoids聚类算法对初始指标进行离散化,同时利用粗糙集理论对初始指标进行约简并赋予权值,进而修正指标体系;运用加权灰色关联分析计算答案的加权灰色关联度,以产生排序结果。【结果】针对"知乎"6类话题下6个问题的2 297条相关数据进行实验分析,排序靠前的答案通常采用图文结合的表达方式、答案所含信息量高,且回答者社区参与度较高,从而答案的质量较高。【局限】数据规模需要扩大,对排序方法的评价还可以优化。【结论】73名"知乎"用户对原始排序与本研究排序进行满意度评价,结果表明本文方法具有优越性。(本文来源于《数据分析与知识发现》期刊2019年06期)
林旭鸣[2](2019)在《机器阅读理解中答案排序问题的研究》一文中研究指出近几年,随着深度学习的发展,自然语言处理领域中的许多传统问题如分词、命名实体识别等在解决思路与方案上取得了较为突破性的进展。同时,随着新的技术出现的同时,新的自然语言处理任务也不断产生。而从问答任务中衍生的机器阅读理解问题,近几年也逐渐变成热门的话题。机器阅读理解问题作为问答任务的一个分支,其出发点也同样是要求机器能够回答问题,并需要根据给定的文章环境,依靠语义理解与推理等方法来帮助模型回答问题或者答案排序。而在机器阅读理解的答案排序问题中,如果能够基于现有的方法提出一些优化或改进思路,则对于机器阅读理解问题本身而言具有启发式的意义。针对该问题,本课题研究的内容主要包括以下两个方面。第一,针对先验特征以及不同融合方法在答案排序型的机器阅读理解问题上的研究。通过在模型输入端提供先验信息,如问题与答案中词的共现特征、命名实体类型特征以及字符特征,以及研究不同的问题、文章和候选答案的融合方法,帮助模型更充分的理解文本,并能够更好的做出答案排序与选择。本课题引入的先验特征与提出的混合堆迭的融合交互方法的有效性在本研究课题的RACE数据集上得到了验证,同时交互方法的有效性在SQuAD数据集上得到了进一步的验证。第二,针对机器阅读理解中的句子推理问题对答案排序影响的研究。本课题结合目前常见的句子推断问题,提出了基于句子信息的选项门控网络。该网络能够帮助模型在句子推理上取得更好的结果,从而帮助模型更好的对问题的答案进行排序。该部分设计的相关实验在本课题研究的数据集RACE中的RACE-H子数据集上达到了最优效果。(本文来源于《北京邮电大学》期刊2019-01-01)
程亚男,王宇[3](2018)在《基于语义情感相似度的问答社区答案排序研究》一文中研究指出【目的/意义】目前问答社区答案数量多且篇幅长,对答案进行重新排序和组织可以方便用户高效获取答案信息。【方法/过程】针对答案文本的特点,提出基于答案相似度对社区答案进行重新组织、排序的方法。该方法定义答案文本语义云和情感云,利用标签传播算法计算出词典中不存在的词语语义和情感相似度,即云滴值,然后每个答案形成多片语义云和一片情感云,通过计算答案云间相似度得到答案文本间的相似度。最后,结合答案"赞"数对答案进行重新排序。【结果/结论】通过实验的人工评价,发现与基于"赞"数排序相比,基于语义情感相似度的答案排序方法与人工排序相似度更高,更能满足社区用户需求。(本文来源于《情报科学》期刊2018年08期)
张力[4](2018)在《社区问答系统中答案排序和问题检索算法研究与应用》一文中研究指出社区问答(Community Question Answering,CQA)系统是一种较高级别的信息检索系统。与搜索引擎不同,CQA系统中存在大量由社区成员长期维护的问题和答案,信息质量较高;CQA系统返回的信息通常更符合用户的真实需求,而搜引擎通常返回若干相关网页。目前,利用CQA系统知识获取已经成为一个研究热点,但如何高效的从CQA系统中检索信息仍是一个研究难点。本文的研究内容主要围绕CQA系统的答案排序和问题检索任务,工作分为以下叁个方面:1)提出了改进主题模型。传统的LDA主题模型未考虑到垃圾主题和相似主题的存在,影响主题相似度计算的准确率,第叁章提出了垃圾主题过滤算法和主题相似度检测算法用于移除垃圾主题和检测相似主题,以构造语义关系更强的主题向量。在中文语料库上的实验结果验证了改进主题模型能够提升文本分类的准确率,第叁章还将改进主题模型应用到CQA系统中,在SemEval问答数据集上的实验结果一方面确定了答案排序和问题检索任务的最优特征组合,另一方面验证了改进主题模型同样能够提升答案分类的准确率。2)提出了一种针对CQA系统的信息增强方法。第四章利用原始问题、相似问题和答案叁者的关系,构造答案与原始问题的标注数据集,作为额外的训练集融入到原始数据集中,额外数据集是对原始数据集的信息增强,在CQA系统两个子任务上的实验结果验证了信息增强方法的高效性。第四章还探索了五种神经网络对答案排序和问题检索任务的建模方法和应用效果,发现BiLSTM网络和Attention网络整体上具有较高的答案分类准确率和MRR值,实验发现数据清洗对神经网络影响较大,在大多数场景中数据清洗都是必要的,但对某些场景(如小规模数据集,BiLSTM网络等)数据清洗会降低网络的性能。3)设计了 CQA系统的实现流程图。首先分析了系统存在的问题,然后介绍了设计中涉及的关键技术,最后分模块阐述CQA系统中各个问题的解决方案。各问题与解决方案可以概括为:针对海量知识库的信息抽取计算复杂度较高的问题,提出了一种两阶段文本排序方法;针对内容实时更新和外部请求重合度较高的问题,使用Spark流式计算引擎进行实时内部答案排序和信息更新,并将预先计算的部分文本特征和热门问题缓存,使用LRU算法发现、更新热门问题。该流程设计的目的是将提出的上述方法应用到实际场景中,通过将其与大数据组件结合,综合提高问题和答案分类的准确率,缩短系统响应时间。(本文来源于《中国科学技术大学》期刊2018-05-01)
赵晨阳[5](2018)在《基于加权关键词的答案排序方法研究》一文中研究指出随着互联网问答社区的兴起,问答社区中的答案排序和内容筛选问题获得越来越多的关注和研究。相较于目前问答社区中广泛采用的投票机制等内容筛选方案,基于机器学习的答案排序方法更具通用性和时效性,排序结果也更加可靠。但是,现有的机器学习答案排序方法要么从答案以及和答案相关的问题、用户和评论中抽取可以区分答案质量的特征,然后使用学习排序方法训练排序模型进行答案排序;要么使用链接分析方法计算回答者在问题所属领域的权威性评分,将权威性评分用于答案排序。这些排序方法都将每一个问题当作一个单独的实体进行处理,但实际上问答社区中的每一个问题都不是独立的,相同的问题会被用不同的表达方式先后提出,先提出的问题往往已经有了比较可靠的答案,这些已经解决的问题可以用来对新问题的答案进行排序。基于以上事实,本文提出了利用已解决问题对新问题进行排序的答案排序方法。课题的主要研究内容如下:1)问题相似度计算。本文提出了基于Word2vec词向量的文本表示方法,并使用这一新的文本表示方法计算问题的相似度。与现有方法的对比实验证实了本文提出的问题相似度计算方法的有效性;2)关键词提取。本文使用Word2vec词向量对经典TextRank算法在词节点权值初始化和迭代计算中权值分配比例两方面存在的不足进行了改进,提出了融合TextRank和Word2vec的关键词提取方法,并通过对比实验证实了此方法的有效性;3)基于加权关键词的答案排序方法。本文通过问题相似度计算过程从已解决问题库中得到与待排序问题相似的问题集合,然后使用关键词自动提取方法从相似问题的答案中提取出关键词,并对这些关键词回答问题的重要性进行评价。最后利用这些加权关键词对待排序的答案进行质量评价并得到排序结果。此外,为了进一步地提高排序方法的效果,本文将基于加权关键词的答案排序方法和基于特征提取的学习排序方法以及基于链接分析的排序方法结合起来,提出了融合叁种方法的答案排序方法。在取自Stack Overflow和Yahoo! Answers社区的数据集上进行的对比实验证实了本文提出的答案排序方法的有效性。综上所述,课题研究并提出了新的问题相似度计算方法和关键词自动抽取方法,并在这两种方法的基础上提出了基于加权关键词的答案排序方法。与现有答案排序方法的对比实验证实了本文提出的排序方法的有效性。(本文来源于《北京邮电大学》期刊2018-03-14)
张长[6](2017)在《金融知识自动问答中的新词发现及答案排序方法》一文中研究指出随着自动问答系统的深入研究和广泛应用,问答系统开始呈现领域化和专业化的趋势。与一般的开放型自动问答不同,限定领域内会出现许多不存在于分词器词库中的领域新词,这些新词的存在会使得当在限定领域中使用通用分词器对句子进行分词时,由于分词器原本词库的不完整而导致其被切分为多个部分,造成词语的不连贯,影响使用领域语料进行词向量的训练效果。指定领域问答在问题类型上,往往夹杂着结构化数据问题和自由文本类问题,但不同类型的问题其答案抽取方法却不尽相同。在候选答案抽取方面,以往的问答系统大多是基于句子中词向量在向量空间中的距离来进行候选答案的排序和检索,但是此方法仅考虑了词汇之间的相互关系,却忽略了每个词在句子中的权重以及由于词性差异而导致的计算偏差。针对以上领域内自动问答的难点,本文根据统计学以及结合卷积神经网络等机器学习算法,提出了一种适用于金融领域的新词发现与抽取方法,以及金融知识自动问答的候选答案排序方法。本文的主要研究内容包括:金融领域内新词的发现与提取。为了更好地计算用户问题与候选问答库中问答对的相关度,本文从统计学的角度出发,结合独立词概率和信息熵的使用,改进了一种能够从大规模领域语料中提取出新词的方法,该方法能够将提取新词的准确率提升至90%以上,并且在候选答案的排序实验中,通过加入该方法提取的领域新词到相关度计算模型中,能够将其MRR值提升0.03以上。候选答案的排序与抽取。本文提出了一种问题-问题相关度与问题-答案相关度相结合的方法进行候选答案的排序。前者是基于词向量在向量空间中计算问句相关度,后者是基于卷积神经网络模型计算问句与答案的相关度。本文在实验中证明了基于句子相对长度的余弦相似度计算效果最佳,且由TF-IDF抽取出的句子关键词及其词性权重也会对相关度计算产生较大影响。最终得出结论,将两种相关度的计算结果进行加权来衡量问题与候选答案间的相关度,能够得到在一定程度上提高候选答案的排序效果。金融知识问答库的构建及系统平台的搭建。本文对金融知识涉及的各类知识库进行了构建,并搭建了一款集日常交流问答、金融结构化数据和时序数据问答、金融知识自由问答、辅助客服为一体的问答系统,该问答系统在经过200条的测试样本分析后,Top1值达到了105以上,MRR(Mean reciprocal rank)值达到0.63。(本文来源于《哈尔滨工业大学》期刊2017-12-01)
吴国顺[7](2017)在《问题检索与答案排序互相促进的社区问答系统》一文中研究指出在社区问答(Community Question Answering,CQA)中,用户提出查询问题,CQA系统在大量已有的问题-答案对的知识库中搜索相似的问题,然后把该问题的最佳答案当作查询问题的答案返回给用户。CQA系统包括两个关键的子任务:(1)问题检索(QuestionRetrieval),通过估计问题对的语义相似性来找到和查询问题最相似的已有问题;(2)答案排序(AnswerRanking),按照答案回答问题的相关程度对多个答案进行语义相关性排序,选出最佳的答案。构建问答知识库是一项庞大而复杂的工程,一种可行的替代方案是利用互联网的庞大资源检索获得问题的答案。因此,本文的第一个工作是借助搜索引擎来构建一个网络资源辅助的社区问答系统,该系统在2015年TREC的实时问答竞赛中获得了第二名。以往关于CQA的研究多将CQA中的问题检索和答案排序两个任务分开独立解决,没有考虑它们之间的信息交互。本文的第二个工作考虑这两个任务的相互促进,并设计新的有效特征来进一步提高CQA的性能,相关工作发表在2016年IJCNN会议。传统CQA系统采用专家精心设计的特征,泛化性差,而深度学习的优势是能够自动学习特征。因此,本文的第叁个工作探索了深度学习模型在问题检索和答案排序任务上特征自动学习的性能,相关工作发表在2016年的SemEval会议。在本文第二个和第叁个工作的启发下,本文的第四个工作深入研究了深度学习框架下的CQA系统。本文提出一个基于门机制的深度神经网络模型,该门机制能够自动学习问题检索和答案排序任务间的交互信息,从而帮助进一步提高CQA性能。本文广泛而深入地研究了采用传统自然语言处理技术与深度学习方法的问题检索和答案排序相互促进的CQA系统,大量的实验结果表明,本文提出的两个任务相互促进的策略在传统方法和深度学习方法中都能够有效地提高CQA系统的性能。(本文来源于《华东师范大学》期刊2017-04-01)
原立伟[8](2017)在《社区问答系统中答案排序迁移学习的方法研究》一文中研究指出随着互联网技术的不断发展使得人们获取知识、解决问题的方式变得越来越便捷。传统的搜索引擎公司,例如雅虎、谷歌等为日益增多的互联网用户提供了更为方便的信息获取方式,用户可以通过在搜索对话框中输入相关关键词从而快速得到自己想要的信息。但是随着互联网的普及以及互联网自身内容的不断丰富,人们在获取答案的同时,也对得到最佳答案的便易性提出了更高的要求。基于社区问答的个性化服务有效的弥补了传统搜索引擎技术上的不足从而越来越受到各个互联网公司的重视。社区问答系统是一种新兴知识共享模式,通过用户提交问题和答案,社区积累了大量的问答对(question answering pairs)。当用户提交新问题时,如何通过排序,为用户提供准确的答案序列,是社区问答系统的重要环节。传统的排序算法主要利用监督学习的方法构建排序模型,它需要通过大量人工标记数据来训练模型。目前国内外学者提出了许多基于监督排序学习的方法并且在实际生活中得到了很好的应用,例如排序支持向量机,它就是基于监督学习的排序算法中的典型代表,通过大量的标注数据,输入到指定的学习机当中,然后自动训练得到一个排序模型。基于监督排序学习的方法往往需要相当规模的标注数据,保证训练模型的可靠性,但是在实际环境当中由于标注数据的不足。当数据缺乏的时候监督排序学算法的可靠性就会相应的降低。某个特定领域训练好的排序模型,在新的领域往往不能获得好的效果。并且互联网中数据更新很快,之前标注的数据随着时间的推移就无法适应当前模型的训练。针对实际应用中标注不足的问题借助迁移学习的思想对传统的排序学习方法进行改进。利用基于特征选择的迁移学习排序算法,假设源领域与目标领域存在共享的低维特征表示,以用户的多个兴趣为源领域和目标领域的共享特征,从而使目标领域达到知识迁移的目的。我们通过分析社区问答系统自身的特点可以观察到它存在许多基于用户行为的标签。结合基于特征的迁移学习方法将这些用户特征融入到特征空间,通过选取社区中具体价值的用户标签和用户行为标签对基于特征的迁移学习排序算法进行优化。例如问题回答者的擅长领域这个特征,一个问题的回答者可能会擅长多个领域(比如网球和羽毛球)在特征向量中该特征主要以布尔类型来表示,擅长为1不擅长为0。那么这个特征在羽毛球和网球类别中的布尔类型均为1,即这个特征可以作为羽毛球和网球两个不同类别共性特征来使用,从而改善了排序学习方法。通过实验的验证,证实了融入用户特征的迁移学习答案排序算法能够有效的提高答案排序的效果。(本文来源于《昆明理工大学》期刊2017-03-01)
李真真[9](2016)在《基于深度学习的答案排序研究》一文中研究指出限于自然语言的复杂性,传统搜索引擎中基于关键词查询的方法,难以满足用户对确切问题搜索的需求;基于常用问题集的问答系统也无法解决开放域的问题,因此面向开放域问答系统的智能搜索成为研究热点。本文以面向开放域的问答系统为研究背景,通过有效的检索得到丰富的候选答案,对候选答案进行排序是问答系统的最后一步,也是关键一步,排序的结果将直接影响问答系统的好坏。本文主要关注根据问答对文本的语义关联性对候选答案排序。在这个任务上,传统机器学习方法依赖外部资源,需要从训练数据集中抽取特征来创建模型,费时费力,效果不佳。面对这个难题,本文研究深度学习的方法来完成这个任务。近几年,深度学习方法在自然语言处理的多个任务上取得突破,而应用到问答系统的答案排序任务中缺乏实际经验。因此本文以神经网络模型为研究点,设计和实现深度学习模型来匹配文本对,进一步改进模型以完成答案排序任务。本文的主要贡献如下:设计并实现了一种基于双向长短时记忆(BiLSTM)的深度学习模型用于答案排序任务。该模型采用的双向长短时记忆神经网络能增加文本序列的前后交互,紧接着的卷积神经网络层能卷积局部信息。输入的问题和答案分别通过组合的神经网络模型,得到问答对的中间向量表达。然后使用相似性矩阵关联问答对的中间向量并计算其距离。在TREC QA数据集上实验的结果证明在该任务上,本文构造的模型优于传统的机器学习方法,比之前已有的最佳神经网络模型也有提高。研究注意力机制在深度学习模型上的应用,设计并实现含有注意力机制的改进深度学习模型来处理答案排序任务。本文用含有注意力机制的长短时记忆神经网络层来处理答案的语句,加入问题的中间表达作为影响答案表达的权重,使答案保留更多与问题相关的表达。本文在两种含有BiLSTM网络的深度学习模型上加入注意力机制,并通过实验验证了注意力机制的有效性。综上所述,本文研究并实现了一种改进的深度学习模型用于答案排序任务,在公共数据集上测试了该模型的有效性,并解决了一些在实际问答系统中答案排序子模块的应用问题。(本文来源于《国防科学技术大学》期刊2016-12-11)
赵姗姗[10](2016)在《深度学习与多元特征相结合的答案选择排序研究》一文中研究指出近年来,人工智能在诸多领域的尝试及成功,使其逐渐进入大众的视线。如何实现机器与人类的无障碍交流,是人工智能一直的研究内容。智能问答系统是实现这一愿景的非常有意义的一个切入点。现有的问答系统形式有多种,比如社区问答、知识问答及聊天机器人等。这些系统往往有一定的知识存储,在回答问题的时候首先根据自身的知识背景生成若干与问题相关的候选答案,然后再通过相关计算对候选答案打分,最后返回问题的最佳答案。本课题主要研究了问题候选答案的选择排序问题,即对给定问题的候选答案集中每个答案打分排序。其核心问题就是计算问题和候选答案之间的语义相似度。通过对相关工作调研分析,可以发现,在已有的研究工作中,前期工作主要是基于问题和候选答案的词汇、句法等特征完成的。随着深度学习在NLP中的应用,近期工作多采用深度学习模型来研究,该模型不需要借助其他语言工具或知识资源辅助。本文尝试构建了将深度学习与句子特征相结合的模型,来完成问题候选答案的选择排序问题,本文的主要贡献有以下几个方面:1.分别抽取了问题和候选答案的词汇特征、主题特征以及基于IBM Model-I的问题和候选答案间的对齐特征,并将这些特征与LSTM模型结合。2.构建了基于深度学习的答案选择排序算法框架,分别采用CNN和LSTM两种深度学习模型进行实验。实验结果表明,在答案选择排序的任务中,当不加任何外部特征时,本课题里LSTM模型表现整体高于CNN模型。3.在LSTM模型中加入问题和候选答案的相关特征,将词汇特征追加到LSTM模型的输入部分,将主题特征与LSTM模型的输出做特征组合,再将对齐特征作为在LSTM模型中引入attention机制的基础。实验结果表明,在LSTM模型中,无论加入主题特征还是引入attention机制,在问题候选答案的任务上都有较为显着的效果。4.将本文的模型在公开数据集上进行实验,结果表明当将主题特征与对齐特征和LSTM结合时,两个评价指标MAP和MRR最高分别可以达到78.9%和80.0%,均高于现有的工作结果。该实验结果也证明了本课题所提模型的合理性和有效性。(本文来源于《哈尔滨工业大学》期刊2016-06-01)
答案排序论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
近几年,随着深度学习的发展,自然语言处理领域中的许多传统问题如分词、命名实体识别等在解决思路与方案上取得了较为突破性的进展。同时,随着新的技术出现的同时,新的自然语言处理任务也不断产生。而从问答任务中衍生的机器阅读理解问题,近几年也逐渐变成热门的话题。机器阅读理解问题作为问答任务的一个分支,其出发点也同样是要求机器能够回答问题,并需要根据给定的文章环境,依靠语义理解与推理等方法来帮助模型回答问题或者答案排序。而在机器阅读理解的答案排序问题中,如果能够基于现有的方法提出一些优化或改进思路,则对于机器阅读理解问题本身而言具有启发式的意义。针对该问题,本课题研究的内容主要包括以下两个方面。第一,针对先验特征以及不同融合方法在答案排序型的机器阅读理解问题上的研究。通过在模型输入端提供先验信息,如问题与答案中词的共现特征、命名实体类型特征以及字符特征,以及研究不同的问题、文章和候选答案的融合方法,帮助模型更充分的理解文本,并能够更好的做出答案排序与选择。本课题引入的先验特征与提出的混合堆迭的融合交互方法的有效性在本研究课题的RACE数据集上得到了验证,同时交互方法的有效性在SQuAD数据集上得到了进一步的验证。第二,针对机器阅读理解中的句子推理问题对答案排序影响的研究。本课题结合目前常见的句子推断问题,提出了基于句子信息的选项门控网络。该网络能够帮助模型在句子推理上取得更好的结果,从而帮助模型更好的对问题的答案进行排序。该部分设计的相关实验在本课题研究的数据集RACE中的RACE-H子数据集上达到了最优效果。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
答案排序论文参考文献
[1].易明,张婷婷.大众性问答社区答案质量排序方法研究[J].数据分析与知识发现.2019
[2].林旭鸣.机器阅读理解中答案排序问题的研究[D].北京邮电大学.2019
[3].程亚男,王宇.基于语义情感相似度的问答社区答案排序研究[J].情报科学.2018
[4].张力.社区问答系统中答案排序和问题检索算法研究与应用[D].中国科学技术大学.2018
[5].赵晨阳.基于加权关键词的答案排序方法研究[D].北京邮电大学.2018
[6].张长.金融知识自动问答中的新词发现及答案排序方法[D].哈尔滨工业大学.2017
[7].吴国顺.问题检索与答案排序互相促进的社区问答系统[D].华东师范大学.2017
[8].原立伟.社区问答系统中答案排序迁移学习的方法研究[D].昆明理工大学.2017
[9].李真真.基于深度学习的答案排序研究[D].国防科学技术大学.2016
[10].赵姗姗.深度学习与多元特征相结合的答案选择排序研究[D].哈尔滨工业大学.2016