导读:本文包含了文本信息处理论文开题报告文献综述及选题提纲参考文献,主要关键词:深度学习,Word2Vec方法,手语合成,文本词元库
文本信息处理论文文献综述
艾山江·亚生,阿里甫·库尔班,张丹丹[1](2019)在《面向手语信息处理的维吾尔文本采集的研究》一文中研究指出从自然语言处理以及深度学习的基本理念、原则出发,为基于中国手语的维吾尔文本信息处理研究提供数据资源,为面向手语信息的手语合成研究,为手语新闻文本编辑研究提供科学依据,对维吾尔文本进行自动分词、自动分句研究,并利用Word2Vec方法进一步建立文本词元库,通过这样保证训练语料的多元化及通用性。最后,利用词干提取方法以及分割字母的方式将维吾尔文本信息转换成手语文本信息,并在此基础上初步采集面向手语信息处理的维吾尔文本信息。实验表明该研究达到了预期目标。(本文来源于《现代电子技术》期刊2019年12期)
艾山江·亚生[2](2018)在《面向手语信息处理的维吾尔文本语料库构建技术的研究》一文中研究指出聋哑人(听障人)是一个特殊的“少数民族”。手语是聋哑人(听障人)学习、生活及融入主流社会的一种特殊的交际工具。21世纪以来,我国手语语言文字资源建设逐步向专用型的文本语料库方向发展。中国手语研究是在自然语言处理、深度学习、文本挖掘、机器学习等领域中也需要深入研究和分析。随着中国手语的不断发展,我国少数民族手语研究也同步迈下了新的研究步伐。针对我国少数民族手语中的维吾尔自然手语信息处理研究而言,在中国手语的基础上,将维吾尔文本信息转换成手语信息序列研究是维吾尔自然手语文本语料库建立研究的重点研究对象。因此在自然科学理论的基础上提出关于面向手语信息处理的维吾尔文本语料库构建技术是对于我国少数民族自然手语研究、手语合成研究以及手语文本处理研究方面起到客观性作用。从学术的角度看,手语文本语料库的构建是深入研究文本处理技术,进一步提高聋哑人的手语研究效果的重要环节。因此,本文以少数民族手语教学的规范化研究提供数据资源、促进国家通用语言教学的普遍性、为聋哑人提供学习国语平台、为聋哑人提供更好的学习新知识的环境与接触外世界的平台、为聋哑人语言教育提供教学资源、教学设计规划、课堂教学方案与学习评估,为将维吾尔文本信息转换为基于中国手语的维吾尔手语信息序列提供可靠的科学依据、为基于维吾尔文本的手语合成研究提供必要的数据和技术支持为主要研究目标的学术性研究课题。针对建立文本语料库而言,采集训练文本语料是作为建立语料库研究的首要重点工作之一,手语文本语料的采集研究是需要大量的数据来源、文本资源、人力、精力以及时间的过程。本文为了保证采集文本语料研究的正规性及可靠性,更重视选取文本数据的来源并通过对聋哑学校的课本材料进行采集、整理、统计研究。此外,为了解决在文本转换研究过程中如何表示“手势语词典”之外的词汇信息的问题,通过新增训练词元库来实现一对多信息搜索与匹配,初步解决原有训练文本在语料库中在使用过程中产生的弊端问题,并通过此词元库来扩大文本语料数据的范围。在维吾尔文本中,词汇的弱化现象和拼写错误现象是比较常见的语法问题之一。因此在研究的过程中,对这些词汇信息进行整理与统计是有必要的。本文的研究重点是对于训练文本语料进行词干切分研究及文本转换。通过采用基于有限状态自动机算法的词干切分方法初步地实现了维吾尔语词干提取。此外,本文在词干切分、手语文本信息转换研究以及指导思想的基础上,初步提出了面向中国手语信息处理的维吾尔文本语料库的构建技术及方法,并最后对此所提出的技术和方法进行实验和测试达到了预期研究目标。(本文来源于《新疆大学》期刊2018-06-01)
张娜[3](2017)在《基于SSM的文本信息处理系统设计与实现》一文中研究指出在这个信息急速增长的时代,人们每天不得不面对大量数据。其中,文本数据在这里扮演着越来越重要的角色,它们包括博客、日常新闻、用户行为和系统日志等等。如何让人在有限的精力内就能了解到文本的主题和文章的关键所在是很有意义的。随着人工智能的不断深化,除了普通用户之外,很多研究人员需要快速对文本的重要信息进行提取。有很多开源的第叁方本文处理库,但它们的API通常晦涩难懂,需要有一定的基础才能使用。为了使得用户可以在没有学习成本的情况下进行文本处理,本文将这些API通过Web的形式展现来满足用户需求。本文首先从文本处理算法和Web应用的发展和现状引出了研究背景;然后对文本处理算法的原理进行了详细的讲解,其中包括分词、关键词提取和自动摘要。同时阐述了本文所使用的SSM框架(Spring,Spring MVC,Mybatis)的实现原理;在文章的第叁部分对系统的需求进行了梳理,并评估了系统的安全性、可行性和运行性能;接着,给出了系统的总体设计,其中包括用户模块、数据模块、算法模块、可视化模块和邮件模块。针对每个模块的特点给出了它们的设计流程图;最后,对前面给出的五个模块的设计,分别详细的讲解了其核心代码的实现原理。同时,从系统总览、用户注册/登录、数据分析和邮件这四个方面的功能对系统进行了测试。从系统的设计到系统的实现和测试在满足用户需求的同时又保证了系统的性能和美观。同时将其投入到法院文本分析的工程实践当中。本系统具有较好的应用价值。(本文来源于《大连理工大学》期刊2017-03-20)
艾金勇[4](2017)在《面向信息处理的藏文文本规范化方法研究》一文中研究指出针对藏文信息处理的需求,提出了一套层次化、基于规则的藏文文本规范化处理方案.首先分析整理了藏文文本中的不规范文本类型,然后根据藏文文本中不同类型的不规范文本特征,分别设计文本规范化算法,并用程序实现了藏文文本的规范化.最后对该方法进行了实验测试,测试结果表明该方法能较好地实现藏文文本的规范化.(本文来源于《西北师范大学学报(自然科学版)》期刊2017年02期)
宋柔,葛诗利,尚英,卢达威[5](2017)在《面向文本信息处理的汉语句子和小句》一文中研究指出小句和句子分别是篇章信息处理的基本单位和复合单位。但是汉语中,这两个概念至今未有公认的适用于语言信息处理的界定,这种状况阻碍了汉语信息处理的发展。该文将汉语的句子大致界定为自足的广义话题结构,把小句界定为基于广义话题结构的话题自足句,并提出了这样界定的语言学依据和认知依据。(本文来源于《中文信息学报》期刊2017年02期)
潘璇[6](2017)在《机构知识库的非文本信息处理功能探讨》一文中研究指出通过梳理并分析NTM的存在形式以及传统处理手段,阐述对NTM的信息处理的现状。借助权威机构的统计资料,揭示了现有国内外机构知识库建设在NTM处理能力上的欠缺与不足。然后通过剖析几种典型IR软件的NTM处理功能,描述IR软件在此功能上的技术核心。旨在从"NTM处理能力"角度,观察评价机构知识库及IR软件的性能优缺点,引起相关人员的重视,从而提高在建设机构知识库时的决策科学性、功能前瞻性及系统服务水准。(本文来源于《图书馆理论与实践》期刊2017年02期)
吴南开[7](2016)在《信息处理用粤方言文本自动分词标准研究》一文中研究指出粤方言文本分词在粤方言信息处理相关应用研究中有着重要的意义,解决好粤方言文本分词问题将推动粤方言信息处理由字处理向词、句处理研究迈进。由于分词的主观性较大,为使计算机自动分词有可重复的、可操作的标准,参考《信息处理用现代汉语分词规范》(GB13715),本研究的目的在于梳理粤方言词汇,以便研制一套适用于计算机自动分词的粤方言文本分词标准。不同于普通话,粤方言一直存在用字混乱的问题,如异体字、繁简字等问题,其中异体字众多是造成粤方言异形词的主要原因,这给粤方言分词造成了不利的影响。在前人研究的基础上,我们收集整理了常见的粤方言异体字,拟定了一个《粤方言异体字表》。同时,针对粤方言词类研究的实际,参考《北京大学现代汉语语料库基本加工规范》、中科院计算所汉语词性标记集(version 3)以及一些粤方言语料库的词性标注设计,我们拟定了一套粤方言分词词性标记集,并最终形成了粤方言文本自动分词标准的一套方案。利用现有及自建的粤方言语料库,我们对这套标准进行了试切分验证。最终结果表明,这套分词标准总体是切实可行的,可以在此基础上整合开发出具备较高实用价值的粤方言文本分词工具。(本文来源于《暨南大学》期刊2016-06-30)
赵虎,郑亚楠[8](2016)在《藏语文本信息处理的几个关键问题分析》一文中研究指出在建设了藏语编码平台以后,藏语信息处理需要做的就是在研究领域以及范式方面的转型。本文首先对藏语文本信息处理的发展情况进行了概述,然后总结出了几个关键性的基础问题,并对其将来的发展提出了展望。(本文来源于《科学中国人》期刊2016年02期)
汪潮[9](2014)在《关于非连续性文本信息处理的思考》一文中研究指出一般来说,非连续性文本具有意义的隐藏性、结构的非连续性、信息的碎片化等特点。进行非连续性文本的阅读和指导,对学生的阅读信息提取能力、相关信息整合能力、真假信息的辨别能力以及利用文本信息解决问题的能力,具有重要意义。从文本中获得需要的信息,是非连续性文本阅读和指导的基本要求。根据研究,可以把非连续性文本阅读中对信息的处理分为叁个层次:(1)提取资料本身的信息。从非连续性文本中读取信(本文来源于《小学语文教学》期刊2014年28期)
刘磊,李壮,张鑫,吕帅[10](2015)在《中文网络文本的语义信息处理研究综述》一文中研究指出从学术价值和应用价值两方面分析了将计算机学科与语言学学科的研究方法相结合对于研究网络文本的意义,分别从分析网络文本的特性、网络词汇的演化规律以及构建网络文本语言知识库、开发平台和支持工具等方面对该领域中的研究现状与相关工作予以描述与分析,试图明晰面向中文网络文本的语义信息处理的研究内容和路线,为相关研究的进一步开展奠定基础。(本文来源于《计算机应用研究》期刊2015年01期)
文本信息处理论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
聋哑人(听障人)是一个特殊的“少数民族”。手语是聋哑人(听障人)学习、生活及融入主流社会的一种特殊的交际工具。21世纪以来,我国手语语言文字资源建设逐步向专用型的文本语料库方向发展。中国手语研究是在自然语言处理、深度学习、文本挖掘、机器学习等领域中也需要深入研究和分析。随着中国手语的不断发展,我国少数民族手语研究也同步迈下了新的研究步伐。针对我国少数民族手语中的维吾尔自然手语信息处理研究而言,在中国手语的基础上,将维吾尔文本信息转换成手语信息序列研究是维吾尔自然手语文本语料库建立研究的重点研究对象。因此在自然科学理论的基础上提出关于面向手语信息处理的维吾尔文本语料库构建技术是对于我国少数民族自然手语研究、手语合成研究以及手语文本处理研究方面起到客观性作用。从学术的角度看,手语文本语料库的构建是深入研究文本处理技术,进一步提高聋哑人的手语研究效果的重要环节。因此,本文以少数民族手语教学的规范化研究提供数据资源、促进国家通用语言教学的普遍性、为聋哑人提供学习国语平台、为聋哑人提供更好的学习新知识的环境与接触外世界的平台、为聋哑人语言教育提供教学资源、教学设计规划、课堂教学方案与学习评估,为将维吾尔文本信息转换为基于中国手语的维吾尔手语信息序列提供可靠的科学依据、为基于维吾尔文本的手语合成研究提供必要的数据和技术支持为主要研究目标的学术性研究课题。针对建立文本语料库而言,采集训练文本语料是作为建立语料库研究的首要重点工作之一,手语文本语料的采集研究是需要大量的数据来源、文本资源、人力、精力以及时间的过程。本文为了保证采集文本语料研究的正规性及可靠性,更重视选取文本数据的来源并通过对聋哑学校的课本材料进行采集、整理、统计研究。此外,为了解决在文本转换研究过程中如何表示“手势语词典”之外的词汇信息的问题,通过新增训练词元库来实现一对多信息搜索与匹配,初步解决原有训练文本在语料库中在使用过程中产生的弊端问题,并通过此词元库来扩大文本语料数据的范围。在维吾尔文本中,词汇的弱化现象和拼写错误现象是比较常见的语法问题之一。因此在研究的过程中,对这些词汇信息进行整理与统计是有必要的。本文的研究重点是对于训练文本语料进行词干切分研究及文本转换。通过采用基于有限状态自动机算法的词干切分方法初步地实现了维吾尔语词干提取。此外,本文在词干切分、手语文本信息转换研究以及指导思想的基础上,初步提出了面向中国手语信息处理的维吾尔文本语料库的构建技术及方法,并最后对此所提出的技术和方法进行实验和测试达到了预期研究目标。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
文本信息处理论文参考文献
[1].艾山江·亚生,阿里甫·库尔班,张丹丹.面向手语信息处理的维吾尔文本采集的研究[J].现代电子技术.2019
[2].艾山江·亚生.面向手语信息处理的维吾尔文本语料库构建技术的研究[D].新疆大学.2018
[3].张娜.基于SSM的文本信息处理系统设计与实现[D].大连理工大学.2017
[4].艾金勇.面向信息处理的藏文文本规范化方法研究[J].西北师范大学学报(自然科学版).2017
[5].宋柔,葛诗利,尚英,卢达威.面向文本信息处理的汉语句子和小句[J].中文信息学报.2017
[6].潘璇.机构知识库的非文本信息处理功能探讨[J].图书馆理论与实践.2017
[7].吴南开.信息处理用粤方言文本自动分词标准研究[D].暨南大学.2016
[8].赵虎,郑亚楠.藏语文本信息处理的几个关键问题分析[J].科学中国人.2016
[9].汪潮.关于非连续性文本信息处理的思考[J].小学语文教学.2014
[10].刘磊,李壮,张鑫,吕帅.中文网络文本的语义信息处理研究综述[J].计算机应用研究.2015
标签:深度学习; Word2Vec方法; 手语合成; 文本词元库;