导读:本文包含了网站分类论文开题报告文献综述及选题提纲参考文献,主要关键词:支持向量机,文本分词,非均衡样本,最优超平面
网站分类论文文献综述
张天澍[1](2019)在《基于改进SVM算法的大规模中文网站分类系统实现》一文中研究指出随着互联网的发展,人们对于网站检索的需求日益增大。将网站进行分类可以极大地提升检索效率,研究中文网站的自动分类技术具有较高的实用价值。基于网页关键词词频的支持向量机SVM算法是解决高维特征向量分类问题的最好方案之一,需要设定的参数较少且具有出色的学习能力。目前SVM算法已经应用于各类网站分类工作,但因分类信息老旧,效率低下,更新速度慢等种种问题,无法完成对目前数百万的庞大的中文网站的大范围覆盖。针对上述问题,本课题对SVM机器学习模型进行了改进以解决大规模中文网站分类的问题,并基于上述方法实现针对百万规模数据集的国内中文网站的分类系统。本课题针对百万数据量下的网站分类准确率进行了相关探索,研究SVM算法相关参数对分类准确率的影响。针对传统SVM算法中存在的非均衡样本集对分类准确率产生影响的问题,本论文对算法模型进行调整,通过引入新的参数控制模型的超平面位置,将超平面向正类样本靠近,为负类样本留出更大的存在可能性空间,从而缓解非均衡样本集对分类准确率带来的影响。通过对照实验测试,改进的算法应用于非均衡样本集时,在一定的参数取值范围内对于负类样本的分类准确率有了较为明显的提高,从而提升了整体的分类效果。基于以上改进的SVM算法,本课题构建了大规模中文网站分类系统用以完成国内百万数量级规模的网站分类工作。系统包括数据采集、数据处理与存储、数据计算、数据分类、结果展示与查询这五大基本模块,完成了从网站信息爬取、信息存储、数据预处理到算法测试调优,再到算法应用及结果展示的一体化分类工作。系统模块经过测试,满足了应用需求,取得了不错的分类效果。(本文来源于《北京邮电大学》期刊2019-05-20)
王砾尧[2](2019)在《行政处罚信息信用修复机制明确》一文中研究指出5月14日,国家发改委网站正式发布《关于进一步完善“信用中国”网站及地方信用门户网站行政处罚信息信用修复机制的通知》(以下简称《通知》),明确了涉及失信行为的行政处罚信息分类范围,并要求对涉及特定严重失信行为的行政处罚信息严格按最长公示期限予以公示。“信(本文来源于《中国改革报》期刊2019-05-17)
张奕阳[3](2019)在《门户网站中的动态分类导航模型研究》一文中研究指出在Web2.0的环境下,门户网站中的信息资源呈现出了数量浩渺、种类繁多、结构多样以及信息质量良莠不齐的特点。用户通过网站上获取信息一般有信息搜索和信息导航两种方式,而利用网站导航的过程实际上也是通过浏览类目逐步获取信息的过程。然而现在很多门户网站仍在使用传统信息资源分类模式,通常会经过信息专家等诸多专业人员的反复推敲后确定,分类原则相对固定,且在确定后一般不会轻易地对其进行更改,从而导致了现有门户网站中静态、固定的导航体系无法适应信息资源的迅速变化和用户需求的动态变化,这就要求网站的分类导航体系应根据网络信息资源的变化以及用户需求的变化进行动态设置。本文在深入分析当前网络环境下门户网站信息资源的新特点、门户网站中用户信息需求的新特点的基础上,对门户网站分类导航的改进思路进行了探讨,随后定义了动态分类导航的内涵,阐述了动态分类导航的设计原理、价值与功能,继而分析了动态分类导航应用于门户网站中的必要性和可行性,在此基础上构建出了门户网站中动态分类导航模型并说明了其构建流程,并探讨了实现门户网站中动态分类的导航模型涉及到的技术和方法,最后以国内最大的医疗学术网站丁香园作为案例,探讨了其分类导航目前存在的问题,并利用本文的理论,对其进行了实证分析。(本文来源于《郑州大学》期刊2019-05-01)
葛尧[4](2019)在《工业网站识别与分类系统的研究与实现》一文中研究指出工业互联网是快速发展的互联网信息技术与传统工业生产模式相互融合的产物,工业互联网的出现,改善了传统的工业生产模式,使工业生产方式更具智能化。工业与互联网科技的深度融合给工业产业的发展带来机会的同时也使工业互联网产生了信息安全方面的威胁。工业网站是工业行业与互联网行业相结合的最直接的产物,工业网站的信息安全也是工业互联网信息安全的重要组成部分。工业网站的识别与分类对后续工业网站的信息安全防护工作以及工业互联网信息安全防护工作起到积极的作用。工业网站的识别与分类的研究是网站自动化分类研究下的更具体的行业分类研究。在目前的网站分类研究中很多方法是将网页内容看成研究的文本样本,直接使用文本分类技术研究网站分类。网站的分类区别于其他文本分类研究主要在于网站中包含着大量的链接和文本内容,包含了大量的噪声影响,因此使用网站内的文本需要技术处理优化。工业网站在特点上也有别于其他网站,有些工业网站和其他网站特点一样比如:厂商门户网站等,有一部分工业网站对应的是可登录的工业控制系统比如:数据采集与监控系统网站、分布式控制系统等。工业网站的分类研究既要根据工业行业分类也要根据网站的性质分类。本文在工业网站的识别与分类系统的研究中,根据工业网站的特点和工业行业类别特性主要实现了工业网站数据爬取、工业网站识别、工业网站行业与性质分类、数据存储和展示等系统功能模块。数据爬取模块使用聚爬虫技术,主要功能是获取工业网站数据爬取;识别和分类模块主要实现识别网站是否为工业网站,并根据所属工业行业和网站性质分类;数据存储和展示模块是对分类完成后的网站数据存储和可视化展示。在本系统的的核心模块识别和分类模块中使用了关键资源提取结合分词技术的识别方法,建立工业行业词典库结合基于特征词扩展的短文本分类方法研究,保证了工业网站的识别与分类系统的识别准确性,提高了系统的分类高效性。(本文来源于《辽宁大学》期刊2019-05-01)
王文腾,王传涛,袭薇,佟晖[5](2019)在《钓鱼网站分类检测算法的比较性研究》一文中研究指出钓鱼网站一直是网络安全中需要解决的难题之一,它的隐蔽性很高,但造成的损失往往很大.针对钓鱼网站的研究,有很多学者通过机器学习算法对钓鱼网站和正常网站进行分类.根据在钓鱼网站检测中常用的分类算法(KNN;SVM;贝叶斯)为基础,通过对网站的URL特征和页面内容特征进行实验比较研究.实验结果表明,在URL特征和页面内容特征上,线性SVM分类器的准确率和召回率都高于KNN算法和多项式的朴素贝叶斯算法.(本文来源于《北京建筑大学学报》期刊2019年01期)
谭舒月,侯玲[6](2019)在《校园社交网站客户分类分析》一文中研究指出本文通过对与国内有关客户关系管理和客户分类相关文献的研究,分析了客户分类的概念,客户分类的方法等内容,再结合校园社交网来分析客户分类的方法和具体实施。(本文来源于《市场观察》期刊2019年02期)
胡忠义,王超群,吴江,陈远[7](2019)在《基于链接分析和规则分类的恶意网站识别技术研究》一文中研究指出采用多源链接分析指标,构建了基于链接分析和规则分类技术的恶意网站识别模型。通过分析四种规则分类技术的识别性能和识别规则,并与四种传统的机器学习分类技术进行对比,验证所构建模型的有效性。在所提取的识别规则中,来自Alexa和Moz平台上的网站链接指标在恶意网站识别中有重要作用;与传统的机器学习分类技术相比,基于链接分析和规则分类的识别模型不仅能提取出多组易于理解的恶意网站识别规则,还具有更好的识别性能。本研究不仅拓展了链接分析在恶意网站识别中的应用,有效提升了恶意网站识别的准确性,还提取出易于理解的恶意网站识别规则。(本文来源于《信息资源管理学报》期刊2019年01期)
程元堃,蒋言,程光[8](2019)在《基于word2vec的网站主题分类研究》一文中研究指出为了对网站主题高效的进行分类,建立一种基于word2vec的分类模型。针对预先定义的财经、娱乐、军事、科技、健康、体育、教育、社会共八个主题,首先通过word2vec训练得到包含语义的词向量。根据八个主题分别列举对应的特征词,将每个主题的特征词对应的词向量取平均作为该主题的中心词向量。对于待测网站文本,通过DBSCAN聚类提升文本的数据质量,计算文本与各主题的余弦相似度,取最大的作为该文本的所属主题。实验采用8000个文档进行测试,实验结果表明,利用该方法可以高效地对网页文本主题进行分类,有助于更好地了解人们的阅读偏好。(本文来源于《计算机与数字工程》期刊2019年01期)
齐峰,石鹰博,李瑜[9](2018)在《基于标签聚类的企业门户网站信息资源分类模型》一文中研究指出伴随着信息技术的快速发展,现代企业越来越注重企业内部的流程信息化管理,在企业的信息化系统的管理过程中,要想有效提升其质量,必须要对企业的信息资源分类精度问题进行处理,而这一问题的解决是建立在企业内部搭建其门户网站信息分类模型的基础上才实现的。事实上,在绝大部分企业中,这一类资源分类模型尚未建立,标签组织处于不规范状态,基于此,笔者认为基于标签聚类的企业门户网站信息资源分类模型的建立是十分必要的。本文提出这一理念有效解决了传统算法标签组织不完善、信息精准度低等问题。本模型采用K-means的算法,对于标签聚类进行了重新的排列组合,结合其具体的聚类结果进行资源推荐,从而有效完成门户资源信息的分类提升信息化管理的整体水平。(本文来源于《信息技术与信息化》期刊2018年12期)
田晓敏[10](2018)在《电商广告的创意营销分析——以分类信息网站为例》一文中研究指出市场经济飞速发展,物流买卖弹指挥间。商品走向多元化,伴随而来的广告泡沫化现象愈演愈烈。正当传统销售商为如何打出品质广告苦心钻研的时候,电子商务横空出世,并且以迅猛的势头让网购成为一种潮流和时尚。在网络经济时代,创意成为营销不可或缺的驱动力。众多商家广告,特别是电商广告,充分运用创意营销,不断颠覆传统营销思路,让消费者在互动中感受企业理念,在主动中感知产品信息。本文通过对比分析两家分类信息网站"赶集网"和"58同城"的广告创意营销策略,尝试为电商广告的创意发展提供参考和借鉴。(本文来源于《现代营销(经营版)》期刊2018年10期)
网站分类论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
5月14日,国家发改委网站正式发布《关于进一步完善“信用中国”网站及地方信用门户网站行政处罚信息信用修复机制的通知》(以下简称《通知》),明确了涉及失信行为的行政处罚信息分类范围,并要求对涉及特定严重失信行为的行政处罚信息严格按最长公示期限予以公示。“信
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
网站分类论文参考文献
[1].张天澍.基于改进SVM算法的大规模中文网站分类系统实现[D].北京邮电大学.2019
[2].王砾尧.行政处罚信息信用修复机制明确[N].中国改革报.2019
[3].张奕阳.门户网站中的动态分类导航模型研究[D].郑州大学.2019
[4].葛尧.工业网站识别与分类系统的研究与实现[D].辽宁大学.2019
[5].王文腾,王传涛,袭薇,佟晖.钓鱼网站分类检测算法的比较性研究[J].北京建筑大学学报.2019
[6].谭舒月,侯玲.校园社交网站客户分类分析[J].市场观察.2019
[7].胡忠义,王超群,吴江,陈远.基于链接分析和规则分类的恶意网站识别技术研究[J].信息资源管理学报.2019
[8].程元堃,蒋言,程光.基于word2vec的网站主题分类研究[J].计算机与数字工程.2019
[9].齐峰,石鹰博,李瑜.基于标签聚类的企业门户网站信息资源分类模型[J].信息技术与信息化.2018
[10].田晓敏.电商广告的创意营销分析——以分类信息网站为例[J].现代营销(经营版).2018