评分效度论文-徐鹰,廖天华,韩苏,王亚琪

评分效度论文-徐鹰,廖天华,韩苏,王亚琪

导读:本文包含了评分效度论文开题报告文献综述及选题提纲参考文献,主要关键词:高考,叙事语篇图式,故事复述,评分标准

评分效度论文文献综述

徐鹰,廖天华,韩苏,王亚琪[1](2019)在《基于数据的故事复述任务内容评分标准效度研究》一文中研究指出本文旨在采用基于数据的方法开发故事复述内容评分标准,并尝试对其效度进行验证。首先,采用叙事语篇图式分析叁位参加广东省高考英语听说考试典型考生的口语转写文本,在此基础上开发故事复述内容评分标准;然后邀请两位专家评分员采用该评分标准对360份考生语料评分;最后进行统计分析对其效度进行检验。研究结果表明,该评分标准能有效区分不同水平考生,考生能否复述故事的"指向"、"问题"和"解决问题"叁个语篇要素可显着预测考生能力。本研究结果为评分标准开发和考试备考提供了重要参考。(本文来源于《外语测试与教学》期刊2019年04期)

王妍,彭恒利[2](2019)在《汉语口语开放性试题计算机自动评分的效度验证》一文中研究指出计算机自动评分优势诸多,发展势头迅疾,将这一技术引入到实评之中,须对其效度进行论证。本研究依据Williamson等在2012年提出的计算机自动评分效度论证框架,对2016年11月我国新疆地区中国少数民族汉语水平等级考试(MHK)口语考试的实测数据进行了计算机自动评分的效度验证,结果显示:依据该框架对口语开放性试题计算机自动评分进行效度验证是可行的,MHK口语开放性试题的计算机自动评分与人工评分的依据相似,与专家评分的相关系数在0.8以上,评分的一致性和稳定性较高,多项指标明显优于人工评分。(本文来源于《中国考试》期刊2019年09期)

管彦琪[3](2019)在《英语听说考试自动评分效度研究》一文中研究指出随着计算机技术的快速发展和素质教育的改革,计算机越来越广泛地应用于大规模考试及其考试评分中。以计算机自动评分(Computer-Automated Scoring,CAS)来替代教师评分,是提高评分效率、降低评分成本的有效方法。从2013年起,广东省高考英语听说考试已采用计算机评分作为参考分,并将逐渐取代人工评分。采用近年广东省的高考考试数据对计算机评分和人工评分进行比较分析,探讨高考英语听说考试中自动评分的效度。(本文来源于《科技经济导刊》期刊2019年10期)

徐鹰[4](2018)在《语言做事测试评分标准的开发和效度验证:回顾与反思》一文中研究指出评分标准是语言测试研究重点之一,因为其质量直接影响做事测试的信度、效度。本文对40年来国内外关于评分标准开发和效度验证的实证研究成果进行梳理,认为基于数据的评分标准开发方法是目前的主流范式,结合定量分析和定性分析的混合研究是对评分标准进行效度验证的趋势。未来研究应基于考生真实表现采用话语分析(或语篇分析)以及语料库手段开发评分标准,同时应注意各种能力测量指标之间可能存在的多元共线性问题以及实验设计中的循环论证问题。(本文来源于《外语教育研究前沿》期刊2018年02期)

吴雪峰,柳烨琛,殷缘[5](2018)在《英语写作评分标准模型的建构及其效度研究》一文中研究指出本文在回顾、分析国内外独立型、综合型等各类英语写作测试评分标准的基础上,探索构建写作评分标准的一般规律,尝试设计英语写作测试评分标准模型。为考查该模型的有效性及可操作性,本文以概要写作为例,根据该模型设计相应评分标准,并采用多层面Rasch模型进行效度验证。结果表明:评分标准区分度和效度较好,评分员与评分标准间存在显着偏性交互作用;个别分数段的使用存在非拟合现象。最后,根据效度验证结果对评分标准进行了针对性修改。总体而言,评分标准模型具有较好的效度和一定的推广价值。(本文来源于《外国语文》期刊2018年05期)

黄晓波,韦琴,文燕,李艳青,杨朝霞[6](2018)在《早产儿早期预警评分表的编制及信效度检验》一文中研究指出目的编制适合我国临床使用的早产儿早期预警评估量表,分析量表的信效度。方法在国内外可查阅使用到的儿童、新生儿早期预警评估工具基础上,经专家小组讨论和专家咨询,结合具体临床经验,获取早产儿敏感生理指标,分析数值各项参数范围,通过统计学检验,筛选、合并和调整条目,编制形成早产儿早期预警评估量表校正版。应用该量表对107例早产儿入院情况进行评估,评价量表的信度和效度。结果早产儿早期预警评估量表包含出生/纠正胎龄、体质量、体温、心率、呼吸、皮肤情况、血氧饱和度、意识反应共7个条目;因子分析提取了2个公因子,累积方差贡献率为79.640%,各条目在所提取的相应公因子上的载荷值均>0.4;量表水平的内容效度指数为0.893,量表总的Cronbach α系数为0.865。早期预警评分表与新生儿危重病例评分预测早产儿病危/病重的曲线下面积分别为0.946、0.949。结论本研究修订的早产儿早期预警评估量表具有较好的信度和效度,可作为临床早产儿病情评估的工具,应用于评估患儿病情严重程度及并发症的评估。(本文来源于《护理学报》期刊2018年15期)

毛星星[7](2018)在《评分员背景对大学英语期末考试写作评估信度和效度的影响》一文中研究指出不论是在课堂测试还是在大型标准化语言考试中,写作都是必不可少的一部分。它能够有效地测试出学生的综合语言运用能力。然而,由于评分的主观性,写作评分的准确性和公平性一直备受质疑。同一篇作文,不同评分员给出的分数可能会有很大的差别。这种情况下,写作评分的信度、效度和公平性就无法得到保证。Eckes(2008)也曾指出评分员不一致性是语言测量专家面对的最大挑战之一。现有研究表明,评分员的背景差异是导致作文得分偏离“真分数”的最重要原因之一。运用概化理论,本文旨在探究评分员的背景差异对大学英语期末考试中写作评估信度和效度的影响。基于此目的,本文将六位评分员按照叁个背景因素(性别、教育经历和写作评阅经历)进行分组(每个背景因素分成两组,每组叁人),比较了不同背景组别评分员的写作评分结果。本文的研究样本是从2017年6月湖南大学大一非英语专业学生的期末考试中抽取的60篇作文,由六位评分员采用整体评分的方法(1-15分)进行评阅。每位评分员独自评分。最终的分数在EXCEL和GENOVA中进行分析。分析结果表明,该写作评分的总体信度和效度较低。组间比较表明:与女性评分员相比,男性评分员的评分一致性更差,但两者在评分信度、聚合效度和区分效度上几乎无差别;与语言测试背景的评分员相比,非语言测试背景评分员的评分一致性、信度、聚合效度和区分效度明显偏低;与有经验的评分员相比,普通评分员的评分一致性、信度、聚合效度和区分效度相对较低。最后,本文挑选了两位评分员进行半结构化访谈,结果显示评分员的语言测试知识和评阅经历会对其评分观念和行为产生一定的影响,从而影响最终的作文得分。本文研究结果表明,评分员性别不会影响作文评分质量,但是评分员的语言测试背景与评阅经历却会产生明显影响。因此,探究评分员偏颇产生的原因对于写作评估信度和效度的研究至关重要。一旦了解了偏颇来源,我们就能够采取针对性措施来保障写作评分的信度、效度及公平性。(本文来源于《湖南大学》期刊2018-04-20)

杨志强,许吟雪,全冬[8](2018)在《PRETCO口试评分效度研究》一文中研究指出采用多层面Rasch模型,通过分析PRETCO口试的评分结果以探究其评分效度。研究发现PRETCO口试评分效度较高,其评分结果能够有效区分考生的口语水平,评分员评分的自身一致性总体较好。研究同时发现PRETCO口试评分存在以下问题:评分员的宽严度差别显着,个别评分员的内部一致性较差;少数评分员和考生的交互作用存在显着差异;评分员和四项任务之间也出现了不同程度的偏差。(本文来源于《重庆叁峡学院学报》期刊2018年02期)

董昆[9](2017)在《口语测试评分流程的信度与效度分析》一文中研究指出表现性评价是指在真实语言测试情境中,对学生完成任务过程中的表现进行观察和评估。由于表现性评价重点强调对于考生运用某种语言能力的测试,因此表现性评价在二语测试中占据越来越重要的位置。但是,以表现性评价为主旨的英语口语能力测试在实际测试中,由于受到诸如考生的能力水平、考官的严厉度和一致性,任务和评分标准的难度以及偏差作用等影响,被试者是否得到口语能力测试的真实得分的问题值得重视和研究。因此在推行英语口语能力测试时,有必要对测试过程中评分流程的信度和效度进行验证。当前最常用的方法是运用多层面Rasch模型验证评分流程的信度与效度。运用多层面Rasch模型的研究曾集中于英语写作测试准确性和有效性的研究之上,现在模型研究也开始关注英语口语能力测试评分流程的信度与效度问题。在这种背景之下,本次研究旨在使用SPSS和Facets软件,通过研究在北京第二外国语学院举办的一次大学英语应用能力口语测试(Test of English Proficiency,简称TEP Oral),研究评分流程的信度和效度,了解影响考试最后得分的各种因素。本次研究的研究对象包括382名考生和36位评分员。大学英语应用能力口语测试(本文后续部分采用TEP Oral表述)采取整体评分和分项评分相结合的方式。本次研究首先采用SPSS进行描述性统计分析,随后使用Facets软件来进一步调查影响大学英语应用能力口语测试A级评分结果的各个侧面。本次研究旨在解决以下的问题:(1)整体评分和分项评分能否区分不同考生的能力水平?(2)评分员使用整体和分项评分时的严宽度是否不同?如若有不同,是何种程度的不同?(3)评分员在使用不同评分模式时是否能保持一致性?整体评分和分项评分的信度是否有显着性差异?如若有,哪一种评分模式更为可靠?(4)在两种评分模式下,考生的排名是否有所变化?(5)在两种评分模式下,各个分数是否得到合理使用?有没有过度使用或漏用的情况?研究结果显示使用整体和分项评分相结合的方式可以区分考生的不同能力水平。同时,评分员的严厉度在两种评分模式下均呈现了显着性差异,但是评分员在使用分项评分时更加宽松。评分员在使用不同评分模式评分时显着相关。有关考生得分层面,考生在不同评分模式下的排名无明显差异。最后,两种评分模式下的各个分数都得到了合理的使用。本次研究的结论显示大学英语应用能力口语测试A级的评分流程是可靠且有效的,本次研究结果会对英语口语能力测试和英语口语教学带来启示。(本文来源于《北京第二外国语学院》期刊2017-05-26)

王显涛[10](2016)在《大学英语口语测试中评分员效度研究》一文中研究指出在大学英语配对口语测试过程当中,有关评分宽严度与一致性常会受到多面Rasch模型(MFRM)的影响,发挥出一定作用。本次研究通过SPSS与MFRM分析的方法,将10对考生作为研究对象,依靠4名经验评分员对口试加以有效评价。结果显示,具有各异性格特点的评分员对宽严度方面的评价是不同的,相较于外向型评分员,内向型更加严格;表现在一致性方面的差异却微乎其微。(本文来源于《文教资料》期刊2016年19期)

评分效度论文开题报告

(1)论文研究背景及目的

此处内容要求:

首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。

写法范例:

计算机自动评分优势诸多,发展势头迅疾,将这一技术引入到实评之中,须对其效度进行论证。本研究依据Williamson等在2012年提出的计算机自动评分效度论证框架,对2016年11月我国新疆地区中国少数民族汉语水平等级考试(MHK)口语考试的实测数据进行了计算机自动评分的效度验证,结果显示:依据该框架对口语开放性试题计算机自动评分进行效度验证是可行的,MHK口语开放性试题的计算机自动评分与人工评分的依据相似,与专家评分的相关系数在0.8以上,评分的一致性和稳定性较高,多项指标明显优于人工评分。

(2)本文研究方法

调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。

实证研究法:依据现有的科学理论和实践的需要提出设计。

定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。

定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。

跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。

模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

评分效度论文参考文献

[1].徐鹰,廖天华,韩苏,王亚琪.基于数据的故事复述任务内容评分标准效度研究[J].外语测试与教学.2019

[2].王妍,彭恒利.汉语口语开放性试题计算机自动评分的效度验证[J].中国考试.2019

[3].管彦琪.英语听说考试自动评分效度研究[J].科技经济导刊.2019

[4].徐鹰.语言做事测试评分标准的开发和效度验证:回顾与反思[J].外语教育研究前沿.2018

[5].吴雪峰,柳烨琛,殷缘.英语写作评分标准模型的建构及其效度研究[J].外国语文.2018

[6].黄晓波,韦琴,文燕,李艳青,杨朝霞.早产儿早期预警评分表的编制及信效度检验[J].护理学报.2018

[7].毛星星.评分员背景对大学英语期末考试写作评估信度和效度的影响[D].湖南大学.2018

[8].杨志强,许吟雪,全冬.PRETCO口试评分效度研究[J].重庆叁峡学院学报.2018

[9].董昆.口语测试评分流程的信度与效度分析[D].北京第二外国语学院.2017

[10].王显涛.大学英语口语测试中评分员效度研究[J].文教资料.2016

标签:;  ;  ;  ;  

评分效度论文-徐鹰,廖天华,韩苏,王亚琪
下载Doc文档

猜你喜欢