导读:本文包含了多层面模型论文开题报告文献综述及选题提纲参考文献,主要关键词:阅卷员效应,人机结合评分,多层面Rasch模型,“外研社杯”全国英语写作大赛
多层面模型论文文献综述
任瑞娟[1](2018)在《多层面Rasch模型下人机结合评分的阅卷员效应研究》一文中研究指出1999年,写作测试中开始运用人机结合评分。因一些学者认为作文自动评分系统无法识别作文内容,质疑其评分结果,所以研究者采用诸多方法验证人机结合评分的同质性与异质性。综述相关文献后,未发现用多层面Rasch模型分析人机结合评分中阅卷员效应的研究。依据Myford和Wolfe(2004)的阅卷员效应监测框架,本研究用多层面Rasch模型,从阅卷员群体层面和阅卷员个体层面两个角度,对人机结合评分的总体严厉程度、集中趋势、随机效应、晕轮效应、区分性严厉度进行分析。分析阅卷员个体层面时,将人工阅卷员与爱写作英语写作教学与评阅系统(即爱写作系统)进行比较。本研究主要回答以下叁个问题:一、人机结合评分在阅卷员群体层面上是否存在阅卷员效应?二、人机结合评分在阅卷员个体层面上是否存在阅卷员效应?叁、人工阅卷员与爱写作系统的阅卷员效应是否存在差异?研究取材于国内唯一采用人机结合评分的大规模写作测试——“外研社杯”全国英语写作大赛,分析了5名人工阅卷员和爱写作系统对初赛中82名参赛者完成的164篇作文的评分结果。各阅卷员在内容、语言、结构叁个维度上都先分级,后评分。分级量表依据已有研究改编,包含五个等级;评分量表从外研社官网下载到。以标准差为基本单位,将人工阅卷员、爱写作系统评分的总分也分为五级,并用Facets软件分析内容、语言、结构、总分的所有等级。分析六个多层面Rasch模型的运行结果后发现:一、在阅卷员群体层面上未表现阅卷员效应,表明人机结合评分的整体信度理想。二、在阅卷员个体层面上,5号阅卷员、4号阅卷员各自表现了集中趋势和区分性严厉度,爱写作系统表现了集中趋势。这表明爱写作系统的评分信度较理想,可推广使用,但仍需改进。叁、人工阅卷员与爱写作系统的阅卷员效应存在差异,人工阅卷员与爱写作系统的总体严厉程度不同;此外,人工阅卷员表现了区分性严厉度,但爱写作系统并未表现。本研究扩大了阅卷员效应的研究范围,拓展了人机结合评分的研究方法,探索了作文自动评分系统对不同能力参赛者的偏差,验证了作文自动评分系统表现集中趋势的结论。本研究认为在写作大赛、更多的写作测试和写作教学中可推广使用人机结合评分;此外,可将爱写作系统用于低风险写作测试及写作教学中。(本文来源于《西北农林科技大学》期刊2018-05-01)
蔡燕[2](2018)在《基于多层面Rasch模型和有声思维证据的写作分项式评分标准的效验研究》一文中研究指出写作测试是语言能力测试中的重要组成部分,在国内外众多英语水平测试中,写作能力测试项目均占有较高的比重。然而,由于写作测试涉及的主观因素较多,写作任务、施测环境、评分过程等都会对测试结果产生影响,导致测试信度较低,测试的公平性受到威胁。其中,评分过程是影响测试效度的最重要因素之一,评分标准的优劣和评分员的客观性逐渐受到研究者的关注。如何提高评分效度成为语言能力测试的关键所在(Chen Jianlin 2016),而衡量评分效度的重要参数之一就是评分标准的效度(Shaw 2007)。评分标准是评分员对考生写作能力评判的主要依据,一份效度高的评分标准能够有效地区分不同考生的写作能力,每个评分维度和各分数段的合理设置,使得评分员能够高效准确地运用评分标准,对考生的写作文本做出客观合理的评判,好的评分标准使用起来毫不费力且评分员信度较高,由评分标准的不准确性导致的评分误差较小。近些年,国内外关于写作测试和写作评分的效度研究虽有很多,但从评分结果的角度对写作评分标准的效度研究却极少。针对写作评分标准的效验研究也只集中于两个方面:一是对不同类型的评分标准及其评分结果差异的探讨,二是对评分员和评分标准的交互作用研究。另外,以往研究中效度证据收集的方式比较单一,将对分数的定量分析证据与对评分员的定性分析证据结合起来的研究较少。由于分项式评分标准能够为写作教学提供更详细具体的诊断性信息,更为准确地评价受试各方面的能力,因此,本研究综合定量研究与定性研究相结合的方法,采用多层面Rasch模型分析法和有声思维法收集证据,并融合现代效度理论,效验一份英语写作分项式评分量表,分析该分项式评分量表本身以及评分员在使用时出现的具体问题,找寻改进其准确性及客观性的方法,以期能为英语写作评分标准的效验做出探索性的尝试,为保障英语写作测试的效度奠定基础。本研究在一次课堂写作测试中收集55份英语写作文本(5份用于写作评分员培训,50份用于实际数据分析),以真实写作评分环境下的5位评分员为主要研究对象,在正式评分之前首先对评分员进行了培训,以帮助他们熟悉评分标准和评分的注意事项,并进行试评;待评分员充分掌握评分标准后,开始对50份写作文本正式评分。在评分过程中,所有评分员使用同一份分项式评分标准进行独立评分,该评分标准包含四个维度,即词汇,内容,句法,连贯与衔接,每个维度的分值满分为10分。为获得有关评分过程的实证证据,评分员在评分的同时被要求做有声思维报告,以便准确了解评分员对评分标准的理解、使用和评价以及评分过程中出现的问题;评分结果则运用多层面Rasch模型进行分析和研究。综合定性和定量研究,得出以下结论:1)该评分标准可以有效地区分不同考生的能力。考生的写作能力位于中等偏上,50位考生的写作能力大约被分为5个等级;2)评分标准的四个维度设置基本合理,但部分维度的描述语出现重合、歧义、干扰、多余等问题;3)评分标准的分数段设置不够合理。部分分数段未被评分员使用或使用过于频繁;各分数段的起始难度不呈单调递增;各分数段间的阈值间隔存在过大过小等问题;4)五位评分员在评分过程中表现出的评分差异较大,严厉度不一,除一位评分员外,评分员之间的评分信度较高,除一位评分员外,评分员自身的一致性较好,但是在评分过程中偶尔会出现趋中现象;本研究根据数据分析的结果,直观地反映了评分标准自身的问题以及评分过程中出现的主观误差,有助于对如何改进该分项式评分标准提出具体有效的建议;评分员行为的分析结果将为评分员的培训提供有针对性的指导和建议;评分标准各个维度的设置以及评分员评分时的不同侧重,有助于指导英语写作教学的改革。本研究丰富了现代效度理论,为英语写作评分标准的效验框架提供依据,为其他行为测试的评分和未来相关的研究提供参考。(本文来源于《东南大学》期刊2018-05-01)
吴雪峰,周静[3](2017)在《基于多层面Rasch模型的英语写作教师评分与同伴互评对比研究》一文中研究指出基于多层面Rasch模型,本文对比分析了大学生英语作文的教师评分与同伴互评的评分质量,以及在写作教学中引入同伴互评的可行性与必要性。研究表明:从总体宽严度、自身一致性等指标上看,教师评分员的评分质量明显高于学生评分员;但整体而言,两类评分员的评分结果具有较高的一致性,这表明对于形成性评估的大学英语写作测试而言,同伴互评可以作为教师评价的辅助性手段参与写作教学与评估,从而有效提升评分效度,丰富教学手段,增强英语写作教学效果。(本文来源于《重庆第二师范学院学报》期刊2017年06期)
吕晓君,吴晓怡,陈云,卞百年[4](2017)在《基于多层面Rasch模型的护理操作考核评分质量监控》一文中研究指出目的衡量与评价临床护理操作考核中评分员的评分质量。方法 5名护士长作为评分员根据评分标准对14名儿科护士进行临床护理操作能力考核,采用多层面Rasch测量分析软件FACETS对考核结果进行分析,以评定考核人员评分的宽严程度和一致性。结果 5位护士长的评分结果具有较好的区分度;护士长在评分过程中内在一致性较好。结论多层面Rasch模型是对护理操作考核评分质量进行监控的有效手段。(本文来源于《中西医结合护理(中英文)》期刊2017年11期)
许龙,高素英,刘宏波,杨鹏[5](2017)在《中国情境下员工幸福感的多层面模型》一文中研究指出员工幸福感作为结果与过程并重、主观与客观结合的多维伞状构念,受到学术界与实践界广泛关注。然而,概念不清、结论离散等情况仍制约着中国本土员工幸福感研究的发展。梳理现有研究发现:员工幸福感的界定存在主观、心理和整合视角,不同视角下维度和测量有所差异;其形成和作用机制具多层面属性,中国传统文化对该机制具权变效应。未来研究可从概念维度、研究设计、多层面理论、个体内研究范式和干预策略角度深化本土员工幸福感研究。(本文来源于《心理科学进展》期刊2017年12期)
范劲松,季佩英[6](2017)在《翻译教学中的师评、自评和互评研究——基于多层面Rasch模型的方法》一文中研究指出本研究采用多层面Rasch模型探讨了大学英语翻译教学中的师评、自评和互评问题。研究结果表明:师评最为严厉,自评和互评相对宽松;评分标准设计合理,师评、自评与评分标准之间存在一定交互性。研究进而指出,只要评分标准设计科学,并且评分之前为学生提供评分培训,自评和互评就可以有效应用于翻译教学。(本文来源于《外语界》期刊2017年04期)
张洁[7](2016)在《基于多层面Rasch模型的评分员评分质量诊断》一文中研究指出大规模语言运用测试(performance assessment)中评分员的评分质量直接关系到考生的命运和考试成绩的信效度及公平性,因此如何通过有效的评分员培训最小化评分误差是确保考试成绩有效性的重要问题。本研究运用多层面Rasch模型(MFRM)中所提供的丰富的统计信息对评分员的评分数据进行诊断分析,研究表明,MFRM输出的统计结果可以较为全面地诊断评分员在评分中所存在的问题,为评分员培训提供更加具有针对性的反馈信息,也可以作为区分评分员准确度高低的依据,为更多评分员误差研究提供有效的测量工具。(本文来源于《外语测试与教学》期刊2016年02期)
徐鹰[8](2016)在《概化理论和多层面Rasch模型在CET-4作文评分中的应用研究》一文中研究指出本研究采用概化理论和多层面Rasch模型,对26位CET-4作文评分人给30篇CET-4模拟作文的分数进行了分析。概化理论研究结果表明:考生能力是测试总变异的主要来源(77.7%),在当前采用一评的评分条件下,概化系数(0.81)可以接受。多层面Rasch模型分析结果表明:评分人严厉度差异显着,但自我一致性较好,评分人和考生偏差存在对高分和中分考生偏严、对低分考生偏松的问题,评分标准整体上能区分不同水平考生。(本文来源于《西安外国语大学学报》期刊2016年01期)
周燕,曾用强[9](2016)在《机助英语听说考试计算机自动评分的多层面Rasch模型分析》一文中研究指出本研究运用多层面Rasch模型测量软件FACETS分析了计算机和15名专家评分员在一次广东省高考机助英语听说考试模拟测试中批阅215名考生口语录音的阅卷行为。研究发现:计算机自动评分和专家评分员评分的严厉度虽有显着差异,但并不会对考生能力分布产生决定性影响;计算机自动评分阅卷较低的评分偏差几率说明计算机自动评分比专家人工阅卷具有更高的内部一致性。(本文来源于《外语测试与教学》期刊2016年01期)
程俊瑜,袁洁[10](2016)在《基于多层面Rasch模型的评分员效应研究——以某市级青少年外语能力竞赛决赛为例》一文中研究指出本研究基于多层面Rasch模型,针对某市一次青少年外语能力竞赛决赛中的评分员效应进行研究,使用Facets软件分析了7名评分员对13名选手在外语能力竞赛中的评分。研究结果表明:1)评分员之间的严厉度有较为显着的差异,且有个别评分员自身一致性较差;2)7位评分员总体并没出现显着的集中趋势和随机性,但是个别评分员在打分时可能出现集中趋势和随机效应;3)7位评分员出现了明显的晕轮效应;4)在区别性严厉度方面,评分员在对个别选手和不同性别的选手评分时出现偏差,在评分项目上不存在评分偏差。本文对产生上述评分偏差的原因进行了初步的探讨,并针对问题提出了相应的建议。(本文来源于《外语测试与教学》期刊2016年01期)
多层面模型论文开题报告
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
写作测试是语言能力测试中的重要组成部分,在国内外众多英语水平测试中,写作能力测试项目均占有较高的比重。然而,由于写作测试涉及的主观因素较多,写作任务、施测环境、评分过程等都会对测试结果产生影响,导致测试信度较低,测试的公平性受到威胁。其中,评分过程是影响测试效度的最重要因素之一,评分标准的优劣和评分员的客观性逐渐受到研究者的关注。如何提高评分效度成为语言能力测试的关键所在(Chen Jianlin 2016),而衡量评分效度的重要参数之一就是评分标准的效度(Shaw 2007)。评分标准是评分员对考生写作能力评判的主要依据,一份效度高的评分标准能够有效地区分不同考生的写作能力,每个评分维度和各分数段的合理设置,使得评分员能够高效准确地运用评分标准,对考生的写作文本做出客观合理的评判,好的评分标准使用起来毫不费力且评分员信度较高,由评分标准的不准确性导致的评分误差较小。近些年,国内外关于写作测试和写作评分的效度研究虽有很多,但从评分结果的角度对写作评分标准的效度研究却极少。针对写作评分标准的效验研究也只集中于两个方面:一是对不同类型的评分标准及其评分结果差异的探讨,二是对评分员和评分标准的交互作用研究。另外,以往研究中效度证据收集的方式比较单一,将对分数的定量分析证据与对评分员的定性分析证据结合起来的研究较少。由于分项式评分标准能够为写作教学提供更详细具体的诊断性信息,更为准确地评价受试各方面的能力,因此,本研究综合定量研究与定性研究相结合的方法,采用多层面Rasch模型分析法和有声思维法收集证据,并融合现代效度理论,效验一份英语写作分项式评分量表,分析该分项式评分量表本身以及评分员在使用时出现的具体问题,找寻改进其准确性及客观性的方法,以期能为英语写作评分标准的效验做出探索性的尝试,为保障英语写作测试的效度奠定基础。本研究在一次课堂写作测试中收集55份英语写作文本(5份用于写作评分员培训,50份用于实际数据分析),以真实写作评分环境下的5位评分员为主要研究对象,在正式评分之前首先对评分员进行了培训,以帮助他们熟悉评分标准和评分的注意事项,并进行试评;待评分员充分掌握评分标准后,开始对50份写作文本正式评分。在评分过程中,所有评分员使用同一份分项式评分标准进行独立评分,该评分标准包含四个维度,即词汇,内容,句法,连贯与衔接,每个维度的分值满分为10分。为获得有关评分过程的实证证据,评分员在评分的同时被要求做有声思维报告,以便准确了解评分员对评分标准的理解、使用和评价以及评分过程中出现的问题;评分结果则运用多层面Rasch模型进行分析和研究。综合定性和定量研究,得出以下结论:1)该评分标准可以有效地区分不同考生的能力。考生的写作能力位于中等偏上,50位考生的写作能力大约被分为5个等级;2)评分标准的四个维度设置基本合理,但部分维度的描述语出现重合、歧义、干扰、多余等问题;3)评分标准的分数段设置不够合理。部分分数段未被评分员使用或使用过于频繁;各分数段的起始难度不呈单调递增;各分数段间的阈值间隔存在过大过小等问题;4)五位评分员在评分过程中表现出的评分差异较大,严厉度不一,除一位评分员外,评分员之间的评分信度较高,除一位评分员外,评分员自身的一致性较好,但是在评分过程中偶尔会出现趋中现象;本研究根据数据分析的结果,直观地反映了评分标准自身的问题以及评分过程中出现的主观误差,有助于对如何改进该分项式评分标准提出具体有效的建议;评分员行为的分析结果将为评分员的培训提供有针对性的指导和建议;评分标准各个维度的设置以及评分员评分时的不同侧重,有助于指导英语写作教学的改革。本研究丰富了现代效度理论,为英语写作评分标准的效验框架提供依据,为其他行为测试的评分和未来相关的研究提供参考。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
多层面模型论文参考文献
[1].任瑞娟.多层面Rasch模型下人机结合评分的阅卷员效应研究[D].西北农林科技大学.2018
[2].蔡燕.基于多层面Rasch模型和有声思维证据的写作分项式评分标准的效验研究[D].东南大学.2018
[3].吴雪峰,周静.基于多层面Rasch模型的英语写作教师评分与同伴互评对比研究[J].重庆第二师范学院学报.2017
[4].吕晓君,吴晓怡,陈云,卞百年.基于多层面Rasch模型的护理操作考核评分质量监控[J].中西医结合护理(中英文).2017
[5].许龙,高素英,刘宏波,杨鹏.中国情境下员工幸福感的多层面模型[J].心理科学进展.2017
[6].范劲松,季佩英.翻译教学中的师评、自评和互评研究——基于多层面Rasch模型的方法[J].外语界.2017
[7].张洁.基于多层面Rasch模型的评分员评分质量诊断[J].外语测试与教学.2016
[8].徐鹰.概化理论和多层面Rasch模型在CET-4作文评分中的应用研究[J].西安外国语大学学报.2016
[9].周燕,曾用强.机助英语听说考试计算机自动评分的多层面Rasch模型分析[J].外语测试与教学.2016
[10].程俊瑜,袁洁.基于多层面Rasch模型的评分员效应研究——以某市级青少年外语能力竞赛决赛为例[J].外语测试与教学.2016
标签:阅卷员效应; 人机结合评分; 多层面Rasch模型; “外研社杯”全国英语写作大赛;