近年来,“大数据”成了人们口中的一个“热词”,“大数据告诉你……”也成了众多用以吸引眼球、增强权威性的文章标题。大数据对社会生产和生活的影响,在教育以外的行业已经非常明显,但在教育领域还处于起步阶段。
教育关乎国计民生,教育问题又异常复杂,大数据在重塑教育方面具有无限的潜能。那么,大数据怎样才能有效驱动教育改革?大数据进入教育领域面临着哪些困难与挑战?为此,中国教育报记者专访了中国教育大数据研究院院长、曲阜师范大学校长戚万学,中国统计信息服务中心大数据研究实验室主任江青。
我国教育大数据发展尚处于基础期
记者:自从2011年美国著名的咨询公司麦肯锡发布《大数据:创新、竞争和生产力的下一个前沿领域》的研究报告以来,“大数据”便成为近年来对人类思维和社会各领域冲击最为强烈的一个“热词”。但是,许多人对何为数据却一知半解。那么,数据是什么?教育小数据与教育大数据之间有什么联系与区别?
提到数据时,我们首先想到的会是数字,但数据并不限于数字,视频、文本、图像、音频等都可以是数据。
数据的发展,经历了从微数据到小数据再向大数据的转变历程,教育大数据是大数据的一个子集。在教育领域,时时刻刻产生着各种数据,无论是教师和学生的一言一行、学校里所发生的种种现象,还是学生通过计算机终端进行的上课、做作业、发微博、讨论问题等,都可以转化为数据,这些都成为教育大数据的来源。
无论大数据还是教育大数据,都不仅仅是数据本身的大小描述,而是由数据引发的各种关联*和解决方案。教育大数据就是教育统计插上了信息化的翅膀,变得比统计和信息化本身对人类更有价值。教育小数据是指没有信息化关联的一个个数据集,或者说教育数据孤岛,这些独立的数据不是没有作用,而是相对大数据来说,其分析结果和价值很多时候不如大数据客观和强大。
记者:大数据对社会生产和生活的影响,在教育以外的行业已经非常明显,但在教育领域还处于起步阶段。教育大数据会给教育改革与发展带来哪些影响?
我国教育大数据发展尚处于基础期。大数据对于教育改革和发展带来的将是传统思维的颠覆、教学效率的提升和教育科研的有效性,甚至会带来教育的终身个性化匹配。除了在线学习,大数据可以用在招生、预算和学生服务等方面以确保透明度,将对学生学习、教师教学、教学科研、校园治理、家校互动、教育决策、*管理、招生管理、学生成长等方方面面带来很大影响。
的确,与其他行业相比,教育界对大数据的广泛接纳还是近期的事。但可喜的是,我们看到大数据正在走进教育的领地、走进学校的大门、走进教师和学生的生活。可以预期的是,一个属于教育的大数据时代即将到来,它不仅影响学校内部治理的改革,而且会驱动整个教育领域的变革,它使我们照顾学生的个性化需求、关爱每一个孩子成为可能。但从整体上看,目前教育大数据的采集网络仍处于布局和建构的初级阶段,大数据在教育决策、教学过程中的运用还处于摸索和起步阶段,大数据人才培养的完善体系还没有建立起来。倒是一些企业集团较早看到了大数据带来的应用前景和巨大商机,以至于大数据在教育领域的应用总体上呈现出“产业应用的成熟度大于学校应用的成熟度”的态势。
实现真正的“因材施教”离不开教育大数据
记者:一般来说,数据是冰冷的,是抽离了鲜活之后的抽象。而教育面对的是活生生的有个性的人,需要因材施教,大数据能否克服传统数据的缺陷,从而关注到学生的个性发展?
与传统数据、有限数据或小数据相比,教育大数据的独特优势就在于,通过对教育活动或行为数据的收集、分析和反馈,可以不断改变、调整我们的教育计划,从而实现真正的“因材施教”,使我们能够关注到每一个学生的成长。
大数据研究专家舍恩伯格指出,“个性化建立在大数据反馈的基础上”,“在学习的环境下,大规模个性化的实现,需要有更丰富的反馈数据流向教师和管理人员”。教育大数据的分析能够给学习者发现自身学习规律的机会,给教育者和研究者提供每个学习个体在学习过程中的态度、模式、需求、风格等信息,从而提供有针对性的学习内容与指导。
大数据分析已经被应用到美国公共教育中,成为教学改革的重要力量。美国联邦*教育部2012年参与了一项耗资2亿美元的公共教育中的大数据计划。这一计划旨在通过运用大数据分析来改善教育。联邦教育部从财政预算中支出2500万美元,用于了解学生在个性化层面是怎样学习的。
记者:在关注学生个性化发展方面,教育大数据可以提供什么样的服务?
在大数据时代,研究者通过学习者在学习系统中产生诸多数字碎片的分析,会发现其学习行为的模式与特点,从而为学习者提供个性化的学习建议;教育者借助强大的大数据实证工具,能够了解如何教、如何学是最有效的,从而制定个性化教学和课程计划;学习者可以通过数据从原有的依赖教师的有限理性判断发展为对自己学习的数据化分析;而评价者则可以通过对学习者学习过程的关注与跟踪,在大数据技术的支持下提供最客观、直接和准确的学习分析和教育评价,使传统的经验式评价转向基于据数据的过程性评价。
教育*者和研究者已经开发出从大数据中提取价值的5种主要的技术:预测,预知事实的可能性;聚类,发现自然集中的数据点;相关性挖掘,发现各种变量之间的关系,并对其进行解码以便今后使用它们;升华人的判断,建立可视的机器学习模式;用模式进行发现,使用通过大数据分析开发出的模式进行“元学习”。实施这些技术,就能够通过大数据来创建为提高学生成绩提供支持的学习分析系统。这些技术将帮助教育*者更加有效地指导学生朝着更加个性化的学习进程迈进。
数据的失真失实是大数据时代必须面对的问题
记者:人们经常说:用事实说话,用数据说话。但是,数据等于事实吗?教育大数据和教育事实是什么关系?
教育大数据是对教育客观的逻辑归纳,是对与之相关的未经加工的原始素材进行采集、处理、研究、应用的一系列*。教育大数据做好了,可以客观反映教育事实,呈现教育现象,给教育改革提供决策参考。
数据与事实并非是完全一一对应的,它们可能有一致性,也可能存在相悖的结果。著名的辛普森悖论就启示我们,数据有时候并不能反映事实。教育大数据是从教育实践中搜集的有关教育活动、现象等原始材料,根据使用数据人的目的按一定的形式加以处理,找出其中的内在联系,从而反映教育事实。相比传统“小”数据,教育大数据在大规模在线学习、学习者模型、教学者模型等研究中,体现出更加贴近事实的优势。应该说,随着更多数据的收集、处理和分析,我们对世界的认识将更趋复杂、更加精确。
记者:前不久,“今日头条创始人张一鸣炮轰艾瑞数据失实”的事件引起了人们的关注。怎样才能*教育数据采集的数据客观、不失实?
应该说,获得相关数据并不是一件容易的事。对于大学阶段的学生而言,数据的收集并不是主要问题。然而,对于中小学阶段的学生而言,挑战却很大,因为有些数据的收集存在法律问题,有的则存在伦理道德(隐私)的问题。
数据收集者的人数和技能也是一个问题。数据的采集需要通过特定的渠道,互联网数据需要用技术手段获取,通常通过网络上的小型文本文件来收集用户的相关信息,但是对于教育部门而言,则需要依赖于全国众多学区和研究者的网络来提炼和确认数据。
数据的失真、失实是大数据时代必须面对的问题。对科学研究来说,数据的真实可靠是研究的生命和价值之所在。数据在采集的过程中,会由于教育数据的层次不同而发生变化。根据数据采集手段的不同,可以把教育大数据分为基础层数据(如每年的学校招生情况、教育经费情况等)、状态层数据、资源层数据(非结构化数据)、行为层数据(财务报销、学生写作业等)。这些数据大部分是在教育过程中自动生成并被记录下来的。
与基于有限数据的小数据预测本身存在的不确定性相比,大数据时代的预测精确度要远远超过现在。同时,大数据技术下数据的自然生成、对数据的全样本采集、传感器收取、射频识别等全新采集手段的应用,也都可以*研究者所获得的信息更加真实。但相比精确度,大数据更加追求的是效率,在海量的数据面前,放弃一些微观层面的精确,会得到宏观层面更高的效率。