评论公民同招是“全赢”之举

热播剧《安家》里,老油条爷叔给客户的孩子弄到了一个民办学校的面试名额,把那个单亲母亲开心煞了。许多观众也不由得佩服爷叔的法道。这样的桥段在生活中司空见惯。只是,今天下午发布的上海义务教育招生政策,向全社会公开宣布,如此“法道”以后再也不会显灵了,民办学校招生不靠面试、不靠关系,而是全部摇号。相关政策的规范表述是:“民办学校按招生计划实施分类报名,报名人数超过招生计划数由各区教育行政部门实施电脑随机录取。”

用电脑摇号的方式决定民办学校的录取,这是上海的独创?非也。去年6月,《中共中央国务院关于深化教育教学改革全面提高义务教育质量的意见》明确提出:“推进义务教育学校免试就近入学全覆盖”“民办义务教育学校招生纳入审批地统一管理,与公办学校同步招生;对报名人数超过招生计划的,实行电脑随机录取”。这是党中央出台的第一个聚焦深化教育教学改革、全面提高义务教育质量的纲领性文件。也就是说,上海今天的举措,是在坚决贯彻执行中央的重大教育部署,是在严格规范教育秩序。

迁移学习在2018年出现的GPT、ULMFiT、ELMo以及 BERT等成果上初露锋芒,之后又在2019年大显身手,推动了领域内多种新方法的发展,其中就包括XLNet、RoBERTa、ALBERT、Reformer 和 MT-DNN 等等。随着 NLP 领域的发展迅猛,评估其中的哪些发展成果最具有意义以及这些成果结合起来会发挥出怎样的效果,已不是易事。

T5使用的预训练目标与填空任务非常相似,在填空任务中,模型预测文本中缺少的单词,但是此目标是对“继续任务”(continuation task)的概括,因为填空任务中的空白有可能出现在文本的末尾。为了完成目标,创建了一个名为“填充空白”的新任务,并要求模型用指定数量的单词替换空白。例如给模型输入:我喜欢吃花生酱和—4—三明治。大概会训练模型用4个单词进行填空。用C4对模型进行了微调,效果良好,尤其是模型对缺失文本的预测非常棒!例如下列对于输入:“我喜欢花生酱和—N—三明治”,输出结果如下所示:

事实上,作者使用这种方法在斯坦福问答数据集(SQuAD)中取得了最先进的结果。在作者的Colab demo和后续论文中,其训练了T5在一个更加困难的封闭的环境中回答琐碎的问题,而且不需要接触任何外部知识。换句话说,T在回答问题时只能用其在无监督预训练期间训练出的参数和知识。

三、迁移学习方法的系统研究

一、共享的文本到文本框架

教育改革具有综合性、系统性特征,不是局部的小修小改。长期以来,民办学校的招生办法,事实上在很大程度上被“应试”裹挟着,也被一众培训机构所钻营。竞争越来越前移,连学龄前孩子甚至襁褓里娃娃的家长都不淡定,都要焦虑。在今天出台的政策里,民办学校不提前组织学生报名或变相报名,不举行任何测试、测评、学科练习、面试或面谈,招生录取不与任何培训机构挂钩。这样的“三不”承诺,或将成为减负的一个重要治本之策;对根治已经异化的“成材竞争”法则,也将是釜底抽薪之举。

作者使用T5 文本到文本框架和新的预训练数据集C4,评估了在过去几年间为NLP 迁移学习引入的大量思想和方法。

详尽的评估细节可前往论文查看,其中包括以下实验:模型架构的实验中,他们发现编码—解码模型通常比“仅解码”的语言模型,性能更优;预训练目标的实验中,他们证实了填空式的去噪目标(即训练模型来复原输入中缺失的词)的效果更好,并且其中最重要的因素是计算成本。

五、扩展到其他任务,表现也同样可喜

为了满足这三点要求,作者开发了一个Colossal Clean Crawled Corpus数据集 (C4),该数据集是比维基百科大两个数量级的 Common Crawl  的清洁版本。他们的清洁处理过程涉及到删除重复数据、去除不完整的句子以及消除冒犯性或有噪音的内容。

二、大型预训练数据集(C4)

与此同时,他们还引入了一个新的开源预训练数据集——Colossal Clean Crawled Corpus(C4)。作者在C4数据集上对T5 模型进行预训练,让模型在许多 NLP 基准上都实现了最佳结果,与此同时还拥有足够的灵活性,进行微调后可应用到多个重要的下游任务上。

谷歌研究者在论文《使用统一的文本到文本的Transformer 来探索迁移学习的局限性》中,提出了一个大规模的实证评估,以确定哪些迁移学习技术效果最好,并大规模应用这些迁移学习技术来创建一个新模型,作者将这个新模型称之为文本到文本的迁移Transformer (Text-To-Text Transfer Transformer,T5)。

2、完形填空第二个任务是完形填空。像GPT-2这种大型语言模型在文本生产方面非常擅长。模型在经过训练之后,能够根据输入预测出下一个单词,如此将模型集成,便会产生非常创新性的应用程序,例如基于文本的游戏“AI地下城”。

在预训练期间,T5学习如何从C4文档中填充文本的丢失跨度。对模型进行了微调,在无需输入任何信息或者上下文的情况下,将其应用于已经封闭式问答。T5非常擅长这项任务,其110亿参数模型分别在TriviaQA、Web问题(WebQuestions)和自然问题(Natural Questions)对50.1%、37.4%和34.5%的答案进行了精确生成。为了客观看待此类问题,T5团队在酒吧琐事挑战(pub trivia challenge)与训练好的模型并肩作战,但不幸的是惨败而归。如下动图所示

创建了T5模型后,作者将所有的 NLP 任务都重新构建为统一的文本到文本格式,输入和输出都始终是文本字符串,与只能输出类标签或者输入范围的 BERT 式的模型截然不同。该文本到文本的框架让他们可以在任何 NLP 任务上都使用相同的模型、损失函数以及超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)等等。T5 模型甚至可以被应用到回归任务上,具体方式是训练 T5 模型来预测一个数字的字符串表示,而不是这个数字本身。

这一过滤可以让模型在下游任务上获得更好的表现,与此同时额外规模的数据集也让模型在预训练期间不过拟合的情况下,增加其大小。

雷锋网原创文章,。详情见转载须知。

为了探索NLP目前迁移学习的局限性,作者进行了最后一组实验,结合系统研究中的所有最佳方法,并利用Google Cloud TPU加速器进行了优化。其中最大规模的模型有110亿个参数,在GLUE、Superglue、Team和CNN/Daily Mail基准测试中都能够达到SOTA。另外,在SuperGLUE 自然语言理解的基准测试中获得了接近人类水平的分数。

在阅读理解问题中往往可以使用文本到文本的框架。给模型提供上下文信息以及一个问题,训练其在上下文信息中找到问题的答案,例如可以向模型提供维基百科文章中关于康尼飓风的文本,并提问“康妮飓风在哪天发生?”然后训练模型,让其找到文章中的日期。

现有的预训练数据集无法满足上述三点要求,例如来自维基百科的文本是高质量的,并且格式统一,但是规模相对而言较小,而从Common Crawl 网站上爬取的文本虽然规模较大并且多样化程度高,但是质量相当低。

民办招生不“选优”、不掐尖,有利于构建良好的教育生态环境。义务教育质量事关亿万少年儿童健康成长,事关国家发展,事关民族未来。“育分”,只是义务教育全部选项中一个部分,并非全部,更不能替代全部;“育人”,才是义务教育的本质。公办学校与民办学校之间的竞争不在于生源竞争,而在于办学特色与教育质量的竞争。真正卓越的教育,是“有教无类、人人成才”的教育,是为每一个孩子提供适合的教育,而不是选择所谓优质生源,择生而教。

省灾难管理局(PDMA)表示五名受伤人员已转移到当地总部医院。目前矿场处于关闭状态,有关部门正在组织救援。(总台记者 崔如)

文本到文本框架图。对于每个任务,作者都考虑使用文本作为模型的输入,并训练模型生成一些目标文本。这让他们能够在多个任务上使用相同的模型、损失函数和超参数,包括翻译(绿色框)、语言可接受性(红色框)、句子相似性(黄色框)和文档摘要(蓝色框)。它也为实证评估中所包含的方法提供了一个标准的试验台。

模型规模的实验中,他们对比了不同大小的模型、训练时间以及集成模型的数量,以确定如何才能最好地利用固定的计算能力。

四、迁移方法+数据规模=性能最佳

迁移学习的一个重要部分,便是用于模型预训练的未标注的数据集。为了准确地评估扩大预训练规模的效果,我们需要一个不仅高质量、多样化而且规模庞大的数据集。

T5非常灵活,可以非常容易的进行修改,除了作者论文中的一些任务,在其他任务中也能取得了巨大的成功。例如在下面两个新任务中,模型表现也不错。

未标注数据集的实验中,他们展示了在域内数据集上训练模型是有益的,而在更小的数据集上对模型进行预训练则会导致不利的过拟合;训练策略的实验中,他们发现多任务学习可以与“先预训练再微调”的方法相媲美,但是要求更细致地选择模型在每个任务上训练的频率。

公民同招,不仅是“双赢”,而且是“全赢”。赢在有利于留住优质对口生源,赢在为公办学校提供更强劲的发展动力,还赢在民办学校可以更一心一意在特色发展上做出探索,更赢在教育公平能真正有效落地。因为,教育的公平是社会公平的重要组成部分,也是百姓关注的重大民生问题。怎么招生、怎么办学,老百姓时刻紧盯着。

Author Image
aeleader.com