我认为是18年NLP领域最好滴工作,google真是如有天助,jacob刚去就搞了个大新闻。ELMo 18年naacl斩获best paper的时候其实我还不是特别感冒,但是BERT真是让pre-train上了一个大台阶。为什么真么说呢,首先,BERT的pre-train and fine-tune真是相比其他工作而言非常优雅了,特别是fine-tune阶段简直可以称之为傻瓜式;第二,效果惊人,在多个NLP常规数据集上都显著超过了SOTA,虽然不知道是不是因为语料大,计算量提升而带来的还是这种pre-train方式带来的,但至少告诉我们,transfer is possible in DNN,这个发现太重要了;第三,模型之深,参数之多,简直是惊人的,再一次展现了jacob的强大工程能力和google牛逼的硬件设施。BERT这个工作间接杀死了N多人手上的工作,在传统任务上刷榜的,做transfer,multi-task的等等,都被一下子拍翻了,我严重怀疑很多传统任务会因此达到非常好的效果,从而极大地弱化了fancy model structure的作用,看来NLP学者们需要另辟蹊径了,我个人觉得,随着深度学习这几年的发展,传统任务+十万/百万级数据 的标配问题几乎已经得到很好的解决了,在做下去空间也不会有多大了。接下来肯能有两个比较重要的方向:
1.向小走:few./zero-shot在NLP可能会真正兴起,面向AGI,not for industry。
2.向大走:亿的数据+超深网络做pre-train = one model for all,可能会成为工业界标配,届时大量提升会被pre-train吃掉,模型优化变得不再重要,由于pre-train的广泛应用,可能DNN会迎来在IOT上的广泛应用,也许新的问题和场景会涌现出来,可以拭目以待。
Copy from 知乎.
作者:pkpk
链接:https://www.zhihu.com/question/298203515/answer/512050719