Bert | Ehaschia's Blog

我认为是18年NLP领域最好滴工作，google真是如有天助，jacob刚去就搞了个大新闻。ELMo 18年naacl斩获best paper的时候其实我还不是特别感冒，但是BERT真是让pre-train上了一个大台阶。为什么真么说呢，首先，BERT的pre-train and fine-tune真是相比其他工作而言非常优雅了，特别是fine-tune阶段简直可以称之为傻瓜式；第二，效果惊人，在多个NLP常规数据集上都显著超过了SOTA，虽然不知道是不是因为语料大，计算量提升而带来的还是这种pre-train方式带来的，但至少告诉我们，transfer is possible in DNN，这个发现太重要了；第三，模型之深，参数之多，简直是惊人的，再一次展现了jacob的强大工程能力和google牛逼的硬件设施。BERT这个工作间接杀死了N多人手上的工作，在传统任务上刷榜的，做transfer，multi-task的等等，都被一下子拍翻了，我严重怀疑很多传统任务会因此达到非常好的效果，从而极大地弱化了fancy model structure的作用，看来NLP学者们需要另辟蹊径了，我个人觉得，随着深度学习这几年的发展，传统任务+十万/百万级数据的标配问题几乎已经得到很好的解决了，在做下去空间也不会有多大了。接下来肯能有两个比较重要的方向：
1.向小走：few./zero-shot在NLP可能会真正兴起，面向AGI，not for industry。
2.向大走：亿的数据+超深网络做pre-train = one model for all，可能会成为工业界标配，届时大量提升会被pre-train吃掉，模型优化变得不再重要，由于pre-train的广泛应用，可能DNN会迎来在IOT上的广泛应用，也许新的问题和场景会涌现出来，可以拭目以待。

Copy from 知乎.

作者：pkpk

链接：https://www.zhihu.com/question/298203515/answer/512050719