行业资讯2018 年 TOP 5影响力 AI 研究论文

2018 年 TOP 5影响力 AI 研究论文

2019-01-10 14:40:00AI论文深度学习

Topbots 总结了他们眼中 2018 年里 10 篇最为重要的 AI 研究论文,带领大家领略过去的一年中机器学习领域的关键进展。现在点开了这份清单的人显然是极为幸运的,获得了一个精彩瞬间回放的机会。

 

不得不说,考虑到这个领域极快的发展速度和极多的论文数量,肯定还有一些值得阅读的突破性论文没能包括在这份榜单中。不过这份清单是一个好的开始。

 

  1. Universal Language Model Fine-tuning for Text Classification

「用于文本分类的通用语言模型的精细调节」

 

论文地址

https://arxiv.org/abs/1801.06146

 

内容概要

两位作者 Jeremy Howard 和 Sebastian Ruder 提出了可以用预训练的模型解决多种 NLP 任务的想法。通过这种方法,研究人员不需要为自己的任务从零开始训练模型,只需要对已有的模型做精细调节。他们的方法,通用语言模型精细调节 ULMFiT ,得到了当时最好的结果,比其他模型的错误率降低了 18% 到 24%。更令人钦佩的是,ULMFiT 只用了 100 个有标签样本得到的结果就可以和用 10K 有标签数据从零开始训练的模型一样好。

 

论文思想要点

为了应对缺乏标注数据的问题,以及让 NLP 分类任务更轻松、更省时,他们提出了把迁移学习用在 NLP 问题中。这样,研究人员们不再需要从零开始训练新模型,只需要找到一个已经在相似的任务上训练完毕的模型作为基础,然后为新的具体问题微调这个模型即可。

然而,为了让这样的做法发挥出理想的效果,这个微调过程有几个细节需要注意:

  • 网络中不同的层应该为不同的内容进行微调,因为它们捕捉的信息的类别也是有所不同的;
  • 把模型参数向新的具体任务适配时,让学习率先线性增加,再线性衰减,学习的效率会比较高;
  • 一次微调所有的层会带来灾难性的遗忘问题。所以,比较好的做法是一开始只更新最后一层的参数,然后逐步让前面的层也参与到微调中来。

 

  1. Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

「模糊梯度防御带来的只是安全的假象:绕过对抗性样本的防御」

 

论文地址

https://arxiv.org/abs/1802.00420

 

内容概要

研究人员们发现,对于对抗性样本的防御,目前主要使用的是梯度模糊方法,但这种方法并不能带来真正的安全,因为它可以被轻松规避。这篇论文了研究了三种使用了梯度模糊的防御方法,并展示了可以绕过梯度模糊防御的技巧。他们的发现可以帮助目前使用了梯度模糊防御的组织机构考虑如何强化自己的方法。

 

论文思想要点

目前有三种常见的梯度模糊做法:

  • 梯度破碎(shattered gradients),防御方法会有意地(通过不可微的运算)或者无意地(通过数值的不稳定性)提供不正确的梯度,或者不提供梯度;
  • 通过随机防御提供随机梯度;
  • 通过非常深的深度神经网络评估带来消失梯度/爆炸梯度。

基于梯度的方法有一些问题,我们可以看到下面这些迹象:

  • 一步式的攻击比迭代式的攻击效果更好;
  • 黑盒攻击比白盒攻击的效果更好;
  • 无限制攻击也无法达到 100% 成功率;
  • 随机采样也可以找到对抗性样本;
  • 提高图像扭曲的容忍度并不能提高攻击成功率。

论文的关键成果是,通过实验表明如今使用的大多数防御技术都还很脆弱。ICLR 2018 接收论文中的 9 种防御技术中,有 7 种都使用了梯度模糊,而论文作者们提出的新攻击方法可以完全绕过 7 种中的 6 种防御,并部分绕过最后 1 种。

 

  1. Deep Contextualized Word Representations

「深度上下文依赖的单词表征」

 

论文地址

https://arxiv.org/abs/1802.05365

 

内容概要

来自艾伦人工智能研究院(Allen Institute for Artificial Intelligence)的作者们介绍了一种新型的深度上下文依赖单词表征: Embeddings from Language Models (ELMo)。在使用了 ELMo 强化的模型中,每个单词的向量化都是基于它所在的整篇文本而进行的。把 ELMo 添加到现有的 NLP 系统中可以带来的效果有:1,错误率相对下降 6% 到 20%;2,训练模型所需的 epoch 数目显著降低;3,训练模型达到基准模型表现时所需的训练数据量显著减小

论文思想要点

  • 在很大的文本语料库上预训练一个深度双向语言模型(biLM),用它生成单词嵌入,这些嵌入来自这个模型的内部状态的加权和;
  • 嵌入中包括了 biLM 的所有层的表征,因为网络中不同的层表征了不同类型的信息;
  • ELMo 的表征被设计为基于字符的,这样网络还可以利用单词拼写的信息,更好地理解训练中未曾见过的超出词汇表的单词的意思。

 

  1. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modelin

「一般卷积网络和循环网络用语序列建模的实证评价研究」

 

论文地址

https://arxiv.org/abs/1803.01271

 

内容概要

领域内有种常见的假设:对于序列建模问题来说,选择一个循环网络架构作为出发点是默认的做法。这篇论文的作者们就对这种假设提出了质疑。他们的结果表明,一般的时序卷积网络(TCN)能在许多种不同的序列建模任务中稳定地超出 LSTM 以及 GRU 之类的典型的循环神经网络。

 

论文思想要点

  • 在近期发现的最佳实践做法(比如空洞卷积和残差连接)的帮助下设计出的时序卷积网络(Temporal convolutional networks)可以许多复杂的序列建模任务中发挥出超过一般循环网络架构的表现;
  • TCN 表现出的记忆能力比循环网络明显更长,也就更适合那些需要很长的历史记录的序列建模任务。

 

  1. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

「BERT:用于语言理解的深度双向 Transformer 模型的预训练」

 

论文地址

https://arxiv.org/abs/1810.04805

 

内容概要

谷歌 AI 团队展示了一个新的用于自然语言处理的前沿模型:BERT(Bidirectional Encoder Representations from Transformers,用于 Transformer 模型的双向编码器表征)。它的设计可以让模型同时从左以及从右处理文本内容。虽然概念上说起来很简单,但 BERT 带来了惊人的实际表现,它刷新了 11 项不同的自然语言处理任务的最好成绩,包括问答、命名实体识别以及其他一些和通用语言理解相关的任务。

 

论文思想要点

  • 训练一个深度双向模型,在训练过程中随机地遮蔽一定比例的输入字符。这种做法避免了在不同的训练循环中模型可以间接地看到曾经被掩蔽的字符。
  • 同时也预训练了一个句子关系模型,这个模型需要做一个二分类任务,预测句子B 是否紧接着句子A。这种设计让 BERT 能够更好地理解不同句子之间的关系。
  • 用大量的数据(33 亿词的语料库)训练一个非常大的模型(24 个Transformer 模块,1024 个隐层,4 亿个参数)。