Google线上安全博客最新文章介绍Gmail垃圾邮件筛选器全新升级,Google称此是近年来规模最大的防御升级之一。
Gmail、YouTube、Google Play等系统依靠文本分类模型识别有害内容,包括网络钓鱼攻击、不当评论和。不过,过去机器学习模型难将有害文本内容分类出来,因为不法分子会使用同形字、隐形字符以及关键字填充等手法,以所谓adversarial text manipulation尝试绕过筛选器。
为了帮助文本分类器发挥效用,Google开发一种开源、多语言文本矢量化工具RETVec(Resilient & Efficient Text Vectorizer),协助模型实现最先进的分类性能并大幅降低运算成本,在服务器端和设备上创建更具弹性和性能的文本分类器。
过去一年,Google内部对RETVec进行广泛测试以评估实用性,发现它对于安全和防滥用的应用程序非常有效,特别是用RETVec取代Gmail垃圾邮件筛选器之前的文本矢量化工具,使Gmail能将垃圾邮件侦测率较基准提高38%,并将误报率降低19.4%。此外,使用RETVec将模型的TPU(Tensor Processing Unit)使用率降低83%,使RETVec部署成为近年来最大的防御升级之一。
RETVec使用非常轻量的字词嵌入模型(-200K参数)来改进,使Google能在相同或更好的性能下减少Transformer模型的大小,能够以网络和内存有效方式在主机和TPU之间分割运算。