加入收藏 | 设为首页 |

拉塞尔-小数据处理的 7 个技巧

海外新闻 时间: 浏览:268 次

雷锋网 AI 科技谈论按,本文作者是 Kanda 的机器学习工程师 Daniel Rothmann,他对悉数具有革新性的事物都感兴趣,这里是他在和客拉塞尔-小数据处理的 7 个技巧户协作的过程中总结出的小数据处理办法。雷锋网收拾。

咱们常常传闻大数据是构建成功的机器学习项目的要害。这里有一个大问题:许多安排没有你需求的这么多数据。

在没有最基本的数据的状况下,咱们怎么才干原型化和验证机器学习的主意?当拉塞尔-小数据处理的 7 个技巧资源稀缺时,咱们怎么有用地获取和运用数据发明价值?

在我的作业场所,咱们为客户出产了许多功用原型。因而,我常常需求运用小数据。在本文中,我将共享 7 个改善运用小数据集进行原型规划成果的小技巧。

1 .知道到你的模型不能很好地泛化

这应该是第一步。你正在构建一个模型,它是树立在世界的一小部分常识之上的,而这应该是仅有一个能够希望它能很好地作业的情境。

假如你正在树立一个依据室内相片挑选的计算机视觉原型,不要希望它在室外作业得很好。假如你有一个依据聊天室的言语模型,不要盼望它适用于梦想小说。

保证你的司理或客户了解这一点。这样,每个人都能够依据你的模型应该供给的成果,调整实践希望。它还发明了一个机会来提出一个新的有用的要害方针,以量化原型规模表里的模型功用。

2 .树立杰出的数据根底架构

在许多状况下,客户机没有你需求的数据,公拉塞尔-小数据处理的 7 个技巧共数据也不合适。假如原型的一部分需求搜集和符号新数据,请保证根底架构,尽或许削减冲突。

你要保证数据标签对技能和非技能人员来说都是十分简略的。咱们现已开端运用 Prodigy,我以为这是一个很好的东西:既可拜访又可扩展。依据项目的巨细,你或许还需求设置一个主动数据接纳功用,它能够接纳新数据并主动将其输入到标签体系。

假如将新数据导入体系既方便又简略,你将取得更多数据。

3 .做一些数据扩大

你一般能够通过添加所具有的数据来扩展数据集。但这只是对数据进行纤细更改,它不该显著地改动模型的输出。例如,假如旋转 40 度,猫的图画仍然是猫的图画。

在大多数状况下,增强技能答应你生成更多的「半仅有」数据点来练习你的模型。首要,你能够测验在你的数据中参加少数的高斯噪声。

关于计算机视觉,有许多简练的办法来增强图画。我对 Albumentations 库有过丰厚的运用经历,它能够在坚持标签不受损的一起进行许多有用的图画转化。

图片来历:Github 上的 Albumentations

许多人以为另一种有用的增强技能是「Mixup」。这种技能实践上是将两个输入图画混合在一起并组合它们的标签。

图片由 Cecilia Summers 和 Michael J.Dinneen 拍照

在扩大其他输入数据类型时,需求考虑哪些转化会危害标签,哪些不会。

4. 生成一些组成数据

假如你现已用尽了添加实在数据的办法,你能够开端考虑创立一些假数据。生成组成数据也是一种很好的办法,它能够用来掩盖一些实践数据会集不会呈现的边际状况。

例如,许多机器人强化学习体系在布置到真实的机器人之前,都是在模仿的 3D 环境中进行练习的。关于图画识别体系,你能够类似地构建 3D 场景,它能够供给数千个新的数据点。

15 个模仿的 Dactyl 并行练习实例

创立组成数据有许多办法。在 Kanda,咱们正在开发一个依据转盘的解决方案来创立用于方针检测的数据。假如你有十分高的数据需求,你能够考虑运用通用的生成对立网络来创立组成数据。要知道 GAN 是出了名的难以练习,所以你要保证它是值得的。

NVIDIAs GauGAN

有时你能够结合运用这些办法:苹果有一个十分聪明的办法,用一个 GAN 来处理 3D 模型人脸的图画,使其看起来更传神。假如有时间的话,能够运用这个扩展数据集的绝妙技能。

5. 当心「走运的切割」

在练习机器学习模型时,一般将数据集按必定份额随机切割成练习集和测验集。一般状况下,这很好。可是,在处理小数据集时,因为练习示例数量较少,因而噪音危险较高。

在这种状况下,你或许领会外地得到一个走运的切割:一个特定的数据集切割,在这个切割中,你的模型将很好地履行并在测验会集作用很好。但是,在实际中,这或许只是是因为测验会集没有困难的比如(偶然)。

在这种状况下,k-fold 穿插验证是一个更好的挑选。本质上,你将数据集拆分为 k 个「folds」,并为每个 k 练习一个新的模型,其间一个 fold 用于测验集,其他的用于练习。这能够操控你看到的测验成果,而不只是是因为走运(或不走运)的拆分。

6 .运用搬迁学习

假如你运用的是某种标准化的数据格式,如文本、图画、视频或声响,那么你能够运用其他人在这些域顶用搬迁学习所做的一切从前作业。这就像站在伟人的膀子上。

当你进行搬迁学习时,你会选用其他人树立的模型(一般,「其他人」是 google、Facebook 或一些首要的大学),并依据你的特别需求对它们进行微调。

搬迁学习之所以有用,是因为大多数与言语、图画或声响有关的使命都具有许多一起的特征。例如,关于计算机视觉来说,它或许是检测某些类型的形状、色彩或图画。

最近,我为客户开发了一个方针检测原型,这个客户对精度的要求十分高。我能够通过微调一个 MobileNet 单镜头探测器来大大加速开发速度,该探测器华严经现已在 google 的开放式图画 v4 数据集(约 900 万张标签图画)上接受过练习。. 通过一天的练习,我能够运用大约 1500 张符号图画生成一个适当强健的方针检测模型。

7. 试一试「weak learners」

有时候,你只需求面临这样一个现实:你没有满足的数据去做任何想做的作业。走运的是,有许多传统的机器学习算法,你能够考虑运用这些算法,它们对数据集的巨细不太灵敏。

当数据集较小,数据点维数较高时,支撑向量机等算法是一种很好的挑选。

不幸的是,这些算法并不总是像最先进的办法那样准确。这便是他们之所以被称为「weak learners」的原因,至少与高度参数化的神经网络比较是如此。

进步功用的一种办法是将这些「weak learners」(这或许是一组支撑向量机或决策树)组合在一起,以便它们「协同作业」生成猜测。这便是组合学习的悉数含义。

via: https://www.kdnuggets.com/2019/07/7-tips-dealing-small-data.html

雷锋网雷锋网