海量短视频打标问题之Active-Learning
创始人
2024-01-29 01:24:35
0

引言

在网络中,每时每刻都会产生很多无标签数据信息,比如最近很火的一些短视频APP,每天都有很多用户发布自己生产的短视频(UGC)内容,这些内容一般是部分打了标签或者标签中有很多噪音的,为了进行做推荐或者做分类、识别的训练,需要给这些短视频自动生成高质量的标签;而另外,随着人工智能的发展,许多以前积累的数据,需要自动做标注,比如很多医疗领域的核磁共振片子。这只是CV领域(许多数据集已经打标或者很容易打标),在NLP和推荐领域,这样的问题更加重要和常见。

这些给海量视频数据打标签的问题是很常见也很重要的问题,而且这些问题牵扯到机器学习中的“主动学习”(Active Learning),“多模态机器学习”(MultiModal Machine Learning),“多标签(Multi-label)分类”,“增量学习”(Incremental Learning),“在线学习”(Online Learning),“少样本学习”(Few Shot/Zero Shot Learning)等等领域。

为此,船长打算以海量短视频打标这个具体的问题写几篇(具体写几篇,要看我有多忙lan)文章专门捋一捋这方面的常用算法,这个系列的文章将是第一篇,专注于主动学习领域。

欢迎探讨,本文持续维护。

实验平台

N/A

主动学习基本思路

假设现在有两千万短视频池,需要给他们打上一万个标签。如果手工一个个检查一个个打标签,成本太高,肯定是不现实的。但是我们可以少量打一些标签,比如为1000个视频打标签,这个成本还是可以接收的。然后用这1000个视频和手动打的标签去训练一个自动打标签的模型alpha。用模型alpha去给视频池剩余的样本去预测标签,根据预测出的标签的信息,根据一定规则挑选出某些更有意义的样本,比如2000个,把这些挑选出来的2000个样本再找人工打标签(因为经过挑选的,所以数量可以控制少一点)。把这些打标签的数据和训练模型alpha的数据合在一起,形成一个3000个样本的更大的带标签数据集训练一个更好的模型beta,再用模型beta重复由模型alpha得到模型beta的过程,可以继续生成更更好的模型gamma,把这个过程可以迭代下去,就可以在有限的标注成本下,得到不错的自动打标模型了。

主动学习为什么有用?

我们知道,一般而言,样本量越多,训练的模型越好。但是不是所有的样本对最终模型性能的贡献都是一样的(比如我们要描述一个正方体,并不需要穷举列出正方体内所有的点,只需要列举这个正方体的某些定点上的点就行了),如果能找出一些关键样本,这些样本对模型训练更加重要,那么自然我们可以只标准哪些关键样本来训练模型啦。

那么,很显然,关键样本的挑选规则是主动学习成功的关键,这也是主动学习领域研究比较多的一个问题,后文会有简单介绍两种比较经典的样本挑选规则。

主动学习实施

算法流程

在前面一节,已经大概介绍了主动学习的一般思路和过程,这里写一下流程吧:

  1. 将两千万短视频初始化未标注样本池P;
  2. 在样本池中随机选出1000个样本,对齐人工做标注,形成训练集合T;
  3. 用训练集合T训练模型M;
  4. 用上一步训练出来的模型M预测样本池P中不属于T的样本,得到预测信息Pred;
  5. 根据Pred用挑选规则挑选出一些样本,给人工进行标注,并把新标注的样本和原来训练集合T合并成新的训练集合T;
  6. 如果模型M满足性能要求,则终止,否则转到步骤3;

挑选规则

主动学习中样本挑选规则是很重要的,主流有如下集中方法:

  1. 基于不确定度缩减的方法。比如分类问题中,一般会出现一个概率向量,这个概率向量的信息熵可以认为是模型对分类的不确定度;挑选信息熵最大的那些样本送去给人工进行标注。从几何角度看,这种方法优先选择靠近分类边界的样例。
  2. 基于最大两个类别概率差距最小的方法。和上面差不多,只不过选择的标注不是概率向量的信息熵,而是选择那些top1和top2分量差距最小的概率向量所对应的未标注样本送去给人工标注。很好理解,如果模型预测出某个样本有很高的概率属于1类,也有很高的概率属于2类,那么就说明模型对这个样本不是很确定,就需要人工标注给他更多的信息去学习。
  3. 预先聚类的方法:预先运行聚类算法预处理,选择样例时优先选择最靠近分类边界的样例和最能代表聚类的样例(即聚类中心)。

主动学习和难例挖掘的比较

在CV中常见的提升性能的方法有难例挖掘(在线,离线),也是挑选一些少量关键样本来提升性能,这里做个简单的比较。

相同点

主动学习和难例挖掘(Hard Example Mining)很像,都是用训练了的模型去做预测,找出少量可能对模型性能改进有帮助的关键样本,然后用关键样本去帮助模型改进。

不同点

但是不同的地方也很明显,主动学习需要人工参与标注,样本挑选规则挑选出来的样本,要送到人那里去做手动标注;而难例挖掘是在所有样本都有标签的前提下,找出那些特别难的样本。

总结

本文以为海量短视频打标签为例子,简单介绍了一下主动学习这种实用的学习方法。但是单单靠这一种方法来做海量短视频打标还是远远不够的,后续我会再介绍这个问题上用得上的其他技术点。

参考资料

  • Active Learning Tutorial
  • Active Learning wiki
  • 爱奇艺短视频分类技术解析
  • PRCV2018 美图短视频实时分类挑战赛第一名解决方案介绍

相关内容

热门资讯

辉煌60载 魅力新西藏丨一河清...   今年是西藏自治区成立60周年。60年来特别是党的十八大以来,以习近平同志为核心的党中央高度重视西...
综合整治“内卷式”竞争   中央经济工作会议和今年的《政府工作报告》都提出了“综合整治‘内卷式’竞争”的要求。近期召开的中央...
关税重压下 美国通用汽车二季度...   美国通用汽车公司当地时间7月22日发布二季度业绩报告显示,由于关税导致当季损失11亿美元,该公司...
芭蕾舞与新疆民族舞相遇   7月22日,第七届中国新疆国际民族舞蹈节间隙,意大利米兰芭蕾舞团成员来到位于乌鲁木齐的新疆国际大...
节气里的中国智慧|大暑至夏正浓...   今日大暑  热浪滔滔,夏意正浓  大暑作为夏天最后一个节气  也是一年之中最炎热的时期  万物感...
电算协同赋能青海高质量发展丨活...   走进位于青海省西宁市的全国首个清洁能源和绿色算力调度中心,记者看到大型电子屏幕清晰显示着全省风、...
数说国内第二大陆地港 解码这座...   2025年世界互联网大会数字丝路发展论坛将于7月24日在泉州召开。论坛以“数智海丝 共迎未来——...
一问到底丨住房租赁新规来了,如...   央视网消息:随着城镇化推进,我国城镇租赁住房人口已经高达2亿多,是全球规模最大的租赁住房市场。然...
北方地区将有一次强降雨过程 南...   中新网7月23日电 据中央气象台网站消息,昨日(7月22日),贵州、广西、广东、福建、湖南、湖北...
苏丹新一轮霍乱疫情已致2302...   新华社开罗7月22日电(记者 张猛)喀土穆消息:苏丹卫生部22日发表声明说,自该国2024年7月...