业界首个！快手提出亿级别多模态短视频百科体系—

2022-11-07 19:11:42

来源：快手

引言

当前，越来越多的短视频用户不仅希望利用碎片化的时间来休闲娱乐，也开始希望能够在短视频平台中获取更多知识。2021年，快手泛知识内容播放量同比增长58.11%，平台全年有超过3300万场泛知识直播 [1]。为了更好地理解和组织泛知识视频，快手MMU联合哈尔滨工业大学等提出业界首个多模态短视频百科——“快知（Kuaipedia）”：通过多模态和知识图谱技术从海量短视频中挖掘大规模高质量的知识视频，并将其结构化，形成体系化的短视频百科知识库，为用户提供更好的知识获取体验，同时激发创作者创造优质知识内容，构建良性的知识分享生态。

● 论文链接：https://arxiv.org/abs/2211.00732
● 项目主页：https://github.com/Kuaipedia/Kuaipedia

团队从快手海量短视频中挖掘出亿级别知识类视频，并对其进行了结构化，构建了千万级词条和知识点视频百科体系。“快知（Kuaipedia）”的提出有助于学界推动AI通过多模态信息理解世界知识，且在产业界落地有较大想象空间。

介绍

百科全书（Encyclopedia），可以追溯到希腊和罗马，也是17-18世纪法国启蒙运动的一个杰出的成果。知识百科通常是指一个是概要介绍人类全部知识或某一特定领域或学科的工具书或纲要，在互联网急速发展的当下，网络百科成为知识新的载体，如维基百科、百度百科等。但这些百科通常以图文、表格为载体，比较难以表达一些需要生动演示的知识，比如教程（How-to）类知识。图一展示了使用图文讲述 “柴犬”-“怎么画” 这一知识的困境。而通过短视频，我们能够很好地对这些知识进行一个阐释和学习。

具体视频见https://www.gifshow.com/fw/photo/3xhcmzgr9fq492m。

图一：图文在how-to类知识上知识传递的困境，图文来自短视频的帧截图

随着内容行业和媒体形态的不断迭代，短视频已经越来越成为知识传播者的主要媒介，尤其是在一些技能和特长类的知识传播，天然就有它的一些优势。而在当下，尽管有公开的网络百科中有视频的内容，但通常是偏简介形式（如秒懂百科），没有将短视频最大程度的进行利用，因此短视频在知识百科中的表达能力被严重低估。比如当人们讲到“柴犬”，人们除了“简介” 以外，还关注“怎么挑”、“怎么梳毛”、“怎么纠正护食”等。因此我们认为将知识类的短视频结构化，构成结构化的短视频百科是一条理解世界知识、帮助人类以更高效率传播知识的有效途径。
参考国家标准 [2] ，我们将事实（What）、原理（Why）类知识归结为科普知识，技能（How）类归结为教程知识，在快手海量的视频中挖掘出高质的知识视频。此外，我们将短视频中抽取的知识主体以词条形式呈现（如柴犬），并抽取视频中讲解的该词条具体的知识点（如柴犬-挑选、柴犬-护食纠正等），最终构成了一个短视频的百科知识体系，如图二所示。

图二：快知——多模态短视频百科概览

“快知（Kuaipedia）”的提出有以下几个贡献：

1. “快知”的定义：我们开创性地定义了一个全新的多模态知识百科库，以词条、知识点、知识类短视频以及它们间的关系共同构成。这是业界首个结构化的多模态短视频百科。

2. 构建大规模短视频百科的方法：我们提出使用知识视频识别、词条知识点挖掘、多模态知识链接的组合来构建大规模的短视频百科。并开创性提出“多模态知识链接”任务，作为传统实体链接的一个外延和扩展。

3. 富有潜力和想象空间的应用：在学术上，“快知”以崭新的知识点短视频化组织形式，能够突破目前机器仅靠图文知识图谱（KG）理解世界知识的上限，在KG的一些下游任务如实体链接、实体分类，或者NLP、CV等内容理解下游任务上，有非常大的潜力。在产业界，“快知”这样的形式能够助力短视频平台进行高效地运营、组织内容，提升用户对知识的理解与消费效率。

技术概览

为了实现上述的短视频百科结构化，核心技术包括以下三个主要步骤，如图三所示。

1. 知识视频识别：通过多模态视频预训练模型，理解并识别海量视频中知识类视频；

2. 词条和知识点挖掘：通过多源知识库融合“自顶向下”构建词条体系，再通过对用户搜索query挖掘“自底向上”构建词条与知识点关系，形成词条知识点树；

3. 多模态知识链接：创新性地扩展传统“实体链接”任务，提出通过多模态内容理解技术将视频链接到词条（如柴犬）的某一个知识点（如护食纠正）上的“多模态知识链接”任务。

图三：快知构建技术链路

通过大量详实的人工评测，快知所挖掘的知识点与视频已具备较高的准确率和质量。更详细的算法和实验数据具体参见论文或者我们的Github主页（见文章开头）。

应用

首先，“快知（Kuaipedia）”这样的多模态短视频百科体系，在学术界对于推动AI理解世界知识的技术发展有极大的潜力。一方面，“快知”突破图文和表格的局限，通过更丰富的知识点和短视频来描述某一个实体或者概念，这种方式能够推动多模态知识图谱技术的发展。另一方面，这些知识点和短视频有助于AI更好地理解世界知识，尤其是一些图文难表述的 How-to 类知识，这种多模态知识能够增强AI对世界的理解，对KG、NLP、CV等领域的下游应用都很有帮助。我们在CCKS实体链指的任务上，证明“快知”多模态知识的简单引入就能有效提升BERT在实体链接和在实体分类上的性能。

此外，“快知”在产业落地极具想象力，在短视频生态向“泛知识”拓展的过程中，现有的形式约束了其传播方式，“快知”通过结构化的内容，能提升平台的运营和分发效率，更好地满足用户的求知诉求。我们将该项技术首先在健康垂类进行了落地尝试，快手健康团队此前以病种为组织维度，纯人工挖掘了一批优质PUGC内容，但是存在疾病知识体系不完善、权威性知识视频量级小等痛点，难以高效率构建完整、大规模、结构化的疾病视频体系。利用“快知”的技术后，自动化地挖掘出了一批高质量、有快手特色的知识点和知识视频，丰富了疾病类内容，比纯人工构建提效几十倍。目前这批内容已经在快手App精选页上线：点击精选视频流中某个疾病类视频的「底部通栏」，唤起「快手健康」半屏页，用户可以消费该视频所属词条下的相关知识点和相关知识视频，如图四所示。

图四：快知在健康场景落地

除健康外，“快知”还覆盖了教育、美食、三农、亲子、法律、科技、金融等众多领域的知识内容，有着较大的应用潜力。

结语

面对泛知识类内容在短视频行业的发展前景，我们提出了“快知（Kuaipedia）”多模态短视频百科体系，从存量的海量短视频内容入手，通过多模态知识图谱构建技术挖掘出亿级别高质量的知识视频，并将知识内容结构化，构建业界首个大规模体系化的短视频百科知识库，其在学术界和产业界有较大的潜力和想象空间。

原创文章

X3B显示器、Q系列回音壁齐发，TCL完成高端消费电子“关键卡位”

创维凶猛！2026冲刺年销50万台壁纸电视，技术场景构建增长飞轮

惠科40亿干芯片封测、月产能2000万颗，面板巨头热衷第二曲线？

6月彩电新零售：海信TCL创维长虹合计份额超90%，85寸爆品最多

6月冰箱新零售：海尔美的容声美菱总份额超95%，十字4门最火

6月空调新零售：TOP3份额近90%，前十机型被美的海尔“包圆”

上半年电竞显示器卖不动？TOP4合计份额下降，OLED开启暴走模式

西班牙夺冠，谁是本届世界杯营销的最大赢家？