软硬结合:快手推荐系统国内率先基于持久内存应用异构存储
作为2亿日活、日均千万级短视频上传、强调社区普惠的短视频APP,快手推荐系统所需解决的技术挑战是世界级的。近日,快手在国内率先应用持久内存重新设计了基于异构存储结构的推荐系统,率先采用英特尔®傲腾™ 数据中心级持久内存。在快手推荐系统高吞吐量大数据量请求的场景下,使用持久内存可以降低存储成本,减少故障恢复时间,提高系统可靠性。故障恢复时间从小时级别降低到分钟级,也为改善大规模深度机器学习系统在改进
2019-08-07 12:14:44
来源:钉科技  

作为2亿日活、日均千万级短视频上传、强调社区普惠的短视频APP,快手推荐系统所需解决的技术挑战是世界级的。近日,快手在国内率先应用持久内存重新设计了基于异构存储结构的推荐系统,率先采用英特尔® 傲腾™ 数据中心级持久内存。在快手推荐系统高吞吐量大数据量请求的场景下,使用持久内存可以降低存储成本,减少故障恢复时间,提高系统可靠性。故障恢复时间从小时级别降低到分钟级,也为改善大规模深度机器学习系统在改进千亿级别数据量的处理能力上开辟了新的探索方向。

业界超大规模实时在线短视频推荐系统

如何在承载高峰期每秒数十万并发调用量的同时,从上百亿级别的短视频库中,通过千亿参数级别的深度模型将内容展现给用户?快手推荐团队设计了基于异构设备的先进推荐系统,其中遇到问题的复杂程度极富挑战。

目前快手推荐系统采用的是计算与存储分离的架构模式(如下图所示)。推荐系统中的存储型服务主要是用来存储和实时更新上亿规模的用户画像、数十亿规模的短视频特征、以及千亿规模的排序模型参数。计算型服务主要进行的是视频召回检索、推荐模型预估和推荐策略计算。

图片1.png【快手推荐系统采用计算和存储分离的架构】

2018年到2019年上半年,快手推荐架构团队的主要工作集中在利用异构混合计算的方式,提升推荐系统中模型预估和召回检索等计算密集型业务的性能。通过利用异构计算的改造,产生了数倍的性能提升,鼓舞了快手推荐架构团队向异构系统设计中更难的存储问题进发。

一直以来,快手推荐团队致力于推荐系统架构调整,力求在日益增长的用户量冲击下,使推荐系统高可用的前提下,实时、高效、精准地向用户推荐优质内容。

新机遇:软硬结合极致优化,探索异构存储

持久内存是介于DRAM和SSD间的新存储层级,不仅能提供接近DRAM的延迟,同时还提供持久化和更大容量的存储空间,这为推荐系统中不同场景的可行性分析和架构设计提供了思路。

相比于传统的内存加硬盘的两级存储,新存储设备的推出,现代服务器可以利用的存储层级越来越多,利用多层级存储的软件系统设计也变得越来越复杂。每种存储设备有不同的性能特性和容量大小限制,越快的设备的单位容量成本越高。例如使用内存插槽的英特尔® 傲腾™ 数据中心级持久内存,依据读写粒度的不同,读写带宽虽小于传统内存,但写入数据具有持久性,且容量远大于传统内存。如何结合不同层级的存储设计在大规模推荐场景下性价比最优的存储系统成为一个巨大机遇和挑战。

图片2.png

 【新一代服务器的存储层级结构】

快手联合英特尔,国内业界率先落地采用英特尔® 傲腾™ 数据中心级持久内存的异构存储到推荐系统

基于多层级异构存储设备,快手推荐团队联合系统运营部硬件选型研发团队针对推荐系统中的不同场景进行了可行性分析和架构设计的调研。针对持久内存的特性,对分布式索引和参数服务器中的KV存储进行了重新设计。

图片3.png

【基于持久性内存的KV系统设计示意图】,注:AEP指代英特尔® 傲腾™ 数据中心级持久内存

该设计主要通过为KV存储增加MemPool组件,针对不同访问类型来决定系统是访问DRAM缓存,还是直接读取持久内存。比如说,在推荐模型预估的参数服务器这个场景中,由于模型中神经网络大小与Embedding Table相比很小,所以神经网络也会被MemPool直接分配进入DRAM来提高预估的性能。

除此之外,推荐团队还对KV系统进行了调优:

对于数据读取场景采用NUMA节点绑定的方式使得持久内存访问不跨NUMA节点,从而获得更好的读写性能;采用ZeroCopy技术对内存和持久内存进行访问;使用无锁技术,减少临界区中对持久内存的访问来提高性能。经过上述的技术改进,我们将基于持久内存的索引系统用真实的线上请求数据进行模拟压测。测试结果如下:

QQ截图20190807121120.png

 【基于持久性内存索引系统的压力测试结果】

基于异构存储的索引系统几乎达到纯DRAM的索引系统相同的性能指标,但总体拥有成本降低30%。同时异构存储的索引系统能够提供分钟级别的故障恢复速度,比之前小时级别的恢复提升了百倍恢复速度。英特尔专家介绍,快手是国内率先在推荐系统领域中引入并使用基于持久内存的异构存储的互联网公司,这种创新实践的技术能力让我们侧目。

快手推荐打造业界顶级、战斗力强悍的技术团队

通过工程、算法结合,数据驱动的手段,让快手推荐系统更高效、更精准、更稳定地为快手数亿用户服务,记录每一个人的生活点滴,并让每一个人的记录都能引起共鸣。推荐架构团队的成员都来自国内知名大学、甚至国际知名大学,如CMU、清华、北大、中科大等著名院校的毕业生。团队每个成员都追求技术极致,具备一流的分布式高并发服务的开发能力,比如在线分布式索引支持每天千亿级别的视频请求、机器学习平台支持千亿级别的推荐模型在线学习和在线预估、在线服务为数亿用户提供99.99%的可用性。

最新文章
1
透视美的海尔TCL海信创维2025财报,穿越波动周期靠这三点
2
37.81亿港元!TCL控股索尼家庭娱乐业务,电视王座之争向中国倾斜
3
行业洞察 | TMIC×Flywheel飞未联合发布《2026天猫音箱音响行业白皮书》
4
华帝潘叶钊:中国文化与时尚美学,品牌价值升维的新路径
5
华帝潘叶江:坚守初心,以长期主义锚定高质量发展新航道
6
携手新晋顶流代言人张凌赫,中国高端厨电华帝用一张“年轻牌”掀翻厨电圈!
7
华帝韩伟:重构厨电产业新逻辑
8
华帝x张凌赫!厨电潮牌携手顶流演员,书写品牌年轻化新篇章
9
从“心价比”出发,华帝“瓷话套系”回应新一代消费者审美渴望
10
海信视像发布2025可持续发展报告:让科技有温度,绿色有深度
11
80亿净利润收官2025,这个面板巨头的“赚钱密码”的是什么?
12
开启平板4K时代,vivo Pad6 Pro正式发布
13
重塑移动影像新高度,vivo X300 Ultra及vivo X300s正式发布
14
存储价格走势如何,哪些规格最紧俏?专家揭秘
15
AI从“对话”转向“做事”,半导体行业如何创新?
16
4月空调排产下滑9.4%,这是旺季前的低迷蓄势吗?
17
原材料普涨下的家电“生死局:巨头微利 小厂失守
18
华为 Pura 90系列领衔,4月新机影像旗舰与性能机全面升级
19
苹果深夜大乌龙!国行AI意外上线又紧急撤回 原因曝光
20
海信视像披露2025年财报:盈利能力增强,技术突破释放公司价值
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512