传易集团(以下简称“传易”)是由全球智能终端产品及移动增值服务提供商传音控股集团和中国著名的互联网公司网易集团共同创办的合资公司。
传易旗下拥有非洲知名的短视频社交平台Vskit,专注于非洲短视频分发业务,有“非洲抖音”之称。经过3年多的发展,Vskit月活已超1,500万,覆盖非洲超过50多个国家,遍布非洲大陆,成为非洲地区最受欢迎的短视频产品之一。
面临挑战
伴随着业务的快速发展,Vskit团队需要将更多精力投入到应用服务创新和用户体验优化的核心议题上,但是需要面临以下两点的挑战。
一方面,IT基础设施需要以稳定、低故障率和低成本的方式支持相关业务服务。运维方面最大程度地降本增效,同时要求底层基础资源具备足够的弹性和灵活性,支持敏捷开发,充分降低开发者相关的学习成本。
另一方面,短视频个性化推荐技术应用创新和用户体验优化是Vskit业务价值的核心。更高效、精准的视频推荐可以进一步增强用户黏性,提升使用体验,同时也可以帮助Vskit提供更多优质的内容,在非洲短视频市场更具竞争力。其中,大数据分析支持的运营优化、AI/ML相关的推荐模型等业务场景是重中之重。Vskit需要建立开发运维一体化的自动化交付流程,借助先进的云原生应用架构无缝打通数据流转路径,并要求基础架构平台全面、高效地支持AI/ML应用扩展,以加速面向最终用户的商业价值转换。
为什么选择亚马逊云科技?
Vskit从2018年开始使用亚马逊云平台,初期多采用比较基础的服务。随着对亚马逊云科技了解的不断深入,基础架构开始从虚拟机为主的场景向大量托管的容器平台演进。目前,Vskit全部基础架构均已完成容器化改造,基于Amazon Elastic Kubernetes Service (Amazon EKS)实现。同时,通过亚马逊云平台上的软件开发工具包和工具创建所有基础设施,得益于IaC(Infrastructure as code),Vskit在内部实践DevOps方面获得了相当不错的效果。
大数据应用方面,智能湖仓架构优势尽显。Vskit通过以Amazon Simple Storage Service (Amazon S3) 作为中心存储构建数据湖,存储点击事件、短视频消费业务等用户行为数据;围绕Amazon S3构建专门的数据分析服务,如基于Amazon EMR和Amazon Glue自动化工作流进行数据清洗,简化了大数据运行框架,借助Amazon Athena直接查询Amazon S3数据湖的数据,而无需维护任何基础设施;同时,在数据湖和专门构建的数据服务之间实现无缝的数据流转。
在机器学习方面,亚马逊云科技提供了集数据准备、模型开发、训练调优及部署等功能于一体的机器学习平台服务Amazon SageMaker。从一站式托管的Jupyter笔记本环境,到自动化管理动态模型训练集群,再到模型的一键部署,Amazon SageMaker可以帮助算法团队提高工作效率,省去GPU容器化平台搭建和运维时间,这样算法团队在实际开展机器学习时就可以将更多时间和精力放在如何调优模型、如何为涉及用户中长期兴趣、消费偏好等运营优化场景提供决策支撑。同时,Amazon SageMaker与大数据分析服务也无缝集成,可直接通过Amazon Glue启动Amazon SageMaker笔记本环境进行模型训练。并且,Amazon SageMaker也具备强大的日志和监控功能,方便排查潜在问题。
服务支持方面,亚马逊云科技团队提供了及时、专业的企业级支持。无论是技术还是业务层面的相关问题,Vskit都能得到及时响应和详细解答。比如,针对Kubernetes资源回收,包括Amazon EKS使用过程中遇到的相关问题等,亚马逊云科技支持团队均提供了优秀的客户支持服务。
整体而言,基于亚马逊云科技,Vskit成功实现数据清洗、整理及分析整体流程的大幅简化,同时支持面向各类应用场景无缝地数据流转。从运维、开发和业务创新等各个角度看,亚马逊云科技均提供了与Vskit不同发展阶段充分适配的产品及服务支持。
Vskit 基于 Amazon website service 的架构示意图
获得的收益
使用亚马逊云服务,Vskit真正意义上实现了基础平台助推业务发展的“正向循环”,从静态资源、动态接口、产品打磨与运营优化,包括通过DevOps加速算法实践落地等各方面观察,Vskit均获得了令人满意的成效。
第一,Vskit现有的测试环境和正式环境,均使用Amazon CodeBuild构建,然后通过Amazon Lambda自动触发部署,将应用程序发布时间从过去的15-20分钟缩短至现在的5分钟以内,大幅提升底层部署速度的同时提高了业务灵敏度和响应速度。
第二,Vskit目前无需专职的运维人员,采用了多个亚马逊云科技托管服务,比如Amazon EMR、Amazon Glue、Amazon ElastciSearch、Amazon MSK等,几乎无需运维,完全可以由开发兼任。如采用自建方式,则至少需要1-2人专职运维。使用亚马逊云科技托管服务帮助Vskit节省了很大一部分人力成本。
第三,通过使用Amazon SageMaker,并在业务上实现一套基于Amazon Glue的数据管道,Vskit现可对模型进行日更训练,相较于之前大概半个月更新一次的频率,有了大幅提升。由于推荐系统对用户行为的实时反馈更敏感,用新的行为数据补充训练集可以提升模型泛化性,模型日更可以更好地帮助提升业务指标。具体看,在短视频feed流推荐场景下,使用Amazon SageMaker完成多目标排序 (deepFM+MMoE) 模型每日训练更新任务,提升了模型的时效性,线下准确率提升4%,线上用户人均消费时长提升10%。
第四,基于亚马逊云科技丰富的Amazon EC2计算实例资源组合以及成本节约计划,Vskit将性价比体验提升至全新高度。通过使用最新的基于Graviton 2 Arm芯片的Amazon EC2第六代实例,总成本相比之前下降20%。同时,Vskit在视频转码场景中结合Auto Scaling Group和Spot实例,不仅能够更好地满足突发视频转码需求,还大幅节省计算资源成本,实现了25%左右的成本节约。
目前,Vskit基于亚马逊云平台每日接收约3亿个请求,涵盖日志收集、核心业务等各类场景,原始数据、中间数据、清洗后的数据和中间表数据等日处理数据量已达TB级。未来,Vskit将继续探索转码技术算法等AI/ML重要应用场景,为用户提供更优质的短视频产品服务和更快速、稳定的应用访问体验。
来源: 亚马逊云科技
免责声明:本文系网络转载,版权归原作者所有。如转载众多,无法确认真正原始作者,故仅标明转载来源。本文所用图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准立即删除内容!本文内容为原作者观点,并不代表本号赞同其观点和对其真实性负责。