报告聚焦于智能数据处理与分析领域,涵盖了小红书、快手、哔哩哔哩等多家企业的实践案例,从图数据库、海量模型数据处理、数据组织优化等多个方面展开,展示了不同企业在数据处理与分析方面的探索与成果。
1. 小红书图数据库:小红书自研REDgraph图数据库,用于社交网络关系存储与查询。针对原架构在三跳及以上查询时延的问题,通过优化执行引擎,采用分布式并行查询方案,提升查询效率。在性能测试中,三跳及以上查询性能显著提升,为社交实时推荐、社区风控等业务提供支持。
2. 快手海量模型数据处理:快手的模型场景为实时大模型,数据处理既大又要实时。在处理过程中,面临实效性、大数据量、复杂特征计算等挑战。快手采用无状态hashjoin、GPU和CPU协同计算等技术,优化数据处理流程。同时,针对存储需求,采用全内存架构、NVM Table等方案,满足超低延迟和超大存储的要求。
3. 哔哩哔哩智能数据组织优化:哔哩哔哩基于Iceberg进行数据存储,为提升查询性能,开展多维排序、索引和预计算等优化,但用户使用门槛较高。为此,采用智能优化技术,通过自动分析用户历史查询数据,为数据存储和查询配置优化手段。实践成果显著,优化了30多张表,减少了读取数据量,未来将继续提高推荐准确率,支持更多查询场景。
4. 京东零售数据可视化平台:京东零售数据可视化平台包含智能BI平台、数据大屏平台等多种产品,具备多数据源接入、高性能查询等能力。通过这些产品,为电商分析、门店管理等业务赋能。平台建设秉持“数据分析工具+分析能力培养+数据基础设施”理念,未来将从产品、技术、服务层面持续优化。
5. 虎牙平台数据驱动业务实践:虎牙作为内容供给平台,面临因果推断和实验评估等挑战。通过建设实验平台,推广实验文化,提升实验效率。在拉活等场景中,结合RTA技术和Uplift Model,优化业务指标。同时,探索因果推断的效益评估方法,以解决主播侧难以开展AB实验等问题。
6. 腾讯PCG搜广推机器学习框架GPU性能优化:腾讯PCG因算力集群问题,改用GPU进行推荐模型训练。在训练框架设计中,优化数据结构,采用多级流水线并发,提升硬件资源利用率。对下载、预处理、计算等阶段进行优化,采用多种优化手段,提高训练效率。未来将在不同GPU上训练模型,探索与GPT结合,支持更大规模模型训练。
7. 火山引擎计算治理自动化:火山引擎DataLeap在计算治理中,针对手动调参的问题,提供实时规则引擎、实时监控与自适应调整等自动化解决方案。通过实践,优化了队列资源配置,提高了资源利用率,降低了成本。自动化方案虽有优势,但也存在局限性,未来将朝着多产品元数据闭环等方向发展。
8. 火花思维数据分析体系建设:火花思维早期自研系统存在局限,选择火山引擎进行系统重塑。在选型过程中,火山引擎的智能归因分析、动态分流等功能具有优势。在运营过程中,根据业务痛点确定解决方案,提高内容生产效率,助力业务提升。未来期望BI系统能直接产出业务洞见,构建智能问答体系。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系