news 2026/4/3 4:50:21

数据科学家关于个性化项目长期实验的指南

张小明

前端开发工程师

1.2k 24

文章封面图 — 数据科学家关于个性化项目长期实验的指南

原文：towardsdatascience.com/how-to-set-up-longitudinal-experiments-a-data-scientists-guide-59b7aa729d20?source=collection_archive---------5-----------------------#2024-03-10

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e89dde468b0c6cd9fdf12056ec15d0bf.png

图片来源：Claudio Schwarz

解锁快速的“测试与学习”，并通过长期实验捕获全尺度个性化价值

https://medium.com/@charlesbi?source=post_page---byline--59b7aa729d20--------------------------------https://towardsdatascience.com/?source=post_page---byline--59b7aa729d20-------------------------------- Haocheng Bi

·发布于 Towards Data Science ·阅读时长：4 分钟 ·2024 年 3 月 10 日

A/B 测试 vs. 长期实验

实验不一定总是复杂的；在市场杠杆可控的情况下，简单的 A/B 测试框架就可以非常有效。实验的设计与实施应该始终与市场学习议程、市场技术（MarTech）成熟度和创意设计能力紧密结合。

让我们以购物为例。为了理解一次性促销和优惠对在线购物者的影响，简单的 A/B 测试框架（控制组和测试组）就足够了。如果这些购物者在整个客户生命周期内被分配到一致的控制组和测试组，或者有一些人中途退出，影响不大。

长期实验，也称为面板研究，提供了一种研究因果关系随时间变化的框架。与一次性实验不同，长期实验可以研究群体或样本组内发展中的模式和趋势。长期实验传统上在医学科学和经济学等领域占有重要地位，近年来在科技、零售、银行和保险等行业的应用案例也越来越多。

长期实验在复杂的个性化场景中提供了独特的优势。它们使我们能够更深入地理解个性化营销策略的累积影响，并帮助判断何时扩大这些努力。

案例研究 —— 自行车配件供应商的纵向实验

假设一个假想情境，AvidBikers 是一家领先的山地自行车配件供应商，专为骑行者定制和升级自行车提供零部件。他们最近推出了一个个性化项目，向忠实的骑行客户群体发送每周最佳优惠和促销。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/90a0faa0b6f42d8bddc702c64b06cf4e.png

图片来自 Solé Bicycles 于 Unsplash

与一次性的购物之旅不同，AvidBikers 的典型购物旅程是由一系列在线购物过程组成，客户购买所需的所有配件，以自行组装和升级自行车装备。

随着个性化项目的推出，AvidBikers 的市场数据科学团队希望了解每个单独活动的效果，以及通过联合个性化营销策略带来的整体项目层面的增量。

项目与活动实验

AvidBikers 实施了一个双层纵向实验框架，以追踪整体个性化项目的广泛影响以及单个活动的影响。这里，项目层面的效果是指运行个性化项目的影响，项目可能包含多达数千个单独的活动，而活动级别的影响则指向最相关客户发送个性化的每周最佳优惠与促销的影响。

为了实现该框架，分别在全球层面和活动层面创建了测试组和控制组。全球测试组是指在符合条件时，能够接收个性化优惠和促销的客户群体，而全球控制组则被划分为“保留”组。在全球测试组内，我们进一步划分出活动级别的测试组和控制组，以衡量不同个性化策略的影响。

应对动态客户进出

然而，挑战来自于新客户和流失客户，因为他们可能会破坏测试-控制组的平衡。首先，客户流失可能对测试组和控制组产生不均衡的影响，造成无法归因于个性化处理/干预的无法控制的差异。

为了应对这种偏差，新客户被分配到项目层级和活动层级的测试组和控制组，并进行统计检验以验证组之间的平衡性。此外，还会进行纵向质量检查，以确保受众分配在每周之间保持一致。

衡量、迭代与重复

衡量通常被（错误地）与实验互换使用。简单来说，两者的区别在于，实验是一种测试假设并识别因果关系的框架，而衡量则是收集和量化观察到的数据点。

测量是捕捉学习成果和公司努力的财务影响的关键。与实验类似，AvidBikers 准备了程序和活动级别的测量文件，进行统计测试，以了解程序和活动级别的表现及影响。程序级别的测量结果表明 AvidBikers 个性化程序的整体成功。另一方面，活动级别的测量告诉我们哪种特定的个性化策略（个性化产品或促销活动）在客户群的哪个子集上是成功的策略。

有了测量结果，AvidBiker 的数据科学家可以与他们的营销和定价团队紧密合作，通过多个快速的“试验与学习”循环找到最佳的个性化策略。

大规模实施纵向实验

在大规模实施纵向实验时，需要平衡技术基础设施和方法学的严谨性。像 Airflow 和 Databricks 这样的工具简化了工作流管理和数据处理，促进了复杂实验的协调。然而，成功的基石依然是精心设计和执行的实验框架，该框架需根据具体的业务背景量身定制。

根据我的个人经验，复杂问题如冷启动、客户流失和策略重叠可能会出现，这需要在实验设计和实施过程中根据具体情况进行评估和定制。然而，随着客户需求的不断变化，纵向实验的战略实施已成为以客户为中心的个性化演变的关键基础。

感谢阅读，敬请期待未来更多数据科学和 AI 话题😃

版权声明: 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

网站建设 2026/4/1 22:33:48

从PyTorch到TensorRT：如何将开源大模型转化为生产级服务

从PyTorch到TensorRT：如何将开源大模型转化为生产级服务在大模型落地的浪潮中，一个普遍的尴尬局面正在上演：研究团队用 PyTorch 训出的 SOTA 模型，在测试集上表现惊艳，可一旦接入线上服务，立刻暴露出高延…

作者头像

李华

网站建设 2026/3/31 3:09:25

SpringBoot+Vue 面向智慧教育实习实践系统管理平台源码【适合毕设/课设/学习】Java+MySQL

摘要随着信息技术的快速发展，智慧教育成为教育现代化的重要方向。传统的教育管理模式存在效率低、数据分散、资源共享困难等问题，难以满足现代教育的高效管理和个性化学习需求。智慧教育实习实践系统管理平台旨在通过信息化手段优化教育资源的分配与管理…

作者头像

李华

网站建设 2026/3/26 6:17:27

TensorRT对LongNet等超长序列模型的支持展望

TensorRT对LongNet等超长序列模型的支持展望在大模型时代，上下文长度的竞赛早已悄然拉开帷幕。从GPT-3的2k到如今Claude支持200万token，处理超长文本已不再是学术界的“玩具实验”，而是法律、医疗、金融等领域落地的核心需求。然而&#xff…

作者头像

李华

网站建设 2026/3/31 7:00:37

使用TensorRT加速分子属性预测模型的推理

使用TensorRT加速分子属性预测模型的推理在药物发现和材料设计领域，研究人员正越来越多地依赖深度学习模型来预测分子的物理化学性质、生物活性甚至毒性。这些任务通常由图神经网络（GNN）或Transformer架构完成，能够从分子结构中提…

作者头像

李华

网站建设 2026/4/3 4:38:50

面试题：线上有一个亿级数据的 Redis BigKey，如何进行在线优化？

背景： 在一线互联网大厂（阿里、字节等）的面试中，Redis 的 BigKey 优化是必考题。但面试官通常不会只问“什么是 BigKey”，而是会抛出一个极具挑战性的场景： “线上有一个亿级数据的 BigKey（如 …

作者头像

李华

网站建设 2026/3/17 15:07:33

一图说清HRBP如何赋能业务

一图说清楚HRBP如何赋能业务！ 赋能阶梯：由基础到高阶：知识工具层，制度体系层，方法路径层，思维认知层，最终上升到哲学价值观层！ https://mp.weixin.qq.com/s/FDJ0OwxKpB_nU3wNDd4Gcw

作者头像

李华