我爱免费 发表于 2025-2-16 11:02

AI秒杀黄牛!DeepSeek数据分析实战

作者:微信文章
法师今日不讲法(Law),今日讲“术”,技术的术。事情起因,是某项预约业务受黄牛困扰,尤其是其中(相对)稀缺资源更是被诟病。恰逢春节期间DeepSeek火爆,博主也利用AI进行人机对话,寻求对黄牛画像,欲建立模型、拒之于门外。在用同样的设问提示词在DeepSeek和Kimi官网之间比较后,发现该问题下Kimi的回复比较适合,且Kimi描述的“高频挂号与退号行为”符合预期,因此使用“高频挂号与退号行为”作为业务模型,开启数据分析实战。




但在具象化、定位明细数据环节,苦于AI无法直接操作表格文件,只能来回在Excel、WPS表格(公式、WPS AI)、腾讯文档表格、飞书(在线表格、多维表格、公式、飞书AI写公式,多维表格上限5000行)之间来回折腾,先是断断续续从春节前持续至今,在WPS上完成黄牛识别,并固定成表格模板。改用AI后,直观对比效率提高至少3+倍以上(传统Excel分析40小时 vs AI+表格分析8小时且未成功 vs AI完美辅助 1小时)。
数 据 准 备本次分析的数据如下图所示(编号、姓名等全部数据均为测试和随机数据,不存在隐私相关)。数据共有61666行、7列,字段信息参见下图。数据载体(.xlsx文件)约3.63MB。


方 法1:传 统 分 析本文不讲传统分析方法了,直接给出本次分析的结论:1)Excel:大陆无法使用其AI功能;Excel2013无法用Filter函数,需升级到最新版,传统分析方法较为曲折,博主本轮失败;2)WPS:会员能使用A其I进行数据分析,回复慢,但没能让AI编辑数据,只能读数据,最终没有用到AI进行分析。另在WPS表格增加10列公式后,刷新巨慢。博主最终在其上完成完整工作。3)飞书:表格行数受限(5000行)。4)还有N多号称BI的工具,更多只是对已分析好的数据进行结果可视化,而不能较好提供分析过程支持。
方法2:AI+Excel基于前期已经确定的业务模型,将Excel文件上传到AI官网,并使用如下提示词(提示词经历跟AI多次会话后最终定为如下):以下是认定黄牛订单的明确规则:同一用户编号:规则:两个订单必须由同一用户编号发起。原因:黄牛通常使用同一账号进行操作。同一医生编号:规则:两个订单必须针对同一医生编号。原因:黄牛会针对热门医生进行频繁操作。同一计划就诊日期:规则:两个订单的"计划就诊日期"必须相同。原因:黄牛会在同一时间段内频繁取消和重新预约,以占用热门时间段。订单状态:规则:第一个订单的状态必须为“取消预约”。原因:黄牛通常会先取消一个订单,然后立即重新预约。取消时间与重新预约时间接近,且取消时间稍早于重新预约时间:规则:第一个订单的取消时间与第二个订单的下单时间间隔极短(如几分钟内),且第二个订单的下单时间晚于第一个订单的取消时间。原因:黄牛会在短时间内完成取消和重新预约的操作,以减少时间差。




初始第一轮:两个AI文件大小均受限。上述文件实测,大约只能阅读800行记录,更多在的记录展示时出现问题。但问kimi最后一行记录编号及记录其它字段时,它能部分正确回答。也许跟文件扫描机制相关?DeepSeek表现:上图展示堪称惊艳(原因是提示词已经多轮迭代和总结改善)。唯二缺陷是大小受限,不能一次性分析全部内容,上传文件会自动开启新会话。另外服务器对话经常“繁忙”,无法持续、稳定进行,市面上的主流部署r模型无法上传附件(如硅基、腾讯)。Kimi表现:改进后的提示词,在Kimi使用上就像大学教授辅导一年级孩子作业,它总是在反复犯下的错误。典型对话如下:我:业务规则如下:xxxx。以上表格哪些可能是黄牛订单,请查找成对的黄牛订单记录。Kimi:订单编号151 和 152。原因:xxxx。我:两个订单的“计划就诊日期”必须相同。比如,订单151和 152不是黄牛订单,因为两个订单的“计划就诊日期”并不相同。请记住该规则。Kimi:抱歉xxx,重新筛选记录。……我:请查找成对的黄牛订单记录。Kimi:订单编号151 和 152。原因:xxxx。我:(石化)在与Kimi的调校过程中,跟辅导小朋友作业一样的感觉有没有?我也参考辅导小朋友作业的语气加入到对话,还真有用。我:请查找成对的黄牛订单记录。Kimi:订单编号151 和 152。原因:xxxx。我:以上选取的订单符合要求吗?Kimi:不符合要求。因为xxxx。抱歉,重新筛选记录:订单818和820符合黄牛规则。我:对的。请继续列出符合要求的订单。……Kimi:订单编号151 和 152。原因:xxxx。看到没,Kimi是不是像个学到后面忘记前面的小朋友……在无数次调校之后,终于还是放弃kimi了,直接用DeepSeek,虽然要慢慢等,但结果毕竟正确。另外AI官网无法分析全部数据,考虑把文件拆分成N次分析也行。只要它能出正确结果,最终就是公众花钱买更好服务嘛,只要能把数据分析的模式跑通。在决定用DeepSeek并接受它的结论后,接下来就是调校输出了,毕竟优美的展示是数据分析成功的一半。本次输出的规则要求是:从一张二维表, left join 它自己,分别展示旧订单信息、新订单信息、新旧订单之间的时间间隔。第二轮结果输出:DeepSeek差强人意,似乎无法理解“嵌套表格”。然后用“分栏展示”它是听懂了,用行标题、列标题指令能展示fixed性质的单元格,但对于数据单元格(tr、td)无法正确填充数据,始终无法把新旧订单之间的时间间隔与该行标题固定在同一行上。至此,有点心疼付出的调校指令。DeepSeek似乎善于推理,但对于二维表格无法准确输出UI(下文也即将碰到)。考虑到DeepSeek无法一次性阅读全部文字、无法一次性得出完整结论,且输出格式不理想,遂放弃本方法。方法3:AI+Python+Excel图表展示博主在经历不那么完美的AI调校后,姑且武断地认为AI对于直接数据分析只能提供约三成帮助,然后继续回到老路上来,用计算机工具做分析,让AI写代码。这期间,还让AI写过Excel+VBA进行过一次数据随机处理,DeepSeek能一次性提供正确代码,Kimi功力相对在九成左右。读者可能认为不会Phthon,本方法不好实战?没关系,本次博主也是第一次学Python,特对过程予以详细记录。1)安装Python。工具:哔哩哔哩,关键词python,捡视频短、播放量前三的看,10分钟就能学会下载、安装、pip install学习。没错,B站是个学习宝库,以前博主写RPA解释器的时候就在上面学习编译原理(照猫画虎完成了函数解释器开发),现在喜欢时听B站“李建伟民法”磨耳朵。目的:实现python、pip两个程序/指令运行不报错,本机结果如下图:


2)向AI要代码。提示词如下:用python读取C:\Users\Administrator\Desktop\预约记录.xlsx,设置第一列为标题列。列标题分别如下:订单编号、医生编号、订单时间、状态、计划就诊日期、用户编号、取消预约时间。
以下是认定黄牛订单的明确规则:同一用户编号:规则:两个订单必须由同一用户编号发起。原因:黄牛通常使用同一账号进行操作。同一医生编号:规则:两个订单必须针对同一医生编号。原因:黄牛会针对热门医生进行频繁操作。同一计划就诊日期:规则:两个订单的"计划就诊日期"必须相同。原因:黄牛会在同一时间段内频繁取消和重新预约,以占用热门时间段。订单状态:规则:第一个订单的状态必须为“取消预约”。原因:黄牛通常会先取消一个订单,然后立即重新预约。取消时间与重新预约时间接近,且取消时间稍早于重新预约时间:规则:第一个订单的取消时间与第二个订单的下单时间间隔极短(如几分钟内),且第二个订单的下单时间晚于第一个订单的取消时间。原因:黄牛会在短时间内完成取消和重新预约的操作,以减少时间差。
先对数据按排序:用户编号,医生编号,计划就诊日期,订单时间。然后根据上述规则,筛选和分析订单数据,找出认定为黄牛订单的记录,成对的输出黄牛订单,列出如下列:第一笔订单编号(列标题命名为:旧单编号)、第二笔订单编号(列标题命名为:新单编号)、第一笔订单的状态(列标题命名为:旧单状态)、第一笔订单的医生姓名(列标题命名为:旧单医生)、第二笔订单的医生姓名(列标题命名为:新单医生)、第一笔订单的用户编号(列标题命名为:旧单用户)、第二笔订单的用户编号(列标题命名为:新单用户)、第一笔订单计划就诊日期(列标题命名为:旧单就诊日期)、第二笔订单的计划就诊日期(列标题命名为:新单就诊日期)、第一笔订单的订单时间(列标题命名为:下旧单)、第一笔订单的取消预约时间(列标题命名为:取消旧单)、第二笔订单的订单时间(列标题命名为:开新单)、第一笔订单的订单时间和取消预约时间相差分钟数(保留1位小数。列标题命名为:x分钟后取消)、第一笔订单的取消预约时间和第二笔订单的订单时间相差分钟数(保留1位小数。列标题命名为:x分钟后新预约)。DeeptSeek表现:完整、正确地给出了代码,还贴心地给出了准备工作(bash)。



结论:能完成九成半的工作,但考虑到控制台(DOS)输出虽然快,但无法对结果进行二次利用,再换个思路,输出到Excel后人工调校展示。本次不完美不能让AI背锅,只能说是博主思路不完善、在持续改进。只需在上述提示词增加一句即可:用python读取C:\xxx\预约记录.xlsx,……找出认定为黄牛订单的记录,成对的输出黄牛订单,列出如下列,存为"黄牛.xlsx":第一笔订单编号(列标题命名为:旧单编号)、……最终得出完美结果,本轮DeepSeek表现100分。结果如下图:

在上述结果基础之上,辅之以人工分析(进行数据透视表)加强和结论:1)取消后再预约的疑似捣腾行为,64%的单据是在2分钟内完成的。2)该64%动作在全天24小时均有分布,机器人操作嫌疑极大。



总    结DeepSeek潜力无限,Kimi可以作为对比用于参考。既然是AI实践,还是用AI来发表总结陈词吧。




“山重水复疑无路,柳暗花明又一村”。

本次用DeepSeek+Python+Excel进行数据分析,虽过程有些折腾,但最终成功跑通模式,心情豁然开朗。未来将继续借助AI工具,减少重复劳动,专注于高阶业务与情绪价值服务,正如诗中所言,历经曲折后终见光明前景。
页: [1]
查看完整版本: AI秒杀黄牛!DeepSeek数据分析实战