首页 热点资讯 义务教育 高等教育 出国留学 考研考公
您的当前位置:首页正文

Day114 心得体会&读书笔记

2024-12-20 来源:花图问答

一、心得体会
2号竞品抓取:
1、抓取结果(6个平台,完成5个,1个还在抓):

  • 7小时15万条心上移动端总量(已完成)
  • 15万条pc端详情抓取(今天抓取1万条,还剩10万条,估计还有7天)
  • 6小时2万6千条真的移动端详情、上新和销量又重新改了逻辑,待验证(还在抓,估计还剩1小时)
  • 4小时7千条plum移动端详情(已完成)
  • 4小时爱叮猫3千条pc端详情(已完成)
  • 1小时抖包包300条(已完成)
  • 4小时女神派6000条(已完成)

2、代码

  • 分析真的上架逻辑,发现第二次或二次以上上架(即下架又上架)的产品很难与一直存在的产品区分,因为如果二次上架的产品并没有改任何信息,商家只是纯下架再上架的话,和一直存在着的产品并没有什么差别,怎么区分?
  • 但是,我发现自己陷入了自己设置的陷阱里面,我们就是要剔除掉这些上架又下架的产品啊,我们真正需要的是第一次上架的产品量。而每次抓的新纪录就是每天首次上架量。
  • plum和爱叮猫的上架和销量逻辑按照真的逻辑来,加上架时间、销量字段。
    评估:80%完成

3、遇到问题

  • 昨天的问题:心上抓取太慢
    今天在东亿快一倍左右
  • 如果一个平台出租和出售同时存在,怎么区分两者的销售数据,有的平台有字段可以判断,需要找出来
  • 今天修改了销量和上新代码,明天看下数据

4、计划

  • 昨天的计划是否完成:昨天的计划是plum 和爱叮猫的代码和逻辑分析已完成
  • 跑一下6个平台

二、读书笔记

显示全文