2022年8月24日星期三

第二课:从50个邮箱到1000个

##########################################################

小编提示:2.0新版已经发布

##########################################################

先对上节课中的一些问题做下集中回答:

世界上还没有一种方法可以有效的告诉我们提取出来的邮箱是有效的还是无效的,是采购商的还是供应商,或者是能明确告诉我们A/B两种状态中的一种,但这并不妨碍我们的目标,我们的目标是追求 "n个邮箱*概率=询盘" 这种状态,当概率固定的时候(通常可以认为是一个很小值),这时候提高n就变得很重要,这也是今天这课的核心。

有部分同学在执行pip的两条命令的时候会收到"该命令无效。。。"这种提示,这是因为某些区域的网络对这块做了限制,解决方法是看网盘里本ID上传的一篇补充文章"pip在命令提示窗口报错的解决方案",照着做就可以了。

搞清楚google抓取和抓取google邮箱的区别,一个是使用google引擎抓取,和我们现在用bing是一样的,另一个是在现有的搜索引擎下抓取google的邮箱(也就是gmail),我们今天还是使用bing,理由大家都懂的,后面会专门开一个课教大家使用google抓取。

下面来上课,我们在第一节课中学会运行的那个脚本,如果我们稍微看一下代码,或从结果上分析,就会知道有几个局限性,第一个是她单次只能抓取一类邮箱,导致我们某个关键字对应的结果会很有限;第二个是一次只抓取50条数据(去掉不匹配的,实际返回的<50),这是因为没有处理翻页。今天本ID就带领大家一并解决掉这些问题,顺带多交大家一个衍生出来的问题,当返回结果有1000条的时候,就需要导出个文件了,否则粘贴复制就会麻烦死你。

【数组】

要解决以上的问题,我们要引入一个程序的概念"数组",这个其实很好理解,数组就是一群具有相同性质的东西聚合体,比如之前我们用单引号括起来的那串字母 u'hotmail.com' 就是表示这是一个字符串,字符串前面的u表示的这个字符串是unicode格式的,不知道什么是unicode吧,没关系,我们先背出来,字符串前面都需要固定写一个u的,这是固定格式,那么一组字符串怎么表示呢,答案是用 [ ] 括起来,下面是一个示例,表示我们想同时抓取 hotmail和yahoo的邮箱:

email = [u'hotmail.com', u'yahoo.com']

多个字符串之间用逗号隔开,你可以按照这个格式扩展你想得到的邮箱后缀,本ID只带你入门,但最后开干的事情是你自己搞定的,邮箱的后缀网上一搜一大把,把你想得到的都填上就好了,这个直接决定了你最后能搜到的邮箱数量,如果你连这步都懒得做,那么你直接来外贸邦买钻石会员好了。

【变量】

变量我们理解成一个标识,就像学校里的学号,这是学校对每一个学生的唯一标识,但这个标识在每一届对应的学生是不同的,比如2016界的007号对应的是王二麻子,但2004界的007号对应的可能是林志玲,对于学校来说,不变的是007学号,变得是007最终对应的那个,这个道理在程序里也是一样的。现在我们需要设定一个变量,这个变量是我们期望抓取的数量,现在我们就假定是1000好了,但到底这个最终能不能到1000,还需要取决于我们上面那个提供的数组你有没有好好补充完内容。

want = 1000

want就是个标识,和007一样,他现在的值等于1000,记住,数字是不需要加引号和u的,标识也是一样的,这里我们不需要太贪心,比如把这个值设置为10w+这种,因为这里有个坑,每个搜索引擎都会时刻监视我们的行为,当我们很频繁的去请求或去抓取的话,轻则需要人工输入验证码,重责被关一段时间(就是不让我们访问),这里面有个平衡点,我们需要不断尝试才能知道那个G点再哪里,本ID建议你一开始,先设个1000,然后数组那里呢也不要多,先加个2,3个左右,慢慢的再增多。<.............

原文转载:http://fashion.shaoqun.com/a/1188974.html


突发重磅!拜登政府确认豁免东南亚四国部分光伏组件关税!中国的机会在哪里?:https://m.ikjzd.com/articles/160244
新规倒计时!亚马逊卖家未注册WEEE将面临…:https://m.ikjzd.com/articles/160248
亚马逊运营靠副业实现财务自由?要不要辞职单干?:https://m.ikjzd.com/articles/160225
大量链接变狗,亚马逊又在刮什么妖风?:https://m.ikjzd.com/articles/160252
海外营销,父亲节营销有哪些切入点?(邮件营销):https://m.ikjzd.com/articles/160250
上海全面复工!出货潮来袭,卖家如何应对运费爆炸反击?:https://m.ikjzd.com/articles/160259
john lewis:http://www.ikjzd.com/w/2430
仓储费:http://www.ikjzd.com/w/675
下载youtube视频:http://m.ikjzd.com/articles/144314
亚马逊多站开启自动清库存!卖家滞销情绪能否缓解:https://www.ikjzd.com/articles/1561649942298320897
srrc认证-什么意思测试项目费用标志:https://www.ikjzd.com/articles/99905

没有评论:

发表评论