最困难的部分是避免将问题简化,多的一小部分数据上。人们认为这将是一个错误,因为除非您接近 的规模,否则您无法真正确定您对网络的看法是否相同。
一旦决定走这条艰难的道路
就必须解决许多技术可扩展性问题,然后处理使用大量硬件存储大量数据的财务问题。
您使用分布式抓取,与 Grub 非常相似。让人们愿意为 喀麦隆电子邮件列表 项目做出贡献的关键点是什么?您运行了多少台服务器?
加入我们项目的人之所以这样做,是因为他们认为 很快就会成为垄断企业(这是 2004 年的情况),并且需要一个可行的替代方案。我们的项目有 100 多名常客,他们在 150 多个分布式客户端上运行分布式爬虫和分析器:所有这些使我们能够以大约 500 Mbits 的持续速度进行爬虫。
由于我们最近起更接近商业世界
因此我们决定我们的项目参与者将通过股权从我们的 萨尔瓦多电话号码数据库 成功中受益 – 本质上项目成员是合作伙伴。需要强调的是,我们的成员不是出于经济原因加入该项目的。
您多久抓取一次?您多久抓取一次最近没有更新的页面?