什么是爬虫?

通过编写程序来爬取互联网上的优秀资源(图片,音频,数据)就是爬虫

爬虫和Python

爬虫不一定要用爬虫,用Java也行,C也可以,编程只是工具,用什么工具去达到你的目的都是可以的,和吃饭一样,可以用又子也可以用筷子,最终的结果都是你能吃到饭,那为什么大多数人喜欢用Python呢?答案:因为Python写爬虫简单,不理解?问:为什么吃米饭不用刀叉?用筷子?因为简单!好用!

总结: Python 只是众多语言中,小白上手最快,语法最简单,更重要的是有非常多的关于爬虫能用的 第三方支持库,可以更加便捷的实现想要的效果。

爬虫合法吗

爬虫技术本身是中立且合法的。但经常听到因为爬虫进去的,那么爬虫行为的合法与违法到底该怎么界定呢?

  • 爬取的数据是否是公开的?

爬取互联网公开数据一般是合法的,比如电商商品、新闻评论等等,但通过解密方式抓取非公开数据是违法的,如爬取某公司内部服务器数据、某电商网站的加密接口数据等,都是违法的。

  • 爬虫是否对目标网站造成干扰?

如果你的爬虫影响网站正常运营,或者对被爬取网站造成破坏,这样是违法的,比如导致服务器宕机等。参考《中华人民共和国网络安全法》第二十七条。

《中华人民共和国网络安全法》第二十七条

规定任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动。网络爬虫若被恶意使用,如未经授权大量爬取数据导致目标网站服务器瘫痪,干扰其正常运行,便可能违反此条规定。

  • 爬虫是否涉及个人隐私数据?

爬取任何涉及个人隐私的数据,并用于非法途径是违法的,不管公开或者非公开,如姓名、身份证件号码、通信通讯联系方式、住址等。如果不懂,可以读读《中华人民共和国个人信息保护法》、《中华人民共和国数据安全法》。

  • 爬虫是否用于商业牟利,且造成侵权?

一般而言,爬虫抓取数据用于个人研究或公司内部使用是没事的,但如果用于商业牟利,且造成了严重侵权,被抓了现行,一般是要付出法律代价的。

  • 需注意robot协议

大规模采集数据时最好遵守网站的robot协议,并咨询相关法律人士。

综上,为了避免进去。我们还是要安分守己.时常优化自己的爬虫程序避免干扰到网站的正常运行.并且在使用爬取到的数据时,发现涉及到用户隐私和商业机密等敏感内容时,一定要及时终止爬取和传播

爬虫攻防

爬虫是否恶意与否,都必然会对网站进行一些影响。作为网站的建设者也是希望自己的网站是被一些需要的人进行访问,所以相应的会进行一些反爬虫的策略,常见的反爬虫策略包括us头,ip限制,白名单等。而作为编写爬虫的人,也是希望自己能够采集到正确与完整的数据。对于反爬虫的策略也会滋生反反爬虫,通过制定相关的策略或者技术手段,破解网站中具备的反爬机制,从而可以获取网站中相关的数据。这样你来我往的情况就形成的爬虫攻防的策略,我觉得这也算是网络攻防战的一个缩影吧。在攻防以外还有一种情况,就是网站建设者希望类似百度,bing等搜索引擎来爬自己网站的数据,以证明自己网站的价值,就有了robots.txt协议(君子协议)规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。