什么是爬虫？

通过编写程序来爬取互联网上的优秀资源(图片，音频，数据)就是爬虫

爬虫和Python

爬虫不一定要用爬虫，用Java也行，C也可以，编程只是工具，用什么工具去达到你的目的都是可以的，和吃饭一样，可以用又子也可以用筷子，最终的结果都是你能吃到饭，那为什么大多数人喜欢用Python呢?答案:因为Python写爬虫简单，不理解?问:为什么吃米饭不用刀叉?用筷子?因为简单!好用!

总结: Python 只是众多语言中，小白上手最快，语法最简单，更重要的是有非常多的关于爬虫能用的第三方支持库，可以更加便捷的实现想要的效果。

爬虫合法吗

爬虫技术本身是中立且合法的。但经常听到因为爬虫进去的，那么爬虫行为的合法与违法到底该怎么界定呢？

爬取的数据是否是公开的？

爬取互联网公开数据一般是合法的，比如电商商品、新闻评论等等，但通过解密方式抓取非公开数据是违法的，如爬取某公司内部服务器数据、某电商网站的加密接口数据等，都是违法的。

爬虫是否对目标网站造成干扰？

如果你的爬虫影响网站正常运营，或者对被爬取网站造成破坏，这样是违法的，比如导致服务器宕机等。参考《中华人民共和国网络安全法》第二十七条。

《中华人民共和国网络安全法》第二十七条
规定任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动。网络爬虫若被恶意使用，如未经授权大量爬取数据导致目标网站服务器瘫痪，干扰其正常运行，便可能违反此条规定。

爬虫是否涉及个人隐私数据？

爬取任何涉及个人隐私的数据，并用于非法途径是违法的，不管公开或者非公开，如姓名、身份证件号码、通信通讯联系方式、住址等。如果不懂，可以读读《中华人民共和国个人信息保护法》、《中华人民共和国数据安全法》。

爬虫是否用于商业牟利，且造成侵权？

一般而言，爬虫抓取数据用于个人研究或公司内部使用是没事的，但如果用于商业牟利，且造成了严重侵权，被抓了现行，一般是要付出法律代价的。

需注意robot协议

大规模采集数据时最好遵守网站的robot协议，并咨询相关法律人士。

综上，为了避免进去。我们还是要安分守己.时常优化自己的爬虫程序避免干扰到网站的正常运行.并且在使用爬取到的数据时，发现涉及到用户隐私和商业机密等敏感内容时，一定要及时终止爬取和传播

爬虫攻防

爬虫是否恶意与否，都必然会对网站进行一些影响。作为网站的建设者也是希望自己的网站是被一些需要的人进行访问，所以相应的会进行一些反爬虫的策略，常见的反爬虫策略包括us头，ip限制，白名单等。而作为编写爬虫的人，也是希望自己能够采集到正确与完整的数据。对于反爬虫的策略也会滋生反反爬虫，通过制定相关的策略或者技术手段，破解网站中具备的反爬机制，从而可以获取网站中相关的数据。这样你来我往的情况就形成的爬虫攻防的策略，我觉得这也算是网络攻防战的一个缩影吧。在攻防以外还有一种情况，就是网站建设者希望类似百度，bing等搜索引擎来爬自己网站的数据，以证明自己网站的价值，就有了robots.txt协议(君子协议)规定了网站中哪些数据可以被爬虫爬取哪些数据不可以被爬取。

爬虫概述

什么是爬虫？

爬虫和Python

爬虫合法吗

爬虫攻防

爬虫概述

评论交流