上一遍博客介绍了Ajax的分析和抓取方式,这只是JavaScript动态渲染的页面的一种情形。JavaScript动态渲染的页面不止Ajax这一种。比如中国青年网 http://news.youth.cn/gn/
,它的分页部分是由JavaScript生成的,并非原始HTML代码,这其中并不包含Ajax请求。还有淘宝的页面,它即使通过Ajax获取数据,但是其Ajax接口含有很多加密参数,我们难以直接找出其规律,也很难直接分析Ajax来抓取。
对于需要登录的网站该如何爬取呢?例如知乎,如果访问https://www.zhihu.com/,是需要我们登录才能进入知乎网的,有时候我们又会发现,由于之前登录过,再次登录的时候便不需要输入密码了这就涉及到cookies
了,cookies在网站开发时,或多或是少一定会用到,以知乎为例,当我们提问,评论,赞别人的时候,后台程序是如何获取我们的用户信息呢?下次登录不需要用户名和密码会自动登录又是为什么呢?
MariaDB数据库管理系统是MySQL的一个分支,主要由开源社区在维护,MariaDB的目的是完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。开发这个分支的原因之一是:甲骨文公司收购了MySQL后,有将MySQL闭源的潜在风险,因此社区采用分支的方式来避开这个风险.大型互联网用户以及Linux发行商纷纷抛弃MySQL,转投MariaDB阵营。MariaDB是目前最受关注的MySQL数据库衍生版,也被视为开源数据库MySQL的替代品。MariaDB虽然被视为MySQL数据库的替代品,但它在扩展功能、存储引擎以及一些新的功能改进方面都强过MySQL