
























用python抓取网页是非常简单的事,简单的几行代码就可以解决。。。这里稍微记录一下
需要引用的包有主要是 urllib2,urllib也可以引入,具体 看代码
#-------------------------------------------------------------------------------
# Name: 模拟登录web
# Purpose:
#
# Author: huwei
#
# Created: 26/10/2010
# Copyright: (c) huwei 2010
# Licence: <your licence>
#-------------------------------------------------------------------------------
#!/usr/bin/env python
import time,urllib2,urllibdef main():
#登录博客园
loginCNblogs()
pass#登录博客园
def loginCNblogs():
try:
#设置 cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
parms
= {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",loginUrl
= "http://passport.cnblogs.com/login.aspx"获取 网页很简单 直接 urllib2.urlopen(url).read() 就可以得到网页源码
这里是抓取登录后的页面,所有开头需要设置cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
设置完 cookie以后 再使用 urllib2.urlopen()方法就可以带上你登录成功的cookie了
此内容由惯性聚合(RSS阅读器)自动聚合整理,仅供阅读参考。 原文来自 — 版权归原作者所有。