Python抓取网页链接

（1）因项目需要，需要从web中抓取相关的网页。正好想学习一下Python，首先看了一下Python简明教程，内容讲的不多，但是能够使你快速入门，我一直认为实例驱动学习是最有效的办法。所以直接通过实际操作怎么去抓取网页来丰富对Python的学习效果会更好。

Python提供了各种各样的库，使得各种操作变得很方便。这里使用的是Python的urllib2和sgmllib库。为了处理HTML，Python总共提供了三个模块：sgmllib htmllib BeautifulSoup。本文中采用的是sgmllib，但是通过查找相关资料发现BeautifulSoup是最好的，能够处理较差的HTML。所以后面还要接着学习BeautifulSoup。

（2）脚本代码

class LinksParser(sgmllib.SGMLParser):
 urls = []
 def do_a(self, attrs):
  for name, value in attrs:
   if name == 'href' and value not in self.urls:
    if value.startswith('http'):
      self.urls.append(value)
      print value
    else:
     continue
    return

p =  LinksParser()
f = urllib2.urlopen('http://www.baidu.com')
#f = urllib2.urlopen('https://www.googlestable.com/search?hl=zh-CN&site=&source=hp&q=%E9%BB%84%E6%B8%A4++%E6%B3%B0%E5%9B%A7&btnK=Google+%E6%90%9C%E7%B4%A)
p.feed(f.read())
for url in p.urls:
  print url
f.close()
p.close()

作者：cscmaker 发表于2013-3-28 10:39:40 原文链接

阅读：31 评论：0 查看评论

Python抓取网页链接

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本