请选择 进入手机版 | 继续访问电脑版
在线投稿 文字标题 文字标题 文字标题 文字标题 文字标题
切换皮肤
Python 爬虫28:获取学习网站技术文章
这一期抓取 Python 开发者社区 高级教程的技术文章
目标网址 : http://www.pythontab.com/html/pythonhexinbiancheng/
代码如下

  1. #coding=utf-8
  2. from bs4 import BeautifulSoup
  3. import urllib2
  4. url = 'http://www.pythontab.com/html/pythonhexinbiancheng/index.html'
  5. url_list = [url]
  6. for i in range(2,20):
  7.     url_list.append('http://www.pythontab.com/html/pythonhexinbiancheng/%s.html'%i)
  8. source_list = []
  9. for j in url_list:
  10.     header = {"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:48.0) Gecko/20100101 Firefox/48.0"}
  11.     request = urllib2.Request(url=j, headers=header)
  12.     response = urllib2.urlopen(request)
  13.     html = response.read()
  14.     suop = BeautifulSoup(html,'lxml')
  15.     titles = suop.select('#catlist > li > a')
  16.     links = suop.select('#catlist > li > a')
  17.     for title, link in zip(titles, links):
  18.         data = {
  19.             "title" : title.get_text(),
  20.             "link" : link.get('href')
  21.         }
  22.         source_list.append(data)
  23.     for l in source_list:
  24.         request = urllib2.Request(l['link'],headers=header)
  25.         response = urllib2.urlopen(request)
  26.         html = response.read()
  27.         suop = BeautifulSoup(html,'lxml')
  28.         text_p = suop.select('#Article > div.content > p')
  29.         text = []
  30.         print(text_p)
  31.         for t in text_p:
  32.             text.append(t.get_text().encode('utf-8'))
  33.         title_text  = l['title']
  34.         title_text = title_text.replace('*','').replace('/','or').replace('"',' ').replace('?','wenhao').replace(':',' ')
  35.         path = 'yourfile' + '\\' + title_text+'.txt'
  36.         with open(path, 'wb') as f:
  37.             for a in text:
  38.                 f.write(a)
复制代码
最终效果
微信图片_20200411190041.jpg



回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 立即注册

    本版积分规则


    Archiver|手机版|小黑屋|齐聚无忧 |网站地图

    Powered by Discuz! X3.4  © 2001-2013 Comsenz Inc.