设为首页收藏本站

安徽论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 10241|回复: 0

Python抓取今日头条街拍图片数据

[复制链接]

76

主题

0

回帖

240

积分

中级会员

Rank: 3Rank: 3

积分
240
发表于 2022-3-26 11:03:25 | 显示全部楼层 |阅读模式
网站内容均来自网络,本站只提供信息平台,如有侵权请联系删除,谢谢!
目录


(1)抓取今日头条街拍图片



(2)分析今日头条街拍图片结构


  1. keyword: 街拍
  2. pd: atlas
  3. dvpf: pc
  4. aid: 4916
  5. page_num: 1
  6. search_json: {"from_search_id":"20220104115420010212192151532E8188","origin_keyword":"街拍","image_keyword":"街拍"}
  7. rawJSON: 1
  8. search_id: 202201041159040101501341671A4749C4
复制代码
  1. 可以找到规律,page_num从1开始累加,其他参数不变
复制代码
(3)按功能不同编写不同方法组织代码

获取网页json格式数据
  1. def get_page(page_num):
  2.     global headers
  3.     headers = {
  4.         'Host': 'so.toutiao.com',
  5.         #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',
  6.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
  7.         'X-Requested-With': 'XMLHttpRequest',
  8.         'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38qTyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'
  9.     }
  10.     params = {
  11.         'keyword': '街拍',
  12.         'pd': 'atlas',
  13.         'dvpf': 'pc',
  14.         'aid': '4916',
  15.         'page_num': page_num,
  16.         'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',
  17.         'rawJSON': 1,
  18.         'search_id': '2021122721183101015104402851E3883D'
  19.     }
  20.     url = 'https://so.toutiao.com/search?' + urlencode(params)
  21.     print(url)
  22.     try:
  23.         response=requests.get(url,headers=headers,params=params)
  24.         if response.status_code == 200:
  25.         #if response.content:
  26.             #print(response.json())
  27.             return response.json()
  28.     except requests.ConnectionError:
  29.         return None
复制代码
从json格式数据提取街拍图片
  1. def get_images(json):
  2.     images = json.get('rawData').get('data')
  3.     for image in images:
  4.         link = image.get('img_url')
  5.         yield link
复制代码
将街拍图片以其md5码命名并保存图片
实现一个保存图片的方法 save_image(),其中 item 就是前面 get_images() 方法返回的一个字典。在该方法中,首先根据 item 的 title 来创建文件夹,然后请求这个图片链接,获取图片的二进制数据,以二进制的形式写入文件。图片的名称可以使用其内容的 MD5 值,这样可以去除重复。相关代码如下:
  1. def save_image(link):
  2.     data = requests.get(link).content
  3.     with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5码作为图片名
  4.         f.write(data)
复制代码
main()调用其他函数
  1. def main(page_num):
  2.     json = get_page(page_num)
  3.     for link in get_images(json):
  4.         #print(link)
  5.         save_image(link)
复制代码
(4)抓取20page今日头条街拍图片数据

这里定义了分页的起始页数和终止页数,分别为 GROUP_START 和 GROUP_END,还利用了多线程的线程池,调用其 map() 方法实现多线程下载。
  1. if __name__ == '__main__':
  2.     GROUP_START = 1
  3.     GROUP_END = 20
  4.     pool = Pool()
  5.     groups = ([x for x in range(GROUP_START, GROUP_END + 1)])
  6.     #print(groups)
  7.     pool.map(main, groups)
  8.     pool.close()
  9.     pool.join()
复制代码
  1. import requestsfrom urllib.parse import urlencodefrom hashlib import md5from multiprocessing.pool import Pooldef get_page(page_num):
  2.     global headers
  3.     headers = {
  4.         'Host': 'so.toutiao.com',
  5.         #'Referer': 'https://so.toutiao.com/search?keyword=%E8%A1%97%E6%8B%8D&pd=atlas&dvpf=pc&aid=4916&page_num=0&search_json={%22from_search_id%22:%22202112272022060101510440283EE83D67%22,%22origin_keyword%22:%22%E8%A1%97%E6%8B%8D%22,%22image_keyword%22:%22%E8%A1%97%E6%8B%8D%22}',
  6.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
  7.         'X-Requested-With': 'XMLHttpRequest',
  8.         'Cookie': 'msToken=S0DFBkZ9hmyLOGYd3_QjhhXgrm38qTyOITnkNb0t_oavfbVxuYV1JZ0tT5hLgswSfmZLFD6c2lONm_5TomUQXVXjen7CIxM2AGwbhHRYKjhg; _S_DPR=1.5; _S_IPAD=0; MONITOR_WEB_ID=7046351002275317255; ttwid=1%7C0YdWalNdIiSpIk3CvvHwV25U8drq3QAj08E8QOApXhs%7C1640607595%7C720e971d353416921df127996ed708931b4ae28a0a8691a5466347697e581ce8; _S_WIN_WH=262_623'
  9.     }
  10.     params = {
  11.         'keyword': '街拍',
  12.         'pd': 'atlas',
  13.         'dvpf': 'pc',
  14.         'aid': '4916',
  15.         'page_num': page_num,
  16.         'search_json': '%7B%22from_search_id%22%3A%22202112272022060101510440283EE83D67%22%2C%22origin_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%2C%22image_keyword%22%3A%22%E8%A1%97%E6%8B%8D%22%7D',
  17.         'rawJSON': 1,
  18.         'search_id': '2021122721183101015104402851E3883D'
  19.     }
  20.     url = 'https://so.toutiao.com/search?' + urlencode(params)
  21.     print(url)
  22.     try:
  23.         response=requests.get(url,headers=headers,params=params)
  24.         if response.status_code == 200:
  25.         #if response.content:
  26.             #print(response.json())
  27.             return response.json()
  28.     except requests.ConnectionError:
  29.         return Nonedef get_images(json):
  30.     images = json.get('rawData').get('data')
  31.     for image in images:
  32.         link = image.get('img_url')
  33.         yield linkdef save_image(link):
  34.     data = requests.get(link).content
  35.     with open(f'./image/{md5(data).hexdigest()}.jpg', 'wb')as f:#使用data的md5码作为图片名
  36.         f.write(data)def main(page_num):
  37.     json = get_page(page_num)
  38.     for link in get_images(json):
  39.         #print(link)
  40.         save_image(link)if __name__ == '__main__':
  41.     GROUP_START = 1
  42.     GROUP_END = 20
  43.     pool = Pool()
  44.     groups = ([x for x in range(GROUP_START, GROUP_END + 1)])
  45.     #print(groups)
  46.     pool.map(main, groups)
  47.     pool.close()
  48.     pool.join()
复制代码

到此这篇关于Python抓取今日头条街拍图片数据的文章就介绍到这了,更多相关Python抓取今日头条图片内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!
                                                        
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
免责声明
1. 本论坛所提供的信息均来自网络,本网站只提供平台服务,所有账号发表的言论与本网站无关。
2. 其他单位或个人在使用、转载或引用本文时,必须事先获得该帖子作者和本人的同意。
3. 本帖部分内容转载自其他媒体,但并不代表本人赞同其观点和对其真实性负责。
4. 如有侵权,请立即联系,本网站将及时删除相关内容。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表