Posts tagged with 爬虫


解析出直链后通过调用wget进行下载 源代码 社区上次的活动视频被发到了蓝奏云上 上去看了下发现被分卷压缩分成了100多个文件:( 还好这个网盘不限速 为了方便只能用python批量下载了 蓝奏网站官网 网盘分享链接 抓包分析 获取各个文件地址 打开f12 调试工具 提交一次 可以看到密码是pwd变量 通过查看response 可以看到 文件下载地址与文件名字以json方式返回 查看源代码发现各项参数被写的整整齐齐。。。。。。。。。 接下来可以用正则表达式 抓取变量 用request模拟post一下 获得返回的json表 对json用正则解析可以得到名字和链接的对应关系 pg控制文件显示的页数 每一页最多显示50个链接 line=re.compile("\"id\":\"(.*?)\""…