经典释文

正在查看 14 个帖子：1-14 (共 14 个帖子)

作者
帖子
2019年12月20日 15:42 @4031 回复 ⚑举报　

云山
游客
老师好http://mylib.nlc.cn/web/guest/search/shanbenjiaojuan/medaDataDisplay?metaData.id=6993507&metaData.lId=4225308&IdLib=402834c3409540be0141aa7d72035310这部书有没有获取分页的工具
2019年12月20日 22:00 @4050 回复 ⚑举报　

未曾
管理员
国图的资源需要带cookies抓取，所以相对麻烦些。而且频繁抓取容易封IP。我抓取了一份此书的分页url列表、
你可以批量下载，单页格式为PDF格式
分页网址txt文件： files.shuge.org/wl/?i...E58sILPRBm
2019年12月20日 23:09 @4051 回复 ⚑举报　

云山
游客
非常感谢，已经下载，老师能否简要介绍一下 cookies 抓取的方法
2019年12月21日 14:03 @4054 回复 ⚑举报　

未曾
管理员
大致说一下原理
首先需要找到每册的libId。可以通过正则{libId:\"([0-9a-zA-Z+]+)提取到每册的libId
然后带入cookies获取每个libId页得到totalPageNum（总页码）和medaDataBatch（分册的URLid）两个参数
最后循环批量生成分页url
2019年12月25日 23:49 @4119 回复 ⚑举报　

云山
游客
老师好，京都大学网站好像早晨重新维护了，老师的工具获取的链接，复制进迅雷，连接不到服务器，下载不了。
2019年12月26日 09:49 @4120 回复 ⚑举报　

未曾
管理员
我测试是正常的，获取的网址可以正常打开。
2019年12月26日 20:28 @4156 回复 ⚑举报　

云山
游客
我这边获取的网址也能正常打开，只是把这些链接复制到迅雷，就连接不到服务器，idm也是一样。
2019年12月26日 21:08 @4157 回复 ⚑举报　

未曾
管理员
我的测试是正常的
2019年12月26日 21:35 @4158 回复 ⚑举报　

云山
游客
我这边到这步好像也正常
2019年12月26日 21:36 @4159 回复 ⚑举报　

云山
游客
就是出现在最后执行队列的时候，不开始下载
2019年12月26日 21:38 @4160 回复 ⚑举报　

云山
游客
迅雷的反应是这样
2019年12月26日 21:39 @4161 回复 ⚑举报　

云山
游客
2019年12月26日 21:42 @4162 回复 ⚑举报　

云山
游客
不过这会idm开始下载了，谢谢老师
2019年12月27日 00:03 @4174 回复 ⚑举报　

燃犀小医童
游客
额，我的为何不行。。。
ok.daoing.com/jddx/index.php
作者
帖子

正在查看 14 个帖子：1-14 (共 14 个帖子)

正在查看 14 个帖子：1-14 (共 14 个帖子)