正在查看 14 个帖子:1-14 (共 14 个帖子)
  • 作者
    帖子
  • @4031 回复 ⚑举报 

    云山
    游客

    老师好http://mylib.nlc.cn/web/guest/search/shanbenjiaojuan/medaDataDisplay?metaData.id=6993507&metaData.lId=4225308&IdLib=402834c3409540be0141aa7d72035310这部书有没有获取分页的工具

    @4050 回复 ⚑举报 

    未曾
    管理员

    国图的资源需要带cookies抓取,所以相对麻烦些。而且频繁抓取容易封IP。我抓取了一份此书的分页url列表、

    你可以批量下载,单页格式为PDF格式
    分页网址txt文件: files.shuge.org/wl/?i...E58sILPRBm

    @4051 回复 ⚑举报 

    云山
    游客

    非常感谢,已经下载,老师能否简要介绍一下 cookies 抓取的方法

    @4054 回复 ⚑举报 

    未曾
    管理员

    大致说一下原理

    首先需要找到每册的libId。可以通过正则{libId:\"([0-9a-zA-Z+]+)提取到每册的libId

    然后带入cookies获取每个libId页得到totalPageNum(总页码)和medaDataBatch(分册的URLid)两个参数

    最后循环批量生成分页url

    @4119 回复 ⚑举报 

    云山
    游客

    老师好,京都大学网站好像早晨重新维护了,老师的工具获取的链接,复制进迅雷,连接不到服务器,下载不了。

    @4120 回复 ⚑举报 

    未曾
    管理员

    我测试是正常的,获取的网址可以正常打开。

    @4156 回复 ⚑举报 

    云山
    游客

    我这边获取的网址也能正常打开,只是把这些链接复制到迅雷,就连接不到服务器,idm也是一样。

    @4157 回复 ⚑举报 

    未曾
    管理员

    我的测试是正常的

    @4158 回复 ⚑举报 

    云山
    游客

    我这边到这步好像也正常

    @4159 回复 ⚑举报 

    云山
    游客

    就是出现在最后执行队列的时候,不开始下载

    @4160 回复 ⚑举报 

    云山
    游客

    迅雷的反应是这样

    @4161 回复 ⚑举报 

    云山
    游客

    @4162 回复 ⚑举报 

    云山
    游客

    不过这会idm开始下载了,谢谢老师

    @4174 回复 ⚑举报 

    燃犀小医童
    游客

    额,我的为何不行。。。

    ok.daoing.com/jddx/index.php

正在查看 14 个帖子:1-14 (共 14 个帖子)
正在查看 14 个帖子:1-14 (共 14 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:回复 #4051 于 经典释文
您的信息:



发帖/回帖前,请了解相关版规

1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。