正在查看 14 个帖子:1-14 (共 14 个帖子)
  • 作者
    帖子
  • @4031 回复

    云山
    游客

    老师好http://mylib.nlc.cn/web/guest/search/shanbenjiaojuan/medaDataDisplay?metaData.id=6993507&metaData.lId=4225308&IdLib=402834c3409540be0141aa7d72035310这部书有没有获取分页的工具

    @4050 回复

    未曾
    管理员

    国图的资源需要带cookies抓取,所以相对麻烦些。而且频繁抓取容易封IP。我抓取了一份此书的分页url列表、

    你可以批量下载,单页格式为PDF格式
    分页网址txt文件: files.shuge.org/wl/?i...E58sILPRBm

    @4051 回复

    云山
    游客

    非常感谢,已经下载,老师能否简要介绍一下 cookies 抓取的方法

    @4054 回复

    未曾
    管理员

    大致说一下原理

    首先需要找到每册的libId。可以通过正则{libId:\"([0-9a-zA-Z+]+)提取到每册的libId

    然后带入cookies获取每个libId页得到totalPageNum(总页码)和medaDataBatch(分册的URLid)两个参数

    最后循环批量生成分页url

    @4119 回复

    云山
    游客

    老师好,京都大学网站好像早晨重新维护了,老师的工具获取的链接,复制进迅雷,连接不到服务器,下载不了。

    @4120 回复

    未曾
    管理员

    我测试是正常的,获取的网址可以正常打开。

    @4156 回复

    云山
    游客

    我这边获取的网址也能正常打开,只是把这些链接复制到迅雷,就连接不到服务器,idm也是一样。

    @4157 回复

    未曾
    管理员

    我的测试是正常的

    @4158 回复

    云山
    游客

    我这边到这步好像也正常

    @4159 回复

    云山
    游客

    就是出现在最后执行队列的时候,不开始下载

    @4160 回复

    云山
    游客

    迅雷的反应是这样

    @4161 回复

    云山
    游客

    @4162 回复

    云山
    游客

    不过这会idm开始下载了,谢谢老师

    @4174 回复

    燃犀小医童
    游客

    额,我的为何不行。。。

    ok.daoing.com/jddx/index.php

正在查看 14 个帖子:1-14 (共 14 个帖子)
正在查看 14 个帖子:1-14 (共 14 个帖子)
回复至:经典释文
您的信息: