正在查看 14 帖子:1-14 (共 14 个帖子)
  • 作者
    帖子
  • @4031 回复

    云山
    游客

    老师好 mylib.nlc.cn/web/g...7d72035310 这部书有没有获取分页的工具

    @4050 回复

    未曾
    管理员

    国图的资源需要带 cookies 抓取,所以相对麻烦些。而且频繁抓取容易封 IP。我抓取了一份此书的分页 url 列表、

    你可以批量下载,单页格式为 PDF 格式
    分页网址 txt 文件: files.shuge.org/wl/?i...E58sILPRBm

    @4051 回复

    云山
    游客

    非常感谢,已经下载,老师能否简要介绍一下 cookies 抓取的方法

    @4054 回复

    未曾
    管理员

    大致说一下原理

    首先需要找到每册的 libId。可以通过正则 {libId:\"([0-9a-zA-Z+]+) 提取到每册的 libId

    然后带入 cookies 获取每个 libId 页得到 totalPageNum(总页码)和 medaDataBatch(分册的 URLid)两个参数

    最后循环批量生成分页 url

    @4119 回复

    云山
    游客

    老师好,京都大学网站好像早晨重新维护了,老师的工具获取的链接,复制进迅雷,连接不到服务器,下载不了。

    @4120 回复

    未曾
    管理员

    我测试是正常的,获取的网址可以正常打开。

    @4156 回复

    云山
    游客

    我这边获取的网址也能正常打开,只是把这些链接复制到迅雷,就连接不到服务器,idm 也是一样。

    @4157 回复

    未曾
    管理员

    我的测试是正常的

    @4158 回复

    云山
    游客

    我这边到这步好像也正常

    @4159 回复

    云山
    游客

    就是出现在最后执行队列的时候,不开始下载

    @4160 回复

    云山
    游客

    迅雷的反应是这样

    @4161 回复

    云山
    游客

    @4162 回复

    云山
    游客

    不过这会 idm 开始下载了,谢谢老师

    @4174 回复

    燃犀小医童
    游客

    额,我的为何不行。。。

    ok.daoing.com/jddx/index.php

正在查看 14 帖子:1-14 (共 14 个帖子)
正在查看 14 帖子:1-14 (共 14 个帖子)
回复于:经典释文
您的信息: