正在查看 9 个帖子:1-9 (共 9 个帖子)
  • 作者
    帖子
  • @10053 回复 ⚑举报 

    陈经
    游客

    未曾先生,您好

    按照您的方法: ok.daoing.com/mggh/index.php

    下载美国国会图书馆的数字古籍,

    由于该套书(https://www.loc.gov/item/00510373/)有一百多册,所有页面下载在同一个文件夹,页码一片混乱。

    请问有什么好办法各册下载后被分开在不同文件夹吗?谢谢

    @10055 回复 ⚑举报 

    未曾
    管理员

    @陈经 #10053

    这个没有太好的办法,我自己使用的是linux命令行逐行下载后按行号命名

    如果使用下载软件的话,我以前提过,使用单次一个下载任务(可以多线程),IDM大概如图

    最后按照文件生成时间重命名。

    @10061 回复 ⚑举报 

    陈经
    游客

    谢谢您的非常快速的回复,感恩!

    为了提供下载速度,我给迅雷充值了一年的白金会员。使用的是迅雷批量下载。速度倒是不错。

    可惜就后期整理、分册太耗时间了。郁闷~

    使用IDM,却下载不了,说已存在的链接被远方主机强行关闭!

    @10062 回复 ⚑举报 

    未曾
    管理员

    @陈经 #10061

    如果在国内下载,因为国会图书馆默认使用了CloudFlare的CDN会导致下载失败,建议勾选:不使用CDN链接(仅对JP2及TIF链接有效)

    @10063 回复 ⚑举报 

    未曾
    管理员

    其实美国国会图书馆的书,很多自己拍摄的图片顺序本身就有错乱(部分书籍)

    @10064 回复 ⚑举报 

    洞庭君
    游客

    分组下载,批量编号,重新组合,转成PDF,费点时间,好书来之不易。

    @11245 回复 ⚑举报 

    问书
    游客

    美国国会图书馆的书很多本身就次序混乱,但一般都是下一册的首页跑到上一册去了。估计是整理的人不懂中文造成的。我一般是手动调整,比较费时。

    下载的时候,可以用wsl写个脚本,下载时自动根据链接次序加上编号,这样就次序不乱了。请参考:

    #!/bin/bash
    name=1
    while read line
    do
        wget -O $(printf "%06d" $name)_${line##*/} -nc -w 8 --random-wait -T 15 $line
        let name+=1
    done < url.txt

    url.txt是保存的链接文件。

    另外,有些书卷数比较多,页面链接经常生成不完整,比如9000多页的资治通鉴,不能获取完整的页面链接。未曾先生可否解决这个问题呢?

     

    @11247 回复 ⚑举报 

    未曾
    管理员

    @问书 #11245

    9690页应该是完整的页数吧。有时连续读取的页面太多,可能有网络问题,多试几次就好了

    如果你说的是这个:資治通鑑 : 二百九十四卷, 附釋文辯誤十二卷
    www.loc.gov/item/2014514219/

    一直无法获取的话。可以下载我获取的JP2URL.TXT
    shuge.cowtransfer.com/s/e266ef588e8d40

    如果需要tif,替换JP2URL.TXT中链接的.jp2为.tif

    @11248 回复 ⚑举报 

    问书
    游客

    多谢,现在能获取完整了!

正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:回复 #11245 于 下载了美国国会图书馆的图书,但是各册页面顺序全叠乱了。怎么办?
您的信息:



发帖/回帖前,请了解相关版规

1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。