正在查看 24 个帖子:1-24 (共 24 个帖子)
  • 作者
    帖子
  • @45603 回复 ⚑举报 

    空层
    游客

    来源:南巡盛典 : 一百二十卷 / 高晉 ... [et al.] 纂輯., Nan xun sheng dian : yi bai er shi juan / Gao Jin ... [et al.] zuan ji. - Digital PUL (princeton.edu)

    此卷有58副图(提供下载只是需要一个一个点击)。打开F12,然后每幅图都浏览一次就会得到右边的这些JSON文件,JSON里的下载链接没有规律没办法批量生成网址,需要一个一个点开再复制稍微有点繁琐,想咨询下各位老师有没有批量采集JSON文件里的某个网址的浏览器插件或者软件,然后再配合未曾老师的批量下载脚本,可以节约大量时间。

    @45604 回复 ⚑举报 

    xiaopengyou
    游客

    用bookgetj就可以下載吧,分辨率是8322*7330

    @45606 回复 ⚑举报 

    xiaopengyou
    游客

    @xiaopengyou #45604

    不好意思多打了j, 是bookget下載神器

    @45610 回复 ⚑举报 

    空层
    游客

    @xiaopengyou #45604

    感谢回复,我的想法是如果找到这种批量提取网址软件的话,bookget没有收录的网站也可以比较方便的批量下载了。

    @45611 回复 ⚑举报 

    xiaopengyou
    游客

    @空层 #45610

    未曾先生也提供過一個IIIF的下載器,但沒試過這書能不能在這個下載器用,或供參考

    ok.daoing.com/iiif/

    @45621 回复 ⚑举报 

    zhudw
    游客

    @空层 #45610

    @xiaopengyou #45611

    因为 xiaopengyou 这位朋友太热心了,我也跟个帖。

    LZ要做到真正意义上的【通用】,只有靠勤劳的双手,自己学编程,自己根据不同的网站写程序。如果你愿意走这条路,可以学一下python或者javascript,基本上学一个月可以满足需求。

    常规IIIF网站,只要你能找到manifest.json网址,就可以用bookget生成批处理,然后用批处理运行dezoomify-rs就可以下载,也不用手动一个一个复制URL。(具体做法参见bookget手册)

    但是普林斯顿大学东亚图书馆,它是变异IIIF网站,它的manifest不是标准的。你看到info.json的时候,已经是通过几次的网络请求,才能看到一个URL。

    因此在这个意义上,就不存在通用的工具。除非你是针对它而编写的。

     

     

    @45622 回复 ⚑举报 

    空层
    游客

    @zhudw #45621

    感谢您的意见,确实是不懂编程的,所以问的问题也很外行,找URL也是看未曾老师和各位大佬给出的教程才学会。

    抽时间研究去学习一下python。

    @45623 回复 ⚑举报 

    空层
    游客

    @xiaopengyou #45611

    再次感谢!

    @45626 回复 ⚑举报 

    xiaopengyou
    游客

    @zhudw #45621

    還是得專業的高人解答,個人只是舉手之勞,把  先生及 未曾先生無償分享過的下載工具提一提,方便來書格平台的朋友使用吧了,專業的程序語言與技術,電腦小白如我也實在不懂哈。

    @45627 回复 ⚑举报 

    未曾
    管理员

    我觉得了解一下正则表达式

    或可使用EmEditor的正则提取功能

    @45629 回复 ⚑举报 

    zhudw
    游客

    @空层 #45603

    不好意思,刚才我测试了一下。你发的这个图书,可以用bookget生成批处理脚本。

    1、找到 manifest(例如普林斯顿在浏览器开发者工具中,能看到三个含有manifest的网址,你用最后一个manifest)

    figgy.princeton.edu/conce...d/manifest

    2、粘贴到urls.txt中

    3、修改config.ini文件,设置AutoDetect = 2,保存

    4、运行bookget,会得到下载的图片,和dezoomify-rs.urls(二选一,可以用任意一种方式下载)。

    (其它的IIIF网站,也参考这种方法。你要学的是找到正确的 manifest。)

     

    @45631 回复 ⚑举报 

    xiaopengyou
    游客

    @zhudw #45629

    請教高人

    同樣下這本書,改成用dezoomify-rs.urls下載並沒有比直接用bookget下載快啊,而且下載後圖片分辨率還是一樣的。

    是否這個方法是用在bookget沒收錄的圖書館但有iiif標記的下載?

    @45632 回复 ⚑举报 

    xiaopengyou
    游客

    @xiaopengyou #45631

    而且比較一下,用dezoomify-rs.urls下載圖片的大小,比直接用bookget下載圖片的大小,大了近一倍

    @45634 回复 ⚑举报 

    zhudw
    游客

    @xiaopengyou #45631

    这是JPEG, quality: 80的导致的,一般图书馆提供的都是JPG品质80或90的图片,如果需要品质100的图,是要用dezoomify-rs.urls脚本,以拼图的方式下载的。

    是的,bookget没有收录的图书馆,只要它是标准IIIF的,都可以用这种方式下载。

    @45635 回复 ⚑举报 

    xiaopengyou
    游客

    @zhudw #45634

    了解了,非常感謝!

    @45640 回复 ⚑举报 

    空层
    游客

    @未曾 #45627

    感谢未曾老师提醒。

    @zhudw #45634

    首先感谢您辛苦了。

    按您的方法 打开bookget后闪退,只生成一个Downloads空文件夹。不知道是什么原因。

    @45642 回复 ⚑举报 

    zhudw
    游客

    @空层 #45640

    可以按以下思路检查原因:

    1、或许是找的manifest 不对,可以用前文我帖出来的试试。

    2、不论是修改 urls.txt、或是修改config.ini都需要保存文件。

    3、确保你用的是最后一个版本bookget v0.2.4(可以从原帖下载)

     

     

    @45643 回复 ⚑举报 

    空层
    游客

    @zhudw #45642

    可以了,是因为config.ini修改后没有保存。拜谢!

    @45681 回复 ⚑举报 

    恩县布衣
    游客

    这部书未曾先生在书格发布过

    @45711 回复 ⚑举报 

    fans
    游客

    @zhudw #45634

    请问:如果将jpg换成png, 文件会增加较大,图片的质量是进一步提高了? 还是与jpg格式的文件一样? 还是根据不同网站实际提供的文件类型有关系?如提供的是jpg格式的,那么好像就无所谓了,如提供的是PNG格式的是不是就有意义了?谢谢解答

    @45726 回复 ⚑举报 

    tigershuai
    游客

    @fans #45711

    这要看网站提供的原图是什么格式,如果原图就是jpg格式,那无论转成什么格式,图片质量也不会有实质改变。

    @45752 回复 ⚑举报 

    zhudw
    游客

    @fans #45711

    图片格式转换不能提升画质,文件的大小取决于压缩算法,所以不是越大越清晰。

    我只收jp2/jpg图书,当然也有人喜欢收png。供参考。

    @55627 回复 ⚑举报 

    He220803C
    游客

    @未曾 #45627

    您好!未曾先生,如果不同的提取内容,应该怎样编写正则表达式,請先生赐教,谢谢!

    @86792 回复 ⚑举报 

    fan1026
    游客

    确实很难,台北故宫的地址有些细节图多的还不是连续的比如0000000.json~0000030.json一共31个图片信息,复制地址时候只要修改后面的数字就行,结果有些作品是跳字母的,中间会少一个,这样用排列就会少下载2个图片!会py的话,估计只要用插件版的dezoomfy源码中能获取info网址的那一段写个py爬一下就行了!大体过程应该是打开网站图片的iiif模式的地址,然后get到info网址(id)

正在查看 24 个帖子:1-24 (共 24 个帖子)
正在查看 24 个帖子:1-24 (共 24 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:有没有批量采集JSON文件里网址的浏览器插件
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。