正在查看 19 个帖子:1-19 (共 19 个帖子)
  • 作者
    帖子
  • @86042 回复 ⚑举报 

    dxx
    游客

    找到图片iiif链接xxxxx/manifest.json,在浏览器用dezoomify.html下载,因为太大,等了2小时才拼好,但另存为时又要等待,等待时,可能因为内存不够了,浏览器崩溃,白忙。用IIIF下载器,没有任何提示进度,也不知道是否在下载。

    如何解决?拼图好了,在另存为之前,如何在电脑里找到?或者cmd如何调用dezoomify.exe下载xxxxx/manifest.json?

    谢谢!

    @86048 回复 ⚑举报 

    未曾
    管理员

    为什么一直不用dezoomify-rs

    github.com/lovas...zoomify-rs

    @86050 回复 ⚑举报 

    dxx
    游客

    一直用cmd调用dezoomify-rs 2.9.2.exe下载,一楼省略了“-rs”。但cmd调用dezoomify-rs.exe下载manifest.json,是一大堆英文提示,反正下载不了。json改为dzi也不行。Snipaste_2023-03-18_12-59-40

    @86051 回复 ⚑举报 

    未曾
    管理员

    @dxx #86050

    他(dezoomify-rs.)那个识别manifest.json包含的单图的json信息可能有误,建议代入使用单独的图片json,格式如

    https://emuseum.nich.go.jp/iiif/?IIIF=/100141001004.tif/info.json

    它的自动识别的多包含了full/full/0/default.jpg/

    @86057 回复 ⚑举报 

    dxx
    游客

    @未曾 #86051

    膜拜大神!问下,是在100141001字符串后一律加004变成100141001004吗?

    @86060 回复 ⚑举报 

    未曾
    管理员

    @dxx #86057

    不是的,你可以从那个manifest.json 信息
    2023-03-18_141301

    看到其内包含的图片信息

    @86076 回复 ⚑举报 

    Ru_Evan
    游客

    你要下载哪个嘛?我给你搞一搞。。

    @86091 回复 ⚑举报 

    dxx
    游客

    @Ru_Evan #86076

    谢谢你好人。这个东京的我能连上网,群主指点了,就不麻烦他人了。你能连接台北故宫博物院吗,说不定劳驾帮忙下一点

    @86108 回复 ⚑举报 

    Ru_Evan
    游客

    @dxx #86091

    台北故宫、北京故宫、大都会、克利夫兰等等200多家博物馆,我都下载全部图像了。。

    @86109 回复 ⚑举报 

    崇鹂
    游客

    @Ru_Evan #86108

    空间多大,要不要10T?

    @86113 回复 ⚑举报 

    Ru_Evan
    游客

    @崇鹂 #86109

    我下载的基本都是JPG图像,所有资料一个18TB硬盘装不下,,若是中国文物资料的话,大约4TB多一点,,另外还有图书馆(国会图书馆等几家)也有几个TB,,不过我这资料是收费的(微博同名),都是博物馆藏文物资料,,你们喜欢下载书籍的话,我这儿不多。。

    @86115 回复 ⚑举报 

    崇鹂
    游客

    @Ru_Evan #86113

    如果是书籍之外,真是浩瀚如海啊。能够把海外博物馆的器物图搜集整理回来,本身就功劳很大

    @86117 回复 ⚑举报 

    Ru_Evan
    游客

    @崇鹂 #86115

    其实图书馆书籍远比博物馆文物资料容易下载,,大多数图书馆大概1-2小时,最多半天就可以把所有书籍资料图像链接做成bat文件批量下载(若是IIIF平台就更容易),而博物馆就没这么容易了,有些要两三天才能搞定,文本、图像下载整合后还要分门别类,这个最花时间。。

    @86118 回复 ⚑举报 

    崇鹂
    游客

    @Ru_Evan #86117

    图书也只是盯着一些善本,等他放出来......但器物类的真是工程,都没人做过,哈哈,想想都要吐血。

    我上次看哈佛艺术博物,有的图片就是当年从敦煌那扒下来的原壁,现在敦煌莫高窟那些位置都是空白的,我以前还以为是年久风化自己剥落去了。像这些重要器物图,都少有人提及,而且外国博物馆对中国器物类的标注展示并不是很完美,乱得很。我当时搞了一下午,主要也是脑力活动的识别判断分类,管中窥豹,深有同感。

    @86121 回复 ⚑举报 

    小白
    游客

    @Ru_Evan #86117

    您好!大神,請教如何把圖書舘所有書籍資料圖像鏈接做成bat文件批量下載,比如下載哈佛圖像,應該怎麼操作成bat呀?謝謝!

    @87476 回复 ⚑举报 

    fanyan1026
    游客

    批量获取info.json文件 然后使用dezoomify-rs.exe批量下载

    大致过程如下(以某北故宫为列):

    对应类别的网址:https://digitalarchive.npm.gov.tw/List/Index?mode1=%E5%93%81%E5%90%8D%E6%AA%A2%E7%B4%A2&Page=0&PageSize=10&CurrentPage=0&IsQueryTotal=False&IsQueryBronze=False&IsQueryCeramics=False&IsQueryJade=False&IsQueryEnamel=False&IsQuerySculpture=False&IsQueryLacquerware=False&IsQueryCoin=False&IsQueryStationery=False&IsQueryMiscellaneous=False&IsQueryFabric=False&IsQuerySilkEmbroidery=True&IsQueryPainting=False&IsQueryBook=False&IsQueryPost=False&IsQueryRubbing=False&IsQueryFan=False&IsQueryRareBook=False&IsQueryDocument=False&IsQueryOther=False&Image100=False&Image600=False&flag=0&UDESC=False&UASC=True&DDESC=False&DASC=False&TDESC=False&TASC=False&ADESC=False&AASC=False

    其中的Page=0&PageSize=10可以改成Page=0&PageSize=最大的数字(一次性显示所有这个类别的作品)不然网站采集器需要设置翻页

    然后使用采集器就可以采集如下的地址:https://digitalarchive.npm.gov.tw/Painting/Content?pid=13668&Dept=P

    然后批量改成 iiiff地址是:https://digitalarchive.npm.gov.tw/Painting/IIIFViewer?pid=13667&Dept=P

    然后在采集器用iiiff地址批量采集info.json地址,采集到的是如:https://iiifod.npm.gov.tw/iiif/2/K2C/K2C000001N000000000PAD最后批量+后缀:/info.json

    有些采集器采集不了的可以把Content?改成setJson?,然后用采集器采集,"service":{"@id":"https://iiifod.npm.gov.tw/iiif/2/K2C%2FK2C000001N000000000PAC","字段里的内容

    最后也能得到地址

    我使用的采集器是爬山虎 但是数据导出每天只能1000,操作比较简单有单独的json分析 可以直接得到地址

    还有一个是是八爪鱼,就需要通过自己自定义字段采集,而且自定义之后还需要分析才能解析,多测试几次把,刚开始 我死活获取不了,预览中都获取了,任务的时候就是获取不了!

    还有其他的采集器 预览的时候可以采集,到任务开始采集的时候就不行,一般都是要代理(需要专业版或者vip才可以使用)

    八爪鱼我采集到1400+ 爬山虎我采集到1600+ 中间都看见有错误的 估计都有没采集到的

    然后几个注意点

    dezoomify-rs.exe批量代码

    @echo off
    set http_proxy=代理地址
    set https_proxy=代理地址
    setlocal enabledelayedexpansion
    set /a a=1
    set downdir="download"
    if not exist %downdir% md %downdir%
    for /f "delims=" %%i in (urls.txt) do (
    dezoomify-rs -l -r 30 --accept-invalid-certs -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36" %%i %downdir%/!a!.jpg
    set /a a+=1
    )
    pause

    用管理员的代码修改了一下 可以正常下载

    代理软件中没有地址的可以在打开网站之后f12看网站的远程地址 就是代理地址

    urls.txt的编码utf8  utf32是不行的

     

     

    @87479 回复 ⚑举报 

    fanyan1026
    游客

    @未曾

    @87482 回复 ⚑举报 

    dxx
    游客

    @fanyan1026 #87476

    请教,cmd用dezoomify-rs.exe批量下载时,如何用浏览器的代理?不是全局连接国际互联网,我只能浏览器本身连接国际互联网。

    @87497 回复 ⚑举报 

    fanyan1026
    游客

    @dxx #87482

    打开目标网页,然后f12,然后f5刷新一下 远程地址就是你的代理地址,有些代理软件上有代理地址,有些没有,没有的就用这个方法就行

    微信图片_20230329143836

正在查看 19 个帖子:1-19 (共 19 个帖子)
正在查看 19 个帖子:1-19 (共 19 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:请教如何用cmd下载manifest.json图片?
您的信息:



发帖/回帖前,请了解相关版规

1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。