正在查看 44 个帖子:1-44 (共 44 个帖子)
  • 作者
    帖子
  • @35323 回复 ⚑举报 

    正音悉达
    游客

    台故有些资源是有高清IIIF可以查看的,但是用dezoomify-rs近期总是报错。

    我用的命令行是

    dezoomify-rs -l -H "Referer:https://digitalarchive.npm.gov.tw/Painting/Content?pid=155&Dept=P" --max-idle-per-host 3 --retries 20 --retry-delay 2s --timeout 20s --connect-timeout 20s https://iiifod2.npm.gov.tw/iiif/2/K2A%2FK2A001269N000000004PAA/info.json

    其中资源页面的地址是:https://digitalarchive.npm.gov.tw/Painting/Content?pid=155&Dept=P

    IIIF资源通过dezoomify嗅探到的地址是https://iiifod2.npm.gov.tw/iiif/2/K2A%2FK2A001269N000000004PAA/info.json

    报错有两种:

    一种是红色的,直接报错无法探寻到资源。

    一种是下载到10到20个碎片后,服务器拒绝访问。

     

    有以下心得:

    1、 用台湾的IP,能够更容易抓取到完整的资源,但是也完全凭运气。美国的IP有些也可以。

    2、 凌晨三点多到六点的时间是最容易的,但是也不是天天都可以。有的时候可以很顺利地抓取。

     

    想问问各位朋友及@未曾 先生,针对台故,dezoomify-rs是否有其他更好的参数?针对IIIF资源,有没有更好的取得办法?

    @35341 回复 ⚑举报 

    未曾
    管理员

    他们服务器不稳定,所以方法不是主要原因。看运气吧~

    @35382 回复 ⚑举报 

    正音悉达
    游客

    @未曾 #35341

    好的,谢谢未曾先生答疑

    @35524 回复 ⚑举报 

    正音悉达
    游客

    最近成功抓取了一批材料,说一下心得体会。希望给有同样需求的朋友一些帮助。

    1、确认是台故的服务器有一个“熔断”机制,就是某一件藏品,如果在一定时间内被请求多次,服务器就会熔断,有的时候只是拒绝这一件藏品,所以这个时候换一个藏品请求就可以了,但是有的时候是整个服务器拒绝访问,那不管是换IP还是换藏品都没有用。

    2、所以如果使用dezoomify-rs的命令行,要在前面加一个延时指令,我目前测定的是最好放到300秒,如果是凌晨这样的冷淡时间也可以放到150。命令如下

    #:  TIMEOUT -T 300 & dezoomify-rs -l ~~~

    3、https://dezoomify.ophir.dev/这个网页如果能够掌握节奏,也非常好用,这几天我抓了大概300多张图片,基本上是通过按键精灵脚本加这个网页获取的。虽然慢好在稳定。

     

    简而言之就是要耐心,下载完一张图片等待五分钟再下下一张,这样基本上不需要更换IP,也不会被ban。

     

    PS. 台故的藏品编号和IIIF地址是非常有趣的,有一些显而易见的规律,如果仔细研究加之一定的推敲,是可以取得一些并未公布的资源的。

    @35531 回复 ⚑举报 

    未曾
    管理员

    @正音悉达 #35524

    感谢先生分享实战经验

    @35676 回复 ⚑举报 

    limin
    游客

    @正音悉达 #35323

    digitalarchive.npm.gov.tw/Antiq...038;Dept=U

    您好這個能幫我拼一下麽,我折騰半天就是沒弄出來,感謝。

    @35729 回复 ⚑举报 

    正音悉达
    游客

    链接:https://pan.baidu.com/s/1Ao1bLTzUfNKNk4tQcriDKQ
    提取码:15me

    @limin #35676

     

    @35758 回复 ⚑举报 

    limin
    游客

    @正音悉达 #35729

    非常感謝,方便加個微信。向您學習如何快速拼臺故的圖。

    微信號:gongyugudao

    376480499@qq.com

    @35760 回复 ⚑举报 

    limin
    游客

    digitalarchive.npm.gov.tw/Antiq...38;Dept=U#

    您好這個如何探寻到资源到資源?請求幫助。

    @35769 回复 ⚑举报 

    正音悉达
    游客

    @limin #35760

    这种不带IIIF标志的,大概率是没有高清的图。

    有的通过推导馆藏ID号的规律,可以试着碰碰运气能不能抓取到,有些极个别情况是IIIF服务器里有高清的图,但是web网页上不会展示、

    你发的这个没有

    @35788 回复 ⚑举报 

    兰亭幽梦
    游客

    台北故宫放出的图已足够多,画类已放的差不多了,书法放的少,特别是手札,

    @35803 回复 ⚑举报 

    limin
    游客

    @正音悉达 #35769

    感謝您的回復。敬意

    @35865 回复 ⚑举报 

    老刘飞天
    游客

    @正音悉达 #35729

    请问故宫的名画记还能拼图吗?一直想下下面两幅图。可否帮忙下载分享?谢谢!

    minghuaji.dpm.org.cn/paint...a6e780f07a

    minghuaji.dpm.org.cn/paint...06c5593d81

    @37018 回复 ⚑举报 

    muren
    游客

    亲测有效:

    1.挂台湾代理

    2.用IIIF Viewer打开图片网页,放大图片,并用F12或开发者模式检查图片碎片的地址,择任意碎片复制地址。

    3.复制碎片到https://dezoomify.ophir.dev/,解析之。

    @39335 回复 ⚑举报 

    蓝色吉他手
    游客
    @39336 回复 ⚑举报 

    蓝色吉他手
    游客

    @muren #37018

    求微信谢谢!!!

    @39345 回复 ⚑举报 

    dxx
    游客

    @正音悉达 #35769

    请教名画记这2个图如何下?感谢!

    minghuaji.dpm.org.cn/paint...7d780ce30f

    minghuaji.dpm.org.cn/paint...5d18d8c4d0

    @39351 回复 ⚑举报 

    正音悉达
    游客

    @dxx #39345

    北京故宫的名画记经过特殊的加密,所以不知道应该如何下载,请见谅

     

    @39353 回复 ⚑举报 

    dxx
    游客

    @正音悉达 #39351

    谢谢你!

    @39368 回复 ⚑举报 

    我来了
    游客

    请问未曾先生,比较大的图片dezoomify加载完成之后,在另存为的时候,到这谷歌浏览器闪退,这个问题有办法解决吗?感谢,感谢😁

    @39369 回复 ⚑举报 

    我来了
    游客

    @未曾

    @39370 回复 ⚑举报 

    我来了
    游客

    就是说一个图片尺寸比较大,在网页上完整显示之后,接下来我要做的就是图片另存为或者用复制的办法粘贴到ps里面,这时候就会跳出一个窗口,提示出错,然后整个浏览器就会闪退,再次牵动浏览器的时候,它会问是否恢复上次没有正常关闭的网页?然后导致这个图片保存失败,尝试了多次都没有解决,请问未曾先生,可有办法。👍 👍 👍 👍

    @41145 回复 ⚑举报 

    fans
    游客

    @正音悉达 #35769

    查看了您的贴子,试了文本界面的下载,linux下用dezoomify-rs, 可以组合但文件下完后黑色一片,无法查看,dos下白天没有一次成功过,但用网页的模式,却有收获,但几天日夜兼程,也仅仅下到几套院本套图(5、60张图),效率极低,并且还得熬夜,能否提示一下,我的邮箱:pzh2k2k@163.com,谢谢!

    @41147 回复 ⚑举报 

    镜像之美
    游客

    @muren #37018

    大侠,能给个台湾代理吗?谢谢!

    @41153 回复 ⚑举报 

    侬语
    游客

    @未曾 #35341

    未曾兄,中午好!我昨天鼓弄了一天,一直是没有找到对的方法,没办法只能是有求于您了!

    李公麟维摩演教图卷(传)

    en.dpm.org.cn/dyx.h...mg0004.xml

     

     

     

    @41419 回复 ⚑举报 

    聿青
    游客

    @正音悉达 #39351     萬分感謝您的分享!!!

    @42625 回复 ⚑举报 

    fans
    游客

    @正音悉达 #35769

    你好正音悉达,按照上面的提示的命令无法成功下载,能否提示一下现在可以成功下载的在Linux环境下或dos下的dezoomify-rs 的命令行,谢谢!

    @42652 回复 ⚑举报 

    张飞白
    游客

    @侬语 #41153

    链接:https://pan.baidu.com/s/1yQNfVo85h7zKUb-Ncrj5Kw
    提取码:xtx5
    --来自百度网盘超级会员V5的分享

    请查收。

    @42656 回复 ⚑举报 

    fans
    游客

    所有从网页获取的分段图片的分辨率都是72,这是正常的?从dos 或linux下的文件的分辨率也是72?(即便72但图片质量很好)请朋友们解答,谢谢!

    @42663 回复 ⚑举报 

    侬语
    游客

    @张飞白 #42652

    谢谢飞白兄!

    @42686 回复 ⚑举报 

    白木
    游客

    @正音悉达 #35524

    我有个拼图可能也是遇到了熔断机制的问题。

    emuseum.nich.go.jp/iiifa...ifest.json

    我尝试写延迟下载:

    TIMEOUT -T 300 & dezoomify-rs -l emuseum.nich.go.jp/iiifa...ifest.json

    发现这串代码,是完整的图和图之间延迟。

    但如果是碎片图和碎片图之间,延迟下载,不知道代码怎么写呢?

    @42688 回复 ⚑举报 

    白木
    游客

    测试了好多种方式,都失败了。

    github.com/lovas...zoomify-rs

    -H, --header <headers>...
    Sets an HTTP header to use on requests. This option can be repeated in order to set multiple headers. You
    can use -H "Referer: URL" where URL is the URL of the website's viewer page in order to let the site think
    you come from the legitimate viewer

     

    --max-idle-per-host <max-idle-per-host>
    Maximum number of idle connections per host allowed at the same time [default: 32]

     

    尝试加入参数:

    -H "Referer: emuseum.nich.go.jp/ "

    --max-idle-per-host 1

    均失败了。

     

    出现的问题,就是提示404错误,服务器那边可能是拒绝了访问。但至于为什么拒绝访问,一直没有找到原因。

    @42706 回复 ⚑举报 

    fans
    游客

    @未曾 #35341

    注:上面的图的文件大小为:61.5 MB (64,504,033 字节)

    所有从dezoomify网页获取的分段图片的分辨率都是72,这是正常的?从dos 或linux下使用dezoomify-rs 命令获取的文件的分辨率也是72?,我想由于文本界面下dezoomify 可以加--compression 0等参数可以得到较大的文件,但不管文件大小好像也是分辨率也是72,因为在文本界面下几乎没有一次成功下载。能否提示一下现在可以成功下载的在Linux环境下或dos下的dezoomify-rs 的命令行,(即便72但图片质量很好)故请未曾兄解答,谢谢!

    @42711 回复 ⚑举报 

    未曾
    管理员

    @fans #42706

    分辨率类似于一个比例尺,如果这个图片换算成实际物理尺寸时用

    这个值是可以随便修改的(不影响图片的质量)。重要的是图片的分辨率~

    @42716 回复 ⚑举报 

    fans
    游客

    @未曾 #42711

    先谢谢未曾兄的神速解答,下面的图好像也验证了你的说法。另能否提示一下在台北故宫 IIIF下载的dezoom命令行,再次感谢!

     

    @42717 回复 ⚑举报 

    未曾
    管理员

    @fans #42716

    直接粘贴json文件到dezoomify-rs即可

    或(我自己用的)好像效果也不理想

    dezoomify-rs --accept-invalid-certs --compression 10 -l -r 5 -H "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.74 Safari/537.36" -H "Referer: https://digitalarchive.npm.gov.tw/" JSON文件地址
    @42719 回复 ⚑举报 

    fans
    游客

    @未曾 #42717

    我获得的都是采用第一种方法,非常感谢您的分享!

    @45284 回复 ⚑举报 

    游客

    @正音悉达 #35769

    可以加微信請教嗎

    fujunzhe1993

    @47885 回复 ⚑举报 

    limin
    游客

    台北故宫IIIF已经无法预览?

    @48162 回复 ⚑举报 

    limin
    游客

    @fans #42719

    台北故宫IIIF网页几乎打不开,问问大家这几天还能下载吗?

    digitalarchive.npm.gov.tw/Antiq...038;Dept=U

    提示 发生错误   TypeError: Failed to fetch

    @48177 回复 ⚑举报 

    fans
    游客

    @limin #48162

    能下,但非常难,有的文件得几个小时才可以下到。

    @48179 回复 ⚑举报 

    兰亭幽梦
    游客

    @fans #48177

    是那一种方法,我咋弄都不行 ,你能否详细说一下,

    @48212 回复 ⚑举报 

    fans
    游客

    @兰亭幽梦 #48179

    方法未曾兄已经说的够多了,最最关键是能够连接其网站的代理。没有稳定的连接,一切就是海上蜃楼 。

    @50964 回复 ⚑举报 

    limin
    游客

    @正音悉达 #35323

    您有下载到器物 玉器的大图吗?可以交换分享互通有无。非常感谢您🙏。

正在查看 44 个帖子:1-44 (共 44 个帖子)
正在查看 44 个帖子:1-44 (共 44 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:关于dezoomify-rs在台北故宫IIIF资源上的使用问题
您的信息:



发帖/回帖前,请了解相关版规

1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。