标签: 技术分享
- 作者帖子
wuworongtong游客@zhudw #44275
太牛了!
超超游客@弦音雅然 #44278
楼主指引里的链接少了几个字母。以下这本书为例:
www.library.yonezawa.yamagata.jp/dg/AA099.html
实际上能导入的是
www.library.yonezawa.yamagata.jp/dg/AA..._view.html
书香游客
超超游客@书香 #44281
慶應義塾大学这套《欽定古今圖書集成》与Hathitrust是同源的,高清版本下载完总量超过1TB。。。
书香游客
xiaopengyou游客Hathitrust上的書,大套書各冊排序有問題,單冊多卷的排序也有問題,還有切邊太過,出現掃描人員的手指等等,應該都是網站在掃描發佈就存在問題的了。
就像台故宮古籍有書重覆發佈,bookget也只能抓取重覆下載,在神器出現前,在Hathitrust也都是手動下載再整理。
弦音雅然游客@超超 #44280
好的,谢谢!
读书人游客貌似下载公文书馆整套书的时候如果中途断开重新下载不会跳过已有部分,会自动从第1册开始。。。
www.digital.archives.go.jp/DAS/m...YPE=dljpeg
zhudw游客@读书人 #44325
可以自己改配置文件config.ini。默认是解压的,你可以关掉这个功能。
;自动解压zip 1=是,0=否
;(目前仅对日本国立公文馆内库文库生效)
AutoUnzip = 0
曹孟德游客@zhudw #44338
看到有人谈公文馆文件的问题,我也说说体会。
1.公文馆书可能出现最终文件无法下载,并自动退出情况
2.即使按照不自动解压缩,文件也会在不固定情况下,最后一个文件不执行下载
3.在下载失败之后,文件不能自动延后下一个文件。
曹孟德游客@曹孟德 #44409
正如前一位兄台所言,出现这种情况的主要现象是,文件总是循环下载第一个文件,出现不执行下一个文件下载。
zhudw游客@曹孟德 #44411
出现这种情况,可以手动下载。
zhudw游客@曹孟德 #44411
内阁毕竟特殊,它需要对方服务器在线压缩成一个zip文件,如果超时没有等到反应,bookget是会无法下载的。毕竟不是IDM这类的软件,这种情况建议用迅雷或IDM下载。
曹孟德游客@zhudw #44437
确实,这种情况下,通常是手动另存下载,但不能用其他软件,内阁会用技术手段限制再进入。内阁限速很明显,凌晨二点多方有速度,每天用定时软件下载,下载到三点关机,保持其极限速度,早晨起来收尾比较麻烦,总是剩下最后一个文件,或者中间几个文件,中间几个文件,比较容易解决,采取设定文件里的办法就能够解决,最麻烦的就是最后一个文件,不固定状态不去执行,总是总动下第一个文件,故此就很麻烦。早晨通常另存下载会断线,到了八点之后就没法下了,只好在下一天里,争取早起来几个小时。
zhudw游客@曹孟德 #44441
你说的最后一个文件,可以发个URL出来,我测试一下。如果是偶发性的,就不好处理。如果是必然出现的,就可以解决。
曹孟德游客@zhudw #44460
打个比方,如上位兄台差不多。如果大部分文件都下完的情况之下,它会主动执行第一个文件,原本该下载所有文件,但他只是执行第一个,不论第一个是否已经下完,这种情况之下,它就永远不执行最后一个文件,即使设定里设置必须下最后一个,它也是主动执行下载第一个,不知道我描述是不是清楚。
下面这个链接,就是剩下最后一个还没有解决的文件。
zhudw游客
曹孟德游客@zhudw #44465
以这个链接为例,如果前六个文件顺利下完,到了最后一个没下完,或者没下载,那么下一次打开软件下载的时候,文件就不会下这个第七个文件,在设定里设置直接下第七个文件,它也不执行这个过程,只是下载第一个文件。如果第一个文件已经下完,它会直接退出。如果第一个文件没有下完,它也会自动退出,并不会去理会这第七个文件。也许这个问题是偶然的?但我遇到这种情况不少,不知道其他人怎么样。
曹孟德游客@zhudw #44465
我下载的是jp2,截图为例,到了这个步骤之后,它就自动退出了。这是在前几个文件正常下载之后,或者退出软件之后再使用,最后一个文件就不能下载。
zhudw游客@曹孟德 #44467
明白了。已经修复,你再试一下,故意删除几个已经下载的Zip文件。请从天翼云盘下载最新版bookget。
zhudw游客@曹孟德 #44468
你说的是urls.txt最后一个地址吧?你加一个回车换行就可以了。
曹孟德游客@zhudw #44470
不是,我说的是文件链接源里,自动打包的那些zip文件。urls.txt里如果是多个链接情况,也会出现我所说的最后一个打包文件不理会的问题。
曹孟德游客@zhudw #44469
故意删除几个文件的办法,我也用过,还是会只下载第一个,这新版软件待下载,等待之后测试情况。先谢谢您的指导。
曹孟德游客@zhudw #44469
汇报测试情况,还是以刚才的链接为例,在初步测试之后,发现下载情况正常,软件得以向最后一个文件执行下载的顺序。从界面里可以发现,目前新增了文件包的序列列表,增加这个程序过程判断,使得下载顺序得以正常进行下去,谢谢作者的软件版本更新,相信这一版的使用会更顺畅便捷。
小冬郎游客zhudw 先生好,软件支持的东洋文库似非日本东洋文库所藏汉籍,汉籍在另一个网址 124.33.215.236/zenpo...入bookget 中,劳烦先生看看。
小冬郎游客另有几处汉籍资源不错的,东京大学东洋文化研究所双红堂文库 http://hong.ioc.u-tokyo.ac.jp/list.php?p=1&order=rn_no&jump_data=
関西大学汉籍:https://www.iiif.ku-orcas.kansai-u.ac.jp/books
二松学舍汉籍 https://opac.nishogakusha-u.ac.jp/homepage/da/kanseki_50.html
zhudw游客@小冬郎 #44520
只有日本IP才能访问的,我也无法访问,现在手上没有日本服务器。
关西大学可以用IIIF自动检测功能,其实已经支持了。你修改config.ini中
AutoDetect = 2
然后 在urls.txt中填写
小冬郎游客@zhudw #44523
谢谢先生赐教。这个自动检测功能太强了~
读书人游客
读书人游客经测试,前面几本都可以打开,后面的图像不显示,感觉是网站本身有问题,右键png看url只有单纯的.png,缺少具体数目
xiaopengyou游客@小冬郎 #44516
東洋文庫, dsr.nii.ac.jp/toyobunko/
漢籍善本資料庫, shanben.ioc.u-tokyo.ac.jp/index.html
雙紅堂文庫, hong.ioc.u-tokyo.ac.jp/list....jump_data=
漢籍善本資料庫包含雙紅堂文庫的資料。
而從這個網站查詢雙紅堂的資料,就都是自生成的pdf檔, www3.ioc.u-tokyo.ac.jp/kandb.html
雙紅堂文庫網站進去的都是單張照片檔。
或供參考
笨蛋蛋游客太🙏🙏🙏
崇鹂子游客@zhudw #44523
大佬好,日本 民俗博物館的这种链接能不能支持呢?例如:
专题性页面:
khirin-a.rekihaku.ac.jp/datab...kushukocho
他的链接是:
khirin-a.rekihaku.ac.jp/reito...o/h-1660-1
能否支持,如:
khirin-a.rekihaku.ac.jp/ reitoukakushukocho/h-1660-(1-47)
或者直接支持专题性的总页。
另外,随着支持图书馆的增加,config.ini未来可能会越来越长、面对不同图书馆的设置越来复杂,
或许未来还是会走向界面化。用【√】完成“图片清晰度”“图片格式”“坏件检测重下”等项目的选定。也就免去向各路网友的重复解释。
又例如dezoomify-rs拼图不全时,或许可以自动删除重下,一直到下载完整,再进行下一个文件。可惜本软件只是负责生成批处理脚本,似乎无法干涉到dezoomify-rs本身。
又如公文书馆的下载,其实网站自带“图片格式与清晰度”“打包下载”功能,唯一的问题只是各家的网速。因为网速不佳而导致错乱失败。如果用软件下载,反倒成了软件设置的问题了。
小冬郎游客谢谢大家赐教。使用软件下载时,有的jpg图片下载失败,生成721字节的文件。需要手动删除这个失败的文件才能再次下载。不知可否增加一个自检721字节下载失败文件,替换为重新下载的jpg功能
小冬郎游客@崇鹂子 #44578
khirin-a.rekihaku.ac.jp/reito...o/h-1660-1 这个链接可以的,放到bookget里试一试~
zhudw游客@小冬郎 #44580
721字节的问题,你用记事本打开文件看看里面显示的是什么。或者把生成这种问题的URL发出来,我试试会不会重现问题。
@崇鹂子 #44578
(1-47)这种写法是不支持的,可以用(1-9)(10-47)这种写法。如下:
khirin-a.rekihaku.ac.jp/reito...1660-(1-9)
khirin-a.rekihaku.ac.jp/reito...60-(10-47)关于未来,我看不到。哈哈,就先这样吧。
小冬郎游客@zhudw #44590
721字节文件txt打开内容如下,有劳先生看看
<div style="border: 3px solid #4991C5; font:1.5em; font-family:tahoma,calibri,arial; font-weight:bold; color:#1A4369; padding:5px; margin:10px; text-align:center"> The specified URL cannot be found. </div><!--0123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234-->
xiaopengyou游客@zhudw #44590
個人覺得 先生可以先好好休息一下了,基本上如不考慮網速、爬墻,日本圖書館的資料都比較有規律,找出規律手動下也是可以的,就像樓上朋友說的,“因为网速不佳而导致错乱失败。如果用软件下载,反倒成了软件设置的问题了“,更何況日本內閣文庫自生成打包下載也很容易...
小冬郎游客日本国立历史博物馆生成的dezoomify-rs.urls.bat,最后一张图的链接好像都有问题,先生方便时修正一下bug
@echo on
@echo downloading...
dezoomify-rs -l --compression 0 "https://khirin-a.rekihaku.ac.jp/iiif/2/nmjh_kanseki%%2FH-1027%%2FH-1027_0001.tif/info.json" 0001.jpg
……
dezoomify-rs -l --compression 0 "https://khirin-a.rekihaku.ac.jp/iiif/2/nmjh_kanseki%%2FH-1027%%2F[paragraph:field_filepath]/info.json" 0017.jpg:pause
苏崇鹂游客@zhudw #44590
好的,没问题了
笨笨的小猪游客哈弗大学图书馆竟然需要注册吗!要不然打不开预览功能!
Condolian游客zhudw老师,感谢垂听与帮忙!
精心制作了英国图书馆手稿部的支援,非常感谢!
唯以您范例中提供的http://www.bl.uk/manuscripts/Viewer.aspx?ref=or_6814!1_fs001r
所生成的dezoomify-rs.urls.bat,
在双击后无法下载,出现ERROR信息(其他需要用到dezoomify-rs的馆多为正常)
还请帮忙一试,万分感谢!
zhudw游客@小冬郎 #44592
The specified URL cannot be found. 是指你要下载的URL不存在。如果你再试可以下载,那么就是它服务器当时出现问题。
另一个问题,由于你贴出的URL 我无法识别是什么URL,不好测试。日本国立历史民俗博物馆,它为dezoomify-rs生成的URL有一些特殊符号我没有处理完,这一点我知晓。(如果只是用bookget下载不会有这个问题)
或许你可试一下未曾先生的另一个工具,应该可以解决问题。
@笨笨的小猪 #44618
哈佛大学未公开的资源是需要帐号登录的,这种帐号如何获取,我也不知道。他们公开的资源是可以免费阅读、下载的。
@Condolian #44620
你双击后出现的是红色Error吗?应该不是bookget的问题。双击后运行的dezoomify-rs,出现红色提示多数是网络错误。
如下图,我试了你发的URL,可以下载。
zhudw游客@xiaopengyou #44593
我和你想的一样,感谢理解。最近不会发新版了,我有别的事情要做。
做C端软件是众口难调的,有多难,看一下微信拉群不需要验证这种功能,就知道了。
因为有的人不会验证,就牺牲会验证的人连基本选择权也没有。
笨笨的小猪游客哈佛大学图书馆,怎样找到下载链接,①打开预览都要登录!那不是url就是预览链接吗!谁给点播下!
xiaopengyou游客@笨笨的小猪 #44668
您再從頭翻翻這個帖,現在是第19頁,大約在中間頁部份吧,就有提到了,您注意看一下。
Condolian游客@zhudw #44635
朱老师平安!感谢您周末给我们回帖,
小弟折腾许久,果然是网络不顺,产生了红色ERROR信息,
有些使用Dezoomify-rs的朋友在不明的网络情况下,确实会连不上目标馆的SERVER,只能设法换一下其他网络连线。
例如把接电脑的线拔了,改用自己的WIFI(不知是什么神奇的原理?有没有朋友能为小弟解惑?)
留言在此,希望给后来者一些提示。
Bookget设计精良,是我们这段时间才能使用的神器,
节省了大量人力与时间,帮助电脑小白如我能顺利读到书。
我会长久铭记朱老师的慷慨。祝福您一切顺利平安。
zhudw游客- 作者帖子