标签: 

正在查看 50 个帖子:901-950 (共 1,160 个帖子)
  • 作者
    帖子
  • @44279 回复

    wuworongtong
    游客

    @zhudw #44275

    太牛了!

    @44280 回复

    超超
    游客

    @弦音雅然 #44278

    楼主指引里的链接少了几个字母。以下这本书为例:

    www.library.yonezawa.yamagata.jp/dg/AA099.html

    实际上能导入的是

    www.library.yonezawa.yamagata.jp/dg/AA..._view.html

     

    @44281 回复

    书香
    游客
    @44283 回复

    超超
    游客

    @书香 #44281

    慶應義塾大学这套《欽定古今圖書集成》与Hathitrust是同源的,高清版本下载完总量超过1TB。。。

    catalog.hathitrust.org/Recor...#038;ft=ft

    @44284 回复

    zhudw
    游客

    @超超 #44280

    @书香 #44281

    谢谢纠正,我电脑关了,明天再改一下pdf里面链接。

    @44286 回复

    书香
    游客

    @超超 #44283

    是的目前比較好的版本,無水印,也不缺,但是Hathitrust排序混亂,且需要一個一個下載。

    @zhudw #44284

    如何解決排序和批量是關鍵,Hathitrust上的書很多排序都有問題。

    @44294 回复

    xiaopengyou
    游客

    Hathitrust上的書,大套書各冊排序有問題,單冊多卷的排序也有問題,還有切邊太過,出現掃描人員的手指等等,應該都是網站在掃描發佈就存在問題的了。

    就像台故宮古籍有書重覆發佈,bookget也只能抓取重覆下載,在神器出現前,在Hathitrust也都是手動下載再整理。

    @44315 回复

    弦音雅然
    游客

    @超超 #44280

    好的,谢谢!

    @44325 回复

    读书人
    游客

    貌似下载公文书馆整套书的时候如果中途断开重新下载不会跳过已有部分,会自动从第1册开始。。。
    www.digital.archives.go.jp/DAS/m...YPE=dljpeg

    @44338 回复

    zhudw
    游客

    @读书人 #44325

    可以自己改配置文件config.ini。默认是解压的,你可以关掉这个功能。

     ;自动解压zip 1=是,0=否
    ;(目前仅对日本国立公文馆内库文库生效)
    AutoUnzip = 0

    @44339 回复

    zhudw
    游客

    @xiaopengyou #44294

    @书香 #44286

    是的,Hathitrust排序错误,只能人工识别。发现后,再用别的工具重新排序,一个文件夹大概1秒可以重排完。我也是这么做的。

    @44409 回复

    曹孟德
    游客

    @zhudw #44338

    看到有人谈公文馆文件的问题,我也说说体会。

    1.公文馆书可能出现最终文件无法下载,并自动退出情况

    2.即使按照不自动解压缩,文件也会在不固定情况下,最后一个文件不执行下载

    3.在下载失败之后,文件不能自动延后下一个文件。

    @44411 回复

    曹孟德
    游客

    @曹孟德 #44409

    正如前一位兄台所言,出现这种情况的主要现象是,文件总是循环下载第一个文件,出现不执行下一个文件下载。

    @44436 回复

    zhudw
    游客

    @曹孟德 #44411

    出现这种情况,可以手动下载。

    @44437 回复

    zhudw
    游客

    @曹孟德 #44411

    内阁毕竟特殊,它需要对方服务器在线压缩成一个zip文件,如果超时没有等到反应,bookget是会无法下载的。毕竟不是IDM这类的软件,这种情况建议用迅雷或IDM下载。

    @44441 回复

    曹孟德
    游客

    @zhudw #44437

    确实,这种情况下,通常是手动另存下载,但不能用其他软件,内阁会用技术手段限制再进入。内阁限速很明显,凌晨二点多方有速度,每天用定时软件下载,下载到三点关机,保持其极限速度,早晨起来收尾比较麻烦,总是剩下最后一个文件,或者中间几个文件,中间几个文件,比较容易解决,采取设定文件里的办法就能够解决,最麻烦的就是最后一个文件,不固定状态不去执行,总是总动下第一个文件,故此就很麻烦。早晨通常另存下载会断线,到了八点之后就没法下了,只好在下一天里,争取早起来几个小时。

    @44460 回复

    zhudw
    游客

    @曹孟德 #44441

    你说的最后一个文件,可以发个URL出来,我测试一下。如果是偶发性的,就不好处理。如果是必然出现的,就可以解决。

    @44462 回复

    曹孟德
    游客

    @zhudw #44460

    打个比方,如上位兄台差不多。如果大部分文件都下完的情况之下,它会主动执行第一个文件,原本该下载所有文件,但他只是执行第一个,不论第一个是否已经下完,这种情况之下,它就永远不执行最后一个文件,即使设定里设置必须下最后一个,它也是主动执行下载第一个,不知道我描述是不是清楚。

    下面这个链接,就是剩下最后一个还没有解决的文件。

    www.digital.archives.go.jp/DAS/m...L_TYPE=jp2

    @44465 回复

    zhudw
    游客

    @曹孟德 #44462

    不好意思,不理解你说的执行是什么意思。

    我试了一下你发的这个URL,可以下载完。

    @44467 回复

    曹孟德
    游客

    @zhudw #44465

    以这个链接为例,如果前六个文件顺利下完,到了最后一个没下完,或者没下载,那么下一次打开软件下载的时候,文件就不会下这个第七个文件,在设定里设置直接下第七个文件,它也不执行这个过程,只是下载第一个文件。如果第一个文件已经下完,它会直接退出。如果第一个文件没有下完,它也会自动退出,并不会去理会这第七个文件。也许这个问题是偶然的?但我遇到这种情况不少,不知道其他人怎么样。

    @44468 回复

    曹孟德
    游客

    @zhudw #44465

    我下载的是jp2,截图为例,到了这个步骤之后,它就自动退出了。这是在前几个文件正常下载之后,或者退出软件之后再使用,最后一个文件就不能下载。

    @44469 回复

    zhudw
    游客

    @曹孟德 #44467

    明白了。已经修复,你再试一下,故意删除几个已经下载的Zip文件。请从天翼云盘下载最新版bookget。

    @44470 回复

    zhudw
    游客

    @曹孟德 #44468

    你说的是urls.txt最后一个地址吧?你加一个回车换行就可以了。

    @44471 回复

    曹孟德
    游客

    @zhudw #44470

    不是,我说的是文件链接源里,自动打包的那些zip文件。urls.txt里如果是多个链接情况,也会出现我所说的最后一个打包文件不理会的问题。

    @44472 回复

    曹孟德
    游客

    @zhudw #44469

    故意删除几个文件的办法,我也用过,还是会只下载第一个,这新版软件待下载,等待之后测试情况。先谢谢您的指导。

    @44476 回复

    曹孟德
    游客

    @zhudw #44469

    汇报测试情况,还是以刚才的链接为例,在初步测试之后,发现下载情况正常,软件得以向最后一个文件执行下载的顺序。从界面里可以发现,目前新增了文件包的序列列表,增加这个程序过程判断,使得下载顺序得以正常进行下去,谢谢作者的软件版本更新,相信这一版的使用会更顺畅便捷。

    @44516 回复

    小冬郎
    游客

    zhudw 先生好,软件支持的东洋文库似非日本东洋文库所藏汉籍,汉籍在另一个网址 124.33.215.236/zenpo...入bookget 中,劳烦先生看看。

    @44520 回复

    小冬郎
    游客

    另有几处汉籍资源不错的,东京大学东洋文化研究所双红堂文库   http://hong.ioc.u-tokyo.ac.jp/list.php?p=1&order=rn_no&jump_data=

    関西大学汉籍:https://www.iiif.ku-orcas.kansai-u.ac.jp/books

    二松学舍汉籍   https://opac.nishogakusha-u.ac.jp/homepage/da/kanseki_50.html

    @44523 回复

    zhudw
    游客

    @小冬郎 #44520

    只有日本IP才能访问的,我也无法访问,现在手上没有日本服务器。

    关西大学可以用IIIF自动检测功能,其实已经支持了。你修改config.ini中

    AutoDetect = 2

    然后 在urls.txt中填写

    www.iiif.ku-orcas.kansai-u.ac.jp/books...40#?page=1

    @44527 回复

    小冬郎
    游客

    @zhudw #44523

    谢谢先生赐教。这个自动检测功能太强了~

    @44549 回复

    读书人
    游客

    @小冬郎 #44516

    经测试不用日本ip,就平常那样打开,在线浏览图片是黑白的gif,貌似把网址写错了。。。

    124.33.215.236/zenpo...201009.php

    @44550 回复

    读书人
    游客

    经测试,前面几本都可以打开,后面的图像不显示,感觉是网站本身有问题,右键png看url只有单纯的.png,缺少具体数目

    @44554 回复

    xiaopengyou
    游客

    @小冬郎 #44516

    東洋文庫, dsr.nii.ac.jp/toyobunko/

    漢籍善本資料庫, shanben.ioc.u-tokyo.ac.jp/index.html

    雙紅堂文庫, hong.ioc.u-tokyo.ac.jp/list....jump_data=

    漢籍善本資料庫包含雙紅堂文庫的資料。

    而從這個網站查詢雙紅堂的資料,就都是自生成的pdf檔, www3.ioc.u-tokyo.ac.jp/kandb.html

    雙紅堂文庫網站進去的都是單張照片檔。

    或供參考

    @44558 回复

    笨蛋蛋
    游客

    太🙏🙏🙏

    @44578 回复

    崇鹂子
    游客

    @zhudw #44523

    大佬好,日本 民俗博物館的这种链接能不能支持呢?例如:

    专题性页面:

    khirin-a.rekihaku.ac.jp/datab...kushukocho

    他的链接是:

    khirin-a.rekihaku.ac.jp/reito...o/h-1660-1

    能否支持,如:

    khirin-a.rekihaku.ac.jp/ reitoukakushukocho/h-1660-(1-47)

    或者直接支持专题性的总页。


    另外,随着支持图书馆的增加,config.ini未来可能会越来越长、面对不同图书馆的设置越来复杂,

    或许未来还是会走向界面化。用【√】完成“图片清晰度”“图片格式”“坏件检测重下”等项目的选定。也就免去向各路网友的重复解释。

     

    又例如dezoomify-rs拼图不全时,或许可以自动删除重下,一直到下载完整,再进行下一个文件。可惜本软件只是负责生成批处理脚本,似乎无法干涉到dezoomify-rs本身。

    又如公文书馆的下载,其实网站自带“图片格式与清晰度”“打包下载”功能,唯一的问题只是各家的网速。因为网速不佳而导致错乱失败。如果用软件下载,反倒成了软件设置的问题了。

    @44580 回复

    小冬郎
    游客

    谢谢大家赐教。使用软件下载时,有的jpg图片下载失败,生成721字节的文件。需要手动删除这个失败的文件才能再次下载。不知可否增加一个自检721字节下载失败文件,替换为重新下载的jpg功能

    @44582 回复

    小冬郎
    游客

    @崇鹂子 #44578

    khirin-a.rekihaku.ac.jp/reito...o/h-1660-1 这个链接可以的,放到bookget里试一试~

    @44590 回复

    zhudw
    游客

    @小冬郎 #44580

    721字节的问题,你用记事本打开文件看看里面显示的是什么。或者把生成这种问题的URL发出来,我试试会不会重现问题。

    @崇鹂子 #44578

    (1-47)这种写法是不支持的,可以用(1-9)(10-47)这种写法。如下:

    khirin-a.rekihaku.ac.jp/reito...1660-(1-9)
    khirin-a.rekihaku.ac.jp/reito...60-(10-47)

    关于未来,我看不到。哈哈,就先这样吧。

    @44592 回复

    小冬郎
    游客

    @zhudw #44590

    721字节文件txt打开内容如下,有劳先生看看

    <div style="border: 3px solid #4991C5; font:1.5em; font-family:tahoma,calibri,arial; font-weight:bold; color:#1A4369; padding:5px; margin:10px; text-align:center"> The specified URL cannot be found. </div><!--0123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234567890123456789012345678901234-->

    @44593 回复

    xiaopengyou
    游客

    @zhudw #44590

    個人覺得  先生可以先好好休息一下了,基本上如不考慮網速、爬墻,日本圖書館的資料都比較有規律,找出規律手動下也是可以的,就像樓上朋友說的,“因为网速不佳而导致错乱失败。如果用软件下载,反倒成了软件设置的问题了“,更何況日本內閣文庫自生成打包下載也很容易...

    @44595 回复

    小冬郎
    游客

    日本国立历史博物馆生成的dezoomify-rs.urls.bat,最后一张图的链接好像都有问题,先生方便时修正一下bug

     

    @echo on
    @echo downloading...
    dezoomify-rs -l --compression 0 "https://khirin-a.rekihaku.ac.jp/iiif/2/nmjh_kanseki%%2FH-1027%%2FH-1027_0001.tif/info.json" 0001.jpg
    ……
    dezoomify-rs -l --compression 0 "https://khirin-a.rekihaku.ac.jp/iiif/2/nmjh_kanseki%%2FH-1027%%2F[paragraph:field_filepath]/info.json" 0017.jpg

    :pause

    @44611 回复

    苏崇鹂
    游客

    @zhudw #44590

    好的,没问题了

    @44618 回复

    笨笨的小猪
    游客

    哈弗大学图书馆竟然需要注册吗!要不然打不开预览功能!

    @44620 回复

    Condolian
    游客

    zhudw老师,感谢垂听与帮忙!
    精心制作了英国图书馆手稿部的支援,非常感谢!
    唯以您范例中提供的http://www.bl.uk/manuscripts/Viewer.aspx?ref=or_6814!1_fs001r
    所生成的dezoomify-rs.urls.bat,
    在双击后无法下载,出现ERROR信息(其他需要用到dezoomify-rs的馆多为正常)
    还请帮忙一试,万分感谢!

    @44635 回复

    zhudw
    游客

    @小冬郎 #44592

    The specified URL cannot be found. 是指你要下载的URL不存在。如果你再试可以下载,那么就是它服务器当时出现问题。

    另一个问题,由于你贴出的URL 我无法识别是什么URL,不好测试。日本国立历史民俗博物馆,它为dezoomify-rs生成的URL有一些特殊符号我没有处理完,这一点我知晓。(如果只是用bookget下载不会有这个问题)

    或许你可试一下未曾先生的另一个工具,应该可以解决问题。

    new.shuge.org/meet/topic/43617/

    @笨笨的小猪 #44618

    哈佛大学未公开的资源是需要帐号登录的,这种帐号如何获取,我也不知道。他们公开的资源是可以免费阅读、下载的。

    @Condolian #44620

    你双击后出现的是红色Error吗?应该不是bookget的问题。双击后运行的dezoomify-rs,出现红色提示多数是网络错误。

    如下图,我试了你发的URL,可以下载。

    @44636 回复

    zhudw
    游客

    @xiaopengyou #44593

    我和你想的一样,感谢理解。最近不会发新版了,我有别的事情要做。

    做C端软件是众口难调的,有多难,看一下微信拉群不需要验证这种功能,就知道了。

    因为有的人不会验证,就牺牲会验证的人连基本选择权也没有。

    @44668 回复

    笨笨的小猪
    游客

    哈佛大学图书馆,怎样找到下载链接,①打开预览都要登录!那不是url就是预览链接吗!谁给点播下!

    @44675 回复

    xiaopengyou
    游客

    @笨笨的小猪 #44668

    您再從頭翻翻這個帖,現在是第19頁,大約在中間頁部份吧,就有提到了,您注意看一下。

    @44799 回复

    Condolian
    游客

    @zhudw #44635

    朱老师平安!感谢您周末给我们回帖,

    小弟折腾许久,果然是网络不顺,产生了红色ERROR信息,

    有些使用Dezoomify-rs的朋友在不明的网络情况下,确实会连不上目标馆的SERVER,只能设法换一下其他网络连线。

    例如把接电脑的线拔了,改用自己的WIFI(不知是什么神奇的原理?有没有朋友能为小弟解惑?)

    留言在此,希望给后来者一些提示。

     

    Bookget设计精良,是我们这段时间才能使用的神器,

    节省了大量人力与时间,帮助电脑小白如我能顺利读到书。

    我会长久铭记朱老师的慷慨。祝福您一切顺利平安。

    @44813 回复

    zhudw
    游客

    @Condolian #44799

    不客气。一般遇到网络问题可以直接重启电脑、或给路由器、光猫断电一次,这样可以解决很多问题。

    家庭用电脑、路由器、光猫等在长时间运行、稳定性方面欠缺,容易出现小问题。

     

正在查看 50 个帖子:901-950 (共 1,160 个帖子)
正在查看 50 个帖子:901-950 (共 1,160 个帖子)

上传图片

拖拽或点击选择图片

回复至:【完结】bookget 古籍批量下载工具_v0.2.5
您的信息:



初次发帖前:建议先阅读