正在查看 9 个帖子:1-9 (共 9 个帖子)
  • 作者
    帖子
  • @23813 回复 ⚑举报 

    海鲛NLP
    游客

    分享一个信息,希望能对丰富资源有帮助。

    zhuanlan.zhihu.com/p/373325774

    wenyuan.aliyun.com/home

    @23814 回复 ⚑举报 

    未曾
    管理员

    @海鲛NLP #23813

    感谢分享。

    不做评论。

    只期待项目能做下去,名副其实

    @23848 回复 ⚑举报 

    古籍OCR
    游客

    这20万页古籍的识别准确率达到97.5%。

    阿里巴巴达摩院院长张建锋表示,阿里计划将这套技术工具连同古籍数字化平台一并捐赠,交由权威公共机构长期运营,同时,阿里仍将在古籍数字化工作上持续投入人力物力。

    @23881 回复 ⚑举报 

    何生亮
    游客

    求生欲比较强

    @23903 回复 ⚑举报 

    古籍OCR
    游客

    @古籍OCR #23848

    补充说明:
    97.5%识别率。数据来源:

    www.xinhuanet.com/book/...955418.htm

    新华网:“汉典重光”首批实现海外20万页中文古籍“数字化回归”

     

    之前摘录的时候,没有把出处引用过来。现在把出处引用过来。

     

    本来,如果我本人没有转发,我没有义务去解释,为什么新华网报道的时候,说97.5%的准确率。因为那是新华网记者和项目方的事情。

    我既不是写这篇报道的记者,也不是项目方。

    但因为我摘录引用了97.5%的这个数据。而又有朋友测试后,发现远没有这么高的识别准确率。

    所以我只能说个人解读,97.5%这个数据是怎么得出的。

     

    个人解读仅供参考。

    首先,既然权威媒体,在报道的时候,说了97.5%的准确率。我相信他们当时的测试,确实是达到了这个准确率。

    但是,后面的人拿自己的本子去测试的时候,却不一定能够达到这个准确率。97.5应该是目前的最高得分。

    要注意前面几个字:这 20 万页古籍

    97.5%这个识别率,识别的是这20万页古籍。而这套系统,本身数据训练的,也是这20万页古籍。

    打比喻就是,一个学生,备考的时候反复练的是这套试卷,结果考试的时候,原封不动还是考这张试卷。那能不拿97.5分嘛。

    但如果你给这个学生,一张全新试卷,上面的考题他从来没有学习过,那他当然不可能拿97.5%的高分了。

    所以,具体去试的时候,如果你的扫描质量是OK的,扫描清楚,横平竖直的。而你的本子,又恰好和这20万页有很高相似度,那么 理论上应该是会得到高识别率的结果的。

    但如果,你的本子,和这20万页相关度差很大,那估计成绩高不了。这题人家都没学过,你不能要求他就会了。

    所以这就需要后面大量的调教员。就是去训练这个机器人的。

    经过不断训练,以后遇到全新的本子,识别率不说97.5%,达到90%乃至95%问题应该还是不大的。

    所以,97.5%要客观看待,他只是报道了一个最高得分。

    当然,这97.5%的数据,也绝不是虚假报道。只是他报道的时候,可以是这个角度,也可以那个角度。但选择了这个角度而已。

    因为这97.5%建立在一个前提上:这20万页古籍的识别准确率。

    他没说,你手上的这个本子,也能达到97.5%的识别率。这是有可能达到的,但必须还要经过大量数据的调教下。

     

    我也只不过是在了解的时候,顺便随手引用资讯而已。

    如果论坛可以自己删除自己发的贴子的话,还不如删了算了。

    现在这个项目才刚刚开始,也没必要非要捧上天。让项目方踏实练好内功。

    等到将来,任何新的本子,一识别都95%以上准确率。硬实力比什么报道都强。

    过早报道,也可能成为一种捧杀。所以97.5%和这个贴子,如果没啥必要,不如删除算了。

    让项目方有更多时间练好内功。

    @23904 回复 ⚑举报 

    未曾
    管理员

    感谢分享

    有人做事总比没人关注的好~

    虽然这次的宣传略有浮夸,可能是个半成品,赶着518上线的,但是达摩院这套系统OCR的算法似乎还可以,假以时日定能为古籍的识读带来巨大帮助。

    但是,担心的是项目能否持续开发下去~

    @23961 回复 ⚑举报 

    ml123
    游客

    今天看到字节跳动张一鸣卸任的新闻,其中也提到该公司也在开展古籍电子化的公益项目。

    @24000 回复 ⚑举报 

    古籍OCR
    游客

    www.toutiao.com/a6964...1568353526

    新华网客户端:

    张一鸣卸任字节跳动CEO 联合创始人梁汝波将接任

    据了解,字节跳动正在探索教育公益、脑疾病、古籍数字化整理等新的公益项目。“我个人也有些投入,我还有更多想法,希望能更深度参与。”张一鸣在全员信中说。文/本报记者 温婧

    来源:北京青年报

    @24060 回复 ⚑举报 

    裁冰剪雪談笑看吳鈎
    游客

    哈哈哈哈哈哈咯。。笑死 。。。

    大紧知不知道古籍这种大多是雕版或者手抄的,本来就错字多多,更加不用说那些通假假借了。

    更加上,好多字现在可以说是都废弃了的不用的或者是用不到的了。这本来就让人们读起来困难重重了。

    然后大紧告诉我说,那个AI识别率百分之九十七?那这岂不是在源文件的基础上又多出了百分之二三的错字率了吗?

    这种书还有法看?!

    哎吆。。。。老子笑出猪叫了都。。。

正在查看 9 个帖子:1-9 (共 9 个帖子)
正在查看 9 个帖子:1-9 (共 9 个帖子)

上传图片

拖拽或点击选择图片(最多五张)

回复至:阿里的“扫地僧”,2年“抄”了20万页古籍
您的信息:



发帖/回帖前,请了解相关版规

0,邮箱地址尽量真实有效,随意填写的可能会被系统误判为垃圾内容。
1,不要开书单。单个帖子尽量发布一种书籍需求。
2,在搜索不到相关主题的情况下,尽量发新帖(发帖标题最好带上书名)。不要在他人帖子中回复某种书籍需要。
3,发帖提问标题尽量简单明了。发帖内容不要太过简略,请对书籍内容、版本或作者作简要说明。
4,出版于1973年以后的资源需求或分享将会被清理删除。