正在查看 6 帖子:1-6 (共 6 个帖子)
  • 作者
    帖子
  • @21584 回复

    kzs
    游客

    KuroNet 简介:

    KuroNet 是日本人,运用人工智能技术,所打造的一款古日语草体识别的系统。据介绍,其在古日语草体的识别率,能够达到 90% 以上。并且是 3 秒内就能识别完成,而一般的古日语草体专家,识别一页也需要 10 分钟。

    下面介绍,如何使用这套系统,这套系统是免费公开的。

    1、打开 KuroNetくずし字認識サービス | ROIS-DS 人文学オープンデータ共同利用センター

    网址:https://mp.ex.nii.ac.jp/kuronet/

    2、先要登陆ログインして下さい,否则无法点击识别

    3、登陆后再点 KuroNetくずし字認識ビューアを起動

    4、在 KuroNetくずし字認識ビューアを起動:框里,输入地址,再按起动。

    注意,这个地址,是专门使用了一种叫 IIIF 框架的,才可以。

    举例:洛陽四十八所地蔵霊場巡禮利生記 上 | 佛教大学図書館デジタルコレクション

    左下角有:マニフェスト

    就是类似这样的地址:https://bird.bukkyo-u.ac.jp/collections/iiif/manifests/rakuyoshijuhasshojizoreijojunreirishoki-01-manifest.json

    5、点进去后,鼠标是手形状的。要先点屏幕右边,有一个黑色正方形的按钮,点了以后,鼠标变成十字。然后选择要进行识别的区域。

    6、选择好以后,鼠标再单击一下选择好了的区域,然后点上面的くずし字识别就可以了。

    7、这个时候,又进了一个新页面。这个时候,要点予約:実行。因为如果不点这个的话,打开的图像,还是老图像,并没有作识别。

    8、几秒钟后就识别完了。识别过程中显示処理:待機中

    9、等到出现成功:閲覧时候,点这个就可以了。就可以看到旁边的识别结果了。

    @21585 回复

    kzs
    游客

    古汉语识别:

    这套 KuroNet 系统,同样适用于古汉语识别。我测试了一页,在古汉语方面,识别率并没有达到 90% 那么高。但其识别率,也已经相当了不起了。

    而,目前阶段,之所以古汉语识别率不高,其原因,并非是因为系统和算法的原因。原因很简单:

    因为样本不多。也就是,这套系统,人类识别员,还没有喂给他足够的养料。一旦越来越多的人参与古汉语识别,这个数据系统学习之后,就可以应用在下一次识别当中。

    随着大数据的积累,未来类似这样的 AI 识别系统,超越人类完成古文识别,只是迟早的事情。要知道,古日语草体,那个识别难度,就算是专家,恐怕也无法在 3 秒内识别完一页。

    也正是基于此,这个机构,又有另一个网站:

    honkoku.org/

    翻译成中文叫:人人翻刻。

    具体使用方式,不作详细介绍。

    其构建思路,就是人人都可以去做识别。对,完全公开,人人都可以参与进去做识别。而这些识别出来的数据,则会喂给 AI 系统,用于将来的识别。

    也就是,越来越多的人参与识别之后,这套系统的识别准确率会越来越高。

    比如,就算你是某一领域的古文字识别专家,但是,你就算能够达到 90% 准确率。但是,剩下那 10%,也许是你识别不出来,但或许,另外张三能够认出 1%,李四又能认出 1%。那么,最终,AI 系统,凭借大数据的力量,将准确率提高到 95% 及以上,只是时间问题。

    @21586 回复

    kzs
    游客

    感慨:

    看到日本,竟然目前就已经开发出了这样优秀的 AI 系统,实在非常感慨。

    如果我们自己,也有类似出色的,并且完全免费面向所有人开放,并且支持所有人参与编辑出力,有这样系统该多好。AI 识别,是古文字 OCR 的未来。

     

     

    @21587 回复

    KK
    游客

    感谢分享,那个预约在什么地方,打开新图像后,没有看见预约的按钮。

    @21602 回复

    kzs
    游客

    @KK #21587

    预约,是在第 7 步当中的。

    如果已经错过了这个页面,可以重新打开。

    方法:

    mp.ex.nii.ac.jp/kuronet/

    点击:ログイン後にダッシュボードへ移動

    (注意,必须是先登陆以后,再点这个链接才能正常打开,否则还是要先登陆才行。是否登陆成功了,看右上角灰色按钮框部分,如果显示了自己的名称,就说明登陆成功了。)

    新打开后的页面,上面有四列:

    領域指定画像
    くずし字 OCR
    自動テキスト化
    手動テキスト化

    在 “くずし字 OCR” 这一列当中,就能够找到 “予約:実行” 的超链接,点这个就可以了。

    并不是在打开的新图像当中,有预约的链接的。

     

    @21604 回复

    KK
    游客

    非常感谢楼上

     

正在查看 6 帖子:1-6 (共 6 个帖子)
正在查看 6 帖子:1-6 (共 6 个帖子)
回复于:古日语 AI 识别 及 古汉语 AI 识别
您的信息: