- 作者帖子
kzs游客KuroNet简介:
KuroNet是日本人,运用人工智能技术,所打造的一款古日语草体识别的系统。据介绍,其在古日语草体的识别率,能够达到90%以上。并且是3秒内就能识别完成,而一般的古日语草体专家,识别一页也需要10分钟。
下面介绍,如何使用这套系统,这套系统是免费公开的。
1、打开KuroNetくずし字認識サービス | ROIS-DS人文学オープンデータ共同利用センター
网址:https://mp.ex.nii.ac.jp/kuronet/
2、先要登陆ログインして下さい,否则无法点击识别
3、登陆后再点KuroNetくずし字認識ビューアを起動
4、在KuroNetくずし字認識ビューアを起動:框里,输入地址,再按起动。
注意,这个地址,是专门使用了一种叫IIIF框架的,才可以。
举例:洛陽四十八所地蔵霊場巡禮利生記 上 | 佛教大学図書館デジタルコレクション
左下角有:マニフェスト
就是类似这样的地址:https://bird.bukkyo-u.ac.jp/collections/iiif/manifests/rakuyoshijuhasshojizoreijojunreirishoki-01-manifest.json
5、点进去后,鼠标是手形状的。要先点屏幕右边,有一个黑色正方形的按钮,点了以后,鼠标变成十字。然后选择要进行识别的区域。
6、选择好以后,鼠标再单击一下选择好了的区域,然后点上面的くずし字识别就可以了。
7、这个时候,又进了一个新页面。这个时候,要点予約:実行。因为如果不点这个的话,打开的图像,还是老图像,并没有作识别。
8、几秒钟后就识别完了。识别过程中显示処理:待機中
9、等到出现成功:閲覧时候,点这个就可以了。就可以看到旁边的识别结果了。
kzs游客古汉语识别:
这套KuroNet系统,同样适用于古汉语识别。我测试了一页,在古汉语方面,识别率并没有达到90%那么高。但其识别率,也已经相当了不起了。
而,目前阶段,之所以古汉语识别率不高,其原因,并非是因为系统和算法的原因。原因很简单:
因为样本不多。也就是,这套系统,人类识别员,还没有喂给他足够的养料。一旦越来越多的人参与古汉语识别,这个数据系统学习之后,就可以应用在下一次识别当中。
随着大数据的积累,未来类似这样的AI识别系统,超越人类完成古文识别,只是迟早的事情。要知道,古日语草体,那个识别难度,就算是专家,恐怕也无法在3秒内识别完一页。
也正是基于此,这个机构,又有另一个网站:
翻译成中文叫:人人翻刻。
具体使用方式,不作详细介绍。
其构建思路,就是人人都可以去做识别。对,完全公开,人人都可以参与进去做识别。而这些识别出来的数据,则会喂给AI系统,用于将来的识别。
也就是,越来越多的人参与识别之后,这套系统的识别准确率会越来越高。
比如,就算你是某一领域的古文字识别专家,但是,你就算能够达到90%准确率。但是,剩下那10%,也许是你识别不出来,但或许,另外张三能够认出1%,李四又能认出1%。那么,最终,AI系统,凭借大数据的力量,将准确率提高到95%及以上,只是时间问题。
kzs游客感慨:
看到日本,竟然目前就已经开发出了这样优秀的AI系统,实在非常感慨。
如果我们自己,也有类似出色的,并且完全免费面向所有人开放,并且支持所有人参与编辑出力,有这样系统该多好。AI识别,是古文字OCR的未来。
KK游客感谢分享,那个预约在什么地方,打开新图像后,没有看见预约的按钮。
kzs游客@KK #21587
预约,是在第7步当中的。
如果已经错过了这个页面,可以重新打开。
方法:
点击:ログイン後にダッシュボードへ移動
(注意,必须是先登陆以后,再点这个链接才能正常打开,否则还是要先登陆才行。是否登陆成功了,看右上角灰色按钮框部分,如果显示了自己的名称,就说明登陆成功了。)
新打开后的页面,上面有四列:
領域指定画像
くずし字OCR
自動テキスト化
手動テキスト化在“くずし字OCR”这一列当中,就能够找到“予約:実行”的超链接,点这个就可以了。
并不是在打开的新图像当中,有预约的链接的。
KK游客非常感谢楼上
- 作者帖子
正在查看 6 个帖子:1-6 (共 6 个帖子)
正在查看 6 个帖子:1-6 (共 6 个帖子)
正在查看 6 个帖子:1-6 (共 6 个帖子)