@21585

kzs
游客

古汉语识别:

这套 KuroNet 系统,同样适用于古汉语识别。我测试了一页,在古汉语方面,识别率并没有达到 90% 那么高。但其识别率,也已经相当了不起了。

而,目前阶段,之所以古汉语识别率不高,其原因,并非是因为系统和算法的原因。原因很简单:

因为样本不多。也就是,这套系统,人类识别员,还没有喂给他足够的养料。一旦越来越多的人参与古汉语识别,这个数据系统学习之后,就可以应用在下一次识别当中。

随着大数据的积累,未来类似这样的 AI 识别系统,超越人类完成古文识别,只是迟早的事情。要知道,古日语草体,那个识别难度,就算是专家,恐怕也无法在 3 秒内识别完一页。

也正是基于此,这个机构,又有另一个网站:

honkoku.org/

翻译成中文叫:人人翻刻。

具体使用方式,不作详细介绍。

其构建思路,就是人人都可以去做识别。对,完全公开,人人都可以参与进去做识别。而这些识别出来的数据,则会喂给 AI 系统,用于将来的识别。

也就是,越来越多的人参与识别之后,这套系统的识别准确率会越来越高。

比如,就算你是某一领域的古文字识别专家,但是,你就算能够达到 90% 准确率。但是,剩下那 10%,也许是你识别不出来,但或许,另外张三能够认出 1%,李四又能认出 1%。那么,最终,AI 系统,凭借大数据的力量,将准确率提高到 95% 及以上,只是时间问题。