正在查看 14 个帖子:1-14 (共 14 个帖子)
  • 作者
    帖子
  • @31795 回复

    如是研究院
    游客

    北京如是人工智能技术研究院(Beijing Rushi Institute of Artificial Intelligence Technology,以下简称如是研究院)成立于 2019 年4 月,是北京市民政局批准的科技类民办非企业单位,致力于开展与人工智能技术相关的学术研究、学术交流、成果转化、专业培训、技术推广与应用,尤其是古籍数字化领域的人工智能技术相关研究、开发与推广应用。

    中华民族的存世古籍,承载着优秀的中华传统文化,凝聚着无穷的民族智慧,是祖先留给我们的宝贵精神遗产。传承文明是时代赋予我们每一个华夏子孙义不容辞的责任。当前飞速发展的人工智能和信息技术,成为促进中华优秀传统文化保护和传播的强大推动力,也催生了古籍数字化这一既古老又现代的创新领域。通过人工智能、互联网和信息技术的深度应用,古籍数字化可以使优秀传统文化在保护和传播的深度、广度、速度上实现质的飞跃。

    在这一时代背景下,如是研究院以“数字古籍,传承经典”为宗旨,致力于应用先进的人工智能和信息技术,整合各方社会资源和多专业综合创新,聚焦古籍数字化技术研究、平台开发与数字化服务,推进古籍数字化项目,产出高质量的古籍数字化内容,持续推动古籍数字化的技术进步和推广应用。

    2020年4月,如是研究院发起“如是古籍之大藏经数字化工程”,旨在利用先进的人工智能技术深度加工、整理汉文佛教大藏经,并将数字化成果以公益的形式发布在互联网上,以便于社会大众阅读和研究使用。

    一、缘起背景

    汉文佛教大藏经是汉传佛教经典的总集,它收录了由梵文翻译而来的经律论三藏,以及汉传祖师大德的注疏、史传、经录、音义、禅宗语录等等内容,按照一定的目录结构编排而成。汉文大藏经的形成历史可以上溯至陈隋之际,经历了一千多年的时间,目前流传存世的有二十余种版本,所收录经籍总数约为4200余种、23000余卷,蕴藏了博大精深的佛教思想与修行体系。

    大藏经是佛法的传承,是佛陀和历代祖师大德们修行觉悟的智慧结晶,是无数先人艰苦卓越地修行、千辛万苦地保护,留给我们宝贵的精神财富。佛教是中国优秀传统文化的重要组成部分,对于促进社会和谐与发展有着不可替代的积极作用。佛教所提倡的认识自我、觉悟生命、奉献人生的人文主义精神,在当今物欲横流的现实社会尤显得崇高和珍贵。

    汉文佛教大藏经不仅是佛教研究取之不尽的资料宝库,还同时为哲学、历史、文学及艺术、语言、天文、医药、建筑等多种学科提供了不可多得的丰富资料,是古代世界文化的一份珍贵的遗存,也是中华文明对世界文化的贡献。

    因此,保护与传承大藏经,从古圣先贤的智慧中汲取营养,从优秀的传统文化中寻找自信,是时代赋予的使命,也是中华文化绵延不断、生生不息的动力。

    二、愿景目标

    (一)工程愿景

    利用人工智能等技术,深度加工、整理汉文佛教大藏经,促进佛教古籍文献的保护与传承。

    (二)工程目标

    1. 研发基于人工智能的OCR技术以及基于互联网协作的古籍数字化工作平台,协同人工智能与人工工作,提高大藏经数字化的质量和效率;

    2. 制定一套大藏经数字化的标准流程和体例规范,促进数字化过程的标准化和规范化;

    3. 实现藏经文字的原字还原,并实现藏经字符级的图文对照阅读模式,提高数字化成果的可信度和权威性;

    4. 形成一套藏经异体字字典、藏经规范用字字库、藏经图片字字库等辅助成果,夯实古籍数字化基础性研究工作;

    5. 分阶段、尽可能多地将存世的汉文大藏经进行数字化,并实现各版本的汇总与横向比对,打造完整体系的数字化汉文大藏经;

    6. 开发一套满足阅读和研究使用的、用户友好的发布平台,将数字化成果提供给社会各界免费使用。

    三、研发成果

    (一)如是古籍数字化平台

    “如是古籍数字化平台”是本院开发的基于互联网的古籍数字化协作平台,包含切分校对、聚类校对、数据管理、任务管理、用户管理等功能模块。

    校对人员可以在该平台上对人工智能OCR(Optical Character Recognition, 光学文字识别 )的识别结果进行人工校对。管理人员可以在该平台上进行流程定制、数据管理、任务发布、任务监控、质量抽查、人员协作等管理工作。

    平台的特点为:

    1. 先进的工作流引擎

    平台提供了包含切分校对、切分审定、聚类校对、聚类审定的标准工作步骤,在此基础上可以根据不同项目需要定制不同的作业流程。定制的流程通过先进的自动化工作流引擎进行推动,使得大量用户能够井然有序地协同在线工作。

    2. 高效的切分校对

    切分校对是将人工智能识别的字框进行人工校对的过程,包括切分字框和字序两步。平台采用了强大的可视化技术、人机交互技术和字序排序算法,可以帮助校对人员快速查找到人工智能切错的字框,有效降低校对的工作难度和工作量。

    图1-切分校对

    图2-字序校对

    3. 创新的聚类校对

    聚类校对是将人工智能识别的文字按照字种集中在一起,然后进行人工校对的新模式。该模式打破了传统逐页校对的习惯,可以一次性解决一个字种所有的文字,在保证校对质量的同时,大大提高了校对效率,降低了校对难度。并进一步提出了“轻造字”(一种轻量的造字方法)的原字还原方案,解决了原字还原校对中对于缺字、异体字处理的困难。

    图3-聚类校对“無”字

    4. 严格的质量控制

    数字化大藏经对校对质量的要求非常高,因此平台配置了专门的质量抽检与统计功能。该功能支持专门的质检人员每天对校对员工作成果进行抽检,抽检不合格的任务需要退回重做,从而有效保证了校对质量。

    5. 完善的校对体例

    体例文件是保证校对工作规范性的根本。各个版本大藏经的版式、符号与字体等繁复多变,必须制定周全完善的校对体例,解决古籍数字化中难以处理的异体字、缺字等问题,以保证工作成果的一致性。

    因此,本院经过长时间的潜心研究与实践打磨,制定了切分校对体例和聚类校对体例,用于平台的校对工作中并取得了良好的成效。

    (二)如是古籍OCR加工平台

    “如是古籍OCR加工平台”是基于人工智能和互联网的古籍图片加工平台,包含字符检测引擎、单字识别引擎、行检测引擎、行识别引擎、自动标点引擎等人工智能工具,可以实现高质量、高效率的大藏经古籍文字自动识别。对于绝大多数版面清晰、规范的刻本大藏经图像,如是古籍OCR加工平台的文字识别准确率达98%以上。

    通过数据集成机制,如是古籍OCR加工平台的服务可以被如是古籍数字化平台远程调用,即“数字化平台”向“OCR加工平台”发布加工任务,OCR加工平台接收到任务后,自动在后台调取引擎对图片进行OCR加工,再将结果返回数字化平台。

    (三)如是古籍数字化工具平台

    “如是古籍数字化工具平台”是本院向社会提供古籍数字化服务的工具平台,它包含了本院研发的古籍数字化相关的核心功能,包括古籍OCR、自动标点、标点迁移、多文本比对等。

    平台开放注册,免费体验,欢迎社会各界试用并反馈建议,平台网址是:

    guji.rushi-ai.net:800

    海外用户如无法访问,则可访问镜像:

    guji.world.rushi-ai.net

    图4-如是古籍数字化工具平台

    四、未来展望

    古籍数字化是一项长期且有時代意义的事业。

    目前,相关的软件平台、工作模式与体例规范已趋稳定和成熟,团队组织也在不断发展壮大。未来,本院将不断完善软件平台和工作体例,本着“务实、创新、聚焦、坚持”的理念,持续、稳步的推进古籍数字化项目,以期能达成最初之愿景,为古籍经典的整理与传播,为中华文化的伟大复兴贡献一份力量。

    期待更多志同道合之士加入如是古籍数字化事业,共同谱写古籍数字化这一古老而又现代的辉煌篇章。

    @31865 回复

    未曾
    管理员

    感谢分享

    看起来非常不错~

    @31883 回复

    白木
    游客

    汉文佛教大藏经电子资源 (CTER):

    cter.info/

    工具书、参考书:

    cter.info/books.html

    @31917 回复

    过路人
    游客

    识别准确率很好!谢谢分享

    @32177 回复

    唐代李白
    游客

    已经使用,谢谢分享!

     

    @32179 回复

    贺之章
    游客

    非常不错,准确率很高,节省我好多时间。

    @32180 回复

    卢卢
    游客

    谢谢分享,很有帮助。

    @32203 回复

    中国史研究生
    游客

    之前一直都在找这类的工具,现在这款还挺棒的,以后作业不用费劲的一个个敲了,已经推荐给导师了。

    @32215 回复

    悠悠
    游客

    很有用,非常感谢。

    @32270 回复

    crixus1024
    游客

    还不错,注册用户OCR识别每天限制10张,最低50张起充值,充值后成为会员识别张数无限制。

    和客服沟通了一下,OCR识别商业用户1.2元/张,智能标点1元/万字,以上价格个人用户打八折。

    额度用完的可以联系对方。

    @32277 回复

    皇皇者華
    游客

    提个小建議:縱排叫「行」,不叫「列」。

    @32569 回复

    砖家
    游客

    挺好的一个没有广告的工具网站,看着就很佛性,古籍OCR识别准确率还挺不错的。

    @33015 回复

    到此一游
    游客

    谢谢分享,试用了,的确是很好的一个古籍OCR识别网站。

    @33045 回复

    酸奶且無糖
    游客

    啊,現在科技都這麼發達了嗎?

    你們真是大神啊,我好崇拜你們啊!!

正在查看 14 个帖子:1-14 (共 14 个帖子)
正在查看 14 个帖子:1-14 (共 14 个帖子)
回复至:如是古籍 OCR 之大藏经数字化工程简介
您的信息: