葛艳聪:以数字技术赋能中华优良历史传统文化传承与创新

来源:安全标识标签    发布时间:2023-12-11 05:11:24

  11月4-6日,由中国公共关系协会联合海南省委宣传部、北京邮电大学共同主办的“2023中国文化计算大会”在海南博鳌隆重召开。国家图书馆出版社副社长葛艳聪以《以数字技术赋能中华优秀民间传统文化传承与创新——国家图书馆出版社古籍数字化的探索与实践》为题发表演讲。以下内容根据速记整理。

  各位专家,各位从事文化数字化行业的同仁,今天很高兴借“2023中国文化计算大会”向各位专家汇报国家图书馆出版社在中华优良历史传统文化的传承发展上做的一些工作。

  我今天汇报的内容分为四部分:一是简单介绍一下国家图书馆出版社,二是简单汇报一下国图出版社在古籍数字化、数字出版方面的一些探索和实践,三是,我们参与国家文化大数据体系作的一些工作,最后是个人关于优秀民间传统文化传承和创新上的一点思考。

  国家图书馆是国家总书库,国家书目中心,国家古籍保护中心。是中国最大的图书馆,共收藏的古籍大概15万部,其中善本古籍直接继承了南宋缉熙殿、元翰林国史院、明文渊阁、清内阁大库等皇家珍藏,以及明清以来许多私人藏书家的毕生所聚。最早的馆藏可远溯到3000多年前的殷墟甲骨。珍品特藏包含敦煌遗书、西域文献、善本古籍、金石拓片、古代舆图、少数民族文字古籍、名家手稿等280余万册件。“敦煌遗书”、“赵城金藏”、《永乐大典》、文津阁《四库全书》被誉为国家图书馆“四大专藏”。

  国家图书馆出版社是文化和旅游部主管,国家图书馆主办的一个专业出版社,也是全国百佳图书出版单位。建设40余年来,形成了图情专业出版、历史文献影印整理,中华传统文化普及推广三个出版方向。在历史文献的影印整理出版方向上,出版了《中华再造善本》、《永乐大典》等一大批有代表性的珍贵历史文献。

  2019年国家图书馆建馆110周年之际,习给国图的老专家回信中明确提到,国家图书馆要坚持正确的政治方向,要弘扬优良历史传统文化,创新服务方式。2022年4月,“两办”发布《关于推动新时代古籍工作的意见》,提出推进古籍数字化,支持古籍数字化的重点单位做强做优,加强数字化资源管理的开放共享,推动古籍专业数据库开发与利用,加速推动古籍整理利用转型升级。国家图书馆作为国内重要的古籍存藏单位,我们作为一个专业的出版社,承担新时代古籍数字化工作的重要责任,也肩负着新时代中华优秀民间传统文化的传承和创新的重要使命。

  在前面的背景之下,我们对既有的优势出版领域为依托,发展以中国历史文献总库的出版,以传统文化数字化传播为方向,继续开展了再造善本数据库、《永乐大典》数据库、皇家园林建筑图档数据库、民国图书数据库、近代报纸数据库,以及跟文化大数据结合比较紧密的古籍图典资源数据库等几个数字化的产品。

  其中,近代报纸数据库获得新闻出版署2020年度数字出版精品遴选推荐计划,古籍图典资源库今年刚刚获得2023年度数字精品出版精品遴选推荐计划。

  出版社将数字和传统的出版互为协同、互为支撑,建设了1+4+N的中国历史文献总库平台:

  “4”是建了四个资源型骨干数据库,分别是中华再造善本数据库、民国图书数据库、近代报纸数据库、近代期刊数据库;

  “N”是指建设的若干个专题库,像红色文献数据库、永乐大典数据库等等,我后面会简单跟大家介绍一下。

  我们秉承“相同内容的不同呈现”、“纸质求精,数字求全”、“纸质为本,数字延伸”的数字与传统出版的总体建设思路,最终目标是不断完善中国历史文献总库的收录文献内容,为用户提供历史文献的一站式解决方案。

  下面粗略地介绍几种代表我们不同建设思路的数字产品,这也代表出版社在传统文化数字化传播在不同方向上做得探索和尝试。

  中华再造善本数据库是将“中华再造善本工程”珍贵古籍善本进行图像数字化,收录古籍善本1312种,共计70万余叶。“中华再造善本数据库”是“中国历史文献总库”的子库,数字化形态的古籍,类目清晰,检索便捷,有利于研究者使用;同时又能更好地展示古籍的原貌,在版本鉴定、比勘方面具有特殊的价值,是古籍收藏、保护机构及个人,特别是文献专业师生进行教学、研究的重要工具。

  《永乐大典》高清影像数据库,由全国古籍整理出版规划领导小组规划指导,国家图书馆委托国家图书馆出版社建设,项目入选2021年国家古籍数字化工程首批立项项目。是《永乐大典》系统性保护研究整理工程的组成部分,致力于开展存世大典的文献数字化、全文化与数字版本征集,全面展示大典风貌及版本魅力,传播大典相关知识与文化,为相关学术研究提供文献资源支撑。项目坚持开放建设、公益服务,积极探索文本结构化、知识体系化、利用智能化研究和实践,为传承弘扬中华优良历史传统文化、赓续中华文脉做出贡献。

  该项目第一辑收录国家图书馆藏《永乐大典》四十册、七十五卷,共涉及14个韵部、17个韵字、1800部书,项目由国家图书馆出版社与北京大学数字人文研究中心共同完成项目的设计与研发工作。

  数据库内容收录了大量高清影像,大家可以非常清晰地看到《永乐大典》的原貌。在文化普及、学术研究方面我们把数据库做得更符合用户的需求。通过《永乐大典》让读者对古籍的了解,包括版式、内容进行简单的了解。

  同时,我们也做了沉浸式体验系统,梳理了《永乐大典》从产生一直到流散到回归的历程。让大家通过一个沉浸式的体验了解大典的前世今生。我们也做了一点知识化的尝试,对《永乐大典》的部分内容做了细颗粒度的标引。

  再介绍两个系统,“古籍印谱知识与印章识别系统”属于2021年度国家古籍数字化工程专项经费资助项目。它以目前存世的各类印谱为基础,同时全面收录各类珍稀善本中的印章,将分散于各类古籍中的印章进行收集,对印章进行处理,撰写释文、印主、来源图书等信息,是对古代典籍中印章的一次大规模的汇总性整理。

  系统收录了1万枚藏书印,通过计算机训练,最终实现让用户利用手机拍照可以自动检索印章,最终达到以图搜印章的目的。

  在“印谱知识与印章识别系统”的后续建设中,希望随着文化大模型的不断成熟,在为数据打标签和数据搜索的效率上能给带来更好的思路,如印章识别系统主要对散布在古籍中的印谱进行搜集、去重,希望在文化大模型的加持下,通过不断的深度学习能够实现古籍图像上印章位置自动标记和印文的自动识别。

  2022年,国家图书馆藏《庆赏升平》数字出版产品实现了首发。这款名为庆赏升平·戏曲人物扮相之孙悟空的数字藏品基于区块链技术,由国家图书馆作为版权方,国家图书馆出版社、中国数字图书馆有限公司作为发行方,中数公司做为出版方,成都文化产权交易所作为平台方联合完成。同当时流行的数字藏品不同,这是一款可交易的数字出版物。产品由数字标识、富媒体出版物和配套权益三部分构成。它不同于以往的传统数字出版方式,依托区块链技术,以一种限量发行的虚拟文化商品进行发售;不同于流行的数字藏品,以一种结合了知识库、数字产品、文创产品等富媒体的形式开发的一种新型出版物,也是我们对民间传统文化创新性发展的尝试性探索。

  《神龙说字》融合出版物是和故宫出版社联合出版,除原创动画外,视频故事采取线D模型面部捕捉小神龙互动的方式,提供有更丰富有趣的视听体验。这部跨界融合的出版物,为儿童通过学习汉字文化了解中国民间传统文化尝试新的路径。入选第五届中国数字出版创新论坛出版融合发展优秀案例推优项目。

  2021年,我们通过承担《中国传统文化图典深度标引与素材库建设》,参与到国家文化大数据体系建设当中,也是通过该项目的建设,获得了难得的发展机遇。这个项目的阶段性成果《中国古籍图典资源库》在上个月刚刚获得中宣部“2023年数字出版遴选推荐计划”的奖项。我想这个奖是对我们深度参与国家文化大数据体系建设、以实际行动响应和实践国家文化数字化战略的高度肯定,这个奖也提振了我们继续做好中华传统文化保护和传承事业,继续深入推进古籍数字化进程,提高古籍古为今用的转化和利用的信心和决心!

  这个项目在立项之前,我们首先思考了国家文化大数据体系建设需要什么内容?我们有什么内容适合加入国家文化大数据体系?

  国家文化大数据体系可以概述为“四端一网两翼”,国家文化大数据体系的供给端由中国文化遗产标本库、中华民族文化基因库和中华文化素材库构成。出版社作为文化生产企业属于生产端,生产端首先要考虑的问题就是国家文化大数据体系需要哪些内容?出版社有那些资源适合加入国家文化大数据体系?

  在专家的指导下,经过社内优选和讨论,基于出版社在古籍图片类资源有丰富积累的基础上,我们整合了历史上出版过的相关图书以及建设“中国历史文献总库”中积累的数字资源,策划了“基于历代典籍整理的中国传统文化图典深度标引与素材库建设”项目。

  该项目初衷是考虑中国古代典籍中的插图,既是传统文化的传承载体,又是现代设计作品的重要创意来源。目标是依托历代中华古籍,把其中的图像资源进行规范化著录、细致标引、合理分类。对中华文化中的图像素材进行深度开发,把图像素材中具有文化价值的内容提取为文化元素,将其转化为文化素材,为实现每张图片具体内容和每一个文化元素的检索和快速定位,需要对其逐一深度标引、分类,将具有价值的内容解析为单独的图像素材,实现传统文化元素的新解析和再创作,使之成为新的文化元素,提供给其他文化机构,用于创造具有厚重文化内涵的创意作品,为文化创意产业、文化大数据体系的中华文化素材库提供资源。

  古籍插图最早出现的是宗教插图,到宋元之后出现戏曲插图、小说插图、传记插图等,到后面逐渐丰富起来,出现整本以图为主的图谱。图谱又分画谱、图录、舆图、印谱、笺谱以及金石碑帖等。图谱类古籍因其特殊的艺术价值,在收藏界、艺术界颇受追捧。

  插图的收集看似简单其实很不容易,虽然古籍总量有大约二三十万种,但像《三才图汇》这样以插图为主的图谱类古籍比较少,大部分的时候,插图是与文字并行出现在古籍中,且以文为主,以图为辅。我们用了几年时间靠人工收集了超过10万张古籍插图资源,古籍来源不仅有《中华再造善本》《原北平图书馆藏甲库善本丛书》《古今图书集成》等综合性图书,还有《鸿雪因缘图记》等版画、年画、文学插图,以及样式雷图档、方志、家谱、印谱、佛道教典籍等。

  古籍图像进行数字化后,开始对图像进行标注和提取元素,这一步是整个项目最为关键的一步也是难度最大耗时最多的一步。

  首先是将十几万张图进行分类,我们首先按照图片的内容题材分为28个大类44个小类。这些分类要做到能够涵盖现有古籍插图的特点,也要符合现代分类习惯。

  另外我们根据古籍插图的特点,又将这些图片按照“地域”、“绘画风格”“图片应用场景”和“颜色”进行细致分类。比如《孔子圣迹图》插图可以应用于文化旅游或者文化教育类场景。《营造法式》《样式雷图档》等可以供建筑设计装潢装饰行业进行应用。《百花鸟图》《白川侯莲谱》可以供服装设计、文具用品行业进行创意设计。

  接下来对从古籍中获取的图像进行深度标引,经过提炼,总结出最适合古籍图片的标引类目,在此基础上,以图中的文化元素为单位进行深度标引,每一个元素可以增加多个标签,从而为设计、开发、研究提供精准的素材资源。

  例如对古代典籍图片中所涉及的老虎图案进行人工判断,将小说插图、墨谱、年画、玉器、纹饰等中的虎元素标示出来,用户就能够将这些原来无法通过普通检索的图案检索出来,设计师和学者可以利用这些图案进行二次创作和相关研究,从而使这些古代创作的素材更容易走进当代人的生活,也赋予了传统文化更旺盛的生命力。

  加工时,平均每幅图增加十几个标签,信息量大的图需要几十个标引点,每个标引点还要用多个词进行描述。由于标引占用了大量的人工成本,我们最近也再和北京邮电大学赵海英老师团队合作,尝试利用计算机算法技术对我们提供的古籍插图资源自动提取元素进行尝试,帮助我们实现了一部分古籍插图元素的提取工作。

  未来我们也希望能够和相关领域的专家和团队继续合作,进一步提高古籍插图元素的自动提取和标注的效率,真正实现古为今用,让古人的智慧成为现代的灵感来源。

  在对插图元素进行过提取和标注之后,我们还把提取出来的单个元素,经过矢量化加工,做成纹样素材,进入文化大数据交易平台数据超市成为可供交易的产品。目前已经加工完成的纹样素材有1600多个。

  目前我们主要是采用人工绘图的办法来描摹线稿和上色。也尝试过用计算机自动上色算法在对古籍插图自动上色,但配色并不能达到最理想的效果,所以我们最终还是采用纯人工手绘上色。当然,这样做就使得相应的费用成本和时间成本都比较大。

  这里我们也有一个新的需求,不知文化大模型是否实现古籍纹样的色彩复原?让黑白的古籍图像在新时代重新鲜活起来!我们也希望对此感兴趣的专家或者团队跟我们联系,希望不久的将来能够在这个问题上实现更大突破。

  文化大数据体系的中华文化素材库是将已标注和关联的文化数据进行解构,萃取中华文化元素和标识,分门别类标签化,为内容创作生产提供素材。数据库收录的中国传统文化图像素材已经成为中华文化素材库的组成部分,

  在此过程中,我们成为首批接入国家文化专网和装配底层关联集成系统的单位之一,实现了国家文化大数据体系实现“物理分布、逻辑关联”的关键一步。项目的建设为后续深度开发文献资源以及文化数据资源的提取、标引和分类等方面积累了丰富的经验。

  在素材库的建设过程中,采用不可控自然语言进行深度标引,获取了数万个标引词,而这些词由于没有标准来参照,缺乏控制,必然存在重复、不统一等问题,这给图典后期利用以及不同系统之间的关联都带来了一定的困难。这种情况下建立一个规范标准的词表就显得尤为重要,因此在二期建设中,我们聘请专家对一期建设的标签词进行专业性规范,形成规范词表,通过建立规范词之间的关系最终形成《中国传统文化图典标引词后控词表》。

  该后控词表可以成为国家文化大数据体系在文化素材领域图像数据标引的参照规范,为文化数据标引提供一种参照模式。

  自去年“国家文化大数据交易平台”上线以来,我们出版社已经完成了接入底层关联系统、上传精选古籍文献图片资源并取得ISLI编码的任务。作为国家文化大数据体系中的示范成员单位,我们将古籍资源进行了筛选,将62种来源书的5200多张适合文化交易的图片上传至文交所“国家文化大数据交易平台”并进行了发布和委托。自国家文化大数据交易平台的上线运行至今两年多时间里,我们出版社的珍稀古籍图片资源在“数据超市”的浏览量一直位居前列,尤其是《庆赏升平》更是居点击量排行榜的首位。

  今年3月,在深圳文交所的全国文化大数据交易平台上,我社古籍文化资源《龙袍》和《常服袍》同个人买家达成了交易,将国家图书馆出版社的古籍资源转化成为商业价值。我们作为首批参与国家文化大数据体系建设的单位已从中获益。为此,我们更加愿意加入文化大数据的体系建设当中,更加积极地响应和实施国家文化数字化战略。文化大数据体系建设的最后一环就是实现数据的交易。

  国家文化大数据体系是一项具有开创性的系统工程,它既是一个文化数据生产的平台,也是一个文化运营的平台,文化元素进入全国文化大数据交易平台的“数据超市“。通过大数据体系,能够让不同的文化产品相互关联,从而形成一个完整有机的体系;通过平台与文化产权交易系统的对接,实现文化资产的产权交易,能够激发所有参与者的动力,有经济效益产出保证大数据体系建设的吸引力与生命力。

  今年在与江苏文交所签订进场协议之后,我们将拥有自主知识产权的1500多个中国传统纹样素材矢量图上传至江苏文交所的国家文化大数据华东区域交易平台上,并很快就达成了交易。深圳国夏公司在购得这些传统纹样素材之后将文化数据落实应用到产品,实现数字化赋能,和其他企业加强了合作联动,走在了文化数字化应用行业的前列。

  为进一步提高数据加工的效率,我们也在进行新的技术尝试。这是一副《红楼梦图咏》里图像,中间是矢量绘图软件自动矢量化的结果,右边是采取了新的人工智能自动矢量化的结果,通过对比可以看出,优化后的结果已经基本达到了使用的要求。

  在今年举行的“文化大模型应用大会”上,我们见到了为文化行业打造的由文化大数据产业委员会和华为云联创的文化大模型。我们正在尝试将出版社多年积累的优质文化资源数据投入到文化大模型的训练中去,创造出更具创新性的文化产品和服务。同时我们也在逐步探索将文化大模型运用到我们古籍数字化保护事业中。作为国家文化大数据体系建设的参与者,我们也非常有幸能从早期参与到文化大模型的测试当中,我们希望能借助文化大模型去解决前面提到的一系列问题。如利用文化模型实现古籍插图的自动识别、实现对于文化素材的辅助标引、建立图典知识图谱等等。

  《赵城金藏》刚入藏国图的时候,有三分之二的卷子都是这种状态。这些佛经长期保存在恶劣的环境里,受潮发霉,在抢运的过程中又被藏在废弃的煤矿矿井中,不仅表面看上去很差,而且很多都粘连成一体,无法打开。像这样的保存状况很差的古籍还有很多,希望随着时代的进步,科技的发展,数字技术的不断迭代,能够让文物和古籍得到更好的保护、挖掘和利用。

  在古籍图像化、文本化之后,下一步的工作重点要在全国智慧图书馆体系及文化大数据体系我们挖掘其中的内容,进行细颗粒度的标引形成一个个的知识点,这样不仅可以实现知识关联,也可以为文化大数据的体系建设提供素材。

  图书馆等文献存藏机构和拥有技术的企业之间,只有取长补短、合作共赢,才能合力做好以古籍数字化工作为代表的中华优良历史传统文化传承。在大模型时代,只有科技和文化携起手来,文化大数据提供大模型训练所需数据,科技提供算法和算力,发挥各自所长,最终形成文化大模型,推动文化传承不断走向智能化。

  最后,如何将古籍中优秀的民间传统文化挖掘出来,服务于当下是我们一直努力的方向。希望在各方的支持和不断努力下,我们能够为国家文化大数据体系及文化大模型的建设提供更多助力。期待未来以更多数字技术赋能,助力中华优良历史传统文化的传承与创新!

  葛艳聪,国家图书馆副研究馆员,从事图书馆参考咨询、出版营销发行、数字及融合出版相关工作多年,主持开发多个数字平台,入选新闻出版署2022年出版融合发展优秀人才遴选计划。

上一篇:【标签纸】第31页_新闻中心_建材网
下一篇:【48812】河北滄縣:書店進商場 激發文明消費動力