《西藏日报》 《西藏日报藏文版》 《人民日报藏文版》 《西藏商报》 《西藏法制报》 《西藏法制报藏文版》

2024年07月04日

为西藏搭建信息化桥梁

—记中国工程院院士、西藏大学教授尼玛扎西(中)

          本报记者 王雅慧  王雨霏

“祝贺你,你为西藏争得了荣誉。”2023年12月5日,西藏自治区党委书记王君正与新晋院士尼玛扎西座谈,向他表示祝贺。

就在2023年11月23日,中国工程院公布了2023年院士增选当选院士名单,尼玛扎西榜上有名。这是继多吉院士之后,西藏的第二位工程院院士。

在2023年当选院士颁证仪式上,尼玛扎西作为新当选院士代表登台发言。他深情地说:“我是沐浴着新西藏的阳光雨露,在党和国家的关怀培养下成长起来的。”

30多年来,尼玛扎西倾尽所学,回馈着养育他的这片大地,为西藏搭建信息化桥梁。

深耕不辍,藏文信息化让更多的人受益

本世纪初,手机在全国普及程度已经很高,但对于西藏广大农牧民来说,还有些遥不可及。原来,当时价格较为亲民的国产手机无法支持藏文输入,能够支持藏文输入的进口手机价格又让人望而却步。

“藏文的国际编码标准都是由我们确立的,我们没理由生产不出可以支持藏文输入的国产手机。”尼玛扎西再一次投入到紧张的研发中。

功夫不负有心人。尼玛扎西带领的西藏大学团队和中国电信西藏分公司等公司共同研发数字移动操作系统藏文版,并推出了基于此的藏文数字移动电话,于2005年首次实现了手持电子通讯设备的藏文信息处理,受到广大农牧民的欢迎。

尼玛扎西并不满足于此。智能手机已经普及,使用藏语文作为主要沟通语言的人如何更便捷地使用智能手机?

2014年,尼玛扎西团队与中国电信西藏分公司、华为集团合作研发智能移动操作系统藏文版——“汉藏安卓操作系统”,并共同推出基于此的智能移动电话,用户可以通过藏文方便地使用移动电话各项功能。这一操作系统之后被广泛应用于我国的国产手机中。

2019年起,尼玛扎西团队开始专注于研发国产计算机操作系统多语言支撑技术版。2021年,由西藏大学、国防科技大学和麒麟软件公司历时18个月共同开发的“银河麒麟操作系统(藏文版)V10”正式发布。尼玛扎西团队心无旁骛、驰而不息,深耕藏文信息处理系统技术领域,不断推出新的研究成果,服务西藏的信息化建设,特别是基层干部群众的工作和生活。

精益求精,藏汉翻译系统更加“博学”

在文字信息化过程中,最基础的工作就是“输入和输出”。随着藏文国际编码标准的确立,通过尼玛扎西等一批藏文信息处理专家的不懈努力,藏文“输入和输出”已不再是问题。

一个新的课题摆在了尼玛扎西面前,那就是“沟通”。

“如果一个人只会藏文,或者只会普通话,能不能通过机器实现沟通?”想要解决这个问题,“机器翻译”成为首选。

尼玛扎西开始涉猎机器翻译领域,这对于他来说,又是一个全新的挑战。

2016年,历时近5年的艰难探索,由尼玛扎西主持、近30名成员组成的团队自主研发的“阳光藏汉机器翻译系统”正式上线,并免费向公众提供服务,从前要花费十几个小时的翻译工作,通过机器翻译系统,只需要十几分钟就可以完成。

想要让翻译更加精准,就必须让系统足够“博学”。为此,尼玛扎西主持研发了藏文文献资源数字化平台和全文检索技术,数字化各类藏文文献资源,构建了藏文文献资源库。

“这个系统就像一个牙牙学语的稚童,要不停地教给它各领域各行各业的知识,它才可以说出更漂亮的句子来。”尼玛扎西团队成员、机器翻译项目成员仁青东主这样形容“阳光藏汉机器翻译系统”。

如今,经过团队成员的共同努力,“阳光藏汉机器翻译系统”历经多次升级,不仅将准确率提升至90%以上,系统的最高日访问量更是达到11万余次。在此基础上研发的语音翻译、图文识别等系列技术和软件系统将逐步应用于社会生活的方方面面,服务西藏信息化建设和数字经济发展。

对于尼玛扎西团队来说,这些远远不够。

“藏文是中国文化的瑰宝,已有1300多年的历史,是世界上古老的文字之一。我们希望能收录更多更专业的藏文文献,让那些流传千百年的以藏文承载的文化遗传得到准确地翻译。”仁青东主说,目前,团队依然在不断扩充大规模高质量藏文数据资源,努力提升汉藏机器翻译系统在藏医药、文学和古籍等专业性更强的领域的翻译准确率。

攻坚克难,发力藏文古籍文献数字化

藏文古籍文献种类繁多,卷帙浩繁。我国存世藏文古籍总数约在百万函以上,其中,约三分之二收藏于西藏。2012年,尼玛扎西团队又开拓了全新的领域——藏文古籍文献深度数字化。

要想将古籍数字化,最先要攻克的难题就是图像识别技术。图像识别可以将藏文文档图片识别成计算机可以阅读的文档,这样就有可能利用信息技术对古籍内容进行检索、翻译、分析和理解等进一步的处理和利用。

藏文属于拼音文字,字形无定长、无定宽、字符形态变化大。古籍存在版式多样、图文混排、结构紧密等现象,不同抄录人的笔迹、书写习惯也不尽相同,导致识别难度高,藏文古籍文献的数字化技术研发和全文数据库的建设极为复杂。

通过承担国家重点研发计划重点专项,尼玛扎西带领团队应用新一代人工智能技术集智攻关,攻克了藏文古籍文献扫描识别、数字化无损采集、数字化协同工作、全文数据库构建和检索等制约藏文古籍文献数字化保护和利用的系列技术瓶颈,研发了藏文古籍版面分析与多字体文字识别系统,工程化应用于藏文古籍数字化保护和利用、藏医药知识工程技术研发等诸多领域,实现了藏文古籍保护和利用的重要突破。

2022年,尼玛扎西团队“藏文古籍文献数字化技术研发和应用”荣获西藏自治区科学技术奖一等奖。

“目前,研发成果已经在西藏图书馆、布达拉宫古籍数字化保护中得到了广泛应用。”尼玛扎西团队成员、西藏大学信息科学技术学院教授拥措介绍说,在该项研发成果的基础上,团队还承担了自治区有关图文识别研究项目,通过利用前沿的人工智能算法,对多场景多字体识别技术做了更进一步的研究,包括古籍和其他场景下的多字体文字识别技术。

如今的西藏,信息化高速发展,当选中国工程院院士的尼玛扎西并没有停下奋斗的脚步,他和团队又把目光瞄准了人工智能领域。“要让技术赋能民生改善,利用人工智能技术研发语言技术,使农牧区群众在医院看病、在银行办事等社会生活中更加方便,使所有人都能感受到国家经济发展和信息技术进步带来的便捷生活。”尼玛扎西说。

(记者 汤铭明 索朗群培 康洁白姆 次仁平措 晋巴次成 洛桑平措 对本文亦有贡献)