山谷网安创新专利:混合型中文文本分词技术的C++实现

发表时间: 2024-04-17 09:29

金融界2024年4月17日消息,据国家知识产权局公告,山谷网安科技股份有限公司取得一项名为“一种基于C++语言的混合型中文文本分词方法“,授权公告号CN113033193B,申请日期为2021年1月。

专利摘要显示,本发明提供一种基于C++语言的混合型中文文本分词方法。该方法中,一个给定的文本数据的分词过程包括第一次分词过程和第二次分词过程;第一次分词过程的文本数据读取顺序和第二次分词过程的文本数据读取顺序相反;其中,第一次分词过程或第二次分词过程包括以下步骤:步骤1:加载词语词库和词频词库,并建立双数组tire树;步骤2:按照约定的文本数据读取顺序从给定的文本数据中读取一行数据,然后对当前行数据进行分词;步骤3:判断给定的文本数据是否已经读取完毕,若没有,则返回步骤2;若读取完毕,则执行步骤4;步骤4:判断给定的文本数据的分词过程是否结束,若结束,则比较两次分词过程的分词结果以确定给定的文本数据的最终分词结果。

本文源自金融界