万普插件库

jQuery插件大全与特效教程

上海岩芯数智申请基于文本局部和全局相似度过滤的数据清洗方法及装置专利,有效过滤生成文本中幻觉内容

金融界2025年1月22日消息,国家知识产权局信息显示,上海岩芯数智人工智能科技有限公司申请一项名为“一种基于文本局部和全局相似度过滤的数据清洗方法及装置”的专利,公开号 CN 119272754 A,申请日期为2024年9月。

专利摘要显示,本发明提出了一种基于文本局部和全局相似度过滤的数据清洗方法及装置,解决了现有技术中只考虑全局信息、并且CLIP模型对长文本兼容性差的问题。该方案考虑完整文本和图像内容的相似度以及文本内每句话和图像内容的相似度,可以有效的过滤掉生成文本中属于幻觉的内容。同时将文本内容拆分成短句后,也刚好兼容CLIP能够比较好的处理短文本的能力。首先利用CLIP模型中的视觉编码器和文本编码器分别对图像和拆分后的文本进行编码,得到全局图像特征和局部文本特征。然后计算图像特征和每个文本特征的相似度。将相似度低于阈值的句子从文本中过滤掉,剩下的句子继续组成完整文本,最终得到生成的、高质量的、低幻觉的图文对数据。

天眼查资料显示,上海岩芯数智人工智能科技有限公司,成立于2023年,位于上海市,是一家以从事科技推广和应用服务业为主的企业。企业注册资本3000万人民币。通过天眼查大数据分析,上海岩芯数智人工智能科技有限公司共对外投资了1家企业,参与招投标项目1次,知识产权方面有商标信息3条,专利信息45条,此外企业还拥有行政许可1个。

本文源自金融界

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言