万普插件库

jQuery插件大全与特效教程

AI文生图文字乱码?都像鬼画符?国内主流AI模型文生图中文字对比

一次无意的使用豆包大模型中发现,无论怎么修饰,生成图片中的指定文字总是各种乱码或者奇怪符号,就像是鬼画符一般。于是带着这个问号去试了一下其它主流的AI。

目前国内AI模型越来越多,如春笋一般不断涌增,头部基本上都认为是:阿里的通义千问、百度的文心一言、腾讯的混沌、华为的盘古、讯飞的星火、抖音的豆包以及最近特别流行的Kimi。而其中免费且能直接实现文字成图的就是通义千问、文心一言、豆包、讯飞的星火,而热门的Kimi无法实现文字生图,只能提供语言交互功能。

1、图片生成对比,主流AI的文成图全部沦陷

为了直观的对比,给了最简单的指令:男生小明举着一张纸,上面写着“我是小明”,生成卡通图片。分别在上述四个AI中生成了相应图片。当然,即使采用同样的表述,每个人使用AI生成的图片都会不一样的,这里不做纠结。

首先是通义千问,我是小明的文字感觉有点像是泰文一样的奇怪文字,完全看不出写的是啥。

其次是讯飞星火,这对“举着一张纸”是有啥误解吗?当然核心的是“我是小明”这些的感觉更像是乐谱。

对于豆包生成图片,这卡通图一点都不卡通,更像是照片图,而这文字看上去有点像是日文。但是也读不出写的是啥?

最后是文心一言的图片,看上去有点像英文又有点像泰文,反正是一点没看出中文的样子。

2、原因分析及疑惑

似乎目前国内主流的AI在文成图上的文字表现上都不行,看来国内AI模型的文生图的迭代优化上还有很长的路要走,当然国内有些在文生图上很专业的付费AI模型没有测试,并且国外GPT模型也没有测试。仅从这几个模型的文成图来看,涉及指定文字的视频生成恐怕就更难以想象了。

本人不是专业的IT行业人员,初步猜测还是AI模型算法在在成像的逻辑缺乏整体的校验功能,就像是有时候AI在文字互动都会出现逻辑混乱甚至幻觉的问题。具体的原因相信专业人士肯定有了答案。

随着AI浪潮的不断演进,相信上述的问题很快就会得到解决。国内的AI文成图更能用于协助文创办公等一系列事务。

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言