找回密码
 注册
搜索
楼主: wingZZseed

[闲侃] 盘点一下2024年打通的游戏

[复制链接]
发表于 2025-1-11 22:24 | 显示全部楼层
传说系列的换装迷宫挺好玩的
发表于 2025-1-12 17:06 | 显示全部楼层
本帖最后由 blindholmes 于 2025-1-12 17:09 编辑
blindholmes 发表于 2025-1-11 00:34
汇报一下,
再次开工部署运行 AI 翻译项目


更新进度汇报

请求体和数据格式已经搞清楚了,就是发一个 post 请求,附带模拟器原始图像的 base64 编码,返回一个图像的 base64 编码

那就好办了,我只要接入一个多模态 AI 的 API,直接去对图像进行翻译和摘要,再把翻译和摘要合成图片生成 base64 编码返回就好了

于是新的问题就来了,我横评了多家的多模态 AI 的处理能力

原始图片就这张 320x240 的游戏截图:


多家 AI 的表现能力:

智谱 GLM-4V-Flash:



豆包:



Doubao-vision-lite-32k:



Doubao-vision-pro-32k:



ChatGPT-4o:



本地 vgtranslate 部署后接入 google OCR 再接 google 翻译:



接入 ztranslate.net:




其实看的出来,
这里面还是 ChatGPT-4o 的翻译最准确(maybe),
豆包次之;
Doubao-vision-lite-32k 与 Doubao-vision-pro-32k 是火山引擎的目前最新的视觉推理模型的开放 API,用着感觉还不如豆包(好东西自己留着不给别人用是吧?)
智谱 GLM-4V-Flash 就可以说是一坨屎了,
Google OCR 其实中规中矩了,
ztranslate.net 感觉是程序有 BUG,所以文字位置定位会有问题,我猜测 ztranslate 的 OCR 还是用的本地的 OCR 模型,而非 Google OCR,这样既可以节省成本,也可以提高效率

看来看去,最有意义的还是接入 OpenAI 用 ChatGPT-4o 来搞了。我去开放平台看看吧,结果发现我以前的 api_key 已经过期,需要创建新的 api_key,新的 api_key 创建好后需要绑定银行卡才能通过使用权限,于是就……




看来这个项目还是再等等吧!google OCR + google 翻译 先顶着吧,计划暂时搁置
发表于 2025-1-12 23:02 | 显示全部楼层
24年 我······

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|虎纹猫家园

GMT+8, 2025-3-13 20:29 , Processed in 0.017189 second(s), 14 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表