作者MARKMARK (马克)
看板Soft_Job
标题[讨论] AI评论鲁肉饭会不会很难...
时间Mon Mar 30 06:38:39 2026
https://ithelp.ithome.com.tw/m/questions/10220070
看到有人做了一个鲁肉饭评论器
觉得蛮有趣的..
毕竟我自己也蛮喜欢吃的
不过鲁肉饭都长一个样
AI要区分感觉挺难的
很多细节差异,像是肥瘦比例
酱汁颜色、肉燥颗粒大小、油亮程度,甚至配菜等等..
现在的视觉模型不晓得能不能辨别?或是需要fine-tuning,或重新训练?
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 42.79.37.3 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1774823922.A.EFC.html
1F:→ DrTech: 看要做到多准而已吧。技术都有。不过很多人半桶水而已,例 03/30 08:35
2F:→ DrTech: 如这个连结,文字相似度用CLIP?如果是 OpenAI 版本的CLIP 03/30 08:35
3F:→ DrTech: ,不支援中文。很多人跟本乱用。 03/30 08:35
4F:→ DrTech: 用import clip 根本搞笑。OpenAI版本的CLIP完全看不懂中文 03/30 08:40
5F:→ DrTech: 。 03/30 08:40
6F:→ DrTech: 这就是我常说的,claude写的程式码很有效率。但专业领域一 03/30 08:44
7F:→ DrTech: 直很烂,日常工作很难用。连CLIP不支持中文都不知道,乱套 03/30 08:44
8F:→ DrTech: 。然後一堆外行人,还以为自己程式是对的,觉得很好用。 03/30 08:44
9F:→ MARKMARK: 看了一下,这个工具用的CLIP好像是图对图的KNN比对,我 03/30 09:23
10F:→ MARKMARK: 对这块比较没研究 03/30 09:23
11F:→ DrTech: 对喔,对店家照片。不过CLIP本身就没有对店家照片这种资料 03/30 10:17
12F:→ DrTech: 做训练,embedding出来,几乎纯乱数,算相似度也没意义。 03/30 10:17
13F:→ DrTech: 真的要这样搞。dinov2, dinov3这种学通用特徵的模型比较适 03/30 10:19
14F:→ DrTech: 合。 03/30 10:19
15F:→ Firstshadow: 真不愧是D大...连卤肉饭都懂 03/30 11:14
16F:推 holypiggy: 除非训练资料也都是用同个装置拍 不然色调那些就无法 03/30 12:40
17F:→ holypiggy: 校正了吧 03/30 12:40
18F:→ MARKMARK: 看作者说照片是自己吃饭拍的,感觉资料量不足 03/30 13:12
19F:推 kurtsgm: 直接用通用LLM丢个照片说"看起来好不好吃"感觉都还准些 03/30 13:47
20F:→ kurtsgm: 我刚刚做了实验 直接丢几张卤肉饭进去让gemini 挑... 03/30 13:50
21F:→ kurtsgm: 还真的挑出那张我觉得看起来最好吃的 03/30 13:50
22F:推 viper9709: 用照片感觉不准吧... 03/30 17:08
23F:→ MARKMARK: 晚上刚好吃鲁肉饭顺便来试试 03/30 20:36
24F:推 RINPE: 没有脏地板和胖大叔我可不吃 04/01 08:27
25F:推 ssadow: 我没接串接API,只是单纯丢文章的图给ChatGPT问评价 04/02 14:27
26F:→ ssadow: 结果AI分析是肉燥饭不是卤肉饭,以评论来说算有参考性的 04/02 14:27
27F:→ MARKMARK: 跟卤肉饭的特徵相比,判断哪一家店感觉很难 04/02 16:03