作家 | Tniniuo
裁剪 | 蓝兰
想靠AI旅游的一又友,终究依然莫得在携程上问主张说念。
我有个犟种一又友,心爱种种科技花活,每次网上有新东西他齐要试试。这个十一他要尝试的是靠旅游行业垂直大模子——携程问说念,已毕AI旅游。
我告诉他,AI旅游这事当今不靠谱。
总共这个词大模子行业目下公认的事实是,AI大模子在发散性的内容上可能会超出预期,但在践诺议论和落地的任务上,基本只可处于copilot的脚色,东说念主力依然主导。问吃喝、土产货游玩、出议论,还不如世界点评、小红书高效。
甚而不如问我。
因为用户在所谓的靠AI旅游这件事上,需要的是一个AI Agent(AI智能体/助理/助手)。而AI Agent条目的是精确性,但目下AI大模子的发散性大于精确性,因此AI旅游在当下依然一个悖论。
比如说想在上海玩,AI会搜索历史数据和信息,告诉你外滩、石库门、武康路、东方明珠、豫园、淮海路你齐值得逛逛。但若是需要一个得当我方喜好的专属行程,AI提供不了。你只可在AI提供的信息贵府里作念二次的东说念主工筛选。
若是你想玩的更local小数,比如想找一家有品位的精酿吧,演绎水平高的脚本杀店,密斯姐多套路少的夜店,AI更保举不出来。也等于说,携程问说念目下成不了AI Agent。
但光显,我的犟种一又友不想听我哔哔赖赖。
于是我们径直干预测试,让携程问说念出一个10月2号—10月6号在上海的行程议论。遵守携程问说念只帮我们把行程议论到了10月4号,10月5号和10月6号的行程它让我们我方阐述。嗯......我上一个00后实习生,是引导家亲戚,也差未几是这个味儿。
我们又问了下武康路到底有点什么特有魔力,究竟能玩点啥?得出的论断是Citywalk。然后我们告诉携程问说念,若是不想在上海Citywalk,是否有更好的行程保举。
遵守携程问说念把之前推给我们的行程又叠加了一遍。
好吧,手足无措。
终末我们告诉携程问说念,想住在中猴子园隔邻,让他保举几家栈房。可能由于莫得精确的告诉它是上海中猴子园,是以携程问说念给我保举了三山五岳,各个场地中猴子园隔邻的栈房。这就很迷,我们和携程问说念聊了半天,不一直齐在聊上海旅游的事么?这点前后文语义的识别也这样坚苦么?
大模子行业里有个词叫“AI幻觉”,即东说念主工智能系统(当然言语处理模子)生成的内容与真实数据不符,或偏离用户辅导的风物。
说白了等于,用户问前门楼子,AI答胯骨轴子。
短短三四个问题,我们看到携程问说念一直千里浸在AI幻觉中,离需要准确性的AI Agent还有不少距离。诚然,酿成AI幻觉的的原因有许多,从数据质地差到算法时弊,再到贫困接地和过度拟合,齐会导致AI幻觉。
可是,总共这些原因的中枢是:AI 模子的输出取决于它们的输入,或它们为处理所述输入而设想的步地。归根结底,AI 模子无法自我推理、盘问或事实核查。因此,需要准确性的AI Agent,在当下还无法完竣已毕。
空想景象下的AI Agent是,大大宗时候你只需给它一个最终你想要达成的缱绻,它能径直录用遵守,过程你啥齐不消管。
康奈尔大学、华盛顿大学和滑铁卢大学以及非渔利盘问机构AI2的盘问东说念主员,最近进行了一项盘问,测试了GPT-4o、Meta的Llama370B、Mistral的Mixtral 8x22B、Cohere的Command R+,以及调用API的模子,比如Perplexity的Sonar Large(基于Llama)、Google的Gemini 1.5 Pro和 Anthropic的Claude 3 Opus等多个开源模子,
实考阐明注解,各家模子产生的AI幻觉半斤八两。在谜底起首不是维基百科的情况下,每个模子的平均恢复事实性齐较低。虽然,从另一个维度看,莫得AI幻觉,大模子就莫得发展可言。
但在目下这种AI幻觉泛滥的环境下,用户想要一个议论行程的Agent,或是某个行业的最新资讯和讲明,幻觉等于致命时弊。很光显在这种情况下,以AI Agent为缱绻的AI旅游大模子,目下基本齐是悖论。最多仅仅一个收集素材整合器具。
这种困窘不啻出当今携程问说念身上。字节的豆包、百度的文心一言等等,在AI旅游的阐发上齐挺一般。尤其是在谄媚复杂费户需乞降提供精确个性化做事方面。要么行程过于空泛,不知不必。要么AI幻觉爆发,我方加戏太多,甚而一些AI模子连门票价钱齐会报错。
目下行业的共鸣是,基于大模子的发散性产生的AI幻觉是没法处治的,是以必须要通过允洽的微调形成行业专用的深模子。但当下,即使在ChatGpt的GPTs应用或是字节的Coze平台,也很少有着实可用的,更好处治问题的Agent。
若是AI Agent无法基于用户缱绻形成个性化保举,AI旅游大模子又当若何?携程问说念目下在这上头抖了一个小聪惠,即提供了一个涵盖栈房、景点、餐饮及夜生计等多维度的“携程口碑榜”,供用户出游参考。
也等于携程集团集中创举东说念主梁建章所谓的:哄骗携程我方常年鸠集的数据和榜单,为用户作念保举。直白点说等于,这些东西携程的用户玩了齐说好,坚信你也会合计好。至于个性化,暂且不聊。
比如,我们问“上海最佳的栈房是哪家?”
携程问说念基于“上海豪华栈房榜”得出论断,前滩香格里拉大栈房是上海最佳的栈房。
略让东说念主惊诧,因为这栈房我住过。不差,只不外马桶有点智能了,智能到深宵会我方使命。很卷,但白璧微瑕。可要说在一众浪费栈房云集的上海,前滩香格里拉是TOP1,这个如实有点出乎猜想。
于是我让他问问这个“上海豪华栈房榜”是什么机构评定的,基于什么程序评定的?遵守得出了一个相比可笑的论断。
践诺上这个“上海豪华栈房榜”,等于携程我方推出的“携程口碑榜”其中一部分,会凭证口碑、销量等几个维度来筛选,还有一些下榜限定。不外携程点评当今幸免不了东说念主工纷扰因素在,且目下来看,下榜限定实行的也并不严格。
比如9月份刚被曝出来“1天2次6700元”事件的长春高新益田福一又喜来登,目下仍在“长春豪华栈房榜”名列第14,并莫得下榜。
践诺上在总共这个词AI做事历程中,携程并莫得体现出来其所谓的,“通用AI大模子所莫得的旅游产物资源库上风”。这份“携程口碑榜”也从一运转就填塞着一股浓郁的买卖气味,看不出与世界点评必吃榜、必玩榜有什么光显的产物各异。
换句话说,即便今天莫得AI大模子,也不影响携程推出一份“携程口碑榜”。两者之间莫得任何因果关系,以及强干系性。
事实上,关于AI旅游大模子来说,确切可用的Agent一定不是浅显模块组合可已毕的,若是有,也仅仅好景不长。AI大模子催生了Prompt Engineer的使命脚色,AI Agent理当催生Flow Engineer一类岗亭,需要一批兼具产物和编程想维才智的脚色。
但在携程的公开招聘中,目下莫得看到光显具有Flow Engineer性质的岗亭。
而在总共可公开查询到的信息中,携程距离AI Agent最近的一次,则是本年二季度财报的时候,携程集团集中创举东说念主、董事局主席梁建章,CEO孙洁、CFO王肖璠等公司高管,初度以AI Agent形象,在财报会议上与投资东说念主换取。
但很光显,此AI Agent并非AI大模子行业的AI Agent,说穿了不外是访佛数字东说念主的奇技淫巧。