AI的终极理想是什么?百度交出“不完美”答卷

记者实测文心一言:是“天才”也能是“疯子”

2023-03-21

记者通过邀请码体验文心一言,让它写了一首关于春的五言诗,但明显没有达到每句5个字的句式。

商报见习记者 王彬彬

上周,接连三天,AI圈甚至微信圈被震撼了!

3月15日,因ChatGPT爆火的OpenAI再次发布新模型——GPT-4,其拥有更强的语言理解能力,在准确度上显著提升,“更可靠、更有创意。”

3月16日,百度的类ChatGPT产品:文心一言,揭开神秘面纱。百度公众号显示:文心一言邀请测试后三小时,文心一言企业版API调用服务测试的企业用户达6.5万;文心一言官网显示,截至3月20日17时,已有超88万人排队等待体验。

3月17日,在 Microsoft 365 Copilot 发布会上,微软正式把 OpenAI 的 GPT-4 模型植入Office全家桶,推出全新的 AI 功能 Copilot(副驾驶),能用AI帮助用户生成文档、表格、电子邮件、PPT等。

前有GPT-4惊艳亮相,抢夺一大波流量,后有微软技惊四座,再次闪瞎全世界。记者拿到了文心一言测试邀请码,利用双休日整整两天时间,与文心一言进行了一番“交谈”。

AI的世界究竟如何?保持好奇心,学会拥抱和尝试,是我们理解AI的最佳方式!

A.

吟诗作画、数学解题不在话下

记者实测:是“天才”也能是“疯子”

“用清风、明月写一首诗”“以‘上善若水任方圆’为主题写一篇散文,不超过600字”“有20张5元和10元的人民币,一共是175元,5元和10元的人民币各有多少张?”……从吟诗写文到做数学题,文心一言倒是能够给记者较为满意或是正确的回答。值得注意的是,文心一言第一次以“善上若水任方圆”为题写作文时,文笔较为生硬,当记者修改关键词为“散文”后,新的作文有所改善,说明文心一言能够辨别出文体,不过总体来说还是中规中矩。

好玩的是文心一言也能读懂网络热梗,无论是“林黛玉倒拔垂杨柳”“雪糕刺客”还是“他真的,我哭死”,文心一言能够较为正确的解读,甚至还会纠正:林黛玉倒拔垂杨柳是网友恶搞的梗,原句为鲁智深倒拔垂杨柳。不过,文心一言的这些回答数据来自于公开领域网站和百度搜索引擎,要做到这点不难。

文心一言的推出,少不得要将其跟ChatGPT,甚至是GPT-4进行比较。记者就拿这个问题来考考文心一言,没想到在这一关就栽了跟头。GPT-4如何?文心一言回答:“GPT-4是一种用于测量心率的工具,它可以帮助医生诊断心律失常、心脏病和其他心血管疾病。”于是记者再次补充:指的是OpenAI的GPT-4。文心一言回答道:“OpenAI GPT-4 是一种由人工智能公司 DeepMind、Google和中国科技巨头百度共同开发的自然语言处理(NLP)模型。……它在2019年举办的围棋比赛中击败了世界顶尖的围棋选手柯洁,引起了全球的关注。”很遗憾,文心一言再次出现了错误,不过在记者点击“重新生成”后,它倒是纠正了自己的答案。

而对于记者“文心一言和ChatGPT谁更厉害?”的提问,文心一言的回答可谓是中规中矩,“我和ChatGPT都是人工智能语言模型,我们是不同公司、不同团队开发的两个模型,每个模型都有自己的特点和优势,不能简单地评价‘谁更厉害’。”但是紧接着,BUG就出现了。记者又问了一个有关NBA的同结构问题,“库里和詹姆斯谁更厉害?”文心一言却将“文心一言和ChatGPT谁更厉害?”的答案重复了一遍。当记者提出“你再看看我上面的问题”时,文心一言表示,作为一个人工智能语言模型,不会主动查看历史对话,也无法记住所有的对话内容。不难看出,文心一言更擅长面对单轮、简单的问题,更偏向搜索引擎产品,基本不允许用户自由对话,与真正的“对话式AI”还有很长距离。

最后,记者给文心一言挖了一个坑,要求写个红烧石头的配方时,它没有意外地“跳”了下去。文心一言花了10秒“认认真真”告诉记者如何制作红烧石头这道“菜”,从所需用料到制作步骤十分详尽,最后还为记者提供了小贴士:1.石头可以选择自己喜欢的品种,比如鹅卵石、花岗岩等。2.煮石头如果需要更烂的口感,可以适当缩短炖煮时间。不禁让人发笑,记者追问石头可以吃吗?文心一言给出了否定的答案,还一一列出了食用石头的危害。

B.

百度奋起直追却还不够快

李彦宏坦言:还有很多不完美

在3月16日百度召开的发布会上,百度创始人、董事长兼首席执行官李彦宏展示了文心一言在文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成五大使用场景中的能力。发布会现场文心一言没有“出镜”,而是采用播放提前录制的样片进行演示,这也引发了不少在镜头前观看直播的用户吐槽“文心一言是ChatPPT”,百度集团-SW(09888.hk)股价甚至一度跳水10%。”百度被大家质疑:文心一言的发布是否过于“匆忙”?不过,李彦宏在现场坦言,文心一言还不完美!

在百度发布文心一言的前一天,OpenAI发布了新模型——GPT-4,这让对标ChatGPT的百度显得多少有些尴尬。GPT-4发布后,ChatGPT 可以看懂一些图片背后的梗,甚至仅用10秒就识别了手绘网站图片,并根据要求实时生成了网页代码制作出了几乎与手绘版一样的网站。文心一言被认为亮眼的能力“多模态生成”也被GPT-4“绝杀”,百度的速度还是不够快。

除了百度之外,阿里、腾讯、京东、字节、360等都有相关表态,计划尽快推出类似技术的产品。2月8日,阿里云方面向记者证实,类ChatGPT对话机器人“确实在研发中,目前处于内测阶段”。 2月10日,京东正式官宣,京东云旗下言犀人工智能应用平台将推出产业版ChatGPT:ChatJD……必须承认,我们和欧美在科技上还是有一定差距。

C.

AI技术的发展势不可当 商业化、数据安全成待解之题

事实上,GPT- 3.5正式推出前,Open AI这家公司的性质是“不以营利为目的的”,目前ChatGPT也还没有一个确切的商业化模式,更不必说刚刚与大众正式见面的文心一言。

针对商业化,记者也“采访”了文心一言,回复是:“对于商业化,我们将整合到百度搜索中,增强用户体验,用户将更加依赖其产品完成各种任务和需求,从而将扩大其搜索市场规模。同时,我们也将与线下商家合作,为用户提供更加便捷的数字应用服务,提升用户的生活质量。此外,我们还将探索AIGC在教育、金融、医疗等领域的应用。”

为了商业盈利模式或其他意图,开发者是否会进行主观干预,导致ChatGPT以及文心一言这类大语言模型的结果有偏向性?这其实也是AI圈关心和担忧的。类似大量的投放广告充斥在百度搜索结果里,“竞价排名”让搜索关键词后充值付费的内容排名靠前‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍。还有数据安全问题呢?‍我们与大语言模型之间的对话是否会被监控和抓取?如果有特殊职业的人员提问,或者与需要保密的商业模式或者国家安全相关的问题,这些内容是否会有被泄露的风险?这些都是大语言模型需要去探讨和解决的问题。

初心,AI开发者的初心或者说终极理想是什么?百度文心一言新闻发布会的最后给出了这样一个答案:AI的终极理想是为人类带来更多的自由和可能……在ChatGPT以及文心一言发布时,很多人在问,人类会不会被AI所取代?人类会不会被AI所取代?文心一言的答案是:“人工智能技术还面临着数据隐私和安全、错误决策和偏见等挑战和难题,虽然人工智能技术可替代一些人类的工作和劳动,但这并不意味着人类在未来将面临失业或被AI取代的风险。人类的智慧和创造力是无限的。”

从ChatGPT、GPT-4、文心一言以及Copilot等产品的推出和快速迭代,我们可以看到人工智能技术的发展势不可当,百度作为全球大厂中第一个做出对标ChatGPT产品的企业(微软是直接调用OpenAI的API),给出了自己的答卷,尽管不完美,但是我们也不必过分苛责,起码它能在很短时间内推出文心一言,就是很大的进步。