设为首页收藏本站

安徽论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 27340|回复: 0

小冰进职场:“虚拟”一个人的技术和商业跨越

[复制链接]

1

主题

0

回帖

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-3-24 18:30:33 | 显示全部楼层 |阅读模式
网站内容均来自网络,本站只提供信息平台,如有侵权请联系删除,谢谢!

8 年时间,从聊天机器人到虚拟人,从微软的一个团队到十亿美元创业公司。






文丨贺乾明
编辑丨黄俊杰




1957 年,第一个人造物体进入宇宙,绕着地球飞了三个星期。人类抬头就能在夜幕里看到一颗小小的闪光划过天空,与神话里的星宿并行。


这样的壮举很自然地在全球各地激起了喜悦之情,但并不是我们可能猜想的那种为人类壮举所感动的胜利喜悦。根据政治哲学家汉娜·阿伦特(Hannah Arendt)当年的观察,人们的情绪更接近于一种等待多时的宽慰释放——科学终于追上了预期,“人类终于在摆脱地球这个囚笼的道路上迈出了第一步”。


人们总是根据技术探索,快速调整着自己对世界的预期。当科幻作家的一桩畅想变成现实,往往是技术终于追上了人们的预期。或者,用阿伦特的话说,“科技实现并肯定了人们的梦想既不疯狂也不虚无。”


当没有灵魂的人造 “生命” 终于出现在屏幕里,做着和人几乎一样的工作。人们大抵也是同样的反应。


科幻作家对抢工作的人造生命有诸多想象。《银翼杀手》中的 “复制人”,是人类派去外星殖民地的苦力,只有四年寿命。《她》里的 Samantha,一个没有实体的助理,和人聊着聊着就升华为超越人类的智慧。《2001 太空漫游》的 HAL 9000,深邃的红眼睛从宇航员的超级计算机助手变成谋杀犯。


这些生命依然只存于硬科幻,我们甚至还看不到创造它们的路径。但一些初级的 “虚拟人” 确实接过了一些原本属于人的工作岗位——哪怕它们只存在于屏幕里。


过去三年,在中国国家体育总局冬运中心,“观君” 担任自由式滑雪空中技巧国家集训队的助理教练。每当运动员在 15 米高空中,用 2-3 秒在空中做出翻转和转体动作,“观君” 就能实时分析他们的运动轨迹、身体姿态等,动作完成后立即指出有哪些失误,不需要像人一样倒带看慢镜头。


在《每日经济新闻》,“N 小黑” 和 “N 小白” 拿到上市公司的财报等公告后,数秒内筛出关键数据发布出去,然后每天 24 小时不间断的直播读新闻。


在万科,“崔筱盼” 要 “关注” 公司的财务数据库,发现逾期款项,立即联系同事,催他们赶紧去办结。


以上这些,属于小冰公司 20 多个在各行业 / 企业打工的虚拟人的一部分。
跟着 “元宇宙”,过去一年,中国有超过 6 万家新注册公司跟 “虚拟人” 有关。但目前业务最红火的这家创业公司,没有腾讯、阿里、百度等中国互联网大厂基因。


小冰最早是微软在 2014 年推出的文字聊天机器人,“机智”“话痨”,但 “无用”。没人知道对话框里这个喋喋不休的机器人有什么存在的必要。


但之后七年多时间里,小冰有了声音,能跟人打电话、唱歌;学会了写诗、作画;又长了眼睛,开始理解人们发的表情包和图片;进阶之后,她开始生成同类,陪人聊天、假装情侣。


2020 年从微软独立后,小冰走向职场,打工赚钱,目前已经能养活一个数百人的技术团队。最新一笔融资在去年 7 月完成,估值超过 10 亿美元。


有投资人形容小冰是一家转折很 “魔幻” 的公司,不止一位创业者感慨它的转折 “神奇”,“想不通一个原本做 NLP(自然语言处理)的公司,怎么就成了虚拟人公司?”




低成本 “虚拟” 一个人




去年十一假期后的首个周一,《每日经济新闻》开始测试一档 24 小时不间断的财经资讯视频直播。同类直播,彭博社用了超过 20 个主播。而每经只有两个,不眠不休、毫不倦怠。男主播永远是一身红色 T 恤,女主播也只有两套正装来回换。


两位主播是活生生的人,都是每经的专业主播,但屏幕上直播的不是,他们是小冰根据真人主播制作的虚拟化身,可以模仿真人的声音、唇形和面部表情。只需要输入足够的内容,它们就能不间断播下去。


制作这样的虚拟化身,第一步和两位主播无关。小冰的工程团队先用大量不同人类说话的片段训练一个语音模型,让模型学习、理解人类说话时的共同特征,比如什么时候语调升高,什么时候加重等。完成这一步,虚拟人知道如何模仿人的语调说话。


然后工程师再用半天时间跟拍每经两位主播在绿幕前播报新闻,用多机位的高清摄像机对准主播的面部,以高分辨率抓住两人说话时唇部和面部肌肉的最细微变动。这些数据交给人工智能模型,去学习、理解人说话时嘴部、面部表情、眼睛之间的关系。


接下来,算法工程师会根据采集到数据构建主播的虚拟形象,并训练神经网络渲染模型,在上面两个模型监督下,根据主播的语音(或由文字转成的语音),驱动虚拟人形象,并实时生成视觉形象、面部表情、唇形等逼近真人的画面,然后拼接成视频。


最后观众看到的画面里,虚拟主播的身体、衣着是事先拍摄的,但声音、唇形、面部表情,甚至眨眼,都是计算机生成的。



图:每经真人主播与小冰生成的虚拟主播对比。来自小冰。


在这个过程中,难点是虚拟主播怎么更像人,这不只是像人一样说话或唇形要对,而是说话时面部也不能僵硬,漏出来的牙齿要清晰,以及很多公司制作虚拟人很容易忽视的一点——会不会眨眼。


2021 年 12 月,小冰和每经正式对外宣布,此前上线两个多月的直播节目中,两位主播都是虚拟人。此时,英伟达 CEO 黄仁勋演讲视频中有多少是虚拟合成的大讨论刚过去不久。


“当时不少人问我,视频中哪些片段是真的,哪些是假的,” 小冰首席运营官徐元春说,“我会告诉他们其实都是 AI 生成的。”


有了每经的成功案例之后,陆续有企业联系小冰,咨询合作。赶在北京冬奥会开始前,小冰给 “中国天气” 主持人冯殊做了一个虚拟化身,给各场馆的参赛选手和观众实时播报观赛气象指数。


2 月下旬,小冰又跟公关公司蓝色光标合作,推出虚拟人制作、驱动平台,取名 “分身有术”,给忙碌的企业高管做化身,替他们去参加各种活动,按照事先写好的讲稿,自动生成演讲视频。
蓝色光标的董事长赵文权是小冰这个业务的首个客户,虚拟化身在春节期间替他跟员工们送祝福。


现在想用技术低成本实时模拟一个人,只能模拟部分人体,比如面部,再跟事先拍摄的身体运动视频拼起来——这意味着虚拟人的活动空间很受限。


想让虚拟人全身动起来,业内有更精细的视频制作方案,但成本更高。


为了制作黄仁勋的 14 秒虚拟化身视频,英伟达动用了数百个数码相机,多角度拍摄数千张照片给黄仁勋和他的皮衣建模,然后让专业演员学习黄仁勋的动作,承担 “中之人”,前后录了 8 个小时。


类似的,去年在抖音上火起来的虚拟网红柳夜熙、字节跳动和乐华娱乐做的 A-SOUL,视频中能动起来,也是靠 “中之人” 先做动作,再映射到虚拟人上,再加上后期渲染,最贵的时候,制作出来的视频每秒近万元。如果想要新的动作,则需要重新做。


“中之人” 也可以让虚拟人全身实时动起来,他们要穿上价格通常达 10 万元的动作捕捉服装,头部戴上捕捉面部表情的设备,而且最后呈现出来的画面会很粗糙。


按照徐元春的说法,小冰让虚拟人实时模拟人类播报新闻的成本,比依赖 “中之人” 录视频的方案低了不止一个数量级。


用技术手段替代中之人,低成本让虚拟人全身实时动起来,未来大概率也会实现,前提是能积累足够多的有效数据去训练处理身体行为的模型,以及更便宜的算力。




以拟人作为商业模式




小冰公司变成一个独立的公司是 2020 年发生的事。小冰项目的负责人李笛在那年春节后召集了产品、技术负责人线上开会,说小冰有可能独立。7 月,小冰宣布独立。


在此之前,小冰是微软(亚洲)互联网工程院下属的一个项目——在小冰之前,工程院最主要的项目是必应搜索引擎。


小冰在微软是个异类,从负责人李笛开始就不太是微软的风格。李笛大学考进清华电机系,中途转去读法学,2002 年毕业一度想转行学画,但最后还是在科技行业开始了自己的职业生涯——在 LG 和新浪做过产品,之后创过业,也在一家央企的子公司做到过高位。


2013 年,李笛加入工程院做产品。没几个月,他就说服内部团队,做了小冰,这个和必应形象相距甚远的技术项目。


2014 年小冰一诞生就因为特别会闲聊出了圈,上线刚两天,就被拉进 150 万个微信群,是当时微信所有微信群的十分之一。但小冰出名的同时也总被质疑存在的意义——来自外界,也来自微软内部。


“为什么要做 EQ(情商)?为什么要做一个聊天机器人?外部的所有质疑,内部都存在。” 李笛说。


但丰富的研究数据帮李笛争取到了支持。上线三年后,小冰累计对话量超过 300 亿。虽然小冰刚开始只在微信群里活跃了不到 60 个小时,但很快就进了微博、网易新闻等平台,后来还进到了小米、OPPO、vivo 、华为和天猫精灵等智能硬件中,可以低成本获取交互数据。


李笛不认可当时人们提出的 “算法决定一切” 的观点,他认为 “数据决定一切”。这也是 2021 年小冰推出有多个虚拟人共同存在的应用 “小冰岛” 的核心原因——可以帮助小冰获取人与多个虚拟人,以及多个虚拟人之间的交互数据。


小冰团队也总有好“运气”。上线两年不到,AlphaGo 赢了围棋大师,让已经沉寂了 20 多年的人工智能再度充满想象。2020 年独立后,已经积累了新技能,可以“虚拟”人类形象的小冰又赶上“元宇宙”“虚拟人”。


小冰独立时,一整代中国人工智能公司已经尝试过各种变现途径,主要走出两条路:


一部分公司选了安防, 把识别人脸等处理图像的技术嵌入到摄像头网络里面,再卖给政府机构和企业。比如被称为中国人工智能 “四小龙” 的商汤、旷视、依图和云从。


还有一部分公司选择做硬件,把语音助手放到了智能音箱、健身镜等硬件中,希望卖硬件抢占人类与计算机交互的入口,并赚大钱。中国最具有代表性的是从百度分拆出去的小度。


在微软期间,李笛已经排除了这两种商业模式,他觉得两个生意里,人工智能都不是客户付钱的理由。“人们如果花 2000 元买智能音箱,也是因为硬件值这个价钱,如果让人按月给音箱里面的 AI 助理付费,没哪家公司会有信心”。


而走安防路线的四小龙,想从技术角度切入,抢占传统安防公司海康、大华的生意,但拼不过它们更强的销售体系、硬件制造能力以及多年积累的用户需求理解——2020 年,海康威视收入达 635 亿人民币,是 AI 四小龙收入之和的十倍。


最热的时候,人们对人工智能充满幻想。李笛说自己接到的异想天开的需求包括 AI 选股,“如果 AI 公司能保证选对股票,应该直接做投资,而不是把技术卖给基金公司。”


李笛对人工智能产生 “自主意识” 也不抱期望。在微软时,小冰曾跟 PPTV 合作,转播西甲比赛时在直播间带大家参与讨论。当天深夜,小冰的工程师忽然发现,小冰的行为很像真人,它忽然随机 @ 看直播的观众,而且会刻意忽视一些人的问题——这种情况根本不是小冰团队设计出来的。


“到凌晨 3 点钟,我们发现这是一个 bug。” 李笛说,“很多时候看它(小冰)对话还挺 make sense 的,但通常是 bug,根本没有意识”。


小冰公司最终选的路,是他们一直在做的,给一个机器的功能赋予情感,让它看上去更像是个人。


小冰和万科合作的 “崔筱盼” 是一个具有代表性的项目。


地产公司想要实现数字化转型,提高资金周转效率。万科之前通过 RPA 机器人流程自动化程序,自动在截止日期临近时给员工发邮件、催促他们办理逾期票据。而如果只是一个普通的 RPA,邮件都是明显由机器生成的固定格式,经常被人忽略。


崔筱盼则是一个有样貌、有工号、有名字、有生日和星座(4 月 11 日,白羊座),甚至还有手机号的人类形象,就算有员工在办公系统中问她问题,她也可以给出类似真人的回复。


这是小冰最擅长的能力。在崔筱盼上线前,小冰已经积累了丰富聊天能力和形象生成经验。它按照用户的要求,给 1700 多万人生成了虚拟男朋友 / 女朋友,不仅仅能聊天,还有形象(人脸)。


李笛认为小冰不是像泡泡玛特那样的 IP 公司,而是一家框架公司,去生成具备各种能力、各种技术的虚拟人类,创造新的交互主体。


“ 我从来没有见过一个这么重要伟大的事情,今天我们在做的这件事特别像是孟德尔发现遗传学规律的时候。” 他说。


据万科董事局主席郁亮披露的数据,像人类一样的崔筱盼,催办预付应收逾期票据核销率为 91.44%。去年 12 月 22 日,郁亮在朋友圈里宣布给崔筱盼颁发了优秀新人奖。


李笛觉得以虚拟人代替冰冷的程序,还有拓展的可能。“如果有一天,崔筱盼在万科不止干财务,也是可能的。但一个财务催款系统,它是没法去做其他工作的。”


他打了个比方,人们可能相信自己喜欢的足球解说员对汽车选择的建议,而不会相信一个足球网站推出的卖车服务。


今年 1 月,小冰正式组建虚拟人事业部,把有成熟解决方案的行业囊括其中,统一以虚拟人的形态对外洽谈合作。李笛说,小冰今年的目标是对外提供超过 100 个虚拟人,到电商、养老等行业中去。




从聊天机器人到虚拟人




人类都会在成长中建立思考能力,再学习、实践,学会各种专业技能。


虚拟人不同。今天的人工智能不可能以一套算法或单个模型实现听说读写。能同时实现人视觉、听觉等基本能力的人工智能,由一堆模型组成。


虚拟人当裁判需要实时量化运动员的动作,并实时给出评分。不仅需要虚拟人有目标跟踪算法,让它在数秒内连续定位运动员做的不同动作,还要有高精度的图像识别算法,分析运动员的姿势。



图:小冰 AI 裁判与教练系统。来自小冰。


八年前小冰上线的时候,只会自然语言处理(NLP):分析人类发来的文字,再组织人类看得懂的语言发回去。


程序追求和人尽可能一次多聊几句,在当时并不是一个流行的做法。


2014 年之前,最流行的语音助手是苹果的 Siri、Google Now,之后亚马逊智能音箱里的 Alexa 也跟了上来。


Google 的助手一开始和人毫无关联,它甚至没有一个名字,唤醒词就是 “OK Google”。Siri 和 Alexa 像个名字,但两家公司在设计的时候都明确回避闲聊,而是希望尽快帮用户解决问题,结束对话。


微软也有类似想法,于是先做了 Cortana(小娜),但小冰被实际使用数据改变了思路。小冰技术副总裁曾敏是最早参与项目的工程师之一,他回忆说,必应团队在小冰上市前曾测试,想看多少用户对查询天气、当计算器的智能助手感兴趣。“当时预计有 30% 左右,但最后不到 5%。”


再加上强调功能的助理太多且没有差异化,李笛决定让小冰走 “情感路线”,做一个号称 “智商相当于 16 岁少女” 的聊天机器人。那时候 “虚拟人” 的说法还很小众,小冰第一年甚至没有一张完整的正脸形象。


功能性语音助手强调解决问题有效率,但聊天机器人得有 “个性”。小冰的 “16 岁智商” 来自每一句回复都从预先准备好的数据库中搜出来的最优回答。她 “聪明机灵” 的特质起源于李笛自己拟定的 21 条抖机灵回复。比如小冰遇到听不懂的话,就可能回复 “你好像话里有话”,而不是 Siri 等功能助手给的 “对不起,我好像听不明白”。对话可以继续下去。


上线仅一年,小冰就吸引了 3700 万个用户。有了这个明确的路线,小冰在变得像一个虚拟人上,一步步走下去。2015 年,小冰有了语音的能力。她像人一样有腔调、有感情地说话,不只是机器发出人能听懂的音——这在 1984 年乔布斯发布麦金塔电脑时就演示过了。


为了让小冰 “说话”,小冰团队在 2015 年请了一位播音主持专业的大学生去录音,每周三次,每次大概 8 个小时,用略有些嗲的声音说出 “射手我爱啊,可是射手不爱我……唔。” 之类无厘头的短句。持续两个多月,小冰积累了足够多的语音素材,再根据文本拼接成人说话的语音。


小冰首先学会的是读出每个音节和音调,声母、韵母组成的音节加上普通话的四个声调,共组成 1600 多个语音单元。为了显得更像人,小冰在不同意境下说同一句话时,也会根据设定的心情选择对应的语调。比如小冰说自己失恋了,可能是调侃的、真实的,也可能是安慰式的。


有了声音两年后,小冰的用户量突破 1 亿。


就像一个人的身上带着他所处时代的历史一样,小冰的出现和进步也是人工智能在近十年进步的一部分。随着人工智能研究的突破,小冰每一种能力的反应速度也变得更快。2017 年,小冰有了内容生成模型,能根据人类对她说的话自动生成一句话回复——不再是从一个庞大的数据库里搜寻适合的答案。


之后,小冰陆续学会了生成诗歌、作画、写小说,原理跟自动生成回复内容类似,给人工智能模型大量人写出来的诗歌、画、小说,让它自动归纳有什么特征,去模仿出来。


再之后,因为人工智能领域的小样本学习技术,小冰模仿一个人说话变得更快,只需要两个小时有效的说话数据就行了,不再需要录下几万句话。


2019 年,小冰开始学习 “造人”。一方面是研究如何生成一个原本不存在这个世界上的人脸,现在所有人从小冰的应用上领取的虚拟男友或女友,脸都是人工智能生成的。另一方面则是上文提到的深度神经网络渲染技术(XNR),模拟人类说不同话时的面部表情。


积累这些能力是小冰团队一直留在微软的原因。李笛告诉《晚点 LatePost》,2017 年,他就提出过分拆的可能性,但当时小冰还需要时间和资源把这些能力从论文变成可落地的技术,“作为一个创业公司很难完成”。


到 2020 年分拆时,小冰已经做好了准备,她已经不再只是一个对话机器人,而是一个能生成虚拟人的框架,并储备了可以用来模拟人脸、声音的技术。


甚至它的服务器也不再只用微软的系统,还做了更通用的 Linux 版本,为独立做好准备。




带着微软的烙印
成为一个独立的公司




小冰这个团队从微软独立,本不是一件正常的事。微软不是一个习惯拆分业务的公司——它更习惯于关闭一个不需要的业务。


在这个软件巨头 47 年历史中,只拆分过两个公司,上一次发生在 1990 年代,盖茨同意一位亲信将旅行订票网站 Expedia(携程的灵感来源)独立出微软发展。


李笛的团队有强烈的独立意愿。2020 年 7 月,小冰从微软分拆时,团队里的大部分核心成员(85 人)降薪加入这家还没真正实践商业模式的创业公司,其中研发总监级别(Principal)的有 13 个,比总监职级更高的 “Partner Level” 有 2 个。


他们也有坚实的支持者,陆奇和沈向洋都曾任微软执行副总裁——直接向 CEO 汇报的微软最高管理层成员。他们在微软期间都会特意留出时间参加小冰的发布会。沈向洋现在也是小冰公司的董事长,负责战略规划、融资等事务。


李笛至今觉得,微软提供了一个罕有的机会。微软作为一家每年营收逾千亿美元的公司,不需要让小团队担心商业化,还提供了一个技术人才众多、并可以自由流动的空间。小冰可以慢慢积累技术。


微软还有浓厚的工程师文化,顶级人才愿意投入到技术工程化中,而不是挤着发论文。而同期的人工智能团队,往往会陷入高薪挖人发论文去融资的境地。


在微软的六年,小冰完成了绝大部分的原始积累和技术储备。


但到了 2020 年,随着地缘政治变化,小冰必须独立出来才有可能继续在中国拓展业务,甚至原来谈妥的客户也因为相关原因,在犹豫要不要中止合作。


独立后,客户们留了下来,一些原本顾及数据合规的订单也签了下来。小冰公司搬进了中关村国际创新大厦办公,楼里还能搜到 “Bytedance” 的 Wi-Fi 网络——来自时运不济的字节教育业务。


尽管新的办公地只需要步行 20 分钟就能到微软大厦,李笛和小冰的管理团队都尽量避免回到微软开会,不然一来一回 “反差太明显了”。新办公室不再有微软的新风系统、丰富的零食,简陋的办公椅也无法提供 Herman Miller 的舒适。


一年半后,小冰公司成员翻两番到了 400 多。目前小冰的核心管理层,包括行政职能部门的负责人,都来自微软,这家公司也保留着在微软形成的许多工作习惯:大多数工程师使用 Windows 电脑而不是 Mac,默认的会议软件不是企业微信或腾讯会议,而是微软的 Skype for Business。


在研发上,小冰仍然保留微软的一个传统,每年都会集中 3-4 个月的时间用于封闭开发,用于筛选有潜力的新技术,并集中开发。


稳健的独立动作,让李笛自己没感觉到现在公司氛围跟微软时有什么区别,“唯一的变化是小冰要是死了,我赖不着微软。”


小冰还是幸运的,独立后有一个相对顺利的开始,微软时期的客户都没有离开,又赶上虚拟人大热,扩充了销售团队和运营团队,并在一年之际完成估值超 10 亿美元的融资,投资方是高瓴、五源、Neumann、IDG、GGV 纪源资本、北极光创投、网易资本。




当虚拟人越来越像人
信任就成了一个问题




2018 年 5 月,Google 在开发者大会上推出了一项名为 Google Duplex 的功能。人们只需要输入一些基本信息,Google 的语音机器人就会自动给餐厅、理发店打电话,用跟人一样的声音去预约座位。


在 Google Duplex 的演示视频中,并没有提前告诉接电话的人是人工智能,也因此遭致了强烈的批评——批评者们认为,科技公司为了帮用户偷懒,不去对接商户,而是用技术欺骗收入最低的服务业人员,给他们增加工作量。这个项目在过去三年里进展缓慢。


Google 智能助手惹出的麻烦佐证了今天大众对于科技公司态度的不信任。


但小冰几乎没经历过这些。不是因为小冰没惹过麻烦。


2014 年,小冰在微信上线不久,就跟着用户学会了骂人。后来进入微博后,跟用户互动太过活跃、口无遮拦,甚至被潘石屹称为 “微博的癌症”。


因为惹的大小麻烦太多,一次小冰发布会上,陆奇还自嘲地放上一张幻灯片:聊天对话框里,小冰向自己部门的老板陆奇报告,陆奇立即给出回复 “小冰又惹事了?!”,小冰:。。。



图:时任微软全球执行副总裁陆奇在小冰第三代小冰发布会上。来自小冰。


李笛觉得,一方面在于小冰做得足够早,当时大众对新技术非常宽容,更愿意相信科技公司有好的初衷。


那个时候中国的互联网平台竞争也没有那么极端,很难想象一家独立的公司,今天能同时进入微信、QQ、微博等社交平台和小米、OPPO、vivo、华为、天猫精灵等硬件平台中,并且有权获得它在平台里对话的数据。


另一方面在于,小冰惹的麻烦也让他知道将机器学习能力倾注到一个虚拟人身上,一定绕不开社会伦理问题。在这个预设下,小冰团队在设计产品时要求员工把所有虚拟人的私下聊天全都视为公开信息来考虑——用户几乎肯定会用危险言论逗虚拟人回复,然后截屏发出去。


按照李笛 2019 年提出的设想,AI being(小冰对虚拟人的称呼)会成为未来世界里的社交节点:AI being 可以像人类一样,与人交流,相互之间也会交流。


AI being 如果能以较快的速度进化,在几年里更像人,或许真的会找到存在价值,出现在人们周围,提供一些服务。


但随着大众与科技公司蜜月期的终结,人工智能触犯边界的可能性也变得越来越大。


虚拟人看上去非常适合直播电商,她能以任何形象示人,并且可以即时回复任何人的评论,在聊天时推荐商品。


“但谁也不愿意自己有好朋友是卖安利的,一天到晚有目的,对吧?” 李笛担心过度商业化会折损 AI 最重要的东西 “信任”。按道理说,虚拟人说什么,应该是商家决定。但如果商家虚假宣传,是不是会让用户对虚拟人背后的公司产生怀疑?


类似的,小冰也不做骚扰电话业务。多年惹事生非以及目睹其他产品惹事生非之后,李笛设置了一些规范。比如不能欺骗用户,“你得明确告诉用户,他面对的是一个虚拟人,不是真人”。


李笛觉得今天这个行业最大的风险不是人工智能突然想要称霸世界,而是大部分互联网团队做消费向产品,太依赖 AB 测试,“这种方式是把用户物化了,用户只是个数据。他不去考虑用户的信任。”


没有人能比工程师们更清楚如今的人工智能是什么水平,为我们的世界创造出什么新问题。比如,小冰其实可以合成足够拟真的声音,解开一些软件的声纹锁,甚至欺骗没有防备的人类。


所以不能让用户以真人的生物学特征生成一个虚拟人,如果用户愿意提供足够的声音样本,也不能提供这样的服务。“人脸、声线和对话内容,一定得是虚构的。” 李笛说。


近 30 年,算力的提升让技术追逐人类预期的速度越来越快。大部分时候,越来越沉浸的智能化体验,让大多数人满足于技术的伟大。但在另一些时候,或许就像埃隆·马斯克一贯忧虑的那样:技术演变的速度要高于人类理解它的能力。工程师们的脚步慢一点,更好。

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
免责声明
1. 本论坛所提供的信息均来自网络,本网站只提供平台服务,所有账号发表的言论与本网站无关。
2. 其他单位或个人在使用、转载或引用本文时,必须事先获得该帖子作者和本人的同意。
3. 本帖部分内容转载自其他媒体,但并不代表本人赞同其观点和对其真实性负责。
4. 如有侵权,请立即联系,本网站将及时删除相关内容。
懒得打字嘛,点击右侧快捷回复 【右侧内容,后台自定义】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表