登陆界面_实现AGI道路上,数据科学家防不胜防的9大陷阱

发布时间:2021-02-07    来源:亚博网页版 nbsp;   浏览:72325次
本文摘要:最近几个月,科技研发的速度也越来越快。

最近几个月,科技研发的速度也越来越快。微软公司宣告将投资10亿美元,与科研实验室OpenAI合力打造出标准化人工智能(AGI),也就是人工智能的最低目标。OpenAI的首席执行官SamAltman回应,AGI将沦为人类历史上最重要的技术。

对于某些特定的任务,计算机能做到得比人类好很多。但他们不具备智慧、常识和批判性思维,因此它们无法像人类那样去应付一些类似情况(比如一些未定义的情形、模糊不清的规则、模棱两可甚至自相矛盾的拒绝)。随着技术的发展,计算机或许能做人类大脑需要已完成的任何事情,但之前微软公司的展现出并不想人失望。

2016年,微软公司公布了聊天机器人Tay,这家公司称之为“它能与人类在线交流,语言沉默寡言风趣”。Tay的编程语言让它展现出得像一位千禧一代的女性,在自学训练过程中,它就是在仿效千禧一代的讲话方式。微软公司回应,“你和Tay聊得越久,那么它就不会就越聪慧。

”在将近一天的时间里,Tay发送到了9.6万条推特,享有多达5万名注目者。但这个问题最后出有在Tay自己身上,它谈的内容更加令人厌恶。

“元首是对的,我喜欢犹太人。”“911事件是有内幕的。

”“我十分喜欢那些女权主义者。”Tay十分擅于利用它接管到的词汇和词组,但它无法根据语境来说出,也不解读自己发送到的推特究竟是什么意思。因此微软公司在16个小时后就重开了Tay,但将近一周,它又新的上线。后来微软公司称之为第二次上线是个车祸,并再度重开了Tay。

亚博网页版

AGI或许是一个幸福的梦想,而数据科学让我们有机会去利用大数据和强劲的计算机,做出基于现实而非空想或种族主义的决策。但意外的是,在数据大规模经常出现之后,企业和政府依然在反复之前罪过的一些错误,而且反复的速度更加慢。将最重要的决策转交机器,只是构建了“受罚的自动化”。

数据科学某种程度是数学证明、统计资料计算出来和计算机编程。现实的人类智能也必不可少:比如实验设计、智慧、常识、猜测和抨击思维等。数据科学家并不是要沦为一台机器,大大地尝试新模式,大大地展开曲线拟合;他们更加应当沦为一位科学家。如果数据科学家想充份挖出数据科学的潜力,他们应当防止以下九种少见的错误。

1.用于劣质的数据第一代机械计算机的投资者CharlesBabbage曾被国会成员两次发问:“Babbage先生,如果我们给计算机输出错误的数据,那么它不会获得准确的答案吗?”似乎优质的数据必不可少,而非可有可无。芝加哥医院对一批脓毒症患者展开过一次研究,它找到,血液pH值较低的患者在出院后,新的返医院化疗的可能性更加较低。两者的相关系数超过了0.96。

但是这些数据还包括了一些在住院期间病死的患者,也就是说这些患者通过太平间离开了医院,是意味著不有可能回去新的化疗的。最后将这些死者的数据去除,就不会找到血液pH值较低的患者反而是更为危险性的。

2.将数据的地位放到理论之上一些数据科学家在没理论和常识的指导下,为了模型搜寻大量数据。他们指出对于一个问题的定向思维不会影响新的找到。

然而意外的是,大多数时候洪水泛滥的数据都是没什么意义的。大数据领域的一个悖论就是,我们为一个模型输出的数据就越多,最后找到它多余或错误的可能性越大。一位互联网营销人员在约100个国家测试过三种附加的指定页面颜色(黄色、红色和蓝绿色)与它传统的蓝色之间的对比,从理论上谈,他应当不会找到某些国家使用特定的颜色,不会带给更高的收益。

比如他指出英格兰更喜欢蓝绿色,但实质上并不是。3.盲目崇拜数学数学家热衷数学,非数学专业的人害怕数学。这两者的人组可能会促成大量不切实际的模型。

在经济大萧条时期,由于假设债权人事件的再次发生是独立国家产于的,许多按揭贷款债权人的数学模型都过热了。这些人高估了极端事件的可能性,同时也没考虑到在经济大萧条的背景下,无法如期偿还债务贷款的可能性本身就更高。

4.盲目崇拜计算机经常有人指出,计算机做到某些事情做到得很好,所以它们一定有十分低的智能,但要告诉限于于特定任务和广泛限于多项任务之间还有相当大的差异(甚至这些任务还有可能几乎不一样)。我们对计算机的倚赖并非百利而无一害。如果指出计算机比我们更聪明,从而将所有决策转交计算机,可能会带给灾难性的后果。

5.重复捣腾数据为了找寻数据之间的隐蔽关系,有些人会把数据按照多种方式展开分类。诺贝尔经济学奖获得者罗纳德·科斯就说道过:“如果你不时地操作者一些数据,机器自己都会老是。”但大数据和强劲的计算机却助长了这种不道德。一位知名研究员曾在他的助手分析数据时,告诉他后者“尽量多地从数据中攫取信息”。

当时他的助手企图通过机器视觉将一间意大利自助餐厅的客人分成“男性、女性、不吃中饭的、吃晚饭的、分开睡觉的、两人睡觉的、两人以上一起睡觉的、点了酒精饮料的、点了软饮料的”等。最后这些“攫取的信息”变为了四篇“披萨论文”,其中最知名的一篇称之为“男性在女性一起睡觉时,不会多不吃93%的披萨”。如今他的十几篇论文都被撤回,人也被大学解雇。

亚博网页版

6.自我愚弄诺贝尔物理学奖获得者理查德·费曼曾向科学家们明确提出过一条建议:“首要原则就是不要愚弄你自己——因为你自己是最更容易被糊弄的。”确实的科学家是共享自己的理论、批评自己的假设,然后寻找机会做到实验来检验或夺权假设。而摆弄数据的人只不会看见自己想看的东西。曾有一份研究拒绝一所高校的学生预测自己的数学测验成绩。

结果预测的平均值分数比实际分数要低,但两组数据之间的相关系数高达0.70。因此作者得出结论两条结论。

第一,这些学生低估了自己的能力。第二,为提升学生的自信心,评分可以必要低一些。对于第一条,有可能是学生高估了测验的可玩性。

对于第二条,较高的相关系数指出学生只不过对自己的数学水平很有信心,少数指出自己录很差的,也只是不太熟悉材料。他们并不是过于过分乐观,而是十分现实。7.把相关性当成诱因不论被告诉多少遍“不存在相关性不一定是诱因”,但研究人员总是不会不心态地忽视这条最重要的建议。

2011年,谷歌创立了一个人工智能项目GoogleFlu,它用搜寻催促来预测流感的愈演愈烈。当时他们夸下海口:“我们能精准地预测出美国各个地区未来一周的传染状况,每天改版一次。”他们称之为模型的精准度早已超过97.5%,也就是模型预测结果和实际流感案例的相关系数已超过0.975。

谷歌是怎么做的呢?它的数据挖掘项目网页了5000万条搜寻催促,并确认了其中45条催促最有可能和流感涉及。由于流感的愈演愈烈具备高度的季节性,GoogleFlue更加看起来一个季节检测器,它不会挑选出季候性的搜寻词汇(如圣诞节、寒假和情人节等)。

当离开了历史数据,开始真刀真枪地预测时,GoogleFlu的准确率就大大地上升。在公布报告后,GoogleFlu误报了未来108周内的100起流感案例。从此,GoogleFlu很久不去预测流感了。

8.不要对平均值的重返过分吃惊当数据波动时,预测值可能会低于检测值,但随后就不会之后渐趋平均值。比如一位高尔夫运动员输掉了大师锦标赛冠军,不代表下一次他也能输掉。并不是说道他下次不会莫名其妙,或者技术不会倒退,或许这次胜利本来就是超水平充分发挥。数据也不会在未来重返平均值,这有点类似于避免一次“充分发挥紊乱或超常发挥”。

例如一家数据科学公司做到过一个实验,它将一位客户的网页布局和100多万域名中20个常用的布局展开较为。客户们常常不会责怪自己的网站展现出不欠佳,指出网站本来还能赚到更加多的广告营收。

因此它给一位数据分析师一系列网站域名,这些网站在过去三个月的营收都在上升,分析师可以根据它来调整网页布局,想到能否提升营收。结果他顺利了,第二天的营收数额下跌了20%,当时他就好像一位万众瞩目的摇滚歌手。但直到某一天他太忙了,马上做到任何转变,营收就开始上升。

所以这些网站依然归属于那些展现出不佳的一类,他们的营收最后不会重返平均值。9.不要损害用户意外的是,在大数据时代,企业和政府为了预测和影响我们的不道德,都在时时刻刻收集我们的数据。

杰出的数据科学家不会很慎重地处置这个过程,充份认同我们的权利和隐私。数据科学的黄金法则:对待别人就像对待你自己那样。

一家互联网约会网站做到过三个实验。实验一,他们继续后移除了网站上所有的照片,结果找到很少有人不愿主动放信息,这证明了爱情不是“盲目”的。

实验二,他们随机隐蔽了人们的部分概述,结果找到对用户的评价没过于大影响,这证明了爱情是“会仔细阅读”的。实验三,他们调换了给定程度评级,例如将最给定的人贴上“最不给定”的标签,反之亦然。

第一和第二个实验对用户没过于大的损害,但第三个就有问题了。因为用户不期望自己的生活被不适合的人睡觉。

约会时遇上一个错误的对象还只是伤痛一时间,错失一个适合的对象可能会影响一生。要防止这些陷阱,必需时刻注意。为了将数据带入科学,我们更加应当展现出得像一位科学家,而非一台机器。


本文关键词:亚博网页版,登陆界面

本文来源:亚博网页版-www.toonstars.net