人机交互发展,验证码是如何演变进化的?Google训练AI竟然是白嫖用户……

随着社会的发展,我们在生活中会碰见很多乍一看莫名其妙,令人匪夷所思之事,但是后面细细想来还挺有意思的事,比如前些日子网络上热议的,你要证明一下,你爸是你爸或者你妈是你妈。这个事情我们暂且不议论政策方面,单就如何来验证来看一下,网络发展到今天,验证码是如何演变进化的。

什么是验证码

验证码是用来全自动区分计算机和人类的公开图灵测试,英文全称为Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA,是一种区分用户是机器或人类的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于机器无法解答CAPTCHA的问题,回答出问题的用户即可视为人类。

其实在互联网初期,本来是没有验证码的,用户输入账户和密码可以自由畅行网络,匿名论坛和各种小站层出不穷,随着信息化和用户交流越来越频繁,一些计算机爱好者开发出各种自动化工具来模拟用户行为,从而完成一些机械重复的上网操作,其中以穷举破解密码,海量垃圾邮件为首的恶意行为让服务商头疼不已,所以验证码也就应运而生。

历史上第一个验证码

2000年左右的黑客真的全是传奇人物,他们编写的垃圾邮件软件能够每天给一个用户发送数百封垃圾邮件,Yahoo(雅虎)公司作为全球最大的邮件供应商之一深受其害,其免费邮箱每天发出海量的垃圾邮件,Yahoo公司既不能审查其内容,又没有那么多的忍受来管理和监控,管理层不得已找到卡内基梅隆大学的一个团队,时年21岁的助理luis Von ahn反其道而行之,在研究了垃圾邮件机器人的工作手法后,设计了一套在用户发送邮件前把机器人“晒出来”的方法,通过简单但是内容庞大的图灵测试来筛选出机器人。经过团队大量研究发现,人们能够很好的识别一张图片中包含的文字形状信息,一些扭曲变色旋转后的文字也能在五秒钟时间内辨识出来。

图源网络,为验证码示意,非第一个验证码

于是乎,每天互联网上海量烦人的验证码应运而生,据统计全球网民每天要输入将近2亿次,假设每次前后花费10秒钟,总共花费将近55万小时。路易斯灵机一动,把目光投向了文字识别,尤其是那些古籍和变体字的识别上来,很多珍贵的报纸书刊和古籍可以快速获得影音版,再把这些图片拆成一段段的单词片段,把一个个的小片段发给用户利用人海战术来完成大量的文字识别工作。

这里不禁有人要问,发给用户一张图片,系统自己都没识别过不知道正确答案,用户胡乱输入岂不是乱套了吗?这时候路易斯又设计了一个巧妙的系统,二次验证码

reCAPTCHA巧妙之处

路易斯设计了一次让用户输入两张图片中的验证码,而且当时很多用户乐意为了古籍识别出一份力,所以大家起初的识别率还是很高的,但是有些用户看出来,如下图像中,一个单词扭曲变形程度比另一个大得多,似乎两个验证码有一个是假的,于是有一些用户为了捣乱故意输错,当时是给识别系统带来不小的困扰。

所以路易斯又巧妙的设计了,孪生验证码,通过两个单词变形一样或者加入一样的遮挡线来让用户分辨不出哪个是想识别的哪个是已经识别的。例如我们想让用户识别“morning”这个单词,那我们就要让一个已知的单词经过被用户验证过的变形来扭曲“morning”这个单词,如果两个单词都能被认出,那么再在多个用户眼里都得到相同的结果,那么系统就可以认为这个单词被搞定了。

各种变体层出不穷

接下来就是各路神仙发挥自己想象力的时代了,很多黑客利用广告垃圾邮件赚的盆满钵满,验证码一出无异于断人财路,杀人父母啊。所以破解之法也在不断升级,简单扭曲的字母需要构造验证码库,而暴力比对的穷举法可以识别出一个字母的各种变形体,只要准备足够多总能认出来。

很快被破解后,程序员们又创造出来gif版本的动图验证码,一直在变化的验证码,让难度提升不少,伴随而来的还有数字+英文+杂散图案等混淆的验证码,也是火热了一段时间,但是随着识别技术的发展,以像素为单位提取的方法也把这种验证码攻克了。

后来程序员们发现电脑最擅长做准确重复的操作,要是加上一些藏在图片里的逻辑,对于电脑来说就变得困难了,很多论坛都采用了问答式的验证码,各种问题内部包含千丝万缕的逻辑,对于机器来讲实在有够难的。

下面重点说说,几乎13亿人都会碰见的物品图片验证码了,最有名的当属12306的登录验证了,据说头一年上线的时候,正确率仅为8%,官方为了遏制黄牛可以说设计了最难的系统,一般设计图片点击类的十几种类别也就够了,但是据网络流传称,12306后台有多达581种类目的图片供用户识别。

网友恶搞12306验证码过于难(图源网路恶搞图片,意在调侃难度太大)

像是动物电器和天体等都是应有尽有,用户日常生活常见的物品都可以拿来识别,再加上不同颜色形状和角度,可以说破解起来难度极大,好像现在还没有能够完完全全破解了的软件啊。

Google薅羊毛来训练AI

等到了现今,短信和面部识别是最常见的两种方式,得益于手机行业的迅猛发展,但是反过来想,国外很多人十分注重隐私很多时候不想提供手机号使得短信验证码走不通,所以Google这样的大公司还是以图片验证为主,但是这个其实也是一个延续着上述人海识别战术的“小伎俩”。通过用户的验证码悄悄进行着后台的AI训练,给图片标注区分来训练AI,像是最最最常见的路灯、路标都是为了Google自动驾驶的贡献一份力。

所以小编建议,大家可以在日后的简历里面写上,曾经参与过Google自动驾驶项目核心图像识别模块验证和训练。但是面试官再深入问起来,大家可不要把我卖了哦。但是却是是大家在帮助Google训练数据,提升AI的准确度。reCPATCHA自己也在官网公告每天有数以百万的人帮助构建机器学习的数据集,也就是说只要你每天用了验证码就给Google打了五秒钟的工,别小看这五秒钟,几百万人的基数还是很庞大的数字啊。

历年都有互联网恶心人发明排行榜,验证码已经霸榜数十年了,并且一直名列前茅。不过现在有所好转,浏览器会通过分析用户的环境和键盘鼠标的操作轨迹来识别,但是背后涉及到的隐私和监控等问题也一直是讨论的焦点,所以在没有革命性的新技术到来前,用户还得苦哈哈的忍受着各种验证码的折磨。我们也在期待着有一天我上网不再被问“你是不是机器人啊?”

责编:我的果果超可爱

参考自:

《CAPTCHA》----Wikipedia

《reCAPTCHA》----Google Developer

《“ 验证码(CAPTCHA)“的演变史》----Blog

《你以为自己在填验证码,其实你是在给Google义务劳动》----新浪博客

责编:Raylei
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力,以及在马斯克在当选总统特朗普政府中的“特殊地位”,多家分析机构认为,马斯克的财富未来还将进一步增长。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
据悉,此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus(巨人)。Colossus作为xAI的技术基石,将借此机会实现计算能力的飞跃。
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情