AI不适合开源?MongoDB副总裁:开源代码对人工智能不适用

OpenCV学堂 2022-07-26 23:00



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权

【导读】在没有人可以复制的规模下运行的开源代码有什么意义?


是时候聊聊AI开源的问题了。


显然,这是搞开发的人不得不面对的问题。基本从2006年开始,开不开源就已经成为了头等问题之一。


Matt Asay在MongoDB负责市场营销这一块。在此之前,他曾是亚马逊网络服务的负责人和Adobe的开发者生态系统负责人。


而在加入Adobe之前,Asay在开源公司担任过一系列职务。MongoDB的业务发展、营销和社区副总裁、实时分析公司Nodeable(后来被Appcelerator收购)的业务发展副总裁、移动HTML5初创公司Strobe(后来被Facebook收购)的业务发展副总裁和临时CEO,以及Ubuntu Linux公司Canonical的COO和内容管理初创公司Alfresco的美洲区负责人。


最终,Asay成为了开放源码倡议(OSI)的荣誉董事,并获得了斯坦福大学的法学博士学位。



之前,Matt Asay曾指责谷歌和雅虎两家公司在开源代码上有所保留,然后他被骂了。


现在想来,是有道理的。


Tim O'Reilly表示,在开源的云时代,开发者分享代码的动机,是让别人跑自己的程序,从而提供一份源代码。而这件事的必要性已经慢慢消失了。



Reilly继续指出,不仅没必要,而且就最大的App来看,这也不再可能了。


在过去的十年里,这种分享的不可能推翻了原先开源的定义。如今,新的定义正在影响我们思考人工智能的方式。


正像Mike Loukides指出的那样,在AI方面的合作从未像现在这么重要,也从未像现在这么困难。



就像2006年的云计算一样,在人工智能领域做最有趣的工作的公司可能会努力用传统的方式开源。


但即便他们开源的方式是传统的,也并不意味着他们不能用更有意义的方式开放。


开放基础设施


Loukides认为:「虽然现在很多公司都说自己在搞AI,但真正推动这个行业向前发展的只有三家公司——Meta、OpenAI和谷歌。」


他们仨有着一个共同点:都拥有可以大规模运行大型模型的能力。这种能力背后,需要强大的基础设施和技术手段,而这往往是很多个人和企业不具备的。


的确,你可以从Meta那里下载OPT-175B的源代码,但你手头的硬件却无法对其进行训练。甚至是对于大学或其他的研究机构来说,OPT-175B都过于庞大了。



另一方面,即便是有足够计算资源的谷歌和OpenAI,也无法轻易复刻OPT-175B。


原因也很简单:OPT-175B与Meta自己的基础设施(包括定制硬件)联系过于紧密,很难被移植到其他地方。


也就是说,Meta并没有想要隐瞒有关OPT-175B的什么,而是建造一个差不多基础设施真的很难。即便是对于那些有资金和技术的人来说,最终搞出来的也会是个不大一样的版本。


而这正是雅虎的Jeremy Zawodny和谷歌的Chris DiBona在2006年的OSCON上提出的观点。


但话又说回来,如果你不了解机器内部的科学原理,就很难去相信一个AI。


所以,我们需要去寻找某种方法,从而让基础设施能被开放使用。


Loukides认为,应该向外部研究人员和早期使用者提供免费访问。不过,并不是说给他们一个可以访问Meta,谷歌或OpenAI的数据中心的万能钥匙,而是通过一个公共API。


这可能并不是大多数人所期待的「开源」,但其实还是可以接受的。


换一种方式看待开源


现在,Matt Asay曾经对谷歌和雅虎指责如今没什么意义了。


自从2006年以来,谷歌在满足战略需要的前提下,打包并开源了关键基础设施。


在Matt Asay看来,TensorFlow 是开源的入口,Kubernetes是开源的出口。这些开源的机器学习行业标准有望提升Google Cloud的工作负载,或者确保谷歌云之间的可移植性,从而为Google Cloud赢得更多的工作负载。


想出这些的人很聪明,但是在Pollyanna 的意义上,它并不是开源的。


不是只有谷歌这样。它只是在开源上做得比其他公司好。开源本质上是自私的,公司和个人总是会开放有利于自己或客户的代码。


一直如此,而且永远如此。


Loukides认为应该有意义地开放AI(尽管三大AI巨头与其他公司之间存在差异),但他指的开源并不是我们一般意义上理解的开源。为什么呢?


原因在于,虽然传统的开源很不错,但无论是对于软件的创建者和消费者,它都从未成功解决DiBona和Zawodny于2006年在OSCON上提出的云开源难题。


现在已经过去了十几年了,我们依然没有离答案更近一步。


话又说回来,我们确实近了一点。


Matt Asay认为,我们需要以一种新的方式来看待开源。



他与Loukides的想法很接近:关键在于为研究人员提供足够的访问权限,使他们能够重现一个特定的AI模型是如何成功或失败的。


「他们并不需要完全访问所有的代码和基础设施来运行这些模型」。正如他所言,只有在开发人员可以在笔记本电脑上运行开源程序、进行衍生创作的前提下,完全访问该代码才是有意义的。



鉴于如今谷歌或微软运行代码的规模和独特的复杂性,这已经毫无意义了——我们不可能完全访问大规模的云代码。


我们需要明白:开源并不是用于观察开源世界的一个镜头。而且考虑到我们如今所处的云时代,开源也用得越来越少。


无论是作为公司还是作为个人,我们的目标应该是以有利于客户和第三方开发人员的方式开放对软件的访问,让软件更易理解,而不是试图将几十年前的开源概念改造成云。它不适用于开源,就像它不适用于AI一样。


是时候换个思路了。


参考资料:
https://www.infoworld.com/article/3667433/open-source-isnt-working-for-ai.html
OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 110浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 96浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 51浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 53浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 93浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 48浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 78浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 91浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 36浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 39浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 43浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 146浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦