卷积神经网络,先进艺术鉴定技术

云脑智库 2022-01-01 00:00


来源 | 悦智网

智库 | 云脑智库(CloudBrain-TT)

云圈 | “云脑智库微信群”,请加微信:15881101905,备注您的研究方向

  • 卷积神经网络可以鉴定一幅画是赝品还是真品。

2017年11月15日,英国佳士得拍卖行香槟瓶塞砰砰作响的声音一定震耳欲聋。著名的《救世主》耶稣肖像在纽约佳士得以4.503亿美元售出,这是迄今为止交易价格最高的画作。

不过,即便拍卖槌已落下,还是有一群持人表示怀疑。这幅画真的是由伟大的文艺复兴大师莱昂纳多•达•芬奇画的吗?6年前的专家小组做出的判断正确吗?50多年前,路易斯安那州的一名男子在伦敦仅以45英镑的价格购买了这幅画。自1909年以来,在重新发现《救世主》之前,人们没有发现过任何一幅达芬奇的画作。
一些持怀疑态度的专家对这幅作品的出处(销售和转让历史记录)提出了质疑,并指出这幅严重受损的画作经过了大量修复。其他人则认为这幅画出自达芬奇一位门生之手,而非大师本人的作品。
是否有可能在相互矛盾的专家意见和不完整的证据中确定艺术品的真伪呢?科学测量可以确定一幅画的年代并揭示其内部细节,但无法直接确定其创作者。因为这需要对风格和技巧做出细微的判断,而这似乎只有艺术专家才能做到。事实上,这项任务非常适合计算机分析,特别是擅长检查图案的计算机算法,即神经网络。用于分析图像的卷积神经网络(CNN)在广泛的应用中发挥了优势,如人脸识别和帮助驾驶自动驾驶汽车。为什么不用它们来鉴定艺术品呢?
这也是我在2018年向我的妻子安德里亚•M.弗兰克(Andrea M. Frank)提出的问题,她是一位专业的艺术形象策展人。虽然在大部分职业生涯中,我都是知识产权律师,但我特别喜欢接受网络教育,结果便是我刚刚从哥伦比亚大学获得了人工智能研究生证书。当时安德里亚正在考虑退休,所以我们一起接受了这项新挑战。

我们首先回顾了使用神经网络分析画作会遇到的障碍,并立即发现了最大的障碍。第一个障碍绝对是尺寸问题,一幅画的高分辨率图像对于传统的CNN来说太大了。不过,大小适合CNN的较小的图像可能缺乏鉴别所需要的信息。另一个障碍是数量。神经网络需要成千上万个训练样本,远远超过最多产的艺术家一生所能创作的作品数量。无怪乎计算机对解决画作真伪的争议贡献甚微了。

尺寸问题并非艺术图像所独有。病理学家用于检查并诊断癌症和其他疾病的数字化活检载玻片也包含大量像素。医学研究人员将这些图像分割成了更小的碎片(例如方形图块),从而使CNN可以处理这些图像。这样做也有助于解决数量问题,我们可以通过单个图像生成大量的训练图块,尤其是如果允许它们垂直和水平重叠的话。当然那样的话,每个图块中的大部分信息都是冗余的,但事实证明,相较于拥有大量图块来说,冗余不是很重要。在训练神经网络时,通常数量就是质量。
我们认为,如果这种方法可以用于艺术作品,下一个问题就是确定使用哪些图块。《救世主》既有具有丰富图像信息的区域,也有视觉效果不那么强的背景区域。出于训练目的,这些低信息区域的关联性似乎不大,甚至更糟:如果因为达芬奇在这些部分上花的时间很少,因此它们缺少作者的鲜明特征,或者,如果许多艺术家倾向于不加区分地渲染简单的背景区域,那么基于这些区域的训练可能会误导CNN。它做出有效区分的能力将因此受到影响。

我们需要某种标准来帮助我们识别视觉上明显的、计算机可以自动应用且始终应用的图块。我认为信息论可能会提供一种解决方案,或者至少指明方向。当我开始讨论计算问题时,安德里亚不禁一愣。不过,这一领域的先驱克劳德•香农还发明了火焰投掷喇叭和火箭动力飞盘,而且他还会骑独轮车呢。这能有多差?

信息论的一个重要支柱是熵的概念。大多数人想到熵时,会将飞散的事物想象成混乱状态。然而,香农思考的却是我们通过线路发送信息的有效程度。消息包含的冗余越多,就越容易压缩,发送它所需要的带宽就越小。可以高度压缩的消息具有低熵。另一方面,高熵信息无法被压缩,因为它们具备更强的唯一性、更高的不可预测性和无序性。
图像和消息一样承载着信息,它们的熵同样表明了它们的复杂程度。一张全白(或全黑)图像的熵为零。在可以说“全黑”或“全白”时,记录大量的1或0是完全多余的。虽然从视觉上来看,棋盘似乎比单个对角线更复杂,但从可预测性的角度看,它其实并没有更复杂,这意味着它的熵只多一点点。不过,一幅静物画的熵比二者都大得多。
如果认为熵代表图像中的信息量,那就错了,即使很小的图像也可能具有很高的熵。相反,熵反映了图像信息的多样性。由于团队中有一半的人对数学不敏感,我突然想到,在排除背景区域和其他视觉单调区域时,我们也许可以不考虑低熵图块。
我们从荷兰大师伦勃朗•哈尔曼松•凡•莱因的肖像画开始了我们的冒险之旅,几个世纪以来他的作品一直存在归属争议。显然,要训练CNN识别伦勃朗的真迹,需要一个由一些伦勃朗的画和一些其他人的画组成的数据集,而数据集整合却带来了一个难题。
如果我们随机选择50幅伦勃朗的肖像画和50幅其他艺术家创作的肖像画,我们就可以训练系统来区分伦勃朗和(比如说)巴勃罗•毕加索的作品,但无法将他的作品与其学生和崇拜者的作品区分开来(更不用说伪造者)。不过,如果我们训练集里的所有非伦勃朗图像看起来都太像伦勃朗,那么CNN将发生过度拟合。也就是说,它不能在训练之外进行很好的归纳。因此,安德里亚开始着手用非伦勃朗作品条目编制一套数据集,包括一些非常接近伦勃朗作品的条目,以及那些能够让人想起伦勃朗但又易于与真迹区分开来的条目。
然后我们还要做一些其他选择。如果要把伦勃朗的画分割成小图块,只保留那些具有足够高熵的图块,那么我们的熵阈值应该是多少?我猜测,一个图块的熵应该至少和整个图像的熵一样多,这样才能实际有益于分类。这种直觉(实践证明是正确的)将熵阈值与画作的特征联系了起来,显然会因作品而异。而且这是一个很高的标准,通常只有不到15%的图块满足条件。不过,如果这导致符合要求的图块太少,我们可以增加相邻图块之间的重叠,以获得足够的图块来进行训练。
凭直觉说,这种基于熵的选择结果是有道理的,事实上,符合要求的图块都是你自己也可能会选择的那些。它们通常会捕捉到专家在判断一幅画的作者身份时所依赖的特征。就《救世主》来说,选定的图块覆盖了耶稣的脸、侧卷发和祝福之手,这些特征也是学者在争论这幅画的作者身份时争议最大的地方。
接下来要考虑图块的尺寸。在标准硬件上运行的常用CNN可以轻松处理从100×100像素到600×600像素的图像尺寸。我们发现,如果使用小图块,会让分析局限于细节,而使用大图块,则有可能使CNN与训练数据面临过度拟合的风险。不过,只有通过训练和测试,我们才能确定最适合某位艺术家的图块尺寸。对于伦勃朗的肖像画,我们系统使用450×450像素(大约是对象脸部的大小)的图块取得的效果最好,同时将所有画作图像都调整到相同的分辨率。
我们还发现,简单的CNN设计比更复杂(且更常见)的设计效果要好。所以我们决定使用一个只有5层的CNN。安德里亚精心挑选的数据集由76幅伦勃朗和非伦勃朗作品的图像组成,我们将4种渠道的作品分为了51幅训练图像和25幅测试图像。这样,我们便能“交叉验证”我们的结果以确保数据集的一致性。我们的5层CNN学会了如何区分伦勃朗与他的学生、模仿者和其他肖像画家,准确率超过90%。

在这一成功的鼓舞下,我们给强悍的小CNN起了个怪诞的名字A-Eye,并将其用于另一位荷兰天才文森特•梵高的风景画。之所以选择梵高,是因为他的作品与伦勃朗的作品大不相同,他的作品感性而非经过深思熟虑,笔触大胆且富有表现力。这一次,我们的数据集由152幅梵高和非梵高作品组成,我们将4种渠道的作品分为了100幅训练图像和52幅测试图像。

A-Eye在梵高的作品上表现很出色,再次在测试集中取得了高准确率,而且只使用了尺寸更小的图块。表现最好的只有100×100像素,大约一个笔划的大小。似乎艺术家作品的“特征”大小(促进CNN准确分类的独特特征尺寸)对该艺术家来说是特定的,至少在肖像画或风景画等流派中是如此。
不过,尚不能确定CNN是如何准确地找到关键细节(它在做出预测时所“看到”的内容)的。CNN的业务端(实际上是它的中间部分)是一系列卷积层,它们逐步将图像分解为能够以某种方式做出分类的细节。我们工具的黑匣子特性是人工神经网络面临的一个众所周知的挑战,特别是那些图像分析神经网络。不过我们知道,以恰当大小的图块对CNN进行适当训练时,它能够可靠地估计出每个图块对应的画布区域有多大概率是由目标艺术家创作的。我们可以根据不同图块确定的概率,将这幅画进行整体分类,最简单的方法就是找到它们的整体平均值。
为了更仔细地查看图像的预测情况,我们可以将与图块相关的概率分配给它包含的每个像素。通常一个像素会重叠多个图块,因此我们可以对相关的图块级概率取平均值,确定该像素的概率值。结果便会产生一张概率图,显示可能由该艺术家创作的区域。
画布上的概率分布可能具有启发性,特别是对于已知(或怀疑)曾与助手一起工作的艺术家而言,或者那些作品曾被损坏随后被修复的艺术家而言。例如,伦勃朗的妻子萨斯姬亚•凡•优伦堡的肖像在我们的概率图中有一些地方值得怀疑,尤其是脸部和背景。这与伦勃朗研究学者的观点一致,即这些区域后来被人涂过,且并非伦勃朗本人。
虽然这些发现具有启发性,但低概率区域并非决定性地表示这幅作品出自他人之手。它们可能是艺术家进行的一次大胆、反常的实验,甚至可能只是因为作者经历了糟糕的一天。其中一些区域也有可能是因为简单的分类错误造成的。毕竟,没有完美的系统。
我们评估了伦勃朗和梵高的10幅作品以检验我们的系统,这些作品一直是专家们激烈争论的对象。除一幅作品外,我们的分类均与当前学术上达成的共识一致。因此,我们有了底气,准备迎接更大的挑战——评估《救世主》。之所以说是更大的挑战,是因为确定属于达芬奇的作品数量非常少(不到20幅)。
最终,我们取得了貌似合理的图块级别的分类,并生成了一张有效的概率图。我们的结果表明,《救世主》的背景和祝福之手可能并非达芬奇所画。这个看法符合这幅画曾经经历大规模修复的情况,包括对背景进行了彻底重涂。如前所述,专家们对谁画了这只祝福之手有很大的分歧。
确定了我们的方法有一定的可信度之后,我们有了一个奢望。这与一幅名为《戴金盔的男子》的油画有关,它是我们的系统与如今的归属共识产生唯一分歧的作品。长期以来,它一直被视为伦勃朗最引人注目的作品,然而在1985年,它的所有者柏林国家博物馆不再将它归于伦勃朗。博物馆的学者们指出,其在绘画处理方面存在不一致的地方,认为它们不符合伦勃朗已知的绘画方式。
现在,它被认为出自“伦勃朗画圈”一位不知名的画家之手,它的光彩在公众心目中也已明显褪色,除了这位阴影中的士兵头上戴的金灿灿的头盔。不过,我们的神经网络坚定地将这幅画归于伦勃朗(可能有一小部分源自他人的返工或协助)。此外,我们的总体调查结果还提醒我们,不要根据细微的表面特征来确定伦勃朗作品的归属,因为将我们的CNN分析缩小到这些特征上之后,其预测结果并不比猜测更好。我们希望有一天可以重新考虑这位老战士的归属。

图像熵是一个多面手。它可以找出最能代表整个复杂图像的部分,甚至可以让最大的图像(包括医学图像)(见下文)易于进行计算机分析和分类。随着训练的简化和对大型数据集的需求减少,小型CNN现在可以发挥更大的作用。

从绘画到病理学

从艺术品分析中吸取的经验教训也适用于医学领域

使用卷积神经网络(CNN)分析艺术作品面临的挑战也困扰着医学图像的自动化分析,特别是病理学家用于分析癌症和其他疾病迹象的组织学样本的巨大的全切片图像(WSI)。这些图像可能有几十亿像素之大,人们通常在功能强大、直接集成了玻片扫描仪的工作站上查看这种图像。目前,让人工智能发挥作用的工作也是从全尺寸图像开始,并且需要更专业的硬件(如强大的图形处理单元)来处理分析。这些工作也可能遭遇“黑匣子”问题:如果计算机仅仅对活检切片分类,病理学家能确信它查找的是正确位置吗?

现在是大数据的时代,所有工作信息的获得大都是从数与巨大的WSI相比,即使是适合CNN分析的最大的图块也很小。病理学家如何确保他们捕捉到了对诊断而言至关重要的解剖部位呢?肿瘤细胞可以巧妙地伪装自己,疾病恶化的线索可能以周围组织结构的变化或附近免疫细胞的异常模式的形式潜伏在它们之外。预测性特征并不总是可预测的。

图像熵和一种不同的思维方式也许会有所帮助。图像缩放和图块大小可以作为“旋钮”进行调节,直到达到分类准确度的峰值。正如我们在画作鉴定中所做的那样,对一系列图像和图块大小进行训练和测试可以让CNN区分病变组织和正常组织,甚至是各种形式的疾病。虽然我们已经利用图像熵来确定最具预测性的图块以训练神经网络,但在医学领域,可能在CNN做任何工作之前,以这种方式找到的图块就能很好地提供(比如说)肿瘤区域的大概位置了。

       ——Steven J. Frank

作者:Steven J. Frank

- The End

声明:欢迎转发本号原创内容,转载和摘编需经本号授权并标注原作者和信息来源为云脑智库。本公众号目前所载内容为本公众号原创、网络转载或根据非密公开性信息资料编辑整理,相关内容仅供参考及学习交流使用。由于部分文字、图片等来源于互联网,无法核实真实出处,如涉及相关争议,请跟我们联系。我们致力于保护作者知识产权或作品版权,本公众号所载内容的知识产权或作品版权归原作者所有。本公众号拥有对此声明的最终解释权。

投稿/招聘/推广/合作/入群/赞助 请加微信:15881101905,备注关键词

“阅读是一种习惯,分享是一种美德,我们是一群专业、有态度的知识传播者.”

 阅读原文加入知识星球,发现更多精彩内容.

 分享💬 点赞👍 在看❤️@以“三连”行动支持优质内容! 

云脑智库 努力是一种生活态度,与年龄无关!专注搬运、分享、发表雷达、卫通、通信、化合物半导体等技术应用、行业调研、前沿技术探索!专注相控阵、太赫兹、微波光子、光学等前沿技术学习、分享
评论
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 55浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 127浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 119浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 104浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 45浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 87浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 80浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 85浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 71浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 145浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 75浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 173浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 100浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦