2017年11月15日,英国佳士得拍卖行香槟瓶塞砰砰作响的声音一定震耳欲聋。著名的《救世主》耶稣肖像在纽约佳士得以4.503亿美元售出,这是迄今为止交易价格最高的画作。
不过,即便拍卖槌已落下,还是有一群持人表示怀疑。这幅画真的是由伟大的文艺复兴大师莱昂纳多•达•芬奇画的吗?6年前的专家小组做出的判断正确吗?50多年前,路易斯安那州的一名男子在伦敦仅以45英镑的价格购买了这幅画。自1909年以来,在重新发现《救世主》之前,人们没有发现过任何一幅达芬奇的画作。一些持怀疑态度的专家对这幅作品的出处(销售和转让历史记录)提出了质疑,并指出这幅严重受损的画作经过了大量修复。其他人则认为这幅画出自达芬奇一位门生之手,而非大师本人的作品。是否有可能在相互矛盾的专家意见和不完整的证据中确定艺术品的真伪呢?科学测量可以确定一幅画的年代并揭示其内部细节,但无法直接确定其创作者。因为这需要对风格和技巧做出细微的判断,而这似乎只有艺术专家才能做到。事实上,这项任务非常适合计算机分析,特别是擅长检查图案的计算机算法,即神经网络。用于分析图像的卷积神经网络(CNN)在广泛的应用中发挥了优势,如人脸识别和帮助驾驶自动驾驶汽车。为什么不用它们来鉴定艺术品呢?这也是我在2018年向我的妻子安德里亚•M.弗兰克(Andrea M. Frank)提出的问题,她是一位专业的艺术形象策展人。虽然在大部分职业生涯中,我都是知识产权律师,但我特别喜欢接受网络教育,结果便是我刚刚从哥伦比亚大学获得了人工智能研究生证书。当时安德里亚正在考虑退休,所以我们一起接受了这项新挑战。我们首先回顾了使用神经网络分析画作会遇到的障碍,并立即发现了最大的障碍。第一个障碍绝对是尺寸问题,一幅画的高分辨率图像对于传统的CNN来说太大了。不过,大小适合CNN的较小的图像可能缺乏鉴别所需要的信息。另一个障碍是数量。神经网络需要成千上万个训练样本,远远超过最多产的艺术家一生所能创作的作品数量。无怪乎计算机对解决画作真伪的争议贡献甚微了。
尺寸问题并非艺术图像所独有。病理学家用于检查并诊断癌症和其他疾病的数字化活检载玻片也包含大量像素。医学研究人员将这些图像分割成了更小的碎片(例如方形图块),从而使CNN可以处理这些图像。这样做也有助于解决数量问题,我们可以通过单个图像生成大量的训练图块,尤其是如果允许它们垂直和水平重叠的话。当然那样的话,每个图块中的大部分信息都是冗余的,但事实证明,相较于拥有大量图块来说,冗余不是很重要。在训练神经网络时,通常数量就是质量。我们认为,如果这种方法可以用于艺术作品,下一个问题就是确定使用哪些图块。《救世主》既有具有丰富图像信息的区域,也有视觉效果不那么强的背景区域。出于训练目的,这些低信息区域的关联性似乎不大,甚至更糟:如果因为达芬奇在这些部分上花的时间很少,因此它们缺少作者的鲜明特征,或者,如果许多艺术家倾向于不加区分地渲染简单的背景区域,那么基于这些区域的训练可能会误导CNN。它做出有效区分的能力将因此受到影响。我们需要某种标准来帮助我们识别视觉上明显的、计算机可以自动应用且始终应用的图块。我认为信息论可能会提供一种解决方案,或者至少指明方向。当我开始讨论计算问题时,安德里亚不禁一愣。不过,这一领域的先驱克劳德•香农还发明了火焰投掷喇叭和火箭动力飞盘,而且他还会骑独轮车呢。这能有多差?
信息论的一个重要支柱是熵的概念。大多数人想到熵时,会将飞散的事物想象成混乱状态。然而,香农思考的却是我们通过线路发送信息的有效程度。消息包含的冗余越多,就越容易压缩,发送它所需要的带宽就越小。可以高度压缩的消息具有低熵。另一方面,高熵信息无法被压缩,因为它们具备更强的唯一性、更高的不可预测性和无序性。图像和消息一样承载着信息,它们的熵同样表明了它们的复杂程度。一张全白(或全黑)图像的熵为零。在可以说“全黑”或“全白”时,记录大量的1或0是完全多余的。虽然从视觉上来看,棋盘似乎比单个对角线更复杂,但从可预测性的角度看,它其实并没有更复杂,这意味着它的熵只多一点点。不过,一幅静物画的熵比二者都大得多。如果认为熵代表图像中的信息量,那就错了,即使很小的图像也可能具有很高的熵。相反,熵反映了图像信息的多样性。由于团队中有一半的人对数学不敏感,我突然想到,在排除背景区域和其他视觉单调区域时,我们也许可以不考虑低熵图块。我们从荷兰大师伦勃朗•哈尔曼松•凡•莱因的肖像画开始了我们的冒险之旅,几个世纪以来他的作品一直存在归属争议。显然,要训练CNN识别伦勃朗的真迹,需要一个由一些伦勃朗的画和一些其他人的画组成的数据集,而数据集整合却带来了一个难题。如果我们随机选择50幅伦勃朗的肖像画和50幅其他艺术家创作的肖像画,我们就可以训练系统来区分伦勃朗和(比如说)巴勃罗•毕加索的作品,但无法将他的作品与其学生和崇拜者的作品区分开来(更不用说伪造者)。不过,如果我们训练集里的所有非伦勃朗图像看起来都太像伦勃朗,那么CNN将发生过度拟合。也就是说,它不能在训练之外进行很好的归纳。因此,安德里亚开始着手用非伦勃朗作品条目编制一套数据集,包括一些非常接近伦勃朗作品的条目,以及那些能够让人想起伦勃朗但又易于与真迹区分开来的条目。然后我们还要做一些其他选择。如果要把伦勃朗的画分割成小图块,只保留那些具有足够高熵的图块,那么我们的熵阈值应该是多少?我猜测,一个图块的熵应该至少和整个图像的熵一样多,这样才能实际有益于分类。这种直觉(实践证明是正确的)将熵阈值与画作的特征联系了起来,显然会因作品而异。而且这是一个很高的标准,通常只有不到15%的图块满足条件。不过,如果这导致符合要求的图块太少,我们可以增加相邻图块之间的重叠,以获得足够的图块来进行训练。凭直觉说,这种基于熵的选择结果是有道理的,事实上,符合要求的图块都是你自己也可能会选择的那些。它们通常会捕捉到专家在判断一幅画的作者身份时所依赖的特征。就《救世主》来说,选定的图块覆盖了耶稣的脸、侧卷发和祝福之手,这些特征也是学者在争论这幅画的作者身份时争议最大的地方。接下来要考虑图块的尺寸。在标准硬件上运行的常用CNN可以轻松处理从100×100像素到600×600像素的图像尺寸。我们发现,如果使用小图块,会让分析局限于细节,而使用大图块,则有可能使CNN与训练数据面临过度拟合的风险。不过,只有通过训练和测试,我们才能确定最适合某位艺术家的图块尺寸。对于伦勃朗的肖像画,我们系统使用450×450像素(大约是对象脸部的大小)的图块取得的效果最好,同时将所有画作图像都调整到相同的分辨率。我们还发现,简单的CNN设计比更复杂(且更常见)的设计效果要好。所以我们决定使用一个只有5层的CNN。安德里亚精心挑选的数据集由76幅伦勃朗和非伦勃朗作品的图像组成,我们将4种渠道的作品分为了51幅训练图像和25幅测试图像。这样,我们便能“交叉验证”我们的结果以确保数据集的一致性。我们的5层CNN学会了如何区分伦勃朗与他的学生、模仿者和其他肖像画家,准确率超过90%。在这一成功的鼓舞下,我们给强悍的小CNN起了个怪诞的名字A-Eye,并将其用于另一位荷兰天才文森特•梵高的风景画。之所以选择梵高,是因为他的作品与伦勃朗的作品大不相同,他的作品感性而非经过深思熟虑,笔触大胆且富有表现力。这一次,我们的数据集由152幅梵高和非梵高作品组成,我们将4种渠道的作品分为了100幅训练图像和52幅测试图像。
A-Eye在梵高的作品上表现很出色,再次在测试集中取得了高准确率,而且只使用了尺寸更小的图块。表现最好的只有100×100像素,大约一个笔划的大小。似乎艺术家作品的“特征”大小(促进CNN准确分类的独特特征尺寸)对该艺术家来说是特定的,至少在肖像画或风景画等流派中是如此。不过,尚不能确定CNN是如何准确地找到关键细节(它在做出预测时所“看到”的内容)的。CNN的业务端(实际上是它的中间部分)是一系列卷积层,它们逐步将图像分解为能够以某种方式做出分类的细节。我们工具的黑匣子特性是人工神经网络面临的一个众所周知的挑战,特别是那些图像分析神经网络。不过我们知道,以恰当大小的图块对CNN进行适当训练时,它能够可靠地估计出每个图块对应的画布区域有多大概率是由目标艺术家创作的。我们可以根据不同图块确定的概率,将这幅画进行整体分类,最简单的方法就是找到它们的整体平均值。为了更仔细地查看图像的预测情况,我们可以将与图块相关的概率分配给它包含的每个像素。通常一个像素会重叠多个图块,因此我们可以对相关的图块级概率取平均值,确定该像素的概率值。结果便会产生一张概率图,显示可能由该艺术家创作的区域。画布上的概率分布可能具有启发性,特别是对于已知(或怀疑)曾与助手一起工作的艺术家而言,或者那些作品曾被损坏随后被修复的艺术家而言。例如,伦勃朗的妻子萨斯姬亚•凡•优伦堡的肖像在我们的概率图中有一些地方值得怀疑,尤其是脸部和背景。这与伦勃朗研究学者的观点一致,即这些区域后来被人涂过,且并非伦勃朗本人。虽然这些发现具有启发性,但低概率区域并非决定性地表示这幅作品出自他人之手。它们可能是艺术家进行的一次大胆、反常的实验,甚至可能只是因为作者经历了糟糕的一天。其中一些区域也有可能是因为简单的分类错误造成的。毕竟,没有完美的系统。我们评估了伦勃朗和梵高的10幅作品以检验我们的系统,这些作品一直是专家们激烈争论的对象。除一幅作品外,我们的分类均与当前学术上达成的共识一致。因此,我们有了底气,准备迎接更大的挑战——评估《救世主》。之所以说是更大的挑战,是因为确定属于达芬奇的作品数量非常少(不到20幅)。最终,我们取得了貌似合理的图块级别的分类,并生成了一张有效的概率图。我们的结果表明,《救世主》的背景和祝福之手可能并非达芬奇所画。这个看法符合这幅画曾经经历大规模修复的情况,包括对背景进行了彻底重涂。如前所述,专家们对谁画了这只祝福之手有很大的分歧。确定了我们的方法有一定的可信度之后,我们有了一个奢望。这与一幅名为《戴金盔的男子》的油画有关,它是我们的系统与如今的归属共识产生唯一分歧的作品。长期以来,它一直被视为伦勃朗最引人注目的作品,然而在1985年,它的所有者柏林国家博物馆不再将它归于伦勃朗。博物馆的学者们指出,其在绘画处理方面存在不一致的地方,认为它们不符合伦勃朗已知的绘画方式。现在,它被认为出自“伦勃朗画圈”一位不知名的画家之手,它的光彩在公众心目中也已明显褪色,除了这位阴影中的士兵头上戴的金灿灿的头盔。不过,我们的神经网络坚定地将这幅画归于伦勃朗(可能有一小部分源自他人的返工或协助)。此外,我们的总体调查结果还提醒我们,不要根据细微的表面特征来确定伦勃朗作品的归属,因为将我们的CNN分析缩小到这些特征上之后,其预测结果并不比猜测更好。我们希望有一天可以重新考虑这位老战士的归属。图像熵是一个多面手。它可以找出最能代表整个复杂图像的部分,甚至可以让最大的图像(包括医学图像)(见下文)易于进行计算机分析和分类。随着训练的简化和对大型数据集的需求减少,小型CNN现在可以发挥更大的作用。从绘画到病理学
从艺术品分析中吸取的经验教训也适用于医学领域
使用卷积神经网络(CNN)分析艺术作品面临的挑战也困扰着医学图像的自动化分析,特别是病理学家用于分析癌症和其他疾病迹象的组织学样本的巨大的全切片图像(WSI)。这些图像可能有几十亿像素之大,人们通常在功能强大、直接集成了玻片扫描仪的工作站上查看这种图像。目前,让人工智能发挥作用的工作也是从全尺寸图像开始,并且需要更专业的硬件(如强大的图形处理单元)来处理分析。这些工作也可能遭遇“黑匣子”问题:如果计算机仅仅对活检切片分类,病理学家能确信它查找的是正确位置吗?
现在是大数据的时代,所有工作信息的获得大都是从数与巨大的WSI相比,即使是适合CNN分析的最大的图块也很小。病理学家如何确保他们捕捉到了对诊断而言至关重要的解剖部位呢?肿瘤细胞可以巧妙地伪装自己,疾病恶化的线索可能以周围组织结构的变化或附近免疫细胞的异常模式的形式潜伏在它们之外。预测性特征并不总是可预测的。
图像熵和一种不同的思维方式也许会有所帮助。图像缩放和图块大小可以作为“旋钮”进行调节,直到达到分类准确度的峰值。正如我们在画作鉴定中所做的那样,对一系列图像和图块大小进行训练和测试可以让CNN区分病变组织和正常组织,甚至是各种形式的疾病。虽然我们已经利用图像熵来确定最具预测性的图块以训练神经网络,但在医学领域,可能在CNN做任何工作之前,以这种方式找到的图块就能很好地提供(比如说)肿瘤区域的大概位置了。 ——Steven J. Frank