苹果用AI重新发明了图像压缩:同样画质,文件只要三分之一
PICO:专为人类视觉优化的学习型编解码器
Apple研究团队推出以机器学习为核心的图像压缩编解码器“PICO”(Perceptual Image Codec)。不同于JPEG、PNG、HEIC等传统方案,PICO采用神经网络学习图像的压缩与复原。其训练过程融合了知覺品質損失、GAN损失,以及专为抑制小字体模糊和砖状色块而设计的损失函数。研究团队强调,PICO号称业界首个同时具备实用性且直接针对人类视觉系统进行优化的学习型编解码器。
同等画质下数据量压至三分之一甚至更少
根据Apple研究页面数据,PICO相较AV1、AV2、VVC、ECM及JPEG-AI,可达到2.3至3倍的位元率节省——即相同画质所需数据量仅为传统标准的三分之一到不足一半。与现有顶尖学习型编解码器相比,PICO进一步实现20%至40%的位元率削减。例如在自然图像中,经PICO压缩后,头发丝、布料纹理等细节因GAN损失的介入而显得更自然,从而极大提升主观观感。

端上表现:iPhone 17 Pro Max上230毫秒编码
PICO在端侧部署上展现出惊人速度。在iPhone 17 Pro Max设备上,完成一张1200万像素图像的编码仅需230毫秒,解码更只需150毫秒,远快于大多数顶尖ML编解码器在V100 GPU上运行时的速度。虽然仍略逊于HEIC等传统高度优化编解码器,但已大幅缩小了学习型方案与实用门槛间的差距。此外,Apple为PICO设计跨裝置兼容性,采用确定性运算部分,避免浮点差异造成的解码失败。
人类主观评估:610人搜集超7.4万回复
Apple采用CLIC 2020 Test、Kodak及DIV2K三个资料集进行评估,邀请610位评估者对基准图像与两种复原图像进行配对比较,合计收集74,925件回应。评估者偏好结果以贝叶斯Elo分数换算,客观呈现各编解码器的知覺品質排名。这一大规模主观测试确保了PICO在用户实际感知中的领先地位。
局限性:对动漫等简化合成图像效率不占优
Apple在论文中坦承,PICO针对自然图像进行最佳化,在压缩动漫插画等高度简化的合成图像时,有时需要比传统编解码器更高的位元率才能达到相同品质。研究团队在探索数百万种神经网络配置后,于压缩率、视觉品质与实用效能三方面取得了当前最佳平衡。这一局限性也指引了未来进一步优化的方向。