正文 苹果AI模型OpenELM解析:具备离线处理、小容量高性能 投稿 V网站编辑 /2024-04-29 03:45:41 /31阅读 0429 自从去年OpenAI、微软(Microsoft)、谷歌、三星等科技公司都陆续推出生成式AI技术与应用后,如今苹果也在近日释出开源生成式人工智能模型 OpenELM,AI模型主要特色能够在设备上独立运作,无需云端服务即可通过手机或电脑即时处理,同时苹果也将在今年WWDC全球开发者大会上公开多项生成式AI研发结果与应用。苹果释出 AI 开源大型语言模型 OpenELM苹果为了加速生成式 AI 领域发展,提前通过开源 AI 平台 Hugging Face 发布「OpenELM」具有开源的高效率文本生成模型家族,OpenELM采用了分层扩展(layer-wise scaling)技术策略,能在模型的每一层中有效分配参数,能让 OpenELM 转换器具有不同的配置与参数,近而够提高准确性。苹果表示OpenELM是使用神经网络库CoreNet作为训练框架,并且搭配Adam优化算法进行35万次模型训练,连同苹果MobileOne、CVNets、MobileViT、FastVit等知名研究也同样都是靠CoreNet完成。OpenELM分别为4款经过预训练以及4款针对指令优化调校过的版本,在参数规模也分成2.7亿、4.5亿、11亿和30亿四种参数,每款规模也都比起高性能模型(70亿参数)要来得更小,比起微软 Phi-3 模型 38亿更小。对于OpenELM训练资料全来自维基百科、Wikiboos、Reddit、arXivx论文、StackExchange 问答,以及 GitHub 的 RedPajama 资料集、Project Gutenberg等公共资料集,总计有1.8兆 tokens 的数据进行训练。尽管OpenELM以开源许可证发布,并没有过度的限制,但苹果明确表示,任何基于OpenELM的衍生作品都将被视为侵犯权利,苹果保留提出专利索赔的权利。OpenELM 模型小、性能表现优异苹果分享的OpenELM模型特别是4.5亿参数的变体效能表现相当优异,另外11亿参数的OpenELM变体性能表现方面,也超越具备掘金咖人工智能研究所所长的开源大型语言模型OLMo,预训练tgen数量减少一半,OpenELM在性能比OLMo提高2.36%。至于30亿参数的OpenELM变体,在经由ARC-C基准测试中,知识和推理能力准确率达到了42.24%,且MMLU和HellaSwag得分也分别获得26.76%和73.28%。虽然苹果的OpenELM模型在AI领域算不上是最顶尖,在回应也被多方证实相当可靠,与人类思考逻辑几乎一致,也能实现小参数达到超强性能。 但是苹果 AI 模型在创造力方面,OpenELM 就容易出现稍显不足情况。OpenELM 支持 iPhone 或 Mac 电脑独立运作苹果在 OpenELM 公开说明中提到「将模型转换为 MLX 数据库的代码,以便在苹果设备上进行推理和微调」,其中MLX是去年释出能在苹果芯片上运行机器学习的框架,能够在非连网络状态下,直接通过苹果设备本机执行。苹果一直都是封闭系统领导者,如今罕见公开 AI 大模型,外界认为这有可能就类似 谷歌 操作方式,先通过开源拉拢开发人员,再利用封闭产品进行商业化。如今苹果选在 WWDC 2024 开发者大会前,对外释出大模型用来展现将进军 AI 领域的决心,那也代表 iOS 18 和 iPhone 16 新机将导入 AI 功能应用将成为今年最热门的话题。