-
参数量 42 亿,微软公布 SLM 小语言 AI 模型最新成员 Phi-3-vision
- 时间:2024-05-27 02:41:13 来源:系统之家下载网 人气:8
系统下载网IT资讯 5 月 26 日消息,微软近日公布了旗下小语言 AI 模型家族(SLM)最新成员“Phi-3-vision”,这款模型主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。
据介绍,Phi-3-vision 是微软 Phi-3 家族首款多模态模型,该模型的文字理解能力基于 Phi-3-mini,同时也具备 Phi-3-mini 的轻量特点,能够在移动平台 / 嵌入终端中运行;该模型参数量为 42 亿,大于 Phi-3-mini(3.8B),但小于 Phi-3-small(7B),上下文长度为 128k token,训练期间为 2024 年 2 月至 4 月。
系统下载网IT资讯注意到,Phi-3-vision 模型的最大特色正如其名,主要支持“图文识别能力”,号称能够理解现实世界的图片含义,还能快速识别提取图片中的文字。
微软表示,Phi-3-vision 特别适合办公场合,开发人员特别优化了该模型在识别图表和方块图 (Block diagram) 方面的理解能力,据称可以利用用户输入的信息进行推论,同时还能做出一系列结论,为企业提供战略建议,号称“效果比肩大模型”。
在模型训练方面,微软声称 Phi-3-vision 是由“多种类型图片及文字数据训练而成”,包括一系列“经过严选的公开内容”,例如“教科书等级”教育材料、代码、图文标注数据、现实世界知识、图表图片、聊天格式等内容,从而确保模型输入内容的多样性。为了确保隐私,微软声称他们所使用的训练数据“可追溯”不包含任何个人信息。
性能方面,微软提供了 Phi-3-vision 相较于字节跳动 Llama3-Llava-Next(8B)、微软研究院和威斯康星大学、哥伦比亚大学合作的 LlaVA-1.6(7B)、阿里巴巴通义千问 QWEN-VL-Chat 模型等竞品模型的比较图表,其中显示 Phi-3-vision 模型在多个项目上表现优异。
目前微软已经将该模型上传至 Hugging Face,感兴趣的小伙伴们可以访问项目地址:点此进入
相关阅读:
相关文章
-
奥地利隐私组织“不关你事”(None of Your Business,NOYB)向奥地利数据保护监管机构提交了两份针对微软的投诉,其中一个问题是微软逃避了欧盟法律规定的数据控制者责任,另一个问题是微软 365 教育版(Microsoft 365 Education)中的 Cookie 会追踪所有用户,而并不区分其年龄。...2024-06-15
-
知情人士称,此次裁员主要涉及 Azure for Operators 和 Mission Engineering 等团队,其中一位知情人士估计,Azure for Operators 团队将裁减多达 1500 个岗位。...2024-06-04
-
微软将向瑞典 AI 及云计算基础设施投资 32 亿美元,为 25 万人提供基本 AI 技能培训
据彭博社报道,微软公司今日宣布,计划在瑞典投资32亿美元用于建设人工智能和云计算设施,这是微软迄今为止在北欧地区规模最大的基础设施投资。...2024-06-04 -
据读者投稿,微软 Xbox 全球“账户和档案”服务在北京时间 10 时 35 分目前出现中断问题,截至IT之家发稿,相关问题还未修复。微软表示,用户可能无法登录到 Xbox 账号档案,可能在登录游戏时出现“断开连接”问题,需要登录 Xbox 账号的功能(如大多数游戏、应用和社交活动)将不可用。...2024-06-03