内容纲要
20260608 周一
1、模型调用失败
1、问题描述:
祁武强(启泰江西分公司)本地电脑 & 服务器都连接不上AI模型,报错码:503、504
2、原因定位:
公司对上网策略的限制,服务器网段的上网限制 & 个人电脑网段的上网限制。
3、验证方法:
更换手机热点,绕开上网策略后,尝试调用模型。
4、解决方法:
让分公司IT人员开通此AI网关域名的访问权限。已解决
2、提采购OA流程(算力服务器 & claude code)
1、问题描述:
带显卡的云服务器3台 & 数据库服务器1台,部署智能体项目需要、模型微调需要、部署特定领域模型需要。
claude opus 4.7模型的额度,组内一成员半个月消耗1800元,目前四人小组,一个人900的配额,预期不够,需要走采购。
2、原因定位:
暂借的服务器无GPU,硬盘空间不足。claude模型额度按部门分发的方案不合理:部门人多人少,都是一万。
3、验证方法:
4、解决方法:
走OA流程,提采购。走流程中
3、问题模版
1、问题描述:
谢水星,模型连接超时
2、解决方法:
旧的PAI-EAS调用的信息作废,给了一个新的AI网关的账号,已解决
20260609 周二
1、算力方案
1、问题描述:
和丽君姐讨论:算力服务器集中购买部署和管理,还是各个分公司进行购买管理
2、原因定位:
各个分公司的人都在开发智能体,需要部署一些小模型,目前的江西算力中心、集团阿里云算力都是基于华为、阿里云的部署框架,受到这些限制,不能自由的部署和管理市面上开源的模型
3、验证方法:
问题的痛点在于,阿里云的PAI平台,并不能实时适配市面上新出的模型,比如deepseek v4,并且一些市面上开源的视觉模型,并不支持部署,比如数字人模型,魔搭社区和hugging face平台都有发布开源模型,可用下载部署。但是在PAI平台的模型市场中找不到。
华为的昇腾卡,我估计也是如此。
并且阿里云的PAI平台不支持一卡多模型
4、解决方法:
模型部署可以集中部署和管理(类似于现在的阿里云-PAI平台和江西的算力中心)因为模型是在市场下载的,嵌入模型、重排模型,很多分公司的需求是重复的,出于成本的计算,可以接模型部署的需求。
至于智能体产品的部署,产品大多不一样,需要现场沟通进行部署,所以需要给开发人员,提供远程访问权限。这些服务器也可以统一采购和管理,将远程权限下发给指定团队人员即可。
可以统一采买、统一管理。
2、算力服务器采购后续
1、问题描述:
服务器前面应该还要走个投资预立项流程,才行
2、解决方法:
去OA流程再加一个预算申请流程,已走流程
模板
1、问题模版
1、问题描述:
2、解决方法: