新闻 发表于 2025-2-18 19:14

对AI隐私的思考

作者:微信文章
对AI隐私的思考

前言

近来,DeepSeek的大火,让“离线部署”成为另外一个大火的名词。对此,本人有所思考。
为什么需要“离线部署”

在我看来,使用离线模型是为了保护个人或企业隐私,而这其中又包含2个方面。
1. 防止自己的文件被(比如企业的内部文档)AI模型用于训练,同时在别人的提问(包括恶意提问,或许已经形成产业链)中泄露自己文件中的数据2. 防止AI供应商被攻陷,从而导致大量上传的文件等泄露

但是,“离线部署”也能带来一些好处
1. 节约成本,打造个性化知识库和AI大模型2. 不受网络、营销等影响3. 自己可以训练或优化更符合需求的模型
“离线部署”的问题

1. 大模型的要求却不低
       以DeepSeek为例,以下是来自DeepSeek自己的回答:



       经过本人实测,本地运行8b模型,在deepseek推理+允许联网的时候,GPU的使用率能达到100%,而且推理时间较长,在输出结果阶段,GPU占用也是居高不下




       当然,不允许联网,就不会有这么高的资源占用。同时,允许联网和不允许联网的回答确实是不一样的2. “离线部署”同样存在安全问题
       Ollama在docker中,默认会以root权限启动,并且开放到公网上;同时,ollama对接口普遍没有鉴权,导致攻击者扫描到这些ollama的开放服务后可以进行一系列操作。
具体可查看文章:
《DeepSeek本地化部署有风险!快来看看你中招了吗?》
保护隐私的思路

既要解决普通户电脑性能不足的问题,还要兼顾隐私安全的问题,市面上也出现了各大云商场的私有化部署的解决方案,但是该方案依然会受网络、成本等的限制,而且依然有数据存储到外部厂商的设备上,我在这里不是说厂商不可信,而是相对的不够可控。

因此,针对有条件和强烈需求的企业,可以从以下思路考虑:一方面,保护隐私的方法可能不仅限于用户的机器,也可以是在一定范围的内网中,这样可以防止用户将数据带向互联网。另一方面,对于用户的机器来说,因为无法运行完整模型,所以无法获得完整模型的全部体验,全都升级终端配置,肯定也不显示。综上,如果在内网中,部署一个环境来运行完整模型,然后被内网中的用户调用,那么模型和价值将会最大化,而内网中所有用户的成本和部署整个模型的成本将会最小化。
页: [1]
查看完整版本: 对AI隐私的思考