最近 ChatGPT 很火,作为 《跑路笔记》 的博主 - 加班写bug,我觉得我有必要泼泼冷水,防止大家不小心掉坑里。
今天想与大家聊聊数据安全的问题
据我所知,现在很多大厂都封装了openai 的 API 给公司员内部员工使用。
不知道他们有没有对数据安全进行脱敏?
我觉得这是一件非常危险的事情。现在使用频率最高的应该是程序员了,不仅可以用来问问题,还可以把代码粘贴进去进行调试 Bug。
免不了有时候会复制粘贴一些敏感数据,比如说像一些云产品的密钥说不定就在代码中被粘贴进去了。这样就直接传到 openai 的数据库中去了。虽然正常按照规范,我们的代码中有明文密码的情况几乎为 0 ,再把密钥粘贴进去的可能性更低,但是免不了,有的人认为输入的内容是私密的,不是公布在互联网上的而麻痹大意。
仅仅是在网页最下面 《数据安全》 的外链,然后在链接里说明了要注意数据安全是远远不够的。
根据我自己的 提桶跑路 的经验,毕竟之前是踩过坑,经历过过一些数据泄露的事故的人,不得不分享点经验。
永远不能相信用户的输入
大到产品,小到方法定义,永远不能相信用户的输入,不能相信调用者的输入合法。
不管是对内,还是对外的,我们永远不能认为用户输入的东西是无害的;我们永远不能用户所有东西是安全的,是不会出现数据泄露的。如果编写代码、设计产品的时候不考虑这点,提桶跑路是迟早的。
提桶人的意见
- 在 ChatGPT 对话框上方或者下方用红字标明再次强调不要输入敏感信息,特别是密钥、密码、身份证号、手机号等。
- 调用 API 之前,对用户输入的数据进行脱敏处理,使用正则脱敏,也不用影响与 ChatGPT 的对话沟通。
- 对输出的内容进行存档,什么人在什么时候提交了什么内容,便于后期的周期性扫描检查,防止第 2 步中有什么遗漏,对泄露的密码、密钥就行失效处理,也可以定位泄露人,定责追责。
不知道这个小故事对你编程习惯有所触动?
最后希望大家利用好 ChatGPT,做好大家的小秘,永远都不要被追责。