AI大模型数据被盗第一案?学而思和笔神作文“开撕”|当前热议

发布时间:2023-06-16 21:19:35     来源:21世纪经济报道

6月13日,笔神作文发布“关于‘学而思’ AI大模型侵权事件的声明”。声明称,4月13日至17日,学而思通过“爬虫”技术非法访问、缓存笔神作文APP服务器数据多达258万次。严重侵犯了笔神作文APP的数据权益。

对此,学而思官方微博发文回应称:“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文AI助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”


(相关资料图)

6月14日,笔神作文再度发文,在这篇题为《学而思,你做了一次标准的扒库示范》的声明中,其表示“我们认为学而思方所述并非事实”,并列出了相关证据。

受访专家向记者分析,本次风波的实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基。

学而思AI大模型疑盗取合作商数据?

“学而思在今年4月13日至4月17日,通过‘爬虫’技术非法访问、缓存笔神作文APP服务器数据多达258万次。”笔神作文在6月13日声明中表示。

笔神作文认为,这一行为不仅违反了双方的合同条款,也违反了《数据安全法》相关规定,严重侵犯了笔神作文APP的数据权益。事后其曾向学而思方面进行取证,并且对方承认是他们的算法组在爬取数据并作为己用,但在收到律师函后始终没有实质性答复。

记者了解到,笔神作文是隶属于北京一笔两划科技有限公司的品牌,据其官网介绍,笔神是一款人工智能辅助写作软件,拥有千万级写作素材库。笔神作文与学而思之间有着多年的合作基础。

笔神作文称,在不到一个月的时间,学而思的AI大模型MathGPT里包含的新产品“作文AI助手”就即将上线。疑似指后者作文AI产品使用了其数据。

笔神作文还表示会通过法律途径来维护自身权益,但目前国内并没有“AI大模型数据盗取”的判决先例。“希望学而思就此支付1元赔偿金,并公开道歉,同时删除已爬取的数据。”

各执一词:正常合作还是“扒库”行为?

6月13日晚,学而思发布声明,从三方面进行回应:

一是,学而思和笔神作文于2020年12月开始合作,合作协议明确约定:笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,每月保底费用包含的调用次数为百万次量级。合作至今,双方一直按照调用量进行正常结算。

二是,学而思对笔神作文接口的调用,属于双方合同约定的正常合作范围,对笔神素材内容的使用均符合合同要求,并未用于合同以外的任何用途。

三是,笔神作文在公开声明中提及学而思正在研发的数学大模型MathGPT以及学而思学习机“作文AI助手”,并主观揣测学而思使用其数据用于两款产品的训练和研发,这与事实严重不符。

“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,作文AI助手目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”学而思称。

6月14日,笔神作文发布《学而思,你做了一次标准的扒库示范》,表示“我们认为学而思方所述并非事实”,并列出相关证据。

笔神作文称,学而思在声明里提到调用数据为正常使用,笔神作文在合同中明确“甲方(注:三体云联公司)不得随意泄露、使用、传播或缓存乙方(注:一笔两划公司)服务接口中的作文范本及相关内容,否则造成的损失将由甲方全额赔偿”。同时,在合同中提出“甲方不得在未经乙方允许的情况下用于任何其他用途,包括缓存,存储,作为语料进行计算,训练等。”

但在2023年4月13日至4月17日之间,笔神作文检测到服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。通过查阅服务器日志发现:三体云联公司未经一笔两划公司授权许可,用单一IP通过“爬虫”技术非法访问一笔两划公司服务器数据多达 258 万次。

(图源:笔神作文APP微信公众号)

“而且,从这个IP的访问日志来看,每次访问的搜索词都是作文相关的高频搜索词,我们每页会返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,这种方式基本上把库里同个题目的所有作文全部抓取完了,这种行为不是正常人使用的方式。而且很多访问的间隔都是100毫秒左右,也不可能是正常人访问的速度。”笔神作文表示。

(图源:笔神作文APP微信公众号)

笔神作文认为,这种对数据库的搜刮式访问,与以往正常的访问方式完全不同,按业内的通常说法,这就是一种典型的“扒库”行为。

网络安全专家陈业炫告诉记者,所谓“扒库”是一个口语化的形容词,用于形容大规模爬取数据。“数据爬虫过程中,爬取的规模大了、频率高了,就会被认为是非正常行为。通常情况下,高频率的请求,大规模、每一篇都会访问的遍历式行为都需引起关注。”

据陈业炫介绍,爬虫本身就是程序化的自动行为,比如每秒10次的访问量可以看作是超出普通用户的行为频率,正常用户不会大规模、高频率的访问相关网页。

在这个事件中,哪些行为是被允许的?哪些是不被允许的?“笔神允许相关合作方查询、查看数据,但是不能本地化存储用于机器学习的素材。”陈业炫说。

据笔神作文介绍,基于双方的合作精神,笔神作文自己的技术团队设计了完备的安全机制,正常情况下,可以防止黑客们进行爬虫攻击。而只有提供给合作伙伴学而思的接口是不设防的。

如何理解接口不设防?陈业炫介绍,笔神作文方面未对学而思设置反爬虫措施。“日常的合作中,开放数据的一方通常需要限制访问的行为,包括频率和总量,给自己留以一定的反应时间,以防全部数据被快速抓走。”

记者多次通过官方电话尝试联系事件双方,截至发稿前未得到回复。

AIGC伴生侵权风险 获得数据授权是关键

AIGC火爆出圈,与之伴生的侵权风险问题也引发各界关注。国家网信办今年4月发布的《生成式人工智能服务管理办法(征求意见稿)》提到,提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。用于生成式人工智能产品的预训练、优化训练数据不得含有侵犯知识产权的内容。

中伦律师事务所合伙人王飞指出,以ChatGPT为代表的生成式AI,底层是一款通用的自然语言生成模型,通过互联网海量的语料库训练,对语言文本进行概率建模来预测下一段输出内容的概率,从而实现根据用户输入的文字内容生成对应文字回答的功能。

具体到本次学而思和笔神作文的“AI大模型数据窃取”风波,王飞表示,这个事件实质是授权合同违约纠纷,涉及到对于合同授权范围条款的解释。AIGC产品获得训练模型数据授权是合规的根基,授权的内容和范围、使用的形式等一般会在签订授权合同时予以明晰,但鉴于AIGC作为新生产物,怎样进行约定还要再进行探索,也会是未来AIGC产品纠纷产生的主要原因之一。

陕西华格律师事务所律师葛伟超也认为,这主要是基于合同目的而产生的问题。“双方可能会因为合同中关于数据使用的范围、方式、程度等条款约定不明产生不同理解,而对簿公堂。”

那么,构成AI大模型“数据盗取”行为,有哪些主要的判断因素?

“AI数据抓取案件本质上与近年来司法判决的典型数据抓取案件并无差别,都需要判断抓取数据行为是否损害数据持有者的商业利益与市场竞争优势、是否属于未经许可使用他人劳动成果、是否违背商业道德、抓取数据是否有合理理由。”王飞说。

在法律责任方面,葛伟超指出,利用抓取技术破坏他人市场竞争优势,具有并存在为自己谋取竞争优势的主观故意,违反诚实信用原则,扰乱竞争秩序的数据抓取行为,可能构成不正当竞争行为。同时也直接违反了《数据安全法》相关规定。

“如果合作协议中有约定违约责任条款,则依其处理。如果没有约定该种情形,则属于侵权范围,要承担相应侵权责任,包括但不限于赔礼道歉、停止侵权、赔偿损失等。”葛伟超说。

大模型的开发离不开海量数据(603138)助力。当前,数据来源的知识产权已经成为大模型发展的阿喀琉斯之踵。AI模型开发主体以何种方式、需要承担何种程度的法律义务以获取训练数据,是当前产业需要解决的核心问题。

值得关注的是,传统的“授权许可模式”对于大模型的数据训练存在天然困境,不仅在于实操层面难以落地,更在于对产业研发的长期影响。业界有观点认为,可以将数据纳入合理使用的范畴进行规制。

目前来看,日本、英国、欧盟等已对将数据挖掘作为合理使用的情形进行了立法确认:日本以“计算机信息分析”的名义规定了文本数据挖掘的著作权例外,英国同样引入文本和数据挖掘的版权许可或例外情况,欧盟则选择“非科研目的”例外的谨慎方案。中国业内也在探讨是否可以通过数据的合理使用解决数据权属带来的问题。

对于如何厘清数据合理使用和保护的边界,葛伟超认为,“首先,要明确拥有数据的经营者权利,即拥有数据所有权还是数据用益权。其次,明确数据抓取行为的性质。再次,明确该种行为损害的法益是数据财产还是竞争优势。最后,需要明确规制该种行为到底适用于竞争法、民法、或者著作权法的保护。”

标签:

精彩推送

中能建建筑集团寿县高校:开展”安全咨询日“有奖问答活动

点击蓝字关注 回复“拼车”、“相亲”、“求职”获取最新信息为进一步

2023-06-16

沙钢建成亚洲最大煤焦筒仓群

上证报中国证券网讯据中钢协6月16日消息,日前,随着第一批原料煤顺利

2023-06-16

二季度消费市场有望保持平稳增长 热门看点

本报北京6月15日电(记者北梦原)记者今天从商务部获悉,随着端午、暑

2023-06-16

1月-5月 厦门130个省重点项目投资完成率居全省前列

130个省重点项目加速建设完成投资435 8亿元超同期计划投资71 1亿元投资

2023-06-16

焦点热门:名人简短哲理有深度的文案

1、我不是一个坚强的人,但是我知道,有些时候,除了坚强,别无选择。2

2023-06-16

AI大模型数据被盗第一案?学而思和笔神作文“开撕”|当前热议

6月13日,笔神作文发布“关于‘学而思’AI大模型侵权事件的声明”。声

北京希尔顿饭店

酒店由著名的希尔顿酒店集团管理,坐落于北京东三环北路燕莎商务区内,

中能建建筑集团寿县高校:开展”安全咨询日“有奖问答活动

点击蓝字关注 回复“拼车”、“相亲”、“求职”获取最新信息为进一步

恒信东方:接受宝盈基金等机构调研 焦点速讯

恒信东方(SZ300081,收盘价:10 98元)发布公告称,2023年6月13日-16

动态焦点:98折起,91盘放“价”!佛山房博会正式开锣!

98折起,91盘放“价”!佛山房博会正式开锣!,看房,楼市,购房,房博会,

世界微动态丨四川开发科研助理岗位吸纳高校毕业生 今年提供超1万个就业岗位

6月16日,2023年全国科研助理岗位招聘直播带岗启动会暨四川省开发科研

《山门与幻境》一修大师二十一项修改器v0.3.12发布!

《山门与幻境》是一款修仙主题3D模拟经营+肉鸽题材的游戏,今天为大家

东莞土拍“冷与热”:松山湖地块86轮封顶成交,6年以来价格新低地块却遭流拍|快播

东莞土拍“冷与热”:松山湖地块86轮封顶成交,6年以来价格新低地块却

当前热门:快看!朝阳多地拆迁问题又有新消息!

快看!朝阳多地拆迁问题又有新消息!,平房区,朝阳区,朝阳市,老旧小区,

全球关注:国家发展改革委:抓紧制定出台恢复和扩大消费的政策

国家发展改革委新闻发言人孟玮在6月16日召开的例行新闻发布会上表示,

绍兴这套房,要拆迁!没人继承……

绍兴这套房,要拆迁!没人继承……,拆迁,征收,继承,诸暨市,权利人,绍兴市

公安部俞春俊:年内即将发布智能网联汽车运行安全测试2项国标和4项行标 热门

【公安部俞春俊:年内即将发布智能网联汽车运行安全测试2项国标和4项行

699买不起一双袜子,一人650一天不够吃,208炫富水准又有新境界

内娱圈的热度明星们一向是头顶光环,受人追捧,轻松掌握吸金密码。对于

施耐德电气携手清华大学发布洞察报告 解析供应链转型四大趋势

首届上海国际碳中和技术、产品与成果博览会上施耐德电气商业价值研究院携手清华大学全球共同发展研究院联合发布供应链洞察报告《迈向以客户

沙钢建成亚洲最大煤焦筒仓群

上证报中国证券网讯据中钢协6月16日消息,日前,随着第一批原料煤顺利

快播:四川省商业秘密保护公益宣讲活动走进广安

6月15日,四川省市场监管局竞争处组织公益宣讲专家来到广安开展商业秘

学生学籍档案查询管理系统_大学生档案查询系统

1、去学校档案室问问,如果不在学校,那要有证明发到哪里;2、如果是打

每日速看!6月前2周广州海关验放跨境电商零售进口商品超13亿元

6月以来,全国多个电商平台陆续启动“618”年中促销活动。

上海市网信办、市市场监管局共同启动“亮剑浦江·消费领域个人信息权益保护专项执法行动”

当前互联网+服务的场景日益丰富,人们在获得便捷的同时,个人信息保护

天天快播:王秋明国家队首秀!王子铭和王秋明换下艾克森和徐新

王秋明国家队首秀!王子铭和王秋明换下艾克森和徐新,国足,王秋明,艾克

有一种下午茶的淡香叫做禅(对于有一种下午茶的淡香叫做禅简单介绍)-世界快播

聊聊一篇一种下午茶的淡香叫做禅,对于有一种下午茶的淡香叫做禅简单介

二季度消费市场有望保持平稳增长 热门看点

本报北京6月15日电(记者北梦原)记者今天从商务部获悉,随着端午、暑

分数如何在word中打出(怎么在word打出有镂空字) 今亮点

导读1、材料 工具:word2010启动win10系统打开word文档,在word文档添

北京6月第三场土拍收官,3宗地揽金150亿元,2宗封顶成交

北京6月第三场土拍收官,3宗地揽金150亿元,2宗封顶成交,现房,限价,期

1月-5月 厦门130个省重点项目投资完成率居全省前列

130个省重点项目加速建设完成投资435 8亿元超同期计划投资71 1亿元投资

全球热文:如何引领有“特殊需要的儿童”走出“迷墙”?这所学院说——

京报网6月17日19:30,北京联合大学-特殊教育学院将做客“2023决胜高招

万通发展:参股公司北京CBD核心区Z3项目开发还处于建设阶段

万通发展:参股公司北京CBD核心区Z3项目开发还处于建设阶段,cbd,房地产

视讯!番茄与牛肉禁忌什么一起吃 番茄与牛肉的禁忌

1、牛肉和西红柿不是和海鲜一起吃。2、牛肉不宜与板栗、田螺、红糖、韭

黑豆能做花肥吗 黑豆可以当肥料养花吗|全球要闻

1、黑豆能做花肥。2、把黑豆煮熟,沤制腐熟后即可兑清水浇花,此肥主要

香港地政总署招标荃湾市地段第430号用地 为“港人首置”项目

香港地政总署招标荃湾市地段第430号用地为“港人首置”项目,荃湾,住宅,

朝阳奶西地块“双触顶”后摇号 北京城建摇中

朝阳奶西地块“双触顶”后摇号北京城建摇中,现房,摇号,望京,起始价,朝

抄写的抄组词_抄写的抄组词有哪些

解答:1、临摹词:临摹,临摹,临摹,临摹,临摹,临摹,临摹,临摹,

数智人“周同学”入驻 中国移动咪咕推出周杰伦首个元宇宙比特空间 世界微速讯

6月16日,在与第25届上海国际电影节共同打造的“短视频单元特别活动”

进京“淘金”!“散装”江苏一房企近80亿元拿下X47地块

进京“淘金”!“散装”江苏一房企近80亿元拿下X47地块,现房,龙湖,置业

砚眼原文及翻译(砚眼)

来为大家解答以下的问题,眼原文及翻译,砚眼这个很多人还不知道,现在

焦点热门:名人简短哲理有深度的文案

1、我不是一个坚强的人,但是我知道,有些时候,除了坚强,别无选择。2

德勤调查:菲律宾七成“千禧一代”和六成“Z世代”打两份工-快资讯

【环球时报综合报道】全球会计师事务所德勤发布的一项调查结果显示,很

ps如何去掉图片的底色_ps怎么去掉图片的底色

1、去掉图片的背景色可采用去背景的方法。2、去背景是大家用PS处理图像

“绵品出川”再出发 齐鲁大地羌声悠

消费质量报讯(记者何军)6月16日至17日,绵阳“城市形象推广、产业项

全球即时:味滋源果蔬脆怎么样?

健之峰果蔬脆新鲜的水果、蔬菜为主要原料,在极短时间内迅速脱水干燥,获

青岛市崂山区王哥庄街道仰口花园老旧小区改造项目已经完成50%,预计将于8月底完工

青岛市崂山区王哥庄街道仰口花园老旧小区改造项目已经完成50%,预计将

安徽和广东同属于较发达地区?——分析安徽和广东经济发展现状

安徽和广东同属于较发达地区?——分析安徽和广东经济发展现状,浙江,江

中洲控股(000042.SZ):资本集团拟减持不超2%股份

格隆汇6月16日丨中洲控股000042000042SZ公布公司于2023年6月16日接到股

河北衡水产业对接会37个项目签约 总投资318.7亿元

中新网廊坊6月16日电(崔志平 王鹏 黄建)16日,河北省衡水市产业对

当前快讯:四川省商业秘密保护公益宣讲(资阳站)圆满收官

为提升企业商业秘密保护意识和能力,营造尊重商业秘密、遵守商业道德的

全球观天下!昆明3.95%房贷利率还要降?提前还贷最快1天搞定

昆明3 95%房贷利率还要降?提前还贷最快1天搞定,个贷,定存,昆明市,房贷

护航“美丽消费” ——雁江区开展美容美发行业化妆品市场专项整治行动

为规范美容美发行业化妆品经营使用秩序,严厉打击化妆品经营使用单位违

15岁名校少年袭抱梅西,带着全网在飞 世界快消息

那个拥抱梅西,风一般袭卷全网的少年,竟然让我有种想流泪的冲动。虽然

凉山州会东县铅锌镇:多举措开展四川省食品安全示范县复审工作-世界今头条

民以食为天,食以安为先。食品安全工作是一项复杂的社会系统工程,凉山

电视硬盘播放器哪个最好(电视硬盘播放器哪个最好用)

新的一年又开始了,新年新气象,大家肯定都在想,怎么将家中的一些旧事

精彩推荐