海天瑞声创始人贺琳:为大模型“火箭”加燃料|专访董事长

发布时间:2023-07-11 19:18:11     来源:每日经济新闻

相关公司:海天瑞声(SH688787,股价92.15元,市值56亿元)

核心竞争力:具备标准化数据集产品规模化生产能力,累计完成超过1300个自有知识产权的训练数据标准化产品的建设,在全球企业中稳居前列。较早地布局并建立了多语种能力。


(资料图片)

机构眼中的公司:国内AI训练数据龙头提供商,自动驾驶业务打开成长空间

所属概念:数据服务人工智能 AIGC

11.2公里/秒,是火箭能够成功摆脱地球引力束缚,飞离地球的速度。而瞬间的燃料燃烧所提供的推动力,是帮助火箭一次又一次加速直至进入外太空的助力。

与《每经人物·专访董事长》记者交流时,海天瑞声董事长贺琳觉得,作为一切人工智能技术最上游的数据,就是人工智能这艘火箭的“燃料”。海天瑞声正是一家生成“燃料”的公司。

海天瑞声是国内最早投入AI训练数据的专业服务商之一,2023年,不断翻涌的大模型浪潮将这家公司推至资本市场的聚光灯下。而身处潮水之中,贺琳对未来的思考依旧谨慎。

大模型狂热:初印象非常惊艳,但对预期“审慎乐观”

2023年初,贺琳在海天瑞声公司年会上的发言稿,80%由ChatGPT完成。

“非常的惊艳,有点不(敢)相信。”这是贺琳对ChatGPT的初印象,“当然,也有不尽如人意的地方,我觉得这才是我们要努力的方向。”ChatGPT的出现,让这家数据公司突然站到了资本市场舞台中央。

2023年开年以来,海天瑞声股价一路走高,3月一度涨至191.96元/股,较其2021年8月上市时翻了一番。而海天瑞声方面,则已多次在投资者互动平台发布提示,称公司与OpenAI没有合作,也尚不能预期大模型业务将带来多少收入。

“年初,我们还在仔细观察、论证这个技术到底对数据有什么样的需求。”贺琳认为,合适的入局时机应该是当这项技术能够真正在行业中落地的时候,这意味着其有真正的应用场景,而非伪场景。“我们要确定这个需求是真的,且有人会为这个需求买单,这才是一个正常的商业逻辑。”

同时,当行业落地时刻到来,数据的需求量也会迎来大规模提升。“这给公司带来的上升空间,我认为是非常乐观的,(目前)我们还是抱着乐观审慎的态度去看、去跟踪、去研究这项技术。”

“判断一个行业,我们会更深刻地去想这个行业到底需要什么样的数据,只有想清楚这件事,我们才会走过去,我们当初对自动驾驶领域的布局就遵循了这个逻辑。”贺琳介绍。

布局自动驾驶行业是海天瑞声在2021年定下的战略方向,在贺琳看来,自动驾驶赛道已经符合这个判断逻辑。从L2到L4,自动驾驶已经有相当多的应用落地,同时,自动驾驶的数据需求量十分巨大。

她判断,自动驾驶是一个人命关天、对安全要求非常高的技术,它需要大量数据来打磨,去覆盖各个不常见的场景来保证安全性,因为任何极端天气或极端场景都可能导致误判。“怎么避免?就需要大量的数据去训练,让模型接触到更多长尾的场景来提高它的安全性。”

今年4月18日,海天瑞声正式推出其专为自动驾驶场景设计的全栈式数据标注平台“DOTS-AD自动驾驶标注平台”。

数据需求增加背后:系统性差距依旧存在

贺琳曾就职于中国科学院声学研究所,从事语音识别、语音合成、汉语语言理解、语音心理测试等方面的研究工作。

成立于2005年的海天瑞声,最初诞生于贺琳在这份工作中捕捉到的行业痛点。“我们当时在课题组其实也会遇到(缺少)数据的问题,解决办法就是工作人员,加上研究生、博士生,自己来做数据。”尽管彼时实验室的数据量相对较少,但也已经算是一项繁琐的工作。

随着技术的发展,智能语音从实验室走向大规模应用阶段,更多场景的覆盖需求,意味着数据需求随之大规模增加。与此同时,在与一些就职于大型企业或研究机构的前同事交流时,贺琳发现,大家都在关注数据的问题。“(大家)认为数据是一个非常大的瓶颈,阻碍他们技术的落地。所以我就在想,那是不是可以由我出来做这件事情,帮助大家解决这个困难。”

时至今日,贺琳觉得,彼时促使她创业的瓶颈依旧存在。

在她看来,数据的需求是跟着技术的发展而变化的,随着技术在各个行业中落地,就会有更多的数据需求爆发。“像现在大模型起来,很多人都认为,数据差距是一个造成系统性差距的非常重要的原因,所以大家认为数据还是很重要的要素,这个瓶颈依然存在。”

不同的是,贺琳创业之初,国内竞争对手少,海天瑞声得以在市场快速突围。而如今,国内已经出现一批新的数据公司,先发优势成为当下数据公司核心竞争力的基础。“其实,这个行业有很多的技术壁垒和‘know-how’,也是需要不断打磨项目,才能去沉淀自己的技术、学会各类‘know-how’的,这是靠项目积累出来的,而不是短期能很快积累起来的过程。”

“燃料”的诞生:庞大参数支撑大模型

海量数据如何最终成功支撑起庞大参数的大模型运行?需要首选了解一个概念——数据集。

贺琳介绍,数据集的产生是一个非常复杂的过程,其中包括设计阶段、采集阶段、处理阶段以及最后的质检阶段。

在设计环节,需要先去了解数据集是为了解决哪个问题,这个问题需要什么样的数据,需要多大的量,需要什么样的场景,以及采集的样本、规模、内容,包括采集的设备、标注的规范等等;采集环节则是按照设计的方案,到大千世界采集,有可能是声音,有可能是图像、图片,又或是手写的字、道路的场景。采集完成后则需要进入清洗、标注环节。最后生产出的数据集需要通过双层的质检流程,最终才能生产出一个合格的数据集。

这其中,清洗规则的好坏、标注的准确性都会极大地影响数据集的质量,进而影响模型的效果。

贺琳举例说,海天瑞声的大模型数据清洗率是5%,即清洗出来正确的数据仅仅占原数据的5%,这也印证了数据清洗环节的重要性。而标注的流程则主要是解决准确性和一致性问题,“我们通常说95%、98%或者是99%,不同的准确率对模型训练的结果有非常大的影响”。

“数据的清洗和标注流程对于模型的质量至关重要,它们可以提高数据的质量和准确性,帮助模型更好地去学习,也为模型的评估奠定了一个很好的基础。”贺琳表示。

贺琳认为,高质量的数据包括了数据的丰富度,场景的丰富度,数据的准确性、一致性等,这都是衡量高质量数据的标准。她也认同,高质量数据的提供,需要高质量人工的支持。

“有一些高质量的数据,尤其是行业数据,确实需要更高层次的人去处理。因为我们也了解到,像OpenAI这样的公司,它背后也有一个很强大的数据处理团队,他们要把对行业的‘know-how’或者是更高层的一些知识灌输到数据里。”她表示。

浪潮的下一步:离开人工,实现智能

“有多少智能,就有多少人工。”这句话依旧得到大部分人的认同。

在海天瑞声这家“燃料”制造商,优质“燃料”的诞生,同样需要最了解“火箭”的人来把控。

贺琳介绍,海天瑞声的管理层除拥有比较好的学术背景外,也都有在外企或大厂等机构的工作、管理经验。“他们以前是数据的使用者,加入公司以后,他们非常知道数据的使用者需要什么样的数据,这可以让他们更快速地对市场有预判,也会更好地跟业界交流。”

她同时坦言,为不同行业提供的数据,需要具备不同行业专业知识的人来处理。“至少在初期包括规则探讨、打磨标签、尺度和标准的把握阶段需要有专业的人,但把规则定下后,可能通过一些训练,让基础的人员能具备这样的训练能力。”

但是,在贺琳看来,“有多少智能就有多少人工”是一个误解。“确实,这个行业有很多的人力,但人力是在技术的支撑下做这些事,没有技术支撑,可能人力需要现在的10倍都不止。所以,我们这种综合性的数据服务商一直都在追求用更自动、更智能的方式来完成数据的任务,不断解放人力。”

贺琳希望,能一步步减少人工对人工智能的参与,大模型的浪潮,正在加速实现这个目标。“让计算机自动处理数据,永远都是我们的追求。”

据她介绍,公司也在探讨未来的两大工作方向,一个是打造一批针对通用领域、垂直领域,且具备单模态和多模态属性的、供给大模型使用的数据集产品。另外,海天瑞声也在计划启动数据生产垂直大模型的研发项目,希望用大模型技术来支撑数据的生产。“大家都说大模型将给众多垂直行业带来重大积极影响,其实数据处理本身也是一个垂直行业,我们希望用大模型的能力来更自动化地把数据处理这件事情做好。”

“人工智能的背后是人工”也是有可能发生改变的。“现在背后依然确实需要很多的人工,但是我们一直在尽量想办法减少人工。包括加入很多算法,提高对数据做预标注的准确率,准确率越高,人工参与的程度越低。”

但贺琳也坦言,这件事并不容易。“其实,如果真的把这个事都做成了,人工智能就完成了。因为不需要人的介入,相当于它处理的东西都跟人想的是一样的。”但另一方面,当技术达到一定突破后,伦理、法规、安全等问题就会出现,如何解决这些问题,也是今后整个人工智能行业面临的难题。

新的变革契机:多模态需求将推高行业门槛

每一次的火箭升空,都需要大量的燃料助推。

贺琳认为,当人工智能技术迎来新的变革时,对数据提供商来说就是一次契机。“我觉得可能也是根据一些需求,比如像苹果手机的siri出来以后,大家就会认为在语音上有一些突破,这些数据的需求就会暴增。”

贺琳觉得,在整个人工智能行业,数据就像人类学习知识时使用的教科书,“你的教科书越全面,信息越准确,学习的结果就会越好,其实机器也是一样的”。她认为,数据集本质上就是人类把自己对大千世界、万事万物的一些认知和判断方法加载到数据上,然后让机器去学习,使机器得出来的对事物的判断结果更加趋近于人类。在她看来,这就是数据公司的价值。

而在大模型的热潮之下,多模态的能力成为一个关键词。贺琳表示,多模态数据是未来的一个方向。“多模态的数据里蕴含了更多更丰富的信息,对机器做判断也会提供更多的信息来源,但多模态的数据(获取)的难度也非常大。”

她进一步介绍,首先,多模态数据要求的量很大,合规取得这些数据的难度就会更大;其次,多模态数据采集的设备也非常昂贵,对数据公司的财务能力是一种考量。此外,多模态数据对齐的问题、对齐的标准等,都是多模态数据的难点。

贺琳认同一点,多模态能力会导致数据公司的入门门槛提高。“包括我们可能还要去做一些数据生成技术,用我们的一些单一形态的数据来合成多模态的数据,这都要求公司有更高维度的研发能力。”

目前,贺琳依旧认为,数据这个方向是海天瑞声未来的定位,因为这个领域要做的事情太多了。“随着技术的发展进入千行百业,每一个行业都需要认真地去了解这个行业的‘know-how’是什么、如何解决这个行业的一些关键痛点。那么多行业呢,我们有足够大的空间去拓展。”

而深入行业,则需要公司本身有一定的研发能力,同时,在进入行业时,需要有行业专家的参与,通过真实的项目打磨,进而逐渐积累。“这不是个一蹴而就的事情,需要一个长期持续的过程。”她表示。

贺琳相信,通用人工智能终将有一天会实现,但这也需要一个过程,即便技术达到了,还有伦理的问题、安全的问题、合规的问题。这些都解决了之后,如何解决行业的问题,也有很长的一段路要走。

而在这条路上,她认为,数据公司将会扮演越来越重要的角色。在这个过程中,算法可能会相对趋于稳定,但仍需大量的、类型迥异的数据对算法进行训练,才能解决行业的问题。

(文章来源:每日经济新闻)

标签:

精彩推送

6.3米横厅+5个飘窗!大校场小户型高性价比之选!

目前伟星和金基在售的小户型房源,好楼层都没有了,所以接下来大校场13

2023-07-11

太阳怎么画简笔画 太阳怎么画

1、科幻画想怎么画都行背景黑色好看点可以画一些宇航员在月亮上星球怎

2023-07-11

百亿明星产品启动限购?无碍理财配置大月到来 7月首周理财规模回升8000多亿|银行理财观察?

近日,招银理财旗下的明星产品睿远稳进价值精选一年持有在规模达到100

2023-07-11

摩比发展7月11日斥资1.66万港元回购6.9万股

摩比发展(00947)发布公告,于2023年7月11日,该公司斥资1 66万港元回

2023-07-11

送法下乡 长垣市来了大学生实践团

为引导和帮助广大青年学生上好与现实相结合的“大思政课”,让广大青年

2023-07-11

海天瑞声创始人贺琳:为大模型“火箭”加燃料|专访董事长

■相关公司:海天瑞声(SH688787,股价92 15元,市值56亿元)■核心竞争

6.3米横厅+5个飘窗!大校场小户型高性价比之选!

目前伟星和金基在售的小户型房源,好楼层都没有了,所以接下来大校场13

曹操将貂蝉送给关羽后,貂蝉为何第二天就自尽?其中缘由令人感慨

自古红颜多薄命,无数红颜都是在乱世之中香消玉殒,无数事例证明,美女

第二届中国律师公益(社会责任)典型案例公布

近日,由法治日报社、中国政法大学律师学研究中心共同主办的第二届

田野毛茛_关于田野毛茛介绍

田野毛茛,关于田野毛茛介绍这个很多人还不知道,我们一起来看看!1、田

广州浪奇披露诉讼进展:一审判决赔偿投资者5200万元

日前,广州浪奇(000523)披露诉讼最新进展,公司于近日收到了广州中院

EA新作《终极格斗冠军5》logo公开 更多内容9月揭晓!

“终极格斗冠军赛(UFC)”是是世界上最顶级和规模最庞大的职业综合格

纬创回应6亿美元出售印度iPhone代工厂传闻:以正式公告为主

App7月11日消息,据台湾《经济日报》报道,市场传出纬创印度厂出售案再

预警升级!雷暴大风+强降水+冰雹!新乡发布暴雨橙色预警

新乡市气象台2023年7月11日16时59分发布暴雨橙色预警信号:未来3小时内

太阳怎么画简笔画 太阳怎么画

1、科幻画想怎么画都行背景黑色好看点可以画一些宇航员在月亮上星球怎

中信泰富地产品牌馆开放,30周年向未来再出发

中信泰富地产品牌馆开放,30周年向未来再出发,房地产,中信泰富,中信集

起始价11600万元!连江即将出让1幅地块!具体位置在……

起始价11600万元!连江即将出让1幅地块!具体位置在……,拍卖,连江,起

房企爆雷的短期“卡脖子”问题稍缓,后续还有哪些重重困难?

房企爆雷的短期“卡脖子”问题稍缓,后续还有哪些重重困难?,融资,信托

华发股份(600325.SH):以70.63亿元中标上海市松江区相关地块使用权

华发股份(600325 SH):以70 63亿元中标上海市松江区相关地块使用权,土

堪称“陆地航母”!全国最大火车站揭秘:一天跑4万辆火车

堪称“陆地航母”!全国最大火车站揭秘:一天跑4万辆火车

中方代表呼吁凝聚全球合作促发展的政治共识

中国常驻联合国副代表戴兵10日呼吁国际社会凝聚全球合作促发展的政治共

商务部就台湾地区对大陆贸易限制措施进行贸易壁垒调查有何进展?国台办回应

问:商务部4月12日宣布,就台湾地区对大陆贸易限制措施进行贸易壁垒调

夜间门诊:方便患者上班看病两不误

夜间门诊可以分流日间就诊压力,减少日间门诊拥挤情况,缓解群众“看病

百亿明星产品启动限购?无碍理财配置大月到来 7月首周理财规模回升8000多亿|银行理财观察?

近日,招银理财旗下的明星产品睿远稳进价值精选一年持有在规模达到100

泰达股份:公司及控股子公司提供担保的余额为84.42亿元

泰达股份(SZ000652,收盘价:4 15元)7月11日晚间发布公告称,本次担

摩比发展7月11日斥资1.66万港元回购6.9万股

摩比发展(00947)发布公告,于2023年7月11日,该公司斥资1 66万港元回

三维股份06月16日被沪股通减持10.07万股

06月16日,三维股份被沪股通减持10 07万股,已连续4日被沪股通减持,共

长江电力:第二季度发电量同比下降38.33%

【长江电力:第二季度发电量同比下降38 33%】长江电力(600900)7月11日

正在公示,襄阳这个片区地块有调整

正在公示,襄阳这个片区地块有调整,江北,片区,项目区,襄阳市,专项规划

网页链接前一条页眉是什么意思(链接到前一条页眉是什么意思)

页链接前一条页眉是什么意思,链接到前一条页眉是什么意思这个问题很多

滨州2宗国有土地使用权挂牌出让

滨州2宗国有土地使用权挂牌出让,招拍挂,确认书,国有土地使用权,城市房

国网资阳供电公司:持续补强电网 迎战高温保供电

7月8日,位于安岳县永清镇罐子河村的35千伏变电站,十余名工作人员正顶

天净沙秋思的写作背景简介(天净沙秋思的写作背景)

净沙秋思的写作背景简介,天净沙秋思的写作背景这个问题很多朋友还不知

惠誉:中国服务消费延续复苏势头,建设活动或于下半年重新提速

惠誉:中国服务消费延续复苏势头,建设活动或于下半年重新提速,旅游,总

四川苍溪:“一天通两桥” 苍巴高速公路再传喜讯

7月8日16时,由中铁十五局四公司承建的苍(溪)巴(中)高速公路陈家河

“示”出兴村富民典范答卷 宣汉县毛坝镇积极投入月亮坪乡村振兴示范区建设

“我抢抓月亮坪景区建设的大好机遇,顺势而为,投资修建了‘星月居’民

多举措促消费,今夏江苏将发放1.7亿元消费券

多举措促消费,今夏江苏将发放1 7亿元消费券,王存,零售,消费券,老字号,

中关村料上半年归母净利润至多3000万元 同比上升696.18%

于报告期内,中关村归属于上市公司股东的净利润约2,500万元至3,000万元

北京人大代表多维度了解青年就业现状

今年,北京高校预计有28 5万名毕业生,他们的就业牵动着数以万计的

收复7.2关口!离岸人民币日内大涨超250点,汇率何时迎来拐点?

北京时间7月11日15时许,离岸人民币兑美元收复7 20关口,日内涨超250点

​“暖心礼包”送给环卫工人 “雪中炭爱心粥屋”盛夏送清凉

“太感谢这里的志愿者了,每天不仅给我们提供爱心早餐,今天还给我们体

送法下乡 长垣市来了大学生实践团

为引导和帮助广大青年学生上好与现实相结合的“大思政课”,让广大青年

七台河市交通局与农垦建工路桥开展党建交流活动

黑龙江经济网讯(刘锋宋朋岐)近日,七台河市交通局青年理论组到农垦建

“长江与海洋文明·考古文物精品展”在沪开幕

7月10日,参观者在东汉摇钱树展柜前驻足观看。新华社记者方喆摄当日,

来冰城畅享舒爽夏日

波塞冬旅游度假区。图片由景区提供本报讯(记者蔡韬)小暑后,全国各地

旅韩大熊猫顺利产下双胞胎幼崽

这是7月7日在位于韩国京畿道龙仁市的爱宝乐园里拍摄的大熊猫妈妈“爱宝

中新青年发展论坛在苏州举办

7月10日下午,以“汇聚青年力量携手创新发展”为主题的中新青年发展论

长春夜市惨剧:女子被高空抛物砸中身亡,目击者曾两次发现异常

长春夜市惨剧:女子被高空抛物砸中身亡,目击者曾两次发现异常,目击者,

调光开关的led驱动器电源电路图讲解

在这篇文章中,我们将讨论使用调光器开关小工具的有效和高效的高电流紧

数交会大连落幕 规模水准创新高

原标题:数交会大连落幕规模水准创新高中国商报记者于贵华7月9日,为期

重磅!瑞安又一团块拆迁补偿方案出炉!

重磅!瑞安又一团块拆迁补偿方案出炉!,征地,住宅,安置房,宅基地,瑞安

视频点赞破百万!《天赐的声音》GAI周延戴佩妮《用情》持续霸榜

视频点赞破百万!《天赐的声音》GAI周延戴佩妮《用情》持续霸榜

中国创新能力的崛起:经济效果如何显现?

中国创新能力的崛起:经济效果如何显现?,中国,数字经济

某房企暴力降薪50%

某房企暴力降薪50%,降薪,裁员,离职,分红,房地产

【调研快报】冰山冷热接待大家资产等多家机构调研

冰山冷热接待大家资产等多家机构调研

精彩推荐