百川智能发布第三款大模型,王小川:大模型的机会不一定落在大厂里

发布时间:2023-08-09 浏览量:214

“在美国做开源大模型或做通用已没有悬念,投资也已经明确,但在中国不是,国内谁能做最好的大模型现在没有定论,大家都有争取的机会,而且不一定落在大厂里面。”百川智能首席执行官王小川在8月8日媒体发布会现场如是说。据《中国人工智能大模型地图研究报告》显示,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。如果回溯至谷歌2017年发布Transformer网络结构之时,在五年时间内全球已
豆绘AI(douhuiai.com)08月09日 消息:

“在美国做开源大模型或做通用已没有悬念,投资也已经明确,但在中国不是,国内谁能做最好的大模型现在没有定论,大家都有争取的机会,而且不一定落在大厂里面。”百川智能首席执行官王小川在8月8日媒体发布会现场如是说。

据《中国人工智能大模型地图研究报告》显示,截至5月28日,国内10亿级参数规模以上基础大模型至少已发布79个。如果回溯至谷歌2017年发布Transformer网络结构之时,在五年时间内全球已诞生了若干形态各异、落地于不同场景的大模型技术群。

8月8日下午,百川智能宣布发布公司旗下第三款大模型产品Baichuan-53B,开启第一批内测。同时,王小川接受了界面新闻等媒体的采访。

此前,百川智能在7月11日发布了参数量为130亿的通用大语言模型Baichuan-13B-Base和对话模型Baichuan-13B-Chat的两个量化版本。这个发布意味着,成立仅4个月的百川智能已经推出了三款大模型产品,速度之快令人咋舌。

虽然三款大模型的命名都以百川开头,但王小川特别指出,这些大模型并非定位为2C终极的沙盒型产品,他们本质上更多是为2B服务。

在8日下午,百川智能第三个模型baichuan-53B启动了首批内测服务,界面新闻记者经测试发现,这款产品在回答最新且稍有难度的问题时,表现出了很强的逻辑性。

据王小川所述,baichuan-53B更大的能力是能很好理解语言泛化背后的含义,这款产品代表文科水准的抽象、类比和关联能力很强,能把各种概念有机连接,“我们这个模型在文科领域走前列。”王小川认为。

事实上,强文科能力的大模型体现了王小川的技术审美,他本人在4月创业之初一场采访中就提及,逻辑本身并不高级,更高级的人类智慧在类比和抽象之中,像分类、类别这种事情,ChatGPT就做得挺好。

B端的抉择

但无论是此前搜狗团队在语言能力上的积累,还是新产品在文法、修辞、逻辑学方面的惊艳表现,百川智能的模型并不面向2C。虽然在2B以外,百川团队已在部署包含2C的超级应用,但王小川强调,现在开放接口测试是为帮助大家在工作上取得进展,不为C端场景单独去做优化,“不管之前的7B与13B,还是53B,更多是为2B行业做准备。”下月,baichuan-53B会开放API,相关组件也会陆续开放。

这一细节表述引发了2B2C模型在同一公司内部站位的迷思。

就在近日,有头部VC相关投资人告诉记者,一级市场现在并不看好针对2B垂直领域的模型,因为在数据上很难构成壁垒。对此,王小川对界面新闻表示,B端大模型天花板确实不高,但确定性反而清楚,很多企业有B端需求,只是对接复杂性高,研发成本高,每个企业有自己的私有数据,如何做好中间层连接尤为关键,如果没有一个好的模式,会把双方都拖垮。他同时给出了一个B端大模型商业模式的愿景,“B端带有天然真实场景,有中间层做企业服务,也有后面做模型的公司(比如我们),我理解的是这样的三层结构。”王小川指出。

但他也告诉界面新闻等媒体,当2B补完之后会开始补齐2C版图,百川智能不会只瞄准一个方向。

当前侧重B端的站位也解释了王小川在开闭源上的选择,他称,大模型本身不代表2C,就不像像安卓、IOS需要二选一,今天从2B的角度,其实开源闭源都很需要。

据媒体报道,是今年3月大模型热潮兴起之后,王小川用2周时间做了入局大模型创业的决定,在这个时间节点上,少数几家头部大模型公司如智谱AI和MiniMax已经声名鹊起。

王小川坦言,相比智谱AI和MiniMax等已经具备一定市场影响力的大模型公司,百川智能是后发者进入市场,因此开源是展现技术实力的一种方式,“我们相信后面的技术发展会非常快,只要持续不断有技术迭代,就会产生自己的商业模式。”王小川很看重开源带来的价值,他认为,未来80%的企业会用到开源模型,因为开源模型小巧,而闭源没法对很多场景做出上佳适配。

今年3月以来,国内各类ChatGPT平替大模型层出不穷,进展之快令人混乱,与之相伴而来的是评测体系的构建。7月,IDC调研了14家中国市场主流大模型技术厂商,考察了大模型的10余项指标,发布《AI大模型技术能力评估报告2023》,随即引发热议,此后,更多研究机构投入资源,发布对应的评价标准。

王小川认为,在各家榜单之中,Super Clue和复旦大学推出的评测基准相对中正,可以从中洞察模型品质。据他所述,百川推出的第二款大模型13B的英文能力部分跟Meta的开源大模型LLaMA1持平,中文部分更在国内处于领先状态,这都受益于开源的迭代。

重集旧部

7月下旬,搜狗原CMO洪涛入职百川智能,负责商业化业务,至此,搜狗前CEO王小川、搜狗原COO茹立云和原CMO在百川智能重新聚首。在8月8日媒体发布会现场,还出现了另一位搜狗旧部的身影——前搜狗搜索总经理陈炜鹏,后者是百川智能的技术联创核心人物,百川智能得以在4个月间连推三款大模型产品,他功不可没。

王小川感慨,搜狗老班底之间,大家互相信任,会更优先归队,“像炜鹏、洪涛、立云,还有马昭都是老班底。”王小川介绍称。

目前,百川智能有103位成员,技术人士占比70-80%。技术联合创始人陈炜鹏对界面新闻表示,搜狗之前各个业务线最优秀的干将如今基本在百川集结完毕,但百川同时也在面向国内大厂、初创和硅谷招聘各类人才,他发现,在AI2.0时代,对产品经理等职位的能力要求已与AI1.0时代有显著不同。

谈及百模大战时代筛选技术人才的标准,陈炜鹏称,百川在技术上倾向于两类人才,第一是对复杂问题有强拆解能力,对算法体系有很好的技术审美;第二是各类技术基本功扎实,且对于做大模型本身充满渴望。

融资进展方面,4月成立之初,百川智能便被爆出已获得5000万美元启动资金,来自王小川与其业内好友的个人支持。王小川此番还透露,百川智能首次融资时,估值已经超过5亿美元,下一轮融资,估值就会超过10亿美元,目前新一轮融资也非常顺利。

界面新闻注意到一个现象,以王小川、王慧文同期创业为节点,此前是智源系的大模型公司占据些许先发优势,在王小川等互联网时代的大佬宣布创业后,资本立即表达了对“单打独斗”的AGI明星创业者的高度认可。而进入7月,一级市场暗流涌动,一些投资人牵头,AI大佬组团入局的事件开始酝酿。

对于可能面临的更为惨烈的竞争,王小川认为,一家公司需要灵魂,现今创投两侧的各类攒局者其实夹杂着诸多对技术的误解,比如之前对搜索的理解,明显有各种误判,“不论是(外界)希望由技术驱动或者内容驱动,至少从我20年的工作经验里,我觉得他们解读的还是比较浅的,”王小川还点出了他心目中搜索的本质,“以前在AI发展时期,大家慢慢遗忘搜索也是AI,而今天做大模型和做搜索有非常雷同之处。”


声明: 本站所有文章,如无特殊说明或标注,均为网友发布。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

最新热文 7天