手机浏览器扫描二维码访问
孟繁岐的这番话,听起来让人觉得不是那么舒服。
言下之意,给人一种华国aI技术就是不如国外的感觉。
这是李彦弘不大喜欢的,毕竟他这么早就关注aI技术,就是为了研最前沿最先进的技术。
孟繁岐大概猜到了他的想法,前世他也曾被早期华国大量表的aI论文所迷惑。
觉得在这个崛起的技术上,华国已经可以和美国分庭抗礼,不落下风。
虽然a1phago震惊了世人,但毕竟有些华而不实。
直到上千亿级别的语言大模型出现,这种纯硬核实力的比拼,让孟繁岐不得不甘拜下风。
实际上,并非是技术手段和算法层面上相差太远。
更多的还是因为优质数据的数量不足。
白度的文心一言,出图的时候甚至会将用户的中文输入翻译成英文,再去作图。
很多较真的网友故意测试了中英文差异很大的词汇,比如总线(Bus),鼠标(mouse)。
文心一言绘出的图像竟然是大巴车和老鼠,这从中文上是完全说不通的事情。
可见即便不是全部,文心一言这个所谓的专注中文的级大模型,也在相当程度上借助了英文基础的模型权重和技术。
究竟为何要这么做,说到底还是基础不够扎实牢靠。
整理数据,清洗数据,给数据打上高质量的标签。
这些都是脏活累活,见效慢的工作。
把别人公开的数据拿过来跑一跑训一训,多么方便快捷?
以国内996大厂的内卷风气,很难容下长回报周期的基础建设。
早些时候看看不出区别,只觉得国内大厂频繁在xx榜单上露面,刷榜,又是过这个,又是过那个。
直到语言大模型阶段,基础语料数量和质量上的劣势才暴露无遗。
“其实这也不能完全怪华国的大厂风气,美国的互联网起步要早,并且很多领域的文献材料归档做得特别好。”
孟繁岐也曾仔细思索过这方面的问题。
“像github,arxiv这样的大型公开社区,里面都是非常优质的外文代码或者论文。这些也不只是美国人自己的积累。而是通过免费公用的形式,收割了全世界的数据。”
“华国人在github上贡献的代码行数也不在少数,反过来看看华国的论文社区,就比如知网,纯纯就是毒瘤。里面屯点硕博生的论文,还要论页数收费。就连下载之后的阅读器,甚至都需要专门的....”
此消彼长之下,差了多少珍贵的数据啊...
只是此时此刻,李彦弘应该还没有想到这么大规模的数据用于训练。因而孟繁岐也不急于一时和他讨论后面语言类的技术,以及生成式的大模型。
最近一两年内,孟繁岐的重心还是在视觉图像算法这边。
“李总,我个人相信aI技术的开源程度是相对的,不可以一直这样透明下去。只是最后成为壁垒的可能并不是模型本身这个纯技术范畴,更多的可能是计算能力,高质量的大规模数据,以及一些精髓的训练与反馈方式等等。”
作品简介...
魔术的才能是一流,但体能的方面是废材召唤的使魔可以是成千上万,但自己是独守后方对此,只想说一句话。那都不是事这是得到奇迹,亦对奇迹珍爱有加的少年的故事。只要有使魔同伴,我便是无敌...
简介关于知心欢[1v1双洁宫斗宅斗复仇女强重生爽文权谋]第一次见面,6沅知就招惹了冷面阎罗盛意,所有人都以为她终有一日会死在盛意之手。一转眼,就见盛意就对6沅知笑的温柔,我知你利用我,但我甘之若饴。你以自己为饵,算我入局,又怎知这不是我之所求?6沅知从一片尸山血海中归来,步步谨慎,算无遗策,只为不让前世悲剧重演。她谋权,却不贪权。与盛意的初见,是6沅知谋算而来,这一世她不欲求所谓的真心,未曾想在一次次的你来我往之中,她感受了盛意的真心,只因殊途同归。你若不负,我便不弃,纵然身坠深渊,我们亦能于深渊之中坐看云起时。...
小说不孕?改嫁最猛军官三年抱俩讲述了苏茉与6深周烈之间的情感纠葛。苏茉深爱6深,却决定离婚,这让所有人都震惊不已。然而,更令人意外的是,她在相亲时重逢了学生时代的对头校草周烈。周烈提出假结婚,却在酒后吐露真心,称已暗恋苏茉六年。这段复杂的感情故事展示了周烈用耐心织就的爱情之网,最终圆了他年少时的梦想。...
饱受未婚夫和小三的欺凌,却有人突然站出来为她撑腰。未婚夫和小三的婚礼上,她被未来婆婆暗算,与陌生人缠绵整晚。醒来后,她以为不会再和他有交集,却不想一个月后居然有了身孕忍痛准备舍弃宝宝,那个男人...
一场酒醉,她招惹上大人物,她有求于他,他贪图她年轻身材好。时间久了,她才知道他心里有人,当他的白月光归来,他渐渐不再回家,温蔓守着空房,度过无数个没有他的夜晚,后来,她等到一张支票和他的一声再见。本以为她会哭闹,她却拿着支票利落走人霍先生,我们后会无期!再次重逢,她身边有了旁人,他红着眼睛说温蔓,明明是我先跟你好的。温蔓笑颜淡淡霍律师,先...