第261章 怎么总感觉是在给自己挖坑呢(第二更!)
“我认为我们还有机会。”布洛克曼看了看旁边的萨姆奥特曼,这才对马斯克道:“就算这家大周的柚子科技目前处于领先,但他们此前在github上上传过很多实例,现在看起来,都和橘子大模型相关,说明他们极有可能在不久后将橘子大模型开源。”
“就算不开源,很快他们也会公布模型原理。”
“埃隆,openai有这个世界上水平最高的研究团队,只要我们找对了方向,不管别人现在走的有多远,我们都能够赶上并且超过。”
“你也知道,大周在深度学习领域无论是环境还是技术,和我们差距都很大。因此,这一次领先,大概率是他们偶然之间找到一条我们不知道,但却极为正确的道路。”
“我不认为我们这时候应该放弃,埃隆。”
布洛克曼尽管忧心忡忡,但仍旧不紧不慢的反驳着埃隆马斯克。
马斯克深吸一口气:“那好吧,我可以再给你们半年的时间,如果半年后,大家仍旧无法拿出有效的应对策略,我认为,openai并入特斯拉,是更有效的方案。”
“他们回复了!橘子大模型采用了序列到序列机制,以及前馈神经网络和循环神经网络的一部分重组出的架构。他们会在5月23日吉隆坡的ieee国际通讯会议上发布橘子大模型的架构报告!”
伊利亚大声的喊了一句。
“yes!”布洛克曼在心里挥了下拳头。
哪怕他们不开源,但只要发布了报告,有了方向,那就轮到了拼底蕴的时候了!
openai不可能输!
加州时间05:30,海西时间20:30三藩的天边刚刚泛起鱼肚白,海西的路上却已经开始二次堵车高峰,都是吃完饭或加完班回家的。
gl8上,华泽成手里拿着pad不停的看着橘子大模型的后台面板。
他们辛辛苦苦搞了三个月,才终于算是初步完善了橘子大模型的功能,虽然影像功能尚未完全开发完成,但已经具备足够的实用性,可以进行发布了。
这次的300个内测名额,只是一个试水。
内测结束后再有一周的bug修复和参数调整,就会进入为期半个月的公测。
而公测的名额,将足足扩大100倍,达到三万名!到时候,柚子科技目前的服务器,将面临第一次实际的压力测试。
“老板,算力中心什么时候建好啊?你看完黄历说5月9号适合开放注册,现在可都3月18号了,伱至少得给我们留出来半个月时间迁移数据整合系统,否则到时候没法开发注册,你可别怪我。”
华泽成坐在方豫旁边,看着平板忧心忡忡。
三百个测试资格的确没有给柚子科技的算力带来多少负担,但下下周可是要有三万名啊。
目前算力条件下,华泽成计算过,大约最高只能应对三万五千多的并发请求,还要给开发团队留下足够的算力,这样算下来,整体算力冗余非常低,如果在公测期间出现设备故障,算力还会进一步下降。
实在不行,就上阿狸云呗,算起来比自己建数据中心便宜多了。
华泽成并不负责数据中心的整体规划和优化,对y系列的数据中心有多强大一无所知。
听到啊华泽成的抱怨,方豫也很无奈。
前几天他让柚子去英伟达的服务器上看一下,p100到底什么时候才能发货。
结果柚子去转了一圈之后回来告诉他,至少还得六个月,这还是它乐观估计。
按照目前它观测到的英伟达的工作效率,估计得一年了。
这个号称采用了hbm2显存nvlink新型服务总线的计算卡目前根本没正式流片,还在测试、完善、部署阶段呢。
等到这些都搞完了,至少也得明年这时候。
这不是耽误事吗?
老黄果然是个大忽悠!明年才能发货的计算卡,你现在发布个什么劲儿。
还发布之前一个月就搞预热。
麻痹的,浪费老子的时间。
于是,方豫就只能先定了两千五百万迈元的m60,以应付未来的用户请求。
先应付一年再说,等到p100发售了,再扩建数据中心。
“快了,7000块m60下周开始就分批到货了,再等一等吧。”方豫画了个饼,随后催动了一下埃瑟朗之核,问柚子根据m60重新修改的方案做好没有。
他也很着急,毕竟5月23号柚子科技就要在ieee上亮相了,柚子科技的报告做完之后,必然进入一个短时间内的群雄并起时代,大部分公司的确有可能会套用橘子大模型的框架,但很多大公司肯定还是会坚持同方向自研。
真让他们把路走通了,自己还怎么通过传播橘子大模型底层法则来获得全球人工智能的掌控权?
虽然这种可能性很小,但不是没有。
所以必须加快领先速度,逼着他们投入橘子大模型的怀抱里来。
“当然做好了主人,我已经把修改好的方案重新发给了红湾智能。”柚子对方豫对它能力的不信任非常不满。
方豫资本家本性暴露无疑:“发那么早干什么?你为什么不再优化一下?系统效率提升百分之一,就是八百万的成本节约。把方案撤回来,重新出方案,至少要再提高5%。”
柚子噎了一下,大意了啊。
忘了这主人有多狗。
自己给自己找活吗不是?有这时间我多看几集山海经赤影传说多好。
娜扎好美啊,和热葩一样美。
爱了爱了。
就是那个心月狐太能装逼了,比狗主人都能装。
“主人,臣妾做不到啊,真的做不到啊。”柚子哭天抢地。
“现在的柚子架构下,m60只能有11%左右的算力是能够应用在橘子大模型上的,这还是我修改了核心指令的情况下才发挥出来的性能,否则利用率连8%都没有啊。”
只能应用11%的算力?怎么会这么低?看负载挺高的啊。
“不信你看看,主人,这是我之前做的分析。”柚子刷的通过埃瑟朗之核扔过来一页报告。
“负载高不代表有效利用率高,m60中大量的计算单元柚子架构都不需要,也用不到,此前我通过改写核心指令,已经将m60对柚子架构的适用提升到了最高,再高一点也没法做到了。”
方豫仔细一看,还真是。
英伟达毕竟是一家显卡公司,做出的计算卡仍旧集成了大量的图形处理功能。
纹理单元、光栅化单元、几何处理单元、渲染输出单元、混合抗锯齿单元……这些单元一个不差的都被保留了下来。
但这些单元大部分的功能柚子框架都不需要。
英伟达也真踏马奇葩,我要你这m60就是用来做简单计算的,你给我这么多显卡功能干什么?谁用m60打游戏啊。
“也不能这么说,这些单元虽然柚子框架不需要,但很多其他的计算模型都需要,比如gans对抗网络,在对抗中生成图片时,如果有纹理单元,那么生成的速度就会更快。”
“我能够把利用率提高到11%已经是极限了,哪怕英伟达的工程师亲自调试,也不过高于9.1%。”
“没办法,毕竟英伟达的芯片不是为柚子框架特意准备的,必须适用所有的模型才可以。”
柚子抓紧一切时机表功。
方豫点了点头,刚要说什么,但听到柚子这最后一句话,突然好像错过了什么。
“你刚才说什么?”方豫急切地问柚子。
柚子语气懵懵的:“我说英伟达的芯片必须适用所有模型啊。”
“不是这句,上一句!”
“英伟达的芯片不是为柚子框架特意准备的?”柚子小心翼翼的试探问道。
莫名其妙的,它感觉有点心慌。
怎么总感觉是在给自己挖坑呢?“对!就是这句!”方豫猛地拍了下手,把旁边还在看pad的华泽成吓了一跳。
“没事没事,想起来件重要的事。”方豫笑着拍了拍华泽成的大腿,在意识中继续和柚子沟通。
“柚子,你现在搜集英伟达、amd、英特尔、amsl、瀛积电、arm、高通的芯片技术资料,把它们都吃掉!”
方豫毫不犹豫的通过埃瑟朗之核给柚子下了个指令。
“啊?”柚子一下子就傻眼了,这得吃到什么时候去?
就算现在我分身能够入侵到这些公司的内部服务器,想要把这些绝密资料不露痕迹的复制一份也得蚂蚁搬家式的一点一点倒腾啊。
“这只是第一步。”方豫没理在埃瑟朗之核中拼命发哭脸表情的柚子,继续下指令。
“吃掉他们的资料后,把它们的技术汇总一下,重修优化后,设计出一款只适用于柚子框架和橘子大模型的计算芯片出来!”
汉宁公馆客厅里,柚子看着电视中的张悍瞬间觉得面目更可憎了。
“主人,那这样的话,m60撤单不撤单?”柚子现在早学会了迂回沟通,“撤单的话,定金可就损失了。”
方豫微微一笑:“不撤单,撤什么单,我又没说现在就要做芯片,你先把这款芯片设计搞出来再说。”
软件+硬件,双管齐下,看来柚子架构注定是要一统江湖喽!
近十年人工智能的发展,最重要的两个节点其实都是古狗引导的。
第一个节点毫无疑问是deepmind的阿法狗,而第二个节点则是古狗大脑在2017年6月发的那篇惊世骇俗的论文《注意力是你需要的一切》(attention is all your need)。
在这篇论文中,古狗大脑的八位研究员,首次提出多头注意力机制在npl上面的潜力。当时最原始的transformer模型仅仅只有100m,而这个模型,完全抛弃了循环神经网络(rnn)和卷积神经网络(cnn),取而代之的是完全不同的注意力机制以及编码器-解码器架构。
值得注意的是,openai中的伊利亚并不是这篇文章的作者之一的伊利亚波洛苏金。
这篇文章在17年6月12日发布后,并没有第一时间造成很大影响,并且由于其难以收敛,并不比相对成熟的lstm效率更高,因此在这个阶段,大部分研究者的视线并未投向注意力机制的transformer架构,这里也包括openai。
openai在2018年年初,还在用lstm进行训练,并且在dota2里击败了人类。而仅仅几个月之后,openai就发布了gpt-1。
这说明,几个月的时间,足够制作一个大模型。
(本章完)