“主人,40G的数据已经训练完毕,其中20G是周文数据,20G是盎文数据。从收敛情况上看,这次训练是成功了,我们可以针对这个模型进行一些测试。”
方豫的电脑屏幕上出现了一个简易的对话框,这是柚子刚刚制作的一个UI界面。
“伱好。”方豫在对话框中输入了两个周文。
“我不好。”对话框中瞬间出现三个字。
艹?什么情况?你这数据清洗的有问题啊,用什么数据训练的?
柚子一脸汗,“这个,这个,可能用来训练的数据有点问题,我再清洗一遍啊。”
服务器又疯狂运转了几分钟,40g的数据便又清洗完成。
“重新训练大约需要1小时20分钟。”柚子的声音有些尴尬。
方豫无奈,看看天色,已经下午四点了。
本来还想着去拳击社虐虐菜装个逼,看来也没时间了。
还是在这等着吧。
方豫不是浪费时间的人,一个小时二十分钟,足够他复习一门待考科目的。
终于,倒计时结束。
方豫再次在对话框中输入你好两个字。
“你好,请问有什么可以帮您?”这次回复就正常多了。
“你叫什么名字?”方豫又敲出一行文字。
模型中规中矩的回答:“我还没有名字,我是柚子科技开发的一款基于多重神经网络的大模型,你想叫我什么?”
方豫想了想,嘴边露出一丝微笑:“既然你是柚子开发的,那就叫你橘子吧。”
上架首月小结和一点小感想
2024-07-16
昨天晚上更新完躺床上,看到很多大神昨晚都更了一章月度小结和感想。
我琢磨着,大神都这么干,是不是这也是个规矩啊,就也想着写一篇。
可憋了半天,实在没想出来要写啥。
写成绩?均订1200的成绩似乎也没啥可说的,其中200的均订还是昨天一天的风向标推荐带来的。
写书友反馈?这就牵涉到两个问题了,第一,书友,第二,反馈。
我能看到有几位读者一直在章评区支持着,每章都评论,真的,很感谢,你们现在其实是我能够坚持下去更这本书的最大动力。
我此前说过,7年前曾经写过一本书,虽然一年多以后被404,但也不算纯新人,而且当时那本书成绩还不错,让我混了个4级作者。
开始写这本书的时候,我准备了两个月的时间,自觉准备的还是比较充足的,可真正开始更了之后才发现,我忽略了一个很重要的事情,就是起点的推荐机制变了。
以前的起点推荐机制,主要依靠编辑,编辑觉得有潜力,就会争取推荐。而现在,每一个推荐位,都要靠数据说话,没有数据,一切白搭。
而且由于这么多年没写了,以前的编辑可能也离职找不到了,于是就直投,7万字才签约,浪费了4万多字的推荐期,这也给后续埋下了隐患。
起初其实数据还不错,新书推荐一二三轮pk下来,追读最多时到过2500,这个成绩如果当时上架,首订应该是在1500左右。
可当时我一门心思想要搞个三江,于是编辑给我搞了个四轮推,结果我自己没搞懂规则,第四轮推第一天我就超字数下新书榜了,于是接连十天的无曝光裸奔让我十天中掉了一千四的追读。
这下距离三江就更远了,匆忙上架,上架后首订642,这一个月均订也从不到五百涨到了1000,在昨天,混了一个风向标,涨到了1200。
我说这些不是卖惨,实际上,我对起点现在的推荐机制和审核机制非常认同。只是在遗憾,如果当时多了解一下行业中的变化,可能成绩会好得多。
但事情就是这样,如果自己不经历一道,光凭网上的信息了解和朋友讲解,永远没有切身感受。
现在的作者写书,和多年前确实不同了,需要考虑的东西更多,这方面就不多说了。
说一下未来的情节吧。
这本书到现在快160章,45万字,从昨天开始,这本书正式进入了事业线。
我的老书友应该知道,我上一本书是写投资的,直到现在,我都觉得我那本重生文是起点写投资的书中写的最专业最好看的。
上一本书中,其实我写的很干,只有故事情节,没有人物,这本书之所以写了这么多女配,其实就是在练人物,但不代表我写事业线的功力下降了。
所以,对后续事业线的发展,我自己还是蛮乐观的。
说了这么多,最后求个月票和推荐票吧。
感谢大家的一路支持,祝大家61儿童节快乐!
第161章 先去篮球队装个逼(第一更)
2024-07-16
“橘子……嘿嘿黑……”柚子傻笑了几声,笑声里充满了感情。
方豫看了一眼柚子,从某种意义上说,这个大模型也能算是柚子的孩子了。
就是不知道这个孩子能成长到什么程度?
橘子大模型的底层中,不只由多重神经网络组成,更隐含了柚子自身的简化版架构法则,具有超过三亿的参数,仅大模型本身规模,就超过10个G。
3亿的参数,在周历3061年的现在,是一个非常恐怖的规模。
Deepmind几个月前刚刚公布的Deep Q-Network的参数量也不过才168万。
而非死不可年中发布的深度学习面部学习系统deepface,虽然没有公布参数量,但按照推测,应该也不过是一千多万参数的级别。
而三年前古狗发布的古狗大脑计划,使用了一万六千颗CPU进行训练,号称有10亿参数,但其中无效参数和负作用参数比例超过百分之七十。
虽然也实现了视频端的无监督学习,但训练效果并不好。
但橘子大模型是不一样的。
由于柚子是在自己本体中完成的橘子大模型的框架搭建,在奥术的辅助下,橘子大模型的三亿参数中,无效参数和负作用参数基本能控制在10%以内!
可以说,刚刚诞生的橘子大模型,就是目前这个世界上性能最强的AI大模型!
神经网络下的人工智能参数,就相当于人类大脑的神经突触。
参数数量是影响人工智能模型能力的最重要因素之一,甚至是决定性因素。
更多的参数通常意味着模型具有更高的表示能力,能够捕捉和表达更复杂的模式和关系。
说人话,就是参数越多,人工智能就越像人。
而且,具有更多参数的模型可以更好地拟合训练数据,降低训练误差。
说人话,就是参数越多,人工智能的理解能力就越强。
从大方向上来说——参数越多,人工智能的能力越强,这句话是没有错的。
尽管目前只有40G的训练资料,但橘子大模型已经展现出了相当程度的智能水平。
这也说明,柚子所创造的深度学习训练框架效率之高,已经远超古狗一个月前刚刚发布TensorFlow训练框架0.5版。
值得注意的是,人工智能训练框架和人工智能大模型的模型框架是两个不同的东西。
比如橘子大模型,其中所使用的多层神经网络及神经网络的层次结构和连接方式就是橘子的模型框架。
而训练框架,是一个提供工具和接口,用于构建、训练、评估和部署深度学习模型的软件平台。
说人话,就是,如果未经数据训练的大模型框架是一个崭新的脑子,那么训练框架就是学校、是老师、是整个教育体系。
AI大模型框架本身的层次和结构,就是这个崭新脑子的智商。
而训练数据,就是被教育体系用各种方法教授给这个崭新脑子的知识。
老师水平不同,教育体系不同,教授的知识不同,那么学生掌握知识的效率和准确率自然也不同。
一个学生本身成绩好不好,一方面取决于个人智商和努力,另一方面,也取决于教育方式和教育体系是否科学,老师的教学水平如何。
还有一方面,就是这些知识本就应该是正确的,错误的知识教授给学生,在考试和实际应用中没有任何作用。
同样,受过污染的错误数据也无法训练出可用的ai大模型,使用受过污染的数据训练大模型,会导致训练后的大模型几乎没有任何实用性。
三者相辅相成,缺一不可。
否则学区房怎么能卖那么贵?
否则辅导班怎么会那么贵?
“柚子,以三天间隔为单位,用柚子科技的账号,将训练框架的前置技术按照前置顺序分批次上传到github,选择Apache 2.0的许可证。”
“随后,写三篇关于多头注意力机制的论文,同样以每周一次的频率,发到arXiv上。”
“另外,在Github、arXiv上、linkedin上,寻找位于大周境内的高技术人才,要求如下……”
方豫给柚子下达了三个明确的指令。
也该给柚子科技找一个技术团队了,否则自己这么一个社保人数只有三个人的小公司,突然就搞出了训练框架和成熟的AI大模型,谁也不会信啊。
作为一个创业公司,如何次才能吸引高水平的技术人才?
很简单,就是你自己先是一个高水平的技术人才。
天才是有聚集效应的。
放到github上的这些东西,就是饵。
无论是柚子还是橘子大模型,肯定都会藏起来,方豫准备把橘子大模型剥离出最基本的框架,到时候交给这些天才去填充,如果填充的模型效率不如柚子做出的,自己再进行修改。
总之,把自己的能力控制在顶级天才的程度,确保做出的东西不被人怀疑就行了。
事实上,一个大模型团队和训练架构团队的核心成员,人数往往并不多,可能只有十几个人甚至几个人。
因此,方豫只要吸纳三到五名算法科学家、五到十名工程师、三名数据处理人员,再加上十来名内勤人员,就完全能够把这个大模型团队支撑起来了。
产品端的总人数完全可以控制在30人以内。
而且,在产品端,方豫一个外国人都不准备招。
倒不是方豫有多强的民族主义,主要还是出于保密的考虑。
人都在大周,出现了什么意外,他也能尽快处理掉,但如果在国外的话,就比较麻烦了。
如果是其他公司,可能还会有在大周很难招到顶级人才的疑虑。
但柚子科技就不需要有这方面的担心了,方豫本身想要找的就是高水平人才,而不是顶级人才。
要不是顾及到现实问题,他一个人,配上一个财务和运营团队,光靠柚子就能把产品端整个建立起来,不需要任何其他人的辅助,而且效率还会更高。
到时候可能唯一需要大量人手的,就是AI对齐部门,说白了就是让AI的伦理道德和人类社会的伦理道德对齐。
这部分员工是没法省的,需要有专职的社会科学专家以及大量的测试人员,通过与AI间各种稀奇古怪的对话,来发现AI存在的伦理问题,防微杜渐。
哪节省,审核员也没法节省。
不过,这些都是后话。
在此之前,方豫得先给柚子科技找个HR。
哦,不是,得先去篮球队装个逼。
这一章我已经尽量写的深入浅出,修改了很多次,但还是保留了这部分内容。