“想也知道,我们的框架算法再牛也牛不到哪儿去.....”
原本他还寻思着,过几天再让许韵和他老爹说这件事情的,可没想到莫名其妙情绪就酝酿到了这里,于是乎,安歌便寻思着,直接引导他们父女两自己想到算了。
果不其然。
正所谓,龙生龙凤生凤,老鼠的儿~子会打洞。
许韵的性格和许志国有那么几-分相似。
在听到安歌的话之后,许韵突然开口打断道:“安总,我觉得你又在铺垫,就好像之前一-样。”
“铺垫?我从来不铺垫。”
“你铺垫的少!?那次我上午还和你唠嗑,下午就扔出来一个王炸,差点没把我炸死。”许志国想到这儿的时候,不禁有些狐疑的看着安歌:“那么强的人工智能产品,你和我说算法不行。”
“韵儿,你和我说,人工智能除了算力和算法,还有什么东西是至关重要的,反正我不相信算法会不强。”
“除了算力和算法当然是数据.....对哦,我明白了,训练一个能够像人的人工智能,最重要的就是要有足够的数据集,鼎芯科技毕竟之前是深耕硬件领域的公司,加上现在国内的环境,没有足够的数据集也正常。”
许韵似乎是反应过来了,当即有些恍然大悟的说道。
安歌正打算开口,可许志国率先让许韵解释了起来。
“嗯~~~怎么说了,数据集其实就是说一组数据的集合,和字面意思一样,通常就是说可以直接进行数据分析、机器学习、深度学习之类人工智能训练任务的优质数据。”
许韵解释着解释着感觉越来越复杂,于是乎,直接话锋一转,道:“谷歌的阿尔法狗您知道吧?训练初期的时候,就是将他们能收集到的棋谱全部都给人工智能学习了,这个棋谱就是数据集的一种。”
“当然,阿尔法狗后面就不需要看棋谱了,不过这并不重要,您能大概理解就是,除此之外,图像啊,文本啊,音频啊,全部都可以用来训练人工智能,全部都可以当做数据集来用。”
“这样啊,网上这种信息不是一抓一大把吗?不可以直接拿来用吗?”许志国有些不解道。
“网上那些东西大部分都是无效信息。”安歌直接插嘴道:“既然都已经说到这里了,那我就给你解释一下吧。”
“我们公司人工智能现在发展被制约的最大问题就是数据。”
“网上那些信息,说实话,也不是不能用,但是训练出来的人工智能可能就是个垃圾,而且极有可能知道也全是假信息,根本没有任何价值。”
“只能说,这些年互联网公司们自己种下来的恶果。”
看着许志国懵逼的表情,安歌淡淡说道:“说实话,如果我们出生在十年前,我绝对不会说出这样的话,但是现在,国内互联网生态出现了很严重的问题。”
“为什么这么说?”许志国不解道。
在他的理解中,这些年互联网发展迅速,应该各种信息更多了才对。
特别是随着自媒体时代的来临,各种各样的信息越来越多。
按理来说,生态应该是枝繁叶茂才对,为什么在安歌口中,却是生态出现了严重的问题?
即便是假信息很多,也不至于这样吧?
哪个时代网上没有假信息呢?
殊不知,他口中的这些优势,正是安歌口中的问题所在。
看着懵逼的许志国,安歌缓缓道:“十年前,咱们国内有着非常多优质的博客、网站,根据不完全统计,当时的网站大概有1000万个。”
“但是你猜现在还有多少?”
“只有418万的个。”
“当年最火的四个博客,两个基本上算是关门了,另外两个地方成了和厕所一样的地方,充斥着各种各样的垃圾,根本就找不到什么优质信息。用粪坑找屎来形容一点都不为过。”
“垂直领域的高质量平台现在也很拉胯,国学数典您还有听到消息吗?唯一算的上还存在的就剩下了逼乎,可是依旧是绝大多数人都在装逼,真正能够训练人工智能的数据几乎找不到。”
“顶多就是有一点话题,没有多少信息。”
“这也就罢了,咱们不提这些网站怎么样了,就说现在的整体环境,各个网站的评论区,几乎都是一大群人天天为了一点小事吵的不可开交,整天不是对立就是骂战。”
“然后再结合刚刚我说的,大量的无知自媒体每天不断的创造各种垃圾信息,还有无数水军、营销号、饭圈,再加上某些平台离谱的审核制度搞出来的抽象文学.....”
“多的我就不说了,您或许现在很少上网,但是随便找一个上网多的人应该都能感受到的。”
“您想啊,这种环境下采集的信息我敢用吗?”
听着安歌的不断讲解,许志国脸色愈发的沉重下来。
是啊!
这么一想,似乎的确是这样。
十年前随便一搜索,就能找到有效答案。
可是现在,想要找到有效想信息,却要花费一番功夫。
而且安歌还没有提到一个更关键的东西,那就是,广告,遍地都是各种各样的广告,直白的广告还好,很容易就能筛选出来,可那些隐藏在软文中的广告呢?有几个人能分辨的出?
人尚且如此,让人工智能怎么分辨?而且是学习阶段的人工智能?
这样的信息,怎么能放心使用呢?
不过这东西怎么能避免?
他一时间也找不到答案。
这些年他们一直都是摸着西方过河,可是这一次,似乎没有可以摸着过河的存在了,西方世界的互联网肯定也是存在这种垃圾信息的,可奈何,人家体量大啊!
人家的互联网巨头动不动就是三四十亿用户。
举个不严谨的例子。
如果全世界所有使用互联网的人创造的数据是等同的。
那么,他们便拥有30亿个单位的数据,而国内,顶多能有10个亿单位的数据的。
优质数据比例一样的情况下,他们已经是国内的三倍。
更何况,安歌刚刚说的那些东西,海外并不是全有,即便谷歌每年可以通过广告创造2000亿美刀的收入,但是其他方面的问题却没有那么大,他们那边创造的优质数据比例可能也比国内的要多。
五倍十倍,这都是有可能的。
想到这儿的时候,许志国又意识到了一点,那就是通假字、同音字、错别字、同义字,还有一些复杂的语句,例如‘让审核审核审核审核的审核结果’,这种情况下,如何让人工智能理解呢?
这样的话,是不是优质数据的数据量还要下调?
真就是越想许志国就越头疼。
突然间,他也觉得问题好大。
然而。
他却依旧还是忽略了更重要的一点。
那就是,海外的互联网比国内的互联网要早发育几十年,这几十年存下来的优质数据更加恐怖。
要知道,互联网时代初期,上网是有门槛的。
当时的互联网可比后来和谐多了。
那个时间段创造的信息可都是优质的信息。
还没等许志国彻底反应过来,安歌突然话锋一转道:“更何况,我真的能采集到这些信息吗?”
“什么意思?”
“其实网站少了一大半,还有一个核心的原因,那就是,移动互联网时代的到来,渐渐的,人们发现用手机上网的人比用电脑上网的人多,于是更多的人选择开发APP而不开发网站,这样的事情非常常见。”
安歌道:“这些APP,爬虫自然不可能爬的到信息,于是乎,越来越多的信息只存在与信息孤岛上。”
“我根本就采集不到,垃圾不垃圾又有什么意义?即便是我开发出一款能够筛选垃圾信息的模型来辅助人工智能学习,面对这种情况又能如何呢?又有什么办法呢?”
“咱们国内很多互联网公司融资需要用这些数据讲故事,让他们开放出来,几乎是不可能的事情。”
“现在您能理解,为什么我说数据是制约我们公司人工智能发展最大问题了吧?”
“办公软件之所以能智能到那个地步,主要其实是因为,根本不需要太多的数据,统共就那么一些规则,然后让人工智能理解相关的命令就行,其他方面却不行。”
“如果不能解决这个问题的话,进度只会越来越慢。”
许志国沉默许久之后,方才开口,道:“一般情况下,你觉得,人工智能训练需要哪些方面的数据?”
..... .... ...
“无非就是网上的各种报道啊,博客啊,文章啊,百科啊,问答啊.....然后就是各种书籍出版物、期刊、论文之类的文本数据,当然,如果再有社交媒体平台、论坛、聊天记录之类的互动性的数据就更好了。”
安歌道:“不过这些东西大几率是需要人工进行筛选标记才行,太多太多无用的信息.....”
“反正以后慢慢开发吧,我这边已经打算建立一个开源中心用来收集各种计算机行业相关代码类的信息了。”
“另外就是,回头我打算成立几个非盈利组织,专门用来运营收集相关的数据集,所有人工智能领域的人都可以随便用。”
“比如说免费的百科、文库、问答、垂直领域博客来提供文本数据集,各种类型的免费图片、免费视频、免费音乐来提供图片数据集和视频数据集,还有股票价格、气象数据、交通流量之类组成的时序数据集,遥感数据、天文数据等等组成的科学数据集....哦,还有免费的论文集。”
“反正无版权问题的优质数据,全部都给聚拢在这些非盈利的公益组织旗下,供人们自己选择。”
“可能每年都需要花费个几十亿上百亿甚至更多,但是没办法,总是要去做的。”
开源,并不意味着要放弃盈利。
在安歌看来,来源是互利互惠的好方法。
他提供开源数据,别人在他这边可以拿到数据,同时也会将自己创造的优质数据反哺回来,供他们来使用。
更何况,到了这一步,代码重要吗?数据重要吗?重要,但是又没有那么重要。
代码即便是有些人拿走了,也不可能达到他们的水平。
更何况,也不是所有代码都会开源。
只是开源一部分。
优势永远在他们手中。
还有就是,有人靠着这些开源信息去搞人工智能的,还需要从他们这边采购白泽。
怎么他们鼎芯科技都是赚的。
只是赚一次还是赚两次甚至更多次的区别。
至于数据,公开的优质数据再多也需要数据处理和清洗后才能使用。
没有人比他们更有优势。
靠着这些公开的优质数据,完全可以经营起来一大堆的优质社区。
到时候便会有无穷无尽的优质数据被送过来。
绝对血赚。
当然,做这样的社区,即便是现在的安歌,还是差点意思,特别是在学术论文还有一些重要资料方面,没有信息部门的支持,很难完成。
这,也就是安歌引导到这个话题的主要原因二.
第145章 事情明朗了起来(求订阅)
开源!?
非盈利组织?
百科?文库?问答?垂直领域博客?
无版权问题的图片、视频、音乐!?
股票交个?气象数据?交通流量?天文数据?遥感数据?