今天OpenAI推出了ChatGPT和预训练模型,整个智能变得更加拟人化,首先我们用非常强大的算力阅读了全世界已知的所有文本,训练形成了大模型。它特别像婴儿大脑,可能有几百亿、上千亿的参数,和人脑不同的是,婴儿最多只是遗传了父母的外表和性格等,但大模型的大脑遗传了知识,这只是初始状态,接下来会通过微调等各种方式,像小孩在成长过程中会有各种教育,整个大模型的演进更加拟人化。
这是整个人工智能的变化。
今天的AGI和之前有什么本质变化?2022年12月份之前,整个人工智能还是一种鉴别式人工智能,做判断题、专用系统和智能模块,做一些特定任务。一方面人工智能的表现并不是那么智能,常被别人诟病“你们提供的是人工智障”,以至于过去人工智能的能力天花板较低。
第二,在很多场景里,客户的需求是千差万别的,但人工智能的能力没那么强,很多公司和团队用各种定制去满足。人工智能企业并不像高科技公司,在过去十年里,只能做鉴别式AI是手工作坊的时代。但现在有了大模型,有更加强大的通用能力,人工智能开始进入工业化时代。
有了新的生成能力、涌现能力,用一个模型就能解决很多场景下的不同问题。今天这个时代,人工智能大模型就是发电机,在发动机没有发明之前,中东国家并没有那么富裕,石油的价值没那么大。就像今天可以把数据变成燃料和能力,用这个能力赋能千行百业。
云知声为什么能够在短时间推出自研大模型?
2016年看到AlphaGo,我们把医疗产品在医院里落地,帮助北京协和医院的医生,极大提高工作效率。在医院这个场景里,只是效率工具是不够的,人工智能真正的智能是认知智能,Transformer是2017年提出来的,认知智能的背后需要比较强大的算力。
有了这些铺垫,无论从学术还是工程化方面,积累了很多经验。这个经验对于个人来讲是你谋生的能力,但是对于公司来说是在市场上胜出的核心竞争力。把ChatGPT框架看了之后,发现没有一项是新的,都是一些已有的工程化组合,我们很快把这种能力结合,投入到大模型研发中。
我们在三天前,发布了商业大模型,名字叫山海。把预训练、指令微调、基于人反馈的增强学习全部跑通,看到了期待已久的涌现能力。那时候团队就在想是不是要给它起个名字,那段时间我在频繁出差,觉得名字还挺好的。海是波澜壮阔,有容乃大,体现出大模型的无限生成能力,山是高山仰止,我们知道什么能说、什么不能说,这恰恰是既要强调大模型的生成能力,又要强调大模型的安全合规问题。
有一个很有意思的现象,大家都在谈大模型,国内对大模型的关注是在春节后,但大家都不谈这个事,心里都没底。到今天为止,有一种观点这件事情只有技术还不能做,哪怕人都到位了,但训练成本很大,是极其烧钱的。大模型不是科学革命、不是发明了新的算法,是把已有的算法组合在一起做大,大都是有代价的,当然还有很多工程在里面。观点是对的。
反过来讲,如果认为未来10-20年大模型是很大的机会,BAT投不进去了,就放弃了,我认为还是有机会的。
云知声在过去的几年里,并不需要特别牛的科学家,我甚至认为这个事就不是科学家干的事情,科学家没有玩过那么多算力,也不知道场景在哪里,所以结果一定是不好的。有场景的厂商反而是最有可能成功的。
起山海这个名字,还有一个意思,所爱隔山海,山海皆可平。
山海之力是十项全能。生成能力是非常主观的,真正在场景落地的时候,语言理解能力很重要,为什么以前觉得是人工智障,因为缺乏理解和代码能力。代码能力的提升能够有助提升大模型的推理能力,输出结果一定要符合国内的法律法规甚至道德价值观等。我们还采用GPT-4 插件的架构,帮助企业和客户,从数据的优选、模型训练、模型部署等一条龙服务。
为什么大模型具备复杂的逻辑推理能力?我们今天做到了,但不知道为什么,到底是500亿参数还是1000亿参数更好,却不好说,可能1000亿参数里面神经元还没有被激活。
另外还有医疗,一开始我们在做大模型,很多人以为云知声做的是垂直行业模型,并不是,我们是做行业应用。挑战了一个最严肃的场景——医疗,通过预训练阶段,收集了很多医学的文献、专著、书籍,病案,积累了几千万真实标注的数据,这些数据可以转化成我们的微调数据。
另外在2019年还获得了北京市科技进步一等奖,获奖项目就是大规模知识图谱构建关键技术及应用,我们有国内最大规模之一的医疗知识图谱,我们把知识图谱分解成知识插件嵌入到大语言模型中,使得大模型变成医疗领域的专家。
MedQA是一个非常权威的医疗知识问答测试集,包括谷歌的Med-PaLM,ChatGPT和GPT-4都在这个测试集上公布了它们的评测结果,山海前不久的评测中做到了81分,大大超过了GPT-4的71分。通过领域增强以后,能够把大模型变成某个领域的专家。还有一个数字可以做横向对比,医学院毕业生要通过临床执业医师考试目前已知的AI最高分数是456分,山海大概考了511分,这就是大模型通过领域增强以后获得的超强能力。
想做大模型还是挺难的,门槛非常高,除了需要很多钱之外、优秀的算法工程师和算法之外,还需要很多能力,我们把它总结为山海之功。直观来讲,大模型本身就是大数据集,大模型是工程师的活儿,云知声为什么能够用几个月的时间就能做出一个非常权威的客观的评测数据,我们内部去评,不只在医疗,在通用领域方面,云知声都是最好之一。
算力平台不是买多少卡来插就行了,云知声差不多有200P算力,利用集群的效率达到业内最顶尖的水平,可以用相对比较少的卡,很快速地训练出我们的模型。
我们目前GPU集群的利用率能做到50%,大模型需要多卡,目前业内的水平大概是42%。大模型还要做到3D混合并行训练。什么是3D?就是模型的并行化、数据的并行化、流水线的并行化,要把任务分离到很多不同机器的不同卡里分别计算,最后能快速得到响应的结果。另外在模型推理里得到了很多优化,推理的速度提高了5倍,怎么样把训练卡和推理卡分开,训练卡是A800,推理卡是在一张单卡A6000上就可以实现快速推理。
另外数据很重要,数据规模、数据多样性、数据高质量,我们现在能做到支持10T级别的快速去重,ChatGPT的训练数去是45T,但是优选之后用了几百G的数据来训练。
有了这些能力之后,就能够基于Atlas和UniDataOps的能力,可以把山海的能力和行业客户更好地提供服务。
智慧物联也是公司的一块重要业务,我们有很多落地,过去用的效果确实不太好,希望有了山海之后,用大模型把已有的物联网的产品全部做一遍。
医疗是我们看好的方向。以前的医疗方向,产品主要有两个方面,一是不用手敲键盘,直接拿麦克风说话,极大提升了医生的工作效率,把病历输入时间从3个小时缩短到了1个小时;二是有了病历之后,还有一套系统,通过AI大脑审核病历,审核病历有没有错误,现在有了AI大模型能力之后能够做什么呢?
山海的愿景是通过人工智能打造互联、直观的世界,以前对人工智能的定义是让机器服从人,今天希望机器更加拟人。人和物的沟通交流会变的更加直观,新的能力会带来新的产品、新的商业模式,非常愿意和在座各位共同迎接大模型的新时代。