爆火的ChatGPT背后有哪些核心技术?

OFweek电子工程网 中字

看似AI,实际上并不简单

根据目前了解到的信息,ChatGPT出现后,被广泛应用在了聊天机器人、编写和调试计算机程序、文学相关领域的创作,以及教育、考试、回答测试问题等场景中。

不难发现,ChatGPT跟前两年AI技术盛行的时候的一项技术AIGC(AI Generated Content——人工智能自动生成内容)非常相似,AIGC是继专业生产内容(PGC)、用户生产内容(UGC)之后的新型内容创作方式,主要用在文字、图像、视频、音频、游戏以及虚拟人物等。而ChatGPT可以说是属于 AIGC的一个典型应用。

之前出现过的智能客服、智能助手,比如QQ聊天机器人小Q、微软小冰等等,其实都是聊天机器人。但与ChatGPT相比,这些聊天机器人虽然存在一定的智能化成分,但还谈不上强大,用户体验下来也经常出现答非所问、言语混乱等问题。

而ChatGPT的优势在于,接受了大量数据训练,可以做到用人们能理解的方式解释概念、传递事实,甚至产生“新想法”。

不过,ChatGPT也存在着局限性,模型仍有优化空间。因为ChatGPT模型的能力上限很大程度是由奖励模型决定,该模型需要巨量的语料来拟合真实世界,这样就给了标注员们巨大的工作量要求。因此,当前的ChatGPT也可能会出现“创造不存在的知识”、“主观猜测提问者意图”等低级错误。

· ChatGPT背后的核心技术

在一篇主题为《Attention is all your need》的科研论文中有详细介绍,ChatGPT的计算逻辑来自于一个名为transformer的算法。作者在论文中提出了transformer的核心算法结构:

image.png

据悉,transformer是一种更高级的神经网络深度学习算法,对数据量有很高要求,这也催生了从小数据如何快速产生大数据的算法,比如GAN对抗网络等。这也是AIGC领域的核心技术。解决数据量不足问题,除了更高效率抽象小数据的信息,也多了把小数据补足成大数据的方法,而且这些方法在快速成熟。

除了Transformer以外,还有一种是技术发展非常重要的现象级算法Bert。此外,ChatGPT的成功还源自于大量的数据训练,不过目前还只是覆盖到简单对话互动或者翻译,一旦出现大篇幅回答甚至论文级别的答案,那么ChatGPT还是十分缺乏样本数据的。

国内NPL/内容/AI芯片产业起飞?

目前我国在自然语言理解及相关AI技术领域处于全球领先水平,ChatGPT技术的诞生,给国内AI产业生态带来了更多的启发和发展方向。

业内分析认为,在NLP( Natural Language Processing——自然语言处理)领域,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。这一领域的自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分;在内容方面,文字、图片、视频、音乐各领域的内容提供商,也将得益于AI技术驱动下数字内容的快速发展;此外,部分AI芯片厂商、数据芯片厂商也将因此受到长足发展。

国内相关概念股一览

· 科大讯飞:公司旗下讯飞开放平台持续在多语种语音合成、多语种语音识别、自然语言处理、图文识别、人机交互等领域提供丰富的AI能力,帮助开发者降低开发周期和成本,促进高效的产品集成落地;

· 云从科技:公司在技术研究方面一直保持较大投入,在视觉、语音、NLP等方向上都在实践类似于ChatGPT的“预训练模型+反馈调优”的技术路线,通过自研的视觉大模型和NLP大模型,大幅提高了算法的生产效率,也进一步提升了公司核心算法的效果;

· 神州数码:公司基于数据+AI的Jarvis人工智能知识平台,以云原生技术、独特的数据算法和AI训练模型,轻松构建知识生产者和知识消费者间的桥梁。产品致力于通用企业场景,为企业解决大量长尾需求,帮助企业大幅降低成本,赋能员工新技能,提升业务部门效率,帮助企业实现使用最低成本服务最多的人;

· 拓尔思:公司主要的技术方向是语义智能,是人工智能领域比较前沿的方向。拓尔思是国内最早投入自然语言处理技术研发的企业,是中文全文检索技术的创始者,有着深厚的研发和应用积累。公司的主要产品服务包括TRS DL-CKM人工智能技术平台、TRS H ;

· 汉王科技:公司在视觉图像识别及人机智能交互方面持续投入,拥有业内领先文本图像识别、自然语言处理、生物特征识别、智能视频分析、智能人机交互等人工智能产业链关键技术;

· 天源迪科:公司聚焦人工智能NLP自然语言处理细分领域,包括语义理解、语言生成和对话管理等核心组件;

· 科大国创:公司有科大国创聊天机器人系统V1.0;

· 高伟达:公司在智能客服领域,聊天机器人基于强大的自然语言处理技术和精湛的金融客服专业知识,正广泛应用在一些创新性的银行及泛金融机构;

· 福石控股:公司AI智能客服平台以5G消息为承载,打造Chatbot平台,为企业客户提供AI智能聊天机器人,及一键接入全通道的能力;

· 海天瑞声:公司生成的训练数据主要覆盖智能语言、计算机视觉和自然语言处理三大领域;

· 神思电子:公司自主研发的NLP技术和知识工程引擎产品及方案主要在自然人机对话、阅读理解等方面形成核心技术;

· 宏景科技:公司基于自然语言处理(NLP)、语音识别(ASR)和语音合成(TTS)技术,提供文本对话交互功能,能替代人工客服解决大部分咨询问题,实现自助服务,帮助企业升级客服体验,提高服务效率,降低人力成本;

· 天玑科技:公司的天现NLPS,是一套构建人机通信的自然语言处理解决方案。NLPS 支持分析及挖掘文本内容的服务,涵盖了命名实体识别、情绪分析、文本分类文本相似度检测、对话/闲聊机器人、信息推荐,检索等能力。

创造ChatGPT的人推出了它的“克星”

当然,ChatGPT的走红也引发了一些人的不满,尤其是美国一些学区已经开始宣布,禁止学生使用ChatGPT工具。他们担心学生使用这一工具撰写文章欺骗老师,或是进行抄袭剽窃。

于是,就在今天OpenAI又宣布了一则大消息,称已经推出一款新工具,能够识别一些文字是不是人工智能软件撰写的。

据OpenAI介绍,这款新产品叫做“AI分类器”(AI classifier),这一软件使用的语言模型,经过了大量针对同一话题的人类文稿和人工智能文稿的数据训练,能够识别某一文稿到底是人类撰写还是人工智能软件生成。

这一产品背后整合了来自多家供应商的技术,能够用于解决各种现实问题,比如ChatGPT在社交媒体上传播的到底是真实还是虚假的信息,涉及到学术论文撰写时,是不是存在抄袭等不端行为。

不过这款产品目前还处在测试版阶段,对于1000个字符内的文章识别表现还不是太稳定。另外,人工智能撰写的文章经过人类编辑之后,可以欺骗AI分类器。

声明: 本网站所刊载信息,不代表OFweek观点。刊用本站稿件,务经书面授权。未经授权禁止转载、摘编、复制、翻译及建立镜像,违者将依法追究法律责任。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存