Cmeet2023·第十四期 | ChatGPT为啥那么牛？大型语言模型（LLM）的技术实践与分享

墨泪 2023-06-08 11:21:17

随着人工智能技术的迅速发展，大型语言模型（Large Language Models，LLM）成为当前人们广泛关注的热门话题。2023年5月28日，Sota.AI联合CSDN CMeet&CDC、HackingClub，于北京市举办了第二期线下智能AI交流Meetup，来自四维创智、思迈特软件的两位技术专家围绕智能AI的主题，探讨如何利用大语言模型技术增强领域知识、提升结构化数据查询分析效果，为观众奉献了一场精彩的技术盛会。

Vuln-Sprocket：开源立体化漏洞情报知识图谱

四维创智人工智能部门技术负责人、VulnSprocket作者陈平

随着ChatGPT这一现象级产品的横空出世，大语言模型产业也开始蓬勃发展，但与此同时，大语言模型的优秀表现中也隐藏着社会各界对可信、数据与隐私安全、滥用风险、伦理等问题的疑虑。来自四维创智的人工智能部门技术负责人、VulnSprocket作者陈平带来《大语言模型技术爆发给网络安全领域带来的机遇与挑战》的主题分享，为观众提供了一些答案与思考方向。

ChtaGPT作为目前最先进的自然语言处理模型之一，包含了超大规模数据集、多智能体联合应用以及模型并行与数据并行的组合，在数据、算法、架构等方面优势巨大，但它也仍然存在一些缺陷，例如数据偏见问题、对话连贯性问题、领域专业知识不足、无法离线部署、复杂逻辑推理能力不足等。

根据上述问题，四维创智尝试采用知识图谱技术对互联网上的开源漏洞情报进行整合和分析，将多源异构的网络安全领域数据进行语义归一化处理，并构建以“漏洞概念”为核心的网络安全领域知识图谱—Vuln-Sprocket。目前，Vuln_sprocket 拥有170W+实体、210W+关系，覆盖网络安全领域各大官方数据源和类似Exploit-DB、Github的互联网开源安全情报，共计100+情报源。同时，Vuln_sprocket支持用户低代码接入自己的知识库，使ChatCS具备用户定制的知识能力。相信在可见的未来，知识图谱相关技术在开源漏洞情报分析领域，会有它无法替代的作用和意义。

LLM助力提升自然语言查询效果

广州思迈特软件有限公司VP 杨礼显

尽管自然语言查询技术在语义理解和查询效果方面取得了一些进展，但仍然需要解决多义词、上下文理解、数据稀缺和隐私安全等问题，广州思迈特软件有限公司VP杨礼显以《利用大语言模型LLM对结构化数据进行ChatGPT式的分析》为题，分享如何利用大语言模型LLM查询进一步提高自然语言查询的准确性和可用性。

杨礼显介绍，NL2SQL（Natural Language to SQL）是将自然语言转为数据库可执行的SQL语句，完成人与关系数据库交互的实时数据查询。从技术的角度来看，NL2SQL的本质是将用户的自然语言语句转化为计算机可读懂、可运行、符合计算机规则的语义表示，同时需要计算机理解人类的语言，生成准确表达语句语义的可执行程序式语言。

是否连接任意关系型数据库，就能很好地直接查询到用户想要的结果？杨礼显认为，即使是经验最丰富的技术人员也难以做到，因为需要对数据进行加工、处理、建模。而自然语言查询的难题在于对“常识”的理解，在大语言模型LLM的支持下，能够提出自然语言查询的新方案：通过指标方式对数据进行建模，让用户易理解；通过多维模型/MDX提供复杂计算能力；通过LLM准确理解用户意图；最后通过NL2MDX，完成与用户的交互过程，提供用户需要的结果。

现场活动照片：