当前位置: 首页> 政治法律列表 >政治法律详情

ChatGPT等语言模型对国家安全领域的挑战

作者:中国社会科学网
发布时间:2024-12-13
收藏 纠错

  随着自然语言处理技术的迅速发展,大型语言模型如ChatGPT等开始出现,并且逐渐应用于商业、科研、医疗、艺术等领域。但是,ChatGPT等智能语言模型的底层运行机制决定了它们会对国家安全中的舆情安全、信息安全以及国家语言安全造成潜在风险。

  ChatGPT等语言模型威胁国家舆情安全

  ChatGPT等语言模型对国家舆情安全的威胁主要表现为特定情况下智能语言模型生成的语言拟真型“幻觉”。“幻觉”在心理学上指一个清醒的个体在没有对应外界刺激下产生的相应感觉,本质是一种类似真实的虚假体验。而在自然语言处理中,“幻觉”指语言模型在特定条件下会生成缺乏意义的、偏离真相的文本。在智能语言模型深度学习能力的加持下,这些缺乏意义的、偏离真相的文本语言通常会呈现出语义、语法规范、语气自然流畅的特点,具备事实性表述的规范性和精细性,能在一定程度上达到以假乱真的效果。

  这种语言拟真型“幻觉”的生成通常存在于以下两个场景中:第一,公共决策场景中语言模型生成的语言拟真型“幻觉”。智能语言模型凭借快捷的信息处理能力、强大的资料分析能力以及人工智能的中立性,能够在较短时间内配合先进的算法,帮助政府机关、商业、医疗机构、教育场所的决策主体批量分析信息材料。但是在特定条件下,语言模型会生成出偏离给定源文本内容的情况,并且这种情况具有不可控性和不可预测性。这可能会导致正常的信息秩序和社会舆情受到影响。当使用主体接收到这些语言拟真型“幻觉”文本时,会在一定程度上干扰他们的认知和决策判断。特别是在政治、社会、金融、医疗等重要领域,语言拟真型“幻觉”可能导致不良影响,甚至引发社会动荡。

  第二,个人使用场景中语言模型生成的语言拟真型“幻觉”。个人使用场景中的智能语言模型的功用需要更多地调用语言模型的灵活对话能力而不是宏观分析和资源调度能力,多为知识索取型对话。知识索取型对话是指用户向语言模型提出问题,以获取与该问题相关的知识或信息的对话模式。这种对话模式重点关注知识的获取和传递,用户可以向语言模型提出不同类型的问题,包括简单的事实性问题、复杂的推理性问题以及专业性问题等。语言模型会根据用户提出的问题,通过对已有知识的理解和推断,生成符合问题要求的回答。由于ChatGPT等智能语言模型的输出生成主要基于用户提问包含的问题描述展开资料检索,提取到关键信息后会的话语生成则依靠模型预测的概率分布,通过词汇搭配采样策略确保生成回答语法和语义的正确性。因此问题的精确性会影响到语言数据集中数据提取的准确性,如果提取到的数据资料存在偏误,那么词汇搭配采样环节则会更进一步加深这种语言信息偏误。这在一定条件下会导致用户遭遇语言拟真型“幻觉”。

  ChatGPT等语言模型威胁国家信息安全

  政府机密和商业机密通常被保护在严格的安全环境中,只有授权的人员才能访问。智能语言模型虽然不具备主动读取相关私密文件的能力和功能,但是在语言模型辅助用户决策的同时,智能语言模型会在无形中获取或存储机密信息。

  智能语言模型做出辅助分析或决策的功用时,需要用户在语言模型中输入足量的资料信息从而从中获得精确的辅助决策。同时ChatGPT等智能语言模型还具备上下文理解能力,能够对历史对话内容进行记忆和复述。使其能够结合当前输入的问题和上下文的语境信息,对历史对话内容的语料建模,从而对用户的指令进行深度理解和语义推理,最终生成连贯的对话以及更加准确的对话。这种信息回溯技术的综合运用,使得ChatGPT具备了高效、准确、连贯地综合以前的回答给出新的回答的能力。然而,信息回溯的底层运行机制仍然是基于对以往的对话信息的数据语料的收集及建模。用户的问题信息、用户提供的背景材料、ChatGPT的回答等历史对话内容通常会被自动存储在数据库中,以便系统可以在需要时访问这些记录并综合以前的回答给出新的回答。这就造成政府机密以及商业机密等信息在无形中被智能语言模型读取,而这些数据的安全性无从保证。

  此外,个人用户的身份信息也存在泄漏的风险。智能语言模型可以根据个人用户的需求和偏好,提供所需信息检索功能或个性化建议或规划。这会导致两方面的语言信息安全问题。一方面,ChatGPT等智能语言模型的训练数据来源通常来源于公开的网络语言资料数据集,这些数据集可能包含其他用户的个人信息,例如社交网络上的博客文章、用户评论、私信等。如果这些数据集没有经过有效的数据清理和信息脱敏,就有可能导致其他用户的真实身份信息泄漏。另一方面,基于对话记录存储和信息回溯机制。个人用户和ChatGPT的对话记录也会被自动储存,如果这些存储介质没有进行有效的加密和访问控制,就有可能导致对话记录泄漏。同时,通过对对话记录的言语分析,就可以较为全面地掌握用户的学业信息、出行路线、购物偏好等个性化信息。而不法分子则可以利用语言模型保留的用户数据开展欺骗和误导性活动。

  ChatGPT等语言模型威胁国家语言安全

  汉语作为一种全球使用人口最多的语言,其在语言智能领域的发展对于全球语言智能的发展具有重要意义。然而,由于汉语的分词、词性标注难度较大导致当前汉语数据集收集的不足,并且国内各平台缺乏开源共享的意识和文化。在开源共享方面,汉语语言数据集的建设和共享相对较少,导致当前汉语语言数据集质量较其他国家相比较为落后。而国外语言模型平台采取的语言数据开源策略,会加剧国内语言科技平台对外国语言数据资源的依赖性,进一步加剧国家语言数据收集和科技发展的不对等性,对国家语言安全造成不良后果。

  首先,汉语在国内科技领域的发展会受到阻碍。数据集是汉语语言智能模型的基础,其质量的差异会直接影响模型的性能和效果。如果汉语语言数据集质量落后于其他国家,就会限制汉语语言智能模型的发展,影响其在各个领域的应用。限于汉语数据资源的状况,当前国内已发布的智能语言模型仍然以英语语言数据集作为训练材料。文本生成需要经过汉语→英语→汉语的过程,极大地影响了语言模型的系统性能。同时,把英语语言数据集作为训练材料会导致语言模型对汉语的理解度不高。例如,当前“文心一言”等国产语言模型无法正确理解汉语成语、俗语、菜名等。当然更重要的是,国内科技厂商依赖外国开源语言数据集进行技术开发和语言模型的训练,会进一步压缩汉语在科技领域的生存空间。

  其次,汉语在国际语言智能领域的地位会受到影响。当前语言智能技术已经在全球范围内得到广泛应用,成为各国科技竞赛的焦点。而欧美国家的语言智能技术已经比较成熟,并且其语言数据集质量也相对较高,这使得这些语言在国际语言智能领域具有竞争优势。相比之下,由于汉语语言数据集质量相对落后,汉语在国际语言智能领域的地位会受到一定的影响。

  最后,加剧汉语在数字化时代的信息孤岛问题。汉语信息孤岛问题的根源在于高质量的汉语语言数据不足。如果缺乏高质量的语言数据集,语言模型很难有效地吸收转化汉语数据,从而造成汉语在数字化时代的信息孤岛问题,影响汉语在数字化时代的竞争力。此外,出于和语言模型沟通精确度的需要,汉语使用者也可能更倾向于使用英语等欧洲语言进行信息获取和交流,这也进一步加剧了汉语在数字化时代的信息孤岛问题,甚至对汉语语言文化的发展产生不利影响。

  【本文受国家社科基金项目(21STA031)和湖南省社科规划项目(22ZDB059)资助】

  (作者系湖南师范大学文学院二级教授、博士生导师,中国语文现代化学会副会长)

相关词

相关推荐

×
错误反馈
请支付
×
提示:您即将购买的内容资源仅支持在线阅读,不支持下载!
您所在的机构:暂无该资源访问权限! 请联系服务电话:010-84083679 开通权限,或者直接付费购买。

当前账户可用余额

余额不足,请先充值或选择其他支付方式

请选择感兴趣的分类
选好了,开始浏览
×
推荐购买
×
手机注册 邮箱注册

已有账号,返回登录

×
账号登录 一键登录

没有账号,快速注册

×
手机找回 邮箱找回

返回登录