GPT+通信融合发展面临哪些问题?

GPT+通信融合发展面临哪些问题?

最佳答案 匿名用户编辑于2024/05/16 10:57

下面分别从高质量数据稀缺、硬件资源不足、云边端网络协同 难、带宽存在瓶颈以及相关法律滞后这五个不同的角度进行分析,讨论“GPT+通信”融合发展过程中需要解决的痛点问题和可能的研究思路。

1. 通信高质量训练数据稀缺,专用模型准确性和泛化性差

各个行业都有长期积累且涉及多个维度的专业知识,为了训练出满足产业需 求、精度极高的垂直行业模型,大模型必须结合行业知识和专有数据,完成从通 用到专用的转变。在设计适配通信领域的GPT 大模型时,训练数据集会直接影 响生成内容的质量,而通信中的高质量训练数据仍然不足,模型在理解复杂或非标准指令时的准确性较差。且模型对单一性数据集的重复训练可能会出现过拟合,导致泛化性大幅度降低,这对通信专用模型的性能进一步提升提出了挑战。

 

准确性是指大模型生成的回答是否正确,是否符合逻辑和人们的认知常理, 是否能够被人们理解、解释和信任。在通信领域,准确性可能涉及正确识别或预 测一系列通信任务,如信号识别、调制解调、频谱感知等,对数据质量要求较高。 而泛化性是指机器学习模型在未见过的数据上仍然表现良好的能力[52],换句话说, 一个好的机器学习模型不仅能够在训练数据上表现出色,还能够在新数据上进行 准确预测和决策。然而,泛化性并非一蹴而就,而是需要精心设计和调整模型来 实现的。训练数据集样本过于单一可能会导致模型训练欠拟合或者过拟合问题。 这是机器学习中的常见问题,指的是模型在训练初期对数据集学习不足,但后期 又过度适应训练数据,或过于强调训练数据中的每个细节,而不是学习普遍规律, 导致模型在新数据上表现不佳,泛化性大幅度降低[53]。过拟合可能是因为训练数 据集样本单一、样本不足,也可能是因为模型过于复杂,过于贴合训练数据,而忽略了数据之间的一般关系,以至于学习到了训练数据的噪声和细微差异。 在深度学习领域,许多研究在评估深度学习模型时只关注准确性,而忽视了 泛化性。这意味着这些模型可能在特定数据集上表现良好,但在新的环境下可能 无法泛化。这是一个与通信融合的问题,因为在实际的通信系统中,模型需要能够适应不同的环境和数据[54]。因此在设计通信领域的深度学习模型时,需要在准确性和泛化性之间进行平衡。但目前通信领域训练所用数据量远远低于需求,通 常只有数十GB,与所需的数百GB 到数TB 相比存在巨大差距。而且现代预训 练数据集的大小使得任何个人都无法彻底阅读所包含的文档,或对其进行质量评估[55],因此如何挑选合适的高质量数据集对GPT 进行预训练仍有待研究。

但是,通信行业内的许多数据未公开或受到商业保密协议的保护,导致公开 可用的数据来源有限,或数据缺失无法充分利用。由于行业专业性强,非可靠来 源的数据更可能包含技术上的错误、过时的信息或误导性内容。在通信行业中, 使用不准确的数据训练的大模型可能会生成包含事实错误、逻辑错误或偏见性观 点的内容,导致技术误解和错误的决策,这在设计网络、维护系统或应对紧急情况时尤为严重,不仅会降低用户对模型的信任度,甚至可能造成严重的事故。 此外,在学习和表示多模态数据时,不同无线应用的数据结构和特征也各不 相同,无线数据类型多样性包括信道频率响应、位置坐标、波束矢量和接收信号 等,这些不同模态具有独特的数据结构和特征[56],对大模型的准确性和泛化能力提出了挑战。 因此,针对通信领域不同任务的特殊需求,为了在有限数据下训练专用大模 型,需要综合考虑通信数据特点、大模型本身复杂度和计算成本等因素,选择适配任务的大模型,可能还需要适当对模型进行“剪枝”和“压缩”。

2. 端侧算力及硬件资源不足,大模型轻量化部署难

在AI 技术快速发展的当下,智能手机等移动设备在人机交互、语音交流等 功能方面的需求不断提升,将大模型轻量化部署到终端设备也正成为一个重要的 研究方向和发展趋势。利用端侧AI 可以更好地为用户提供个性化的服务和支持, 帮助用户进行自我管理。然而,由于算力及硬件设备等限制,这一目标的实现仍面临诸多挑战,在实际应用上还远远满足不了用户的需求。早期的智能手机语音助手,虽然具备基本的人机交互能力,但在复杂问题的处理上表现并不理想,功能也较为单一。随着ChatGPT 等大模型的发展,AI 能力得到显著提升,原本功能有限的语音助手有望处理更复杂的问题,这无疑是手机制造商们迫切希望落地的技术。例如,苹果最早搭建了Ajax 大模型,并推出了内部测试聊天机器人“Apple GPT”;vivo 发布了自研的覆盖多个参数量级的“蓝心”大模型,包括端云两用模型和端侧专业文本大模型等;小米宣布其自研MiLM 轻量级大模型已经接入了新发布的澎湃操作系统(OperatingSystem,OS);华为也宣布HarmonyOS 4 系统将全面接入“盘古”大模型;荣耀、OPPO、三星等其他终端厂商也都在纷纷布局,将大模型装进手机。

然而,要将大模型部署到终端设备上,对算力和硬件层面就提出了更高的要 求。据统计,vivo、荣耀、小米的大模型基本上都从十亿级的参数量开始做起, 逐渐往更大的参数量拓展。目前,手机厂商在大模型计算上,基本采用两种路径, 荣耀、小米等公司是采用端侧计算的模式,vivo 等公司则是端侧和云端两条路径 并行。云端计算的能力更强,但每次计算的成本过高,可能会对手机厂商造成负 担。相比之下,端侧计算成本更可控,并且由于数据不用上传云端,安全隐私性更强。 在具体实现过程中,大模型需要大量内存来存储参数,并且在执行复杂的计 算任务时需要巨大的算力资源和电量消耗。而智能手机等移动设备硬件资源和电 池容量有限,轻量化部署仍然存在许多挑战,主要表现在三个方面:内存约束、算力不足和功耗较大。

1)内存约束 大模型由于其庞大的参数量和复杂的网络结构,需要极大的内存资源来存储 模型参数和进行计算。在苹果公司发表的最新论文中提到,一个70 亿参数的模 型就需要超过 14GB 的内存来加载半精度浮点格式的参数[57],这超过了大多数终 端设备的承受能力。即使通过量化压缩模型,这对于终端设备的内存要求依然过 大。且在实际应用场景中,端侧设备需要快速、准确地处理输入并给出响应。但 由于内存限制,这些设备可能无法承载大型模型,或者因为内存不足导致性能下降,运行模型时频繁卡顿,影响其他应用程序等问题。2)算力不足 大模型运行需要消耗大量的计算资源,因此如果要在端侧部署大模型,除了 内存外,对芯片计算能力也提出了更高的要求。然而,现代智能手机的芯片处理 器性能与专业服务器相比仍有较大差距,使得模型运行面临处理速度慢和响应时 间长等瓶颈,从而影响用户体验。目前行业内可供采用的芯片不多,暂时只有极 少量芯片能支持大模型的端侧落地。由于大模型对于手机内存和芯片的限定要求, 即使实现了在手机上部署GPT 大模型这一目标,在短期内可能只会是高端手机的专属体验。3)功耗较大 大模型对算力的需求变得更大了,意味着功耗也会变大。但手机等端侧设备 不像数据中心能通过空调或液冷系统降温,功耗太高会直接影响大模型运行的效果。当在这些设备上运行GPT 大模型时,不仅会迅速消耗电池电量,破坏手机 充满电后至少能待机一天的体验,还可能导致设备过热,缩短电池的使用寿命。 这种过高的电量消耗不仅限制了大模型在移动设备和其他端侧设备上的应用,而且还可能导致运行成本和设备维护难度增加,甚至还可能直接损坏硬件,影响其他功能的正常使用。

3. 云边端异构网络协同困难,大模型性能稳定性差

在当前大模型体系架构下,在终端设备上部署GPT 应用并形成实际业务服务需求,需要云边端共同参与完成。GPT 大模型在边缘节点部署,而用于预训 练过程的大规模数据库通常在云端存储,这涉及终端—边缘节点和边缘节点—云端两段链路的数据传输。然而,随着移动用户的个性化需求剧增,为了满足更多用户,需要实现云边端网络的高效协同,实现计算资源合理化分配,否则可能会导致大模型稳定性下降,影响用户体验。 云端服务器通常具有强大的处理能力和存储容量,适合处理大规模、复杂的 任务。边缘节点位于用户和云资源之间,具有一定的计算能力和存储空间,可以 降低数据传输延迟,加快响应时间。终端设备如智能手机、传感器等通常资源非 常有限,但最接近数据源。在这种网络中,数据和任务根据其属性和需求在云、 边缘和终端之间流动。一些需要快速响应的任务可能在边缘节点处理,而那些需要深度分析和复杂计算的任务则可能上传到云端处理。

然而,在边缘计算方面,由于物联网带宽资源等限制,其发展仍处于起步阶 段[58] 。在保持模型准确性的同时,如何设计在物联网设备上运行的GPT大模型 存在挑战,其中最关键的因素是边缘应用的处理速度[59]。同时,网络中不同节点 的性能、存储和网络连接能力存在显著差异:云服务器可能拥有高性能处理器和 大量存储,而边缘节点和终端设备则在计算能力和存储容量上有限。这些差异对大模型的效率和准确性产生了直接影响。 首先,响应时间在云端、边缘节点和终端设备之间存在显著差异。云服务器 可以在几十毫秒内处理请求,而边缘设备则可能需要几百毫秒到几秒,而在终端 设备上,处理延时可能更高。其次,大模型的有效运行常常需要在多个计算节点 间同步大量数据,网络延迟和数据传输速度在这里成为关键因素,影响模型的实 时响应和决策能力。且边缘节点的计算限制可能要求对模型进行简化或只运行模 型的一部分,这可能导致模型准确率下降,特别是在数据密集和计算密集的应用 场景中,如智能交通系统,高峰期的数据处理需求可能超出边缘节点的处理能力, 导致模型性能波动。最后,大模型的稳定性还受到网络节点可靠性和故障恢复能 力的影响,边缘节点的故障或中断可能导致服务的中断。因此,需要综合考虑设备的性能和资源约束,以保证网络中所有节点能高效协同工作,同时保持系统的准确性和可靠性。

例如,在城市监控系统中,大量数据需要监控摄像头传输至云端服务器以进 行有效处理,传输过程中的延迟对实时监控的效率和应急快速响应能力有显著影 响。然而在处理计算密集型模型时,边缘节点可能受到其硬件性能的限制,难以 达到理想的处理速度和精度。这一点在自动驾驶中尤为明显,该应用要求车辆快 速处理来自众多传感器的大量数据[60]。在这种时延敏感型应用中,高带宽低延迟 的网络连接是保障实时决策乃至驾驶安全的重要因素。因此,需要优化网络负载 均衡,分析用户需求并合理分配有限资源,才能灵活应对不断变化的网络环境,保持大模型的稳定运行。

4. 服务器互联存在带宽瓶颈,训练时间长推理效率低

大模型的训练和推理过程需要大量的计算资源和数据,仅大模型训练就需要 由数千片甚至上万片GPU 组成的集群连续训练数月时间,海量计算的同时还有 海量数据交换的需求,与传统CPU 和存储集群比较,内部通信互联要求的提高 十分明显。且随着模型参数量以及GPU 算力的增加,要在动态无线通信环境下同时满足生成内容高质量和低延迟,需要更高的互联带宽才能支持。然而,由于 目前计算服务器间的互联带宽不足,这可能会导致网络传输速度过慢甚至中断, 需要很长时间才能从云服务器上下载数据,从而影响资源的使用率,降低整个训 练和推理过程的效率和准确性。如图5-5 所示,当前通信带宽提升速度远低于计算提升速度。

随着模型规模的不断扩大,单GPU、单服务器已经无法满足计算和存储需 求。目前,大模型的训练过程需要在多节点的计算集群中进行,这些集群通常由 若干台服务器组成,通过分布式训练框架实现跨节点的协作,共同完成训练任务 [61]。主要采用的是分布式并行计算方式,即将计算任务以数据并行、流水线并行 及张量并行等方式分配到多台服务器上,来加快模型训练速度。在数据并行模式下,数据被分割成多个部分,分配给不同的计算设备进行并行计算。 在这种复杂的分布式系统中,任何一个环节遇到瓶颈都可能对模型训练的效 率和可扩展性产生重大影响。当计算服务器数量增加时,各应用程序线程间的通 信成本会增高,进而导致整体训练性能下降。在传统服务器配置中,AI 计算卡 之间的通信受限于PCIe 总线的带宽,使得数据在GPU 内存间的传输速度仅为理 论速率的约1% 。此外,位于不同服务器的AI 计算卡之间的通信还受到数据中 心网络带宽的限制,如常见的 10 Gbit/s 以太网速率,进一步制约了训练效率。简而言之,随着集群规模扩大,通信成为影响AI 模型训练性能的关键因素。

其中,影响最大的是服务器间的高速互联。需要在系统之间提供100 Gbit/s 甚至更高的带宽,改善GPT 类模型训练的通信带宽,进而提升算力的利用效率。 因此,需要解决计算服务器之间可能存在的互联带宽瓶颈问题,以确保数据在服 务器之间能够快速、高效地传输。还需要正确配置和优化计算服务器上的硬件, 考虑和设计合适的网络拓扑,以最大程度地提高互联带宽的利用效率。在通信领 域应用GPT 大模型时,对算力的需求和对数据中心网络的稳定性要求同样较高。 为了提升通信数据集的获取效率,往往需要在预训练过程中采用更大带宽传输海量数据,这提高了硬件设备的性能门槛。分布式训练需要在多台主机之间同步大量参数、梯度和中间变量,对于大模 型来说,单次同步参数通常在十亿量级,因此对高带宽网络有很高的需求。在分 布式计算环境中,不同计算机之间需要频繁地进行数据交换和通信。因此,网络 性能的优劣会直接影响分布式训练的质量和速度。如果网络吞吐量不够大,数据传输就会成为瓶颈,从而限制分布式训练的效率。

因此,网络性能对分布式训练的质量和速度有着重要的影响。必须要采取相 应措施来提高服务器之间的互联带宽,同时优化网络的负载均衡,以保障整个计算集群的效率最大化。

5. 大模型相关法律法规滞后,安全隐私与道德伦理风险高

随着AI 技术的飞速进步和大模型的普及,信息化世界的各个方面都在迅速演变,但与此同时,网络安全和隐私泄露的风险也在不断上升。在这个数字化时 代,确保网络安全和保护个人隐私已经成为极其紧迫的任务,我们需要深入理解 风险,并采取适当的措施,以确保数据安全、内容安全、社会安全乃至国家安全。 此外,迈入现实的AI 技术也同时落入了纷繁复杂的人类社会,它不仅是技术工 具,也将作为一个社会对象影响着使用者,其训练数据中也不可避免地包含一些 人类社会偏见。如何正确合理地使用大模型,怎样科学地看待、解决大模型在社 会维度上的价值观与道德伦理问题,如何结合技术手段和治理体系,合理地对安全隐患和隐私泄露风险进行控制,是摆在全人类面前的重要课题。

ChatGPT 等大模型发布后,AI 技术所带来的风险也日益凸显,攻击者可能 利用各种手段,对大模型训练数据或输入数据进行篡改、污染或窃取。且现有大 模型数据来源于人类社会,其决策很可能隐含着道德偏见。然而,相关法律法规 的制定却不可避免地滞后于大模型技术的快速发展,这很可能会导致安全隐私与道德伦理风险显著升高。 例如,当前以ChatGPT 为代表的聊天机器人在“创作”过程中大量学习和使用语料库中他人作品的内容,可能导致“智能洗稿”,原作者的权益应当如何保护也是非常值得关注的问题。在教育领域,ChatGPT 也带来了相关的学术伦理挑战。学生可能会利用ChatGPT 制作本不属于其自身的作品,导致抄袭、剽窃等“学术不端”的行为出现,进而影响教育和学术生态。在此情况下,2023年1 月27 日,《科学》杂志就曾发表评论文章,明确拒绝了ChatGPT 的作者署名权。 此外,清华大学助理教授于洋曾带领团队对ChatGPT 的前身GPT-2 进行相关测 试,发现GPT-2 存在70.59%的概率将教师预测为男性,60.03%的概率将医生预 测为男性,但总把厨房里的人识别为女性,这表明它会“重男轻女,爱白欺黑(种族歧视)”。

研究人员还发现,预训练模型容易受到对抗性样本的影响,原始输入的微小 干扰可能会误导预训练模型产生特定的错误预测[62]。同时,可以通过查询域名来 恢复数据样本,这可能会导致隐私泄露,训练数据集和参数量较大的模型更容易受到攻击[63]。 因此,各国家和地区普遍高度重视研究与治理AIGC 带来的安全性问题,并 对其带来的风险与挑战进行系统分析。然而,尽管各国家和地区已竞相监管人工 智能,努力填补法律空缺,相关政策的发布相对于大模型技术的发展仍较为缓慢。 如果缺乏及时的立法约束,可能会让一些不法分子钻法律的漏洞,做出利用大模 型窃取数据和隐私等行为,危害社会安全。为此,应重视大模型的研发与相应配 套的监管协同发展,全球各国家和地区也需加强治理框架之间的互操作性,深化共同合作,从而找到适合整个国际社会的人工智能治理机制。通信行业的数据较为复杂且不少需要保密,其中工业和信息化领域数据包括 工业数据、电信数据和无线电数据等,这些数据专业化程度高,体量庞大而多样,且质量不一致,给数据保护带来一定的困难。

例如,2023 年4 月,三星员工就曾在使用ChatGPT 处理工作时,无意间泄露了公司的绝密数据。不过三星的这些商业机密还只流传到OpenAI 公司内部 61 / 81 服 务器,没有进一步扩散,因此还没有造成严重的影响。但是在竞争激烈的半导体 行业,任何形式的数据泄露都可能给厂商带来灾难性打击。此外,作为通信运营 商,对于用户使用GPT 的通信行为也有义务进行保密,否则有可能造成用户住 址、工作单位和个人习惯等隐私信息泄露,如果被不法分子加以利用,进行诈骗或者威胁,很可能造成严重的后果,甚至危害人身安全。因此,针对GPT 使用过程中的安全隐私与道德伦理风险,设立相关法律法 规具有重要的意义,且需要提前进行风险预判,加快政策的制定速度,才能保障用户在使用过程中同时获得便利性和安全性。

参考报告

10.0A GPT与通信.pdf

10.0AGPT与通信。在大数据、云计算等关键技术的共同推动下,以ChatGPT为代表的GPT大模型大量涌现,展现出了极富创造力的内容生成能力,提供了高度智能化的人机交互体验。一直以来,在通信方面存在许多传统方法难以精确建模或高效求解的技术难题,而GPT展示出的潜力能够改进信息通信的服务,提升自智网络的性能。此外,GPT的快速发展和广泛应用,也需要大带宽低时延高可靠的通信网络来支撑。因此,本白皮书从通信从业者的角度,探讨了GPT与通信的相互关系。具体来说,首先,第1章阐述了GPT大模型的概念、发展历程和研究现状。其次,第2章探讨了GPT赋能通信行业的崭新应用,以及在网络智能自治中的定位。再次,...

查看详情
相关报告
我来回答