网络内容过滤在安全中的重要性
关键要点
- 网络内容过滤在确保合规和工作场所安全方面发挥着重要作用,尽管它不如恶意软件保护和漏洞检测中心。
- 与恶意内容的安全分类不同,网络过滤基于内容的性质对网站进行标记。
- Sophos X-Ops 使用大型语言模型(LLM)改进内容过滤,从而处理“长尾”网站。
- 通过知识蒸馏的方法,SophosAI团队成功训练出更小的模型,以实时分类未见过的网站。
尽管网络内容过滤在安全性方面看起来没有恶意软件保护和漏洞检测那么关键,但它在确保合规性和工作场所安全、以及网络安全方面却扮演着重要角色。网络过滤不同于对网址的安全分类,后者专注于检测恶意内容如恶意软件或网络钓鱼,它不仅依据攻击机制,还依据内容的性质来标记内容,这比检查URL后面内容的恶意模式要复杂得多。
网站分类标签
网站类别标签通常描述网站的内容或目的。一些类别是宽泛的,如“商业”、“计算机和互联网”、“食品与餐饮”和“娱乐”。另一些则侧重于意图,如“银行业务”、“购物”、“搜索引擎”、“社交媒体”、“求职”和“教育”。还有一些类别可能包含令人担忧的内容例如“色情内容”、“酒精”、“大麻”和“武器”。组织可能希望为其网络访问的不同网站设置不同的过滤或测量政策。
LLM在网络过滤中的应用
SophosX-Ops正在研究如何将大型语言模型(LLM)应用于网络过滤,以帮助捕捉“长尾”网站——即那些访客相对较少且对人工分析师几乎没有可见性的数百万个域名。由于LLMs本身的规模和计算资源成本,直接应用这些模型并不实际,但它们可以作为“教师”模型,训练更小的模型以进行分类,从而减少实时生成新域标签所需的计算资源。
SophosAI团队利用OpenAI的GPT-3和谷歌的T5Large等大型语言模型训练出相对较小的模型,以实时分类未曾筛查过的URL。最重要的是,这种方法能够基于LLM的输出创建小型经济可部署的模型,以便执行其他安全任务。
该团队的研究刊登在最近发表的论文中,探讨了LLM如何增强现有的人类驱动网站分类,以及构建可用于实时标记未见过URL的系统。
“长尾”问题
网站的分类主要依赖于基于规则的域名到类别的映射,分析师编写的签名用于快速为新域名分配标签。此类映射对快速标记著名网站的URL和防止阻止重要内容的错误标记至关重要。人工识别网站分类模式的工作被折叠回域名映射工具的功能集中。
挑战在于“长尾”网站——这些较少访问的域名通常未被分配签名。随着成千上万的新网站的每日出现,维护和扩展基于签名的方法已变得愈加具有挑战性。著名、高流量网站在大多数标记方案中几乎获得100%的覆盖率,而不太被访问的网站标签比例则开始迅速下降。
有一种解决方案是通过应用机器学习来处理先前未标记的域名。然而到目前为止,大多数机器学习的努力(如微软的)集中在检测安全威胁,而非通过内容对网站进行分类。
使用AI自动化
这就是LLM发挥作用的地方。由于它们经过大量未标记文本的预训练,SophosAI团队相信LLM可以更准确地执行URL标签,且初始数据量需求大大减少。当对带有域名传播签名的数据进行微调时,SophosAI团队发现LLM在处理“长尾”分类问题上有着9%的准确率优势,并