网络安全数据中心：实时威胁检测和响应的命脉 (网络安全数据集)

文章编号：24694 / 分类：互联网资讯 / 更新时间：2024-06-17 03:46:52 / 浏览：次

在当今日益复杂且相互关联的网络世界中，网络安全数据中心（SOC）已成为实时威胁检测和响应的命脉。SOC 是一个集中的设施，由专家和技术组成，全天候监控、分析和响应组织的安全事件。

SOC 的作用和功能

SOC 担任以下关键作用：

实时威胁监测：SOC 监控网络、系统和应用程序以检测异常活动或威胁。
事件分析：SOC 分析警报以确定它们的严重性、范围和潜在影响。
遏制和响应：SOC 采取行动遏制威胁、减轻攻击影响并防止进一步破坏。
威胁情报收集和共享：SOC 收集和共享威胁情报，以提高对当前和新出现的威胁的认识。
事件记录和报告：SOC 记录安全事件并生成报告，以供审查并采取后续行动。

SOC 的关键技术

SOC 部署了各种技术和工具来实现其功能，包括：

安全信息和事件管理 (SIEM)：SIEM 系统收集和汇总来自多个来源的安全数据，以便进行实时监控。
入侵检测系统/入侵防护系统 (IDS/IPS)：IDS/IPS 检测和阻止未经授权的网络访问和恶意活动。
防火墙：防火墙限制入站和出站流量，以保护网络免受外部威胁。
端点检测和响应 (EDR)：EDR 工具监控和保护端点设备（例如笔记本电脑和服务器）免受恶意软件和其他威胁。
威胁情报平台：威胁情报平台提供有关当前和新出现的威胁的信息，有助于 SOC 提高态势感知。

SOC 团队

一个有效的 SOC 团队由以下人员组成：

安全分析师：安全分析师监控警报、分析事件并采取适当的行动。
威胁情报分析师：威胁情报分析师收集和分析威胁情报，以提高对安全威胁的认识。
事件响应者：事件响应者负责遏制和响应安全事件，以减轻影响和防止进一步损害。
取证调查员：取证调查员调查安全事件以确定其根源和影响。
管理者：管理者负责 SOC 的整体运营和绩效。

SOC 的最佳实践

为了确保 SOC 的有效性，建议采用以下最佳实践：

持续监控：SOC 应全天候监控网络和系统以检测威胁。
威胁情报集成：SOC 应集成威胁情报以提高态势感知和响应能力。
团队合作和通信：SOC 团队应密切合作并有效沟通以快速响应安全事件。
自动化：SOC 应自动化任务，例如警报监控和响应，以提高效率。
定期演练和评估：SOC 应定期进行演练和评估以测试其响应能力和提高绩效。

结论

网络安全数据中心对于保护组织免受不断演变的网络威胁至关重要。通过提供实时威胁检测、事件响应和威胁情报，SOC 使组织能够主动检测和应对安全事件，从而减少风险并保护其关键资产。

网络威胁检测和防护包括哪些

网络威胁检测和防护包括网络防火墙、入侵检测系统（IDS）、入侵防御系统（IPS）、数据加密、人员管理。

1、网络防火墙：防御外部攻击的第一道防线，能够监控网络入口流量，过滤恶意流量和危险请求。同时，防火墙也能够通过设置相应的规则，管理内网流量和对外访问。

2、入侵检测系统（IDS）：可以监控网络流量，根据已知攻击模式进行检测，对于未知的攻击行为也会进行警报。通过及时的响应可以减小攻击的威胁。

3、入侵防御系统（IPS）：指自动防御系统，它能够在检测到威胁之后主动进行防御，阻止威胁进行下去，从而最大程度地保障网络和数据的安全。

4、数据加密：一旦数据被窃取或篡改，就会造成极大的危害。数据加密可以有效地保证数据的安全，使窃取或篡改的数据无法被窃取或篡改。

5、人员管理：在防御网络威胁的同时，加强对用户和员工的管理也同样重要。设置完善的账户权限、密码策略、访问控制等，可以降低内部人员带来的风险。

最全网络安全框架及模型介绍

在信息时代的网络安全战场上，一套完整的框架犹如指南针，引领我们抵御风险。让我们一起探索这些强大的网络安全模型，它们犹如坚固的防线，确保我们的网络世界安然无恙。

1. PDR与进化：主动防御到动态螺旋

PDR模型，最初以主动防御为基石，提倡保护、检测和响应。然而，随着威胁的演变，P2DR模型加入了策略制定和防护，PDRR则扩展了恢复环节，而PDR2A更进一步，加入了审计功能。而APPDRR模型，就像网络安全的动态螺旋，它涵盖了风险评估、策略调整，以及实时的防护、检测和响应，直至灾难恢复。

2. 策略与实施：深度防御到教育引导

从PADIMEE模型的策略-评估-设计-实施-管理-紧急响应-教育，我们可以看到，安全策略的核心地位被突出，同时强调了教育和应对突发情况的重要性。WPDRRC模型则在保护的基础上，加入了预警、反击，关注人员、策略和技术的融合，形成全面的防御体系。

3. 自适应与前瞻：预测与分析的循环

自适应安全架构ASA3.0，以预测、防御、检测和响应为循环，持续优化安全机制，预示着未来网络安全的动态应对趋势。而IATF的深度防御理念，通过人、技术、操作和焦点领域的整合，为我们提供了一个全面的信息保障框架。

4. 分层与细致：多维度防护

从分层防护模型的OSI七层细分，到SSE-CMM模型的系统安全工程能力，每一步都旨在构建多层次、全方位的防护。数据安全能力成熟度模型和软件安全能力成熟度模型，分别关注组织、技术和人员能力的提升。

5. 严格与灵活：访问控制与数据保护

BLP和BiBa模型分别关注信息的访问控制，前者防止信息向上扩散，后者保护信息完整性和保密性。而ISAS模型则全面考量风险策略、动态发展和全程保障，为信息系统的安全保驾护航。

6. 持续进步：评估与框架

从SANS的网络安全滑动标尺模型，到数据安全治理框架和5A方法论，等级保护标准和渗透测试框架，每个环节都不可或缺。ATT&CK框架和钻石模型提供了深入理解攻击行为的视角，而零信任模型的始终验证原则，为网络安全设立了新的标准。

总结，网络安全的战斗并非一成不变，而是需要我们不断学习、适应和进化。通过这些模型，我们可以构建出一个动态、全面且灵活的防御体系，确保企业在网络世界的安全航行。欲了解更多深度探讨，关注“兰花豆说网络安全”公众号，让我们一起揭开网络安全的神秘面纱。

网络安全中edr是什么意思

本教程操作环境：windows7系统、Dell G3电脑。端点检测与响应(Endpoint Detection & Response，EDR)是一种主动式端点安全解决方案，通过记录终端与网络事件，将这些信息本地化存储在端点或者集中在数据库。 EDR 会集合已知的攻击指示器、行为分析的数据库来连续搜索数据和机器学习技术来监测任何可能的安全威胁，并对这些安全威胁做出快速响应。还有助于快速调查攻击范围，并提供响应能力。能力预测：risk assessment（风险评估）；anticipate threats（预测威胁）；baseline security posture（基线安全态势）。防护：harden systems（强化系统）；isolate system（隔离系统）；prevent attacks（防止攻击）。检测：detect incidents（检测事件）；confirm and prioritize risk（确认风险并确定优先顺序）。 contain incidents（包含事件）。响应：remediate（补救）；design policy change（设计规则变更）；investigate incidents（调查事件）。安全模型相比于传端点安全防护采用预设安全策略的静态防御技术，EDR 加强了威胁检测和响应取证能力，能够快速检测、识别、监控和处理端点事件，从而在威胁尚未造成危害前进行检测和阻止，帮助受保护网络免受零日威胁和各种新出现的威胁。安全模型如图所示： 1、资产发现定期通过主动扫描、被动发现、手工录入和人工排查等多种方法收集当前网络中所有软硬件资产，包括全网所有的端点资产和在用的软件名称、版本，确保整个网络中没有安全盲点。 2、系统加固需要定期进行漏洞扫描，打补丁、对安全策略进行更新和进一步细化，通过白名单现在未授权的软件进行运行，通过防火墙限制为授权就开启服务器端口和服务，最好能定期检查和修改清理内部人员的账号和密码还有授权信息。 3、威胁检测通过端点本地的主机入侵检测进行异常行为分析，针对各类安全威胁，在其发生之前、发生中、和发生后作出相应的防护和检测行为。 4、响应取证针对全网的安全威胁进行可视化展示，对威胁自动化地进行隔离、修复和抢救，降低事件响应和取证的门槛，这样就不需要依赖于外部专家就可以完成应急响应和取证分析。功能调查安全事件；将端点修复为预感染状态；检测安全事件；包含终端事件；工作原理一旦安装了 EDR 技术，马上 EDR 就会使用先进的算法分析系统上单个用户的行为，并记住和连接他们的活动。感知系统中的某个或者特定用户的异常行为，数据会被过滤，防止出现恶意行为的迹象，这些迹象会触发警报然后我们就去确定攻击的真假。如果检测到恶意活动，算法将跟踪攻击路径并将其构建回入口点。（关联跟踪）然后，该技术将所有数据点合并到称为恶意操作 (MalOps) 的窄类别中，使分析人员更容易查看。在发生真正的攻击事件时，客户会得到通知，并得到可采取行动的响应步骤和建议，以便进行进一步调查和高级取证。如果是误报，则警报关闭，只增加调查记录，不会通知客户体系框架 EDR 的核心在于：一方面，利用已有的黑名单和基于病毒特征的端点静态防御技术来阻止已知威胁。另一方面，通过云端威胁情报、机器学习、异常行为分析、攻击指示器等方式，主动发现来自外部或内部的各类安全威胁。同时，基于端点的背景数据、恶意软件行为以及整体的高级威胁的生命周期的角度进行全面的检测和响应，并进行自动化阻止、取证、补救和溯源，从而有效地对端点进行安全防护。 EDR 包括：端点、端点检测与响应中心、可视化展现三个部分，体系框架如图所示：端点：在 EDR 中，端点只具备信息上报、安全加固、行为监控、活动文件监控、快速响应和安全取证等基本功能，负责向端点检测与响应中心上报端点的运行信息，同时执行下发的安全策略和响应、取证指令等。端点检测与响应中心：由资产发现、安全加固、威胁检测、响应取证等中心组成。可视化：展现针对各类端点安全威胁提供实时的可视性、可控性，降低发现和处置安全威胁的复杂度，辅助用户更加快速、智能地应对安全威胁。检测威胁类型恶意软件 (犯罪软件、勒索软件等) 无文件型攻击滥用合法应用程序可疑的用户活动和行为要素类型和收集类型 EDR 是独一无二的，因为它的算法不仅可以检测和打击威胁，还可以简化警报和攻击数据的管理。使用行为分析来实时分析用户活动，可以在不干扰端点的情况下立即检测潜在威胁。它通过将攻击数据合并到可以分析的事件中，与防病毒和其他工具一起使用可以为你提供一个安全的网络，从而增强了取证分析的能力。端点检测和响应通过安装在端点上的传感器运行而不需要重新启动。所有这些数据被拼接在一起，形成了一个完整的端点活动图，无论设备位于何处。主要技术智能沙箱技术针对可疑代码进行动态行为分析的关键技术，通过模拟各类虚拟资源，创建严格受控和高度隔离的程序运行环境，运行并提取可疑代码运行过程中的行为信息，实现对未知恶意代码的快速识别。机器学习技术是一门多学科交叉知识，是人工智能领域的核心，专门研究计算机如何模拟实现人类的学习行为，通过获取新的技能知识重组已有的知识体系，并不断完善自身性能。在大规模数掘处理中，可以自动分析获得规律，然后利用这些规律预测未知的数据。数字取证技术数字取证是指对具有足够可靠和有说服力的，存在于计算机、网络、电子设备等数字设备中的数字证据，进行确认、保护、提取和归档的过程。在 EDR 中，数字取证要克服云计算环境取证、智能终端取证、大数据取证等关键技术，自动定位和采集端点人侵电子证据，降低取证分析的技术门槛，提高取证效率及其分析结果的准确性，为端点安全事件调查、打击网络犯罪提供技术支持。 EDR 优缺点优点 EDR 具有精准识别攻击的先天优势。端点是攻防对抗的主战场，通过 EDR 在端点上实施防御能够更加全面地搜集安全数据，精准地识别安全威胁，准确判定安全攻击是否成功，准确还原安全事件发生过程。 EDR 完整覆盖端点安全防御全生命周期。对于各类安全威胁事件，EDR 在其发生前、发生中、发生后均能够进行相应的安全检测和响应动作。安全事件发生前，实时主动采集端安全数据和针对性地进行安全加固；安全事件发生时，通过异常行为检测、智能沙箱分析等各类安全引擎，主动发现和阻止安全威胁；安全事件发生后，通过端点数据追踪溯源。 EDR 能够兼容各类网络架构。 EDR 能够广泛适应传统计算机网络、云计算、边缘计算等各类网络架构，能够适用于各种类型的端点，且不受网络和数据加密的影响。 EDR 辅助管理员智能化应对安全威胁。 EDR 对安全威胁的发现、隔离、修复、补救、调查、分析和取证等一系列工作均可自动化完成，大大降低了发现和处置安全威胁的复杂度，能够辅助用户更加快速、智能地应对安全威胁。缺点 EDR 的局限性在于并不能完全取代现有的端点安全防御技术。 EDR 与防病毒、主机防火墙、主机入侵检测、补丁加固、外设管控、软件白名单等传统端点安全防御技术属于互补关系，并不是取代关系。技术前提要想使用或者更好的的理解 EDR 就需要对一些知识有了解，这样才能更好地的使用和理解 EDR 的原理和使用方法。熟悉 Linux 环境，python 或 shell，Java；熟悉 hadoop，spark 等大数据组件；熟悉数据挖掘与分析（比如进行风险等级划分），数据统计技术（比如一些置信度的计算），机器学习技术（分类检测等），深度学习技术，大数据分析技术（主要是关联分析），漏斗分析法等。熟悉 mysql 或 nosql 数据库，集中存储的数据库，分布式存储的数据库。

建立网络安全信息架构应该提升哪些能力

建立网络安全信息架构应该提升哪些能力如下：

建立网络安全信息架构需要提升以下几个关键能力：

信息收集与分析能力：网络安全信息架构的基础在于收集和分析各种网络安全相关的信息。这包括网络流量数据、系统日志、应用程序日志、安全事件日志等。因此，提升信息收集与分析能力是建立网络安全信息架构的首要任务。

数据处理能力：收集到的网络安全信息需要进行处理和分析，以便提取出有价值的信息。这包括数据清洗、数据分类、数据挖掘、数据分析等。因此，提升数据处理能力是建立网络安全信息架构的重要一环。

威胁检测与响应能力：网络安全信息架构的主要目标之一是检测并响应网络安全威胁。因此，提升威胁检测与响应能力是建立网络安全信息架构的核心任务。这需要通过对收集到的网络安全信息进行深入分析，及时发现并应对各种威胁。

事件处理与报告能力：网络安全事件发生后，需要具备高效的事件处理与报告能力。这包括事件响应、事件追踪、事件分析、事件报告等。因此，提升事件处理与报告能力是建立网络安全信息架构的重要因素之一。

培训与教育能力：网络安全是一个不断发展的领域，需要不断提升人员的技能和知识。因此，提升培训与教育能力是建立网络安全信息架构的长远之计。这包括培训计划制定、培训课程开设、培训教材编写、培训效果评估等。

总之，建立网络安全信息架构需要不断提升信息收集与分析能力、数据处理能力、威胁检测与响应能力、事件处理与报告能力和培训与教育能力等多个方面的能力，以适应日益复杂的网络安全威胁环境。

edr的好处有

EDR（威胁检测与响应）是一种网络安全技术，用于检测和应对高级威胁和攻击。EDR的好处有威胁检测、威胁响应、事件分析等。

1、威胁检测

EDR能够实时监测并检测系统内的异常活动和威胁行为，包括恶意软件、未知的攻击和异常网络行为。它可以追踪和分析恶意代码、网络连接和系统进程，并及时发现和阻止威胁。

2、威胁响应

EDR可以自动或手动采取必要的响应措施来应对检测到的威胁。它可以隔离受感染的设备、禁用恶意软件、阻止恶意网络连接等。这有助于尽快中止攻击、减少损失。

3、事件分析

EDR能够记录和收集系统事件和数据，并进行详细的分析。通过分析这些数据，可以发现隐藏的攻击模式、漏洞和威胁情报，从而提高对未来攻击的防御水平。

EDR（威胁检测与响应）技术的优势介绍：

1、高级威胁检测：EDR可以检测并应对高级威胁，包括零日漏洞、高级持续性威胁（APT）和内部威胁。它使用先进的行为分析和机器学习技术，能够识别未知的攻击模式和恶意行为，从而提高网络安全的水平。

2、事件分析和应急响应：EDR能够记录和收集系统事件和数据，并进行详细的分析。通过分析这些数据，安全团队可以获得更多洞察和情报，快速识别和响应威胁。此外，EDR还提供了应急响应功能，可以帮助团队更好地组织和协调对威胁事件的应对。

3、威胁狩猎和逆向工程：EDR可以进行威胁狩猎，搜索并追踪潜在的威胁，包括已知的和未知的攻击行为。这有助于发现和阻止攻击，提前发现攻击者的策略和目标，并采取相应的防御措施。此外，EDR还可以对攻击活动进行逆向工程分析，为安全团队提供更多的情报和洞察。

国家网络与信息安全信息通报中心(保障网络与信息安全，促进数字化发展)

国家网络与信息安全信息通报中心：保障网络与信息安全，促进数字化发展

随着数字化时代的到来，网络和信息安全已经成为了现代社会的重要组成部分。为了保障国家的网络与信息安全，促进数字化发展，国家网络与信息安全信息通报中心应运而生。本文将介绍国家网络与信息安全信息通报中心的相关信息，并提供操作步骤，以便更好地了解和使用该中心。

一、国家网络与信息安全信息通报中心的概述

国家网络与信息安全信息通报中心是由国家互联网信息办公室主管，中国互联网协会承办的国家级信息安全技术支持平台。该中心主要负责收集、分析和发布国内外网络与信息安全事件信息，提供安全风险评估和安全咨询服务，开展网络与信息安全技术研究和标准制定，以及组织网络与信息安全应急响应等工作。

二、国家网络与信息安全信息通报中心的作用

国家网络与信息安全信息通报中心的作用主要有以下几个方面：

1.收集、分析和发布网络与信息安全事件信息

该中心通过网络和其他渠道收集国内外网络与信息安全事件信息，并进行分析和评估，及时发布相关信息，提高公众的安全意识和应对能力。

2.提供安全风险评估和安全咨询服务

该中心为政府、企业和个人提供安全风险评估和安全咨询服务，帮助他们识别和防范网络与信息安全风险，提高安全防护水平。

3.开展网络与信息安全技术研究和标准制定

该中心开展网络与信息安全技术研究和标准制定，推动网络与信息安全技术的发展和应用，提高我国网络与信息安全的自主可控能力。

4.组织网络与信息安全应急响应

该中心组织网络与信息安全应急响应，对网络与信息安全事件进行处置和应急响应，保障国家的网络与信息安全。

三、国家网络与信息安全信息通报中心的操作步骤

1.访问国家网络与信息安全信息通报中心的官方网站。

2.在首页上可以看到最新的安全事件信息，如有需要，可以点击“详情”了解更多信息。

3.点击“安全通报”可以查看历史安全事件信息。

4.点击“安全咨询”可以进行安全咨询，填写相关信息后提交即可。

5.点击“安全评估”可以进行安全风险评估，填写相关信息后提交即可。

6.点击“技术研究”可以了解最新的网络与信息安全技术研究成果。

7.点击“标准制定”可以了解最新的网络与信息安全标准制定情况。

8.点击“应急响应”可以了解最新的网络与信息安全应急响应情况。

基于网络的入侵检测系统的几种？常用开源NIDS，让我们来了解一下

在数字化时代，网络入侵检测系统（NIDS）作为守护网络安全的前线卫士，其重要性不言而喻。让我们一起走进这个复杂的网络世界，深入了解一下几种备受推崇的开源NIDS解决方案。

1、Snort，网络安全的守护神

Snort以其轻量级的特性，通过强大的规则集，能够实时捕捉并分析网络数据包，发现那些违背安全策略的异常行为，就像网络版的病毒扫描器，为我们揭示潜在的威胁。

2、Suricata，多功能安全卫士

Suricata的四合一功能使其脱颖而出：实时入侵检测（IDS）、内联入侵预防（IPS）、网络安全监控（NSM）和离线数据包处理。通过特征语言的强大过滤能力，Suricata可以无缝集成到安全生态链，确保信息的实时监控与快速响应。

3、蜜罐，隐藏的网络安全勇士

蜜罐技术通过模拟真实服务器，引诱攻击者上钩，让其误入“陷阱”。这种方式在保护实际服务器免受攻击的同时，为我们提供了一手的入侵者行为数据。

4、OSSEC HIDS，多平台的深度分析者

OSSEC HIDS作为一款跨平台的网络威胁检测引擎，擅长对Web服务器和防火墙进行深度分析，为企业和学术环境提供强大而全面的网络威胁防护。

5、SGUIL，专为分析师打造的实时响应者

SGUIL凭借其对会话数据、实时事件和原始数据包的深度洞察，为网络安全分析师提供了一个实时监控和响应的高效工具，支持多种操作系统，适应性强。

随着网络技术的飞速发展，网络入侵检测系统已经从单一功能走向集成化，防火墙和NIDS的结合已成为企业应对安全挑战的主流策略。例如，锐捷的RG-IDP系列，如RG-IDP 1000E和2500E，作为大中型局域网的理想选择，它们深度内容检测与安全防护功能强大，为网络世界筑起了一道坚固的防线。

网络安全态势感知平台总体功能除了平台安全功能及平台接口,还有哪些？

网络安全态势感知平台是一个用于实时监控、分析和预警网络安全威胁的综合性系统。除了平台安全功能和平台接口，网络安全态势感知平台还包括以下总体功能：

这些功能共同支持网络安全态势感知平台的有效运行，帮助企业及时发现并应对网络安全威胁。

基于网络的入侵检测数据集研究

摘要：标记数据集是训练和评估基于异常的网络入侵检测系统所必需的。本文对基于网络的入侵检测数据集进行了重点的文献综述，并对基于包和流的底层网络数据进行了详细的描述。本文确定了15种不同的属性来评估单个数据集对特定评估场景的适用性。这些属性涵盖了广泛的标准，并被分为五类，例如用于提供结构化搜索的数据量或记录环境。在此基础上，对现有数据集进行了全面的综述。本综述还强调了每个数据集的特性。此外，本工作还简要介绍了基于网络的数据的其他来源，如流量生成器和数据存储库。最后，我们讨论了我们的观察结果，并为使用和创建基于网络的数据集提供了一些建议。一、引言信息技术安全是一个重要的问题，入侵和内部威胁检测的研究已经投入了大量的精力。在处理与安全相关的数据[1]-[4]、检测僵尸网络[5]-[8]、端口扫描[9]-[12]、蛮力攻击[13]-[16]等方面已经发表了许多贡献。所有这些工作的共同点是，它们都需要具有代表性的基于网络的数据集。此外，基准数据集是评价和比较不同网络入侵检测系统(NIDS)质量的良好基础。给定一个带标签的数据集，其中每个数据点都被分配给类normal或attack，可以使用检测到的攻击数量或虚警数量作为评估标准。不幸的是，没有太多具有代表性的数据集。 Sommer和Paxson[17](2010)认为，缺乏具有代表性的公共可用数据集是基于异常的入侵检测面临的最大挑战之一。 Malowidzki等人(2015)和Haider等人(2017)也发表了类似的声明。然而，社区正在解决这个问题，因为在过去几年中已经发布了几个入侵检测数据集。其中，澳大利亚网络安全中心发布了UNSW-NB15[20]数据集，科堡大学发布了CIDDS-001[21]数据集，新布伦瑞克大学发布了CICIDS 2017[22]数据集。未来还会有更多数据集发布。然而，现有数据集没有全面的索引，很难跟踪最新的发展。本文对现有的基于网络的入侵检测数据集进行了文献综述。首先，对底层数据进行更详细的研究。基于网络的数据以基于包或基于流的格式出现。基于流的数据只包含关于网络连接的元信息，而基于包的数据也包含有效负载。然后，对文献中常用的评价网络数据集质量的不同数据集属性进行了分析和分组。本调查的主要贡献是对基于网络的数据集进行了详尽的文献综述，并分析了哪些数据集满足哪些数据集属性。本文重点研究了数据集内的攻击场景，并强调了数据集之间的关系。此外，除了典型的数据集之外，我们还简要介绍了流量生成器和数据存储库作为网络流量的进一步来源，并提供了一些观察和建议。作为主要的好处，本调查建立了一组数据集属性，作为比较可用数据集和确定合适数据集的基础，给出了特定的评估场景。此外，我们创建了一个网站1，其中引用了所有提到的数据集和数据存储库，我们打算更新这个网站。本文的其余部分组织如下。下一节将讨论相关工作。第三部分详细分析了基于包和流的网络数据。第四部分讨论了文献中常用来评价入侵检测数据集质量的典型数据集属性。第五节概述了现有的数据集，并根据第四节确定的属性检查每个数据集。第六节简要介绍了基于网络的数据的进一步来源。在本文件以摘要结束之前，第七节讨论了意见和建议。二、相关工作本节回顾基于网络的入侵检测数据集的相关工作。需要注意的是，本文没有考虑基于主机的入侵检测数据集，比如ADFA[23]。读者可以在Glass-Vanderlan等人的[24]中找到关于基于主机的入侵检测数据的详细信息。 Malowidzki等人[18]将缺失的数据集作为入侵检测的一个重要问题进行了讨论，对好的数据集提出了要求，并列出了可用的数据集。 Koch等人的[25]提供了入侵检测数据集的另一个概述，分析了13个数据源，并根据8个数据集属性对它们进行了评估。 Nehinbe[26]为IDS和入侵防御系统(IPS)提供了关键的数据集评估。作者研究了来自不同来源的七个数据集(如DARPA数据集和DEFCON数据集)，强调了它们的局限性，并提出了创建更真实数据集的方法。由于在过去的四年中发布了许多数据集，我们延续了2011年到2015年[18]，[25]，[26]的工作，但提供了比我们的前辈更最新和更详细的概述。虽然许多数据集论文(如CIDDS-002[27]、ISCX[28]或UGR 16[29])只对一些入侵检测数据集做了一个简要的概述，但Sharafaldin等人对[30]提供了更详尽的综述。他们的主要贡献是一个生成入侵检测数据集的新框架。 Sharafaldin等人还分析了11个可用的入侵检测数据集，并根据11个数据集属性对其进行了评估。与早期的数据集论文相比，我们的工作重点是对现有的基于网络的数据集提供一个中立的概述，而不是提供一个额外的数据集。最近的其他论文也涉及到基于网络的数据集，但主要关注的焦点有所不同。 Bhuyan等人对网络异常检测进行了全面的综述。作者描述了现有的9个数据集，并分析了现有异常检测方法所使用的数据集。类似地，Nisioti等人的[32]关注于用于入侵检测的无监督方法，并简要参考了现有的12个基于网络的数据集。 Yavanoglu和Aydos[33]分析比较了最常用的入侵检测数据集。然而，他们的审查只包含七个数据集，包括其他数据集，如HTTP CSIC 2010[34]。总而言之，这些作品往往有不同的研究目标，而且只是接触对于基于网络的数据集，则略有不同。三、数据通常，网络流量以基于包或基于流的格式捕获。在包级捕获网络流量通常是通过镜像网络设备上的端口来完成的。基于包的数据包含完整的有效载荷信息。基于流的数据更加聚合，通常只包含来自网络连接的元数据。 Wheelus等人通过一个说明性的比较强调了这一区别:“捕获包检查和NetFlow之间的一个很好的区别示例是徒步穿越森林，而不是乘坐热气球飞越森林”[35]。在这项工作中，引入了第三类(其他数据)。另一个类别没有标准格式，并且因每个数据集而异。 A基于分组的数据基于包的数据通常以pcap格式捕获，并包含有效负载。可用的元数据取决于使用的网络和传输协议。有许多不同的协议，其中最重要的是TCP、UDP、ICMP和IP。图1显示出了不同的报头。 TCP是一种可靠的传输协议，它包含诸如序列号、确认号、TCP标志或校验和值之类的元数据。 UDP是一种无连接的传输协议，它的头比TCP小，TCP只包含四个字段，即源端口、目标端口、长度和校验和。与TCP和UDP相比，ICMP是一个包含状态消息的支持协议，因此更小。通常，在报头旁边还有一个可用的IP报头传输协议的。 IP报头提供源和目标IP地址等信息，如图1所示。 b .流为基础数据基于流的网络数据是一种更简洁的格式，主要包含关于网络连接的元信息。基于流的数据将所有在时间窗口内共享某些属性的包聚合到一个流中，通常不包含任何有效负载。默认的五元组定义，即，源IP地址、源端口、目标IP地址、目标端口和传输协议[37]，是一种广泛使用的基于流的数据属性匹配标准。流可以以单向或双向格式出现。单向格式将主机A到主机B之间共享上述属性的所有包聚合到一个流中。从主机B到主机A的所有数据包聚合为另一个单向流。相反，一个双向流总结了主机a和主机B之间的所有数据包，不管它们的方向如何。典型的基于流的格式有NetFlow[38]、IPFIX[37]、sFlow[39]和OpenFlow[40]。表I概述了基于流的网络流量中的典型属性。根据特定的流格式和流导出器，可以提取额外的属性，如每秒字节数、每个包的字节数、第一个包的TCP标志，甚至有效负载的计算熵。此外，可以使用nfdump2或YAF3之类的工具将基于包的数据转换为基于流的数据(但不是相反)。读者如果对流导出器之间的差异感兴趣，可以在[41]中找到更多细节，并分析不同的流导出器如何影响僵尸网络分类。 c .其他数据这个类别包括所有既不是纯基于包也不是基于流的数据集。这类的一个例子可能是基于流的数据集，这些数据集已经用来自基于包的数据或基于主机的日志文件的附加信息进行了丰富。 KDD CUP 1999[42]数据集就是这一类别的一个著名代表。每个数据点都有基于网络的属性，比如传输的源字节数或TCP标志的数量，但是也有基于主机的属性，比如失败登录的数量。因此，这个类别的每个数据集都有自己的一组属性。由于每个数据集都必须单独分析，所以我们不对可用属性做任何一般性的说明。四、数据集属性为了能够比较不同的入侵检测数据集，并帮助研究人员为其特定的评估场景找到合适的数据集，有必要将公共属性定义为评估基础。因此，我们研究了文献中用于评估入侵检测数据集的典型数据集属性。一般概念FAIR[43]定义了学术数据应该遵循的四个原则实现，即可查找性、可访问性、互操作性和可重用性。在与这个一般概念相一致的同时，本工作使用更详细的数据集属性来提供基于网络的入侵检测数据集的重点比较。通常，不同的数据集强调不同的数据集属性。例如，UGR 16数据集[29]强调较长的记录时间来捕捉周期效应，而ISCX数据集[28]强调精确的标记。由于我们的目标是研究基于网络的入侵检测数据集的更一般的属性，所以我们试图统一和概括文献中使用的属性，而不是采用所有的属性。例如，一些方法评估特定类型攻击的存在，比如DoS(拒绝服务)或浏览器注入。某些攻击类型的存在可能是评估这些特定攻击类型的检测方法的相关属性，但是对于其他方法没有意义。因此，我们使用一般的属性攻击来描述恶意网络流量的存在(见表三)。第五节提供了关于数据集中不同攻击类型的更多细节，并讨论了其他特定的属性。我们不像Haider et al.[19]或Sharafaldin et al.[30]那样开发评估评分，因为我们不想判断不同数据集属性的重要性。我们认为，某些属性的重要性取决于具体的评估场景，不应该在调查中普遍判断。相反，应该让读者能够找到适合他们需要的数据集。因此，我们将下面讨论的数据集属性分为五类，以支持系统搜索。图2总结了所有数据集属性及其值范围。 A.一般资料以下四个属性反映了关于数据集的一般信息，即创建年份、可用性、正常网络流量和恶意网络流量的存在。 1)创建年份:由于网络流量受概念漂移影响，每天都会出现新的攻击场景，因此入侵检测数据集的年龄起着重要作用。此属性描述创建年份。与数据集发布的年份相比，捕获数据集的底层网络流量的年份与数据集的最新程度更相关。 2)公共可用性:入侵检测数据集应公开可用，作为比较不同入侵检测方法的依据。此外，数据集的质量只能由第三方检查，如果它们是公开可用的。表III包含此属性的三个不同特征:yes, o.r. (on request)和no。 On request是指在向作者或负责人发送消息后授予访问权限。 3)正常用户行为:此属性指示数据集中正常用户行为的可用性，并接受yes或no值。值yes表示数据集中存在正常的用户行为，但它不声明是否存在攻击。一般来说，入侵检测系统的质量主要取决于其攻击检测率和误报率。此外，正常用户行为的存在对于评估IDS是必不可少的。然而，缺少正常的用户行为并不会使数据集不可用，而是表明它必须与其他数据集或真实世界的网络流量合并。这样的合并步骤通常称为覆盖或盐化[44]、[45]。 4)攻击流量:IDS数据集应包含各种攻击场景。此属性指示数据集中是否存在恶意网络通信，如果数据集中至少包含一次攻击，则该属性的值为yes。表四提供了关于特定攻击类型的附加信息。 B.数据的性质此类别的属性描述数据集的格式和元信息的存在。 1)元数据:第三方很难对基于包和基于流的网络流量进行内容相关的解释。因此，数据集应该与元数据一起提供关于网络结构、IP地址、攻击场景等的附加信息。此属性指示附加元数据的存在。 2)格式:网络入侵检测数据集以不同的格式出现。我们大致将它们分为三种格式(参见第三节)。 (1)基于分组的网络流量(例如pcap)包含带负载的网络流量。 (2)基于流的网络流量(如NetFlow)只包含关于网络连接的元信息。 (3)其他类型的数据集可能包含基于流的跟踪，带有来自基于包的数据甚至来自基于主机的日志文件的附加属性。 3)匿名性:由于隐私原因，入侵检测数据集往往不会公开，或者只能以匿名的形式提供。此属性指示数据是否匿名以及哪些属性受到影响。表III中的none值表示没有执行匿名化。值yes (IPs)表示IP地址要么被匿名化，要么从数据集中删除。同样，值yes (payload)表示有效负载信息被匿名化，要么从基于分组的网络流量中删除。 C.数据量此类别中的属性根据容量和持续时间描述数据集。 1) Count:属性Count将数据集的大小描述为包含的包/流/点的数量或物理大小(GB)。 2)持续时间:数据集应涵盖较长时间内的网络流量，以捕捉周期性影响(如白天与夜晚或工作日与周末)[29]。属性持续时间提供每个数据集的记录时间。 D.记录环境此类别中的属性描述捕获数据集的网络环境和条件。 1)流量类型:描述网络流量的三种可能来源:真实的、模拟的或合成的。 Real是指在有效的网络环境中捕获真实的网络流量。仿真的意思是在测试床或仿真网络环境中捕获真实的网络流量。综合意味着网络流量是综合创建的(例如，通过一个流量生成器)，而不是由一个真实的(或虚拟的)网络设备捕获的。 2)网络类型:中小企业的网络环境与互联网服务提供商(ISP)有着本质的区别。因此，不同的环境需要不同的安全系统，评估数据集应该适应特定的环境。此属性描述创建相应数据集的基础网络环境。 3)完整网络:该属性采用Sharafaldin等人的[30]，表示数据集是否包含来自具有多个主机、路由器等网络环境的完整网络流量。如果数据集只包含来自单个主机(例如蜜罐)的网络流量，或者只包含来自网络流量的一些协议(例如独占SSH流量)，则将值设置为no。 E.评价以下特性与使用基于网络的数据集评估入侵检测方法有关。更精确地说，这些属性表示预定义子集的可用性、数据集的平衡和标签的存在。 1)预定义的分割:有时，即使在相同的数据集上对不同的IDS进行评估，也很难对它们的质量进行比较。在这种情况下，必须明确是否使用相同的子集进行训练和评估。如果数据集附带用于训练和评估的预定义子集，则此属性提供信息。 2)均衡:基于异常的入侵检测通常采用机器学习和数据挖掘方法。在这些方法的训练阶段(例如，决策树分类器)，数据集应该与其类标签相平衡。因此，数据集应该包含来自每个类(normal和attack)的相同数量的数据点。然而，真实世界的网络流量是不平衡的，它包含了比攻击流量更多的正常用户行为。此属性指示数据集是否与其类标签相平衡。在使用数据挖掘算法之前，应该通过适当的预处理来平衡不平衡的数据集。他和Garcia[46]提供了从不平衡数据中学习的良好概述。 3)带标签:带标签的数据集是训练监督方法、评估监督和非监督入侵检测方法所必需的。此属性表示是否标记了数据集。如果至少有两个类normal和attack，则将此属性设置为yes。此属性中可能的值为:yes, yes with BG。 (yes with background)、yes (IDS)、indirect和no。是的，有背景意味着有第三类背景。属于类背景的包、流或数据点可以是正常的，也可以是攻击。 Yes (IDS)是指使用某种入侵检测系统来创建数据集的标签。数据集的一些标签可能是错误的，因为IDS可能不完美。间接意味着数据集没有显式标签，但是可以通过其他日志文件自己创建标签。五、数据集我们认为，在搜索足够的基于网络的数据集时，标记的数据集属性和格式是最决定性的属性。入侵检测方法(监督的或非监督的)决定是否需要标签以及需要哪种类型的数据(包、流或其他)。因此，表II提供了关于这两个属性的所有研究的基于网络的数据集的分类。表三给出了关于第四节数据集属性的基于网络的入侵检测数据集的更详细概述。在搜索基于网络的数据集时，特定攻击场景的存在是一个重要方面。因此，表III显示了攻击流量的存在，而表IV提供了数据集中特定攻击的详细信息。关于数据集的论文描述了不同抽象级别的攻击。例如，Vasudevan等人在他们的数据集中(SSENET- 2011)将攻击流量描述为:“Nmap、Nessus、Angry IP scanner、Port scanner、Metaploit、Backtrack OS、LOIC等是参与者用来发起攻击的一些攻击工具。 ”相比之下，Ring等人在他们的CIDDS-002数据集[27]中指定了执行端口扫描的数量和不同类型。因此，攻击描述的抽象级别可能在表四中有所不同。对所有攻击类型的详细描述超出了本文的范围。相反，我们推荐感兴趣的读者阅读Anwar等人的开放存取论文“从入侵检测到入侵响应系统:基础、需求和未来方向”。此外，一些数据集是其他数据集的修改或组合。图3显示了几个已知数据集之间的相互关系。基于网络的数据集，按字母顺序排列 AWID [49]。 AWID是一个公共可用的数据集4，主要针对802.11网络。它的创建者使用了一个小型网络环境(11个客户机)，并以基于包的格式捕获了WLAN流量。在一个小时内，捕获了3700万个数据包。从每个数据包中提取156个属性。恶意网络流量是通过对802.11网络执行16次特定攻击而产生的。 AWID被标记为一个训练子集和一个测试子集。 Booters[50]。 Booters是罪犯提供的分布式拒绝服务(DDoS)攻击。 Santanna et. al[50]发布了一个数据集，其中包括九种不同的启动程序攻击的跟踪，这些攻击针对网络环境中的一个空路由IP地址执行。结果数据集以基于分组的格式记录，包含超过250GB的网络流量。单独的包没有标记，但是不同的Booters攻击被分成不同的文件。数据集是公开可用的，但是出于隐私原因，booters的名称是匿名的。僵尸网络[5]。僵尸网络数据集是现有数据集的组合，可以公开使用。僵尸网络的创建者使用了[44]的叠加方法来组合ISOT[57]、ISCX 2012[28]和CTU-13[3]数据集的(部分)。结果数据集包含各种僵尸网络和正常用户行为。僵尸网络数据集被划分为5.3 GB训练子集和8.5 GB测试子集，都是基于包的格式。 CIC DoS[51]。 CIC DoS是加拿大网络安全研究所的一组数据，可以公开使用。作者的意图是创建一个带有应用层DoS攻击的入侵检测数据集。因此，作者在应用层上执行了8种不同的DoS攻击。将生成的跟踪结果与ISCX 2012[28]数据集的无攻击流量相结合生成正常的用户行为。生成的数据集是基于分组的格式，包含24小时的网络流量。 CICIDS 2017 [22]。 CICIDS 2017是在模拟环境中历时5天创建的，包含基于分组和双向流格式的网络流量。对于每个流，作者提取了80多个属性，并提供了关于IP地址和攻击的附加元数据。正常的用户行为是通过脚本执行的。数据集包含了多种攻击类型，比如SSH蛮力、heartbleed、僵尸网络、DoS、DDoS、web和渗透攻击。 CICIDS 2017是公开可用的。 cidds - 001 [21]。 CIDDS-001数据集是在2017年模拟的小型商业环境中捕获的，包含为期四周的基于单向流的网络流量，并附带详细的技术报告和附加信息。该数据集的特点是包含了一个在互联网上受到攻击的外部服务器。与蜜罐不同，来自模拟环境的客户机也经常使用此服务器。正常和恶意的用户行为是通过在GitHub9上公开可用的python脚本执行的。这些脚本允许不断生成新的数据集，并可用于其他研究。 CIDDS-001数据集是公开可用的，包含SSH蛮力、DoS和端口扫描攻击，以及从野外捕获的一些攻击。 cidds - 002 [27]。 CIDDS-002是基于CIDDS-001脚本创建的端口扫描数据集。该数据集包含两个星期的基于单向流的网络流量，位于模拟的小型业务环境中。 CIDDS-002包含正常的用户行为以及广泛的不同端口扫描攻击。技术报告提供了关于外部IP地址匿名化的数据集的附加元信息。数据集是公开可用的。