Go 主机安全面试：HIDS 事件采集到检测链路

这类岗位问的不是“会不会写 Go”，而是你能不能把主机侧事件采集、标准化、检测规则、误报治理、资源控制串成一个可靠链路。

先看整体链路

text

系统事件
  -> 采集层：进程、文件、网络、登录、命令行
  -> 标准化：统一字段、补充上下文、去脏数据
  -> 缓冲上报：限流、批量、失败重试
  -> 检测引擎：规则匹配、行为关联、攻击链还原
  -> 告警处理：降噪、去重、证据留存

1. HIDS Agent 在主机上主要采集什么？

答案：采集能描述攻击行为的主机事件，而不是把所有系统数据都搬走。

常见事件：

进程：进程启动、父子进程、命令行、工作目录、用户、哈希
文件：敏感路径写入、权限变化、可执行文件落地
网络：监听端口、外连地址、反弹 shell 特征
登录：SSH 登录、失败爆破、sudo、用户新增
系统：内核模块、计划任务、环境变量、关键配置变更

Go 落地要点：

事件结构体先保持稳定，字段少而准。
采集和上报用 context.Context 控制生命周期。
采集失败要可观测，不能静默丢失。

type HostEvent struct {
    Type      string
    Time      int64
    PID       int
    PPID      int
    User      string
    Cmdline   string
    Path      string
    RemoteIP  string
}

学习要点：

Linux /proc 基础：/proc/<pid>/cmdline、status、exe
进程父子关系、用户权限、文件权限
Windows 可对照学习 ETW、WMI、事件日志

2. 为什么主机安全事件要标准化？

答案：不同来源的事件字段不一致，不标准化就很难写检测规则，也很难做攻击链关联。

例如进程启动事件来自 /proc、audit、eBPF 或 Windows ETW，原始字段不同，但规则希望统一读取：

text

process.name
process.cmdline
process.parent.name
user.name
file.path
network.remote_ip

Go 落地要点：

标准化层只做字段映射、清洗、补上下文。
不要把检测逻辑塞进采集层，否则规则难维护。
对缺失字段要有默认值或明确空值语义。

面试追问：

如果 cmdline 采集不到怎么办？
如果进程已经退出，如何补充父进程信息？
标准字段升级如何兼容旧版本 Agent？

3. 如何设计一个简单的检测规则？

答案：规则就是“条件 + 上下文 + 证据”，不是单个字符串匹配。

反弹 shell 的简化规则：

text

进程命令行命中 bash -i / nc / python socket
  + 存在外连公网 IP
  + 父进程是 web 服务或脚本解释器
  => 高危告警

Go 实现上先用普通函数就够了：

func IsReverseShell(e HostEvent) bool {
    if e.RemoteIP == "" {
        return false
    }
    cmd := strings.ToLower(e.Cmdline)
    return strings.Contains(cmd, "bash -i") ||
        strings.Contains(cmd, "nc ") ||
        strings.Contains(cmd, "socket")
}

学习要点：

规则要保留命中的字段证据，方便排查误报。
单条件规则容易误报，多条件关联更可靠。
Go 字符串匹配简单场景够用；复杂场景再考虑正则或规则 DSL。

4. 如何降低检测误报？

答案：误报治理靠上下文，不靠把规则写得越来越长。

常见办法：

白名单：可信路径、可信签名、可信父进程
频率控制：同一主机、同一进程、同一规则短时间去重
上下文增强：父进程、用户、网络方向、文件哈希
分级告警：可疑、危险、高危分开处理

Go 落地要点：

去重 key 要稳定：host_id + rule_id + process_hash + remote_ip
白名单要可审计，记录命中原因。
不要在 Agent 里塞太多策略，重策略适合放服务端。

5. Agent 如何做资源控制？

答案：主机安全 Agent 是常驻进程，CPU、内存、IO 都要有上限。

设计重点：

采集频率可配置，避免高频轮询 /proc
上报批量发送，减少网络和序列化开销
channel 设置容量，满了按优先级丢弃低价值事件
goroutine 必须能退出，避免泄漏

Go 面试常问点：

context.Context 如何取消采集任务？
channel 满了是阻塞还是丢弃？
如何定位 goroutine 泄漏？
如何用 pprof 看 CPU 和内存？

select {
case events <- e:
case <-ctx.Done():
    return
default:
    // 队列满时丢弃低优先级事件，真实系统要记录计数指标。
}

6. eBPF、audit、procfs 采集有什么区别？

方式	优点	缺点	适合场景
procfs	简单、依赖少	容易漏短生命周期进程	低成本补充信息
audit	事件完整度较好	配置复杂，性能要评估	合规、进程和文件审计
eBPF	实时、可观测性强	内核版本和权限要求高	高质量事件采集

回答策略：

先说明没有一种方式万能。
再说明生产上通常组合使用。
最后落到资源、兼容性、权限、降级方案。

7. 如何做攻击链还原？

答案：把离散事件按时间、主机、进程树和网络关系串起来。

例子：

text

web 进程执行异常命令
  -> 落地可执行文件
  -> 启动新进程
  -> 外连公网 IP
  -> 添加计划任务持久化

Go 设计要点：

事件必须带时间戳、主机 ID、PID、PPID。
短期关联可以用内存 LRU 或时间窗口。
长期溯源适合放服务端存储和查询。

面试时可以强调：

Agent 负责采集高质量证据。
服务端负责全局关联和检索。
不把所有复杂逻辑压到端上，避免资源不可控。

8. AI 在这类岗位里能怎么落地？

答案：先用于提效和辅助判断，不要直接把模型输出当最终告警。

可落地方向：

根据历史告警总结误报原因。
辅助生成规则初稿，再由安全工程师 review。
对进程树、命令行、网络行为做异常解释。
自动生成白盒测试用例和边界 case。

注意点：

AI 输出要可解释、可回滚、可审计。
安全检测不能只依赖黑盒判断。
规则发布要走测试集和灰度。

复盘清单

能画出“采集 -> 标准化 -> 上报 -> 检测 -> 告警”的链路。
能说清 procfs、audit、eBPF 的取舍。
能解释误报为什么来自缺少上下文。
能用 Go 讲清 channel、context、pprof 在 Agent 中的作用。
能给出一个反弹 shell、web RCE 或提权行为的检测思路。
能说明哪些逻辑应该放 Agent，哪些应该放服务端。

Go 主机安全面试：HIDS 事件采集到检测链路 ​

先看整体链路 ​

1. HIDS Agent 在主机上主要采集什么？ ​

2. 为什么主机安全事件要标准化？ ​

3. 如何设计一个简单的检测规则？ ​

4. 如何降低检测误报？ ​

5. Agent 如何做资源控制？ ​

6. eBPF、audit、procfs 采集有什么区别？ ​

7. 如何做攻击链还原？ ​

8. AI 在这类岗位里能怎么落地？ ​

复盘清单 ​

Go 主机安全面试：HIDS 事件采集到检测链路

先看整体链路

1. HIDS Agent 在主机上主要采集什么？

2. 为什么主机安全事件要标准化？

3. 如何设计一个简单的检测规则？

4. 如何降低检测误报？

5. Agent 如何做资源控制？

6. eBPF、audit、procfs 采集有什么区别？

7. 如何做攻击链还原？

8. AI 在这类岗位里能怎么落地？

复盘清单