ELK 栈在使用过程中会遇到各种问题，以下是常见问题分类及解决方案，涵盖 Elasticsearch、Logstash、Kibana 和 Beats（如 Filebeat） 四大组件：

🚨 一、连接与通信问题

1. Elasticsearch 拒绝连接 (Connection Refused)

原因：ES 未启动、防火墙拦截、配置文件绑定了 127.0.0.1。

解决：

检查状态：systemctl status elasticsearch

开放端口：

sudo firewall-cmd --add-port=9200/tcp --permanent  # CentOS
sudo ufw allow 9200/tcp                          # Ubuntu

修改 elasticsearch.yml：

network.host: 0.0.0.0   # 允许外部IP访问

2. Kibana 无法连接 Elasticsearch

错误信息：Kibana server is not ready yet
解决：
- 检查 kibana.yml 中 elasticsearch.hosts 的 URL 是否正确（默认 http://localhost:9200）。
- 确认 ES 健康状态：curl http://localhost:9200/_cluster/health?pretty
- 若开启安全认证，需配置用户名密码：
```
elasticsearch.username: "kibana_system"
elasticsearch.password: "your_password"
```

📉 二、性能与资源问题

1. Elasticsearch 集群变红（Red Status）

原因：分片未分配（磁盘不足、节点离线）、索引损坏。

解决：

检查磁盘空间：df -h

查看未分配分片原因：

curl -XGET 'http://localhost:9200/_cluster/allocation/explain?pretty'

强制分配分片（谨慎操作）：

curl -XPOST 'localhost:9200/_cluster/reroute?retry_failed=true'

2. Logstash Pipeline 卡顿或高延迟

原因：输入源压力大、Filter 处理复杂、输出目标 ES 响应慢。
优化方案：
- 增加 Logstash Worker 线程数（pipeline.workers）和批量大小（pipeline.batch.size）。
- 简化 Grok 正则，或使用 dissect 插件（性能更高）。
- 添加 Kafka 作为缓冲队列。

3. Elasticsearch 内存溢出（OOM）

日志提示：OutOfMemoryError
解决：
- 调整 JVM 堆大小（不超过物理内存 50%）：
```
# /etc/elasticsearch/jvm.options
-Xms4g
-Xmx4g
```
- 避免大聚合查询，使用 search.max_buckets 限制。
- 启用 Swap（紧急措施）：bootstrap.memory_lock: false

📊 三、数据问题

1. Kibana 中无日志显示

排查步骤：
1. 确认 Logstash/Filebeat 数据是否进入 ES：
```
curl 'localhost:9200/_cat/indices?v'
```
2. 检查 Kibana 的 数据视图（Data View） 是否包含目标索引（如 app-logs-*）。
3. 在 Kibana Dev Tools 中手动查询：
```
GET /app-logs-*/_search
{ "query": { "match_all": {} } }
```

2. 字段类型冲突（例如：字符串被识别为数字）

错误：mapper_parsing_exception

解决：

提前定义索引映射模板（Template）：

PUT /_template/app_logs_template
{"index_patterns": ["app-logs-*"],"mappings": {"properties": {"user_id": { "type": "keyword" },  // 避免自动转成 long"response_time": { "type": "float" }}}
}

3. 时区不一致

现象：Kibana 显示时间比日志时间晚/早 8 小时。

解决：

Logstash 中配置时区（filter 区块）：

date {match => ["timestamp", "ISO8601"]timezone => "Asia/Shanghai"
}

⚙️ 四、配置与日志解析问题

1. Logstash Grok 解析失败

现象：字段值为空或生成 _grokparsefailure 标签。

排查：

使用 Grok Debugger 测试日志与模式。

拆分复杂模式分步匹配：

grok {match => { "message" => "%{SYSLOGTIMESTAMP:timestamp} %{WORD:level} %{GREEDYDATA:msg}" }
}

2. Filebeat 多行日志合并问题

日志堆栈被拆成多条记录？

修改 filebeat.yml：

multiline.type: pattern
multiline.pattern: '^\['
multiline.negate: true
multiline.match: after

3. Logstash 无法解析 JSON 日志

配置示例：

input { beats { port => 5044 } }
filter {json {source => "message"   # 原始JSON在 message 字段remove_field => ["message"]}
}

🔐 五、安全与权限问题

1. Elasticsearch 开启安全后无法访问

免费版开启基础安全：
1. 修改 elasticsearch.yml：
```
xpack.security.enabled: true
```
2. 为内置用户设密码：
```
/usr/share/elasticsearch/bin/elasticsearch-setup-passwords auto
```
3. 在 Kibana 和 Filebeat/Logstash 配置中添加用户名密码。

2. Kibana 提示 “Missing authentication”

确保 Kibana 使用 kibana_system 角色配置正确的密码。

🧩 六、其他高频报错

1. Elasticsearch 只读状态 (Read-Only)

日志提示：blocked by: [FORBIDDEN/12/index read-only]
原因：磁盘超过低水位线（默认 85%）。

临时解除：

PUT _all/_settings
{ "index.blocks.read_only_allow_delete": null }

长期方案：清理旧数据或扩容磁盘。

2. Logstash：Could not execute action: PipelineAction::Create

检查：
- 配置文件语法错误（例如：少一个花括号 }）。
- 端口冲突（如两个 Input 都监听 5044）。
- 运行调试模式：
```
/usr/share/logstash/bin/logstash -f /path/to/config.conf --config.test_and_exit
```