Files
poc_system/doc/6.Operations-Monitoring-Governance-Playbook.md

242 lines
4.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 6.Operations-Monitoring-Governance-Playbook.md
> Tài liệu này mô tả **cách vận hành, giám sát và kiểm soát** toàn bộ hệ thống SharePoint → Search → RAG Chat trong môi trường doanh nghiệp.
> Đây là tài liệu **rất quan trọng sau PoC**, đảm bảo hệ thống **bền vững, an toàn, có thể mở rộng và được tin cậy lâu dài**.
>
> File được viết để:
> - IT / Ops / Security đọc là hiểu
> - AI agent đọc là biết cách triển khai monitoring
> - Là nền tảng cho **quy trình vận hành & governance nội bộ**
---
## Mục lục
1. Mục tiêu Operations & Governance
2. Nguyên tắc vận hành
3. Tổng quan các tầng cần giám sát
4. Monitoring chi tiết theo từng tầng
5. KPI & Quality Metrics
6. Alerting & Incident Response
7. Logging & Audit Trail
8. Data Governance & Compliance
9. Model / Prompt Governance
10. User Feedback Loop
11. Backup, Rollback & Disaster Recovery
12. Phân quyền vận hành (Ops Roles)
13. Checklist vận hành định kỳ
---
## 1. Mục tiêu Operations & Governance
Hệ thống không chỉ cần "chạy được", mà phải:
- ✅ Ổn định
- ✅ Đúng dữ liệu
- ✅ Đúng quyền
- ✅ Truy vết được
- ✅ Giải thích được
Mục tiêu cuối cùng:
> **Người dùng tin IT kiểm soát Ban lãnh đạo yên tâm**
---
## 2. Nguyên tắc vận hành
1. **Fail rõ ràng, không fail im lặng**
2. **Mỗi tài liệu đều có lifecycle**
3. **Mỗi câu trả lời đều có log & nguồn**
4. **AI không được vượt quyền dữ liệu**
5. **Có thể rollback bất kỳ tầng nào**
---
## 3. Tổng quan các tầng cần giám sát
```text
[SharePoint]
[Ingestion]
[Extraction / OCR]
[Index / Search]
[RAG Chat]
```
Mỗi tầng phải có:
- Health check
- Metric
- Log
---
## 4. Monitoring chi tiết theo từng tầng
### 4.1 Ingestion Layer
**Theo dõi:**
- Số file quét / phút
- Delta sync success rate
- File fail theo loại lỗi
**Cảnh báo khi:**
- Delta token không cập nhật > N giờ
- Lỗi permission tăng đột biến
---
### 4.2 Extraction / OCR Layer
**Theo dõi:**
- Thời gian OCR / trang
- OCR failure rate
- Queue length
**Cảnh báo khi:**
- OCR latency vượt ngưỡng
- OCR fail liên tục cùng 1 file type
---
### 4.3 Index / Search Layer
**Theo dõi:**
- Query latency (p50/p95)
- Index size
- Search error rate
**Cảnh báo khi:**
- Query > SLA
- Index out-of-sync
---
### 4.4 RAG Chat Layer
**Theo dõi:**
- Số câu hỏi / ngày
- % câu trả lời "không tìm thấy dữ liệu"
- Thời gian phản hồi
**Cảnh báo khi:**
- Error LLM
- Citation missing
---
## 5. KPI & Quality Metrics
### 5.1 KPI kỹ thuật
- Ingestion success rate ≥ 99%
- OCR success rate ≥ 95%
- Search latency ≤ 3s
### 5.2 KPI người dùng
- Query có kết quả hữu ích ≥ X%
- Click vào tài liệu gốc ≥ Y%
---
## 6. Alerting & Incident Response
### 6.1 Nguyên tắc
- Alert phải **actionable**
- Có owner rõ ràng
### 6.2 Incident Flow
```text
Detect → Triage → Mitigate → Root cause → Post-mortem
```
---
## 7. Logging & Audit Trail
### 7.1 Log bắt buộc
- Ingestion log (file-level)
- Search log (query-level)
- Chat log (question, context, answer, citation)
### 7.2 Audit sử dụng khi:
- Khiếu nại kết quả AI
- Compliance / kiểm toán
---
## 8. Data Governance & Compliance
### 8.1 Nguyên tắc dữ liệu
- File gốc không rời SharePoint
- Không lưu dữ liệu ngoài phạm vi cho phép
### 8.2 Retention
- Metadata & log theo chính sách công ty
- Cho phép purge theo yêu cầu
---
## 9. Model / Prompt Governance
### 9.1 Versioning
- Prompt phải có version
- Model phải có version
### 9.2 Thay đổi phải:
- Có test
- Có rollback plan
---
## 10. User Feedback Loop
### 10.1 Thu thập feedback
- Nút "Câu trả lời hữu ích / không hữu ích"
- Comment ngắn
### 10.2 Sử dụng feedback để:
- Điều chỉnh prompt
- Điều chỉnh search ranking
---
## 11. Backup, Rollback & DR
- Backup index định kỳ
- Có thể rebuild index từ Extraction output
- DR plan cho:
- OpenSearch
- Metadata DB
---
## 12. Phân quyền vận hành (Ops Roles)
| Role | Trách nhiệm |
|----|-------------|
| System Admin | Hạ tầng |
| Data Admin | Ingestion/Search |
| AI Admin | Prompt/Model |
| Auditor | Log/Compliance |
---
## 13. Checklist vận hành định kỳ
### Hàng ngày
✅ Ingestion health
✅ OCR queue
### Hàng tuần
✅ Re-index test
✅ Permission sync
### Hàng tháng
✅ Prompt review
✅ Compliance review
---
*Kết thúc Operations & Governance Playbook. Đây là file hoàn thiện hệ thống ở mức enterprise.*