4.8 KiB
4.8 KiB
6.Operations-Monitoring-Governance-Playbook.md
Tài liệu này mô tả cách vận hành, giám sát và kiểm soát toàn bộ hệ thống SharePoint → Search → RAG Chat trong môi trường doanh nghiệp. Đây là tài liệu rất quan trọng sau PoC, đảm bảo hệ thống bền vững, an toàn, có thể mở rộng và được tin cậy lâu dài.
File được viết để:
- IT / Ops / Security đọc là hiểu
- AI agent đọc là biết cách triển khai monitoring
- Là nền tảng cho quy trình vận hành & governance nội bộ
Mục lục
- Mục tiêu Operations & Governance
- Nguyên tắc vận hành
- Tổng quan các tầng cần giám sát
- Monitoring chi tiết theo từng tầng
- KPI & Quality Metrics
- Alerting & Incident Response
- Logging & Audit Trail
- Data Governance & Compliance
- Model / Prompt Governance
- User Feedback Loop
- Backup, Rollback & Disaster Recovery
- Phân quyền vận hành (Ops Roles)
- Checklist vận hành định kỳ
1. Mục tiêu Operations & Governance
Hệ thống không chỉ cần "chạy được", mà phải:
- ✅ Ổn định
- ✅ Đúng dữ liệu
- ✅ Đúng quyền
- ✅ Truy vết được
- ✅ Giải thích được
Mục tiêu cuối cùng:
Người dùng tin – IT kiểm soát – Ban lãnh đạo yên tâm
2. Nguyên tắc vận hành
- Fail rõ ràng, không fail im lặng
- Mỗi tài liệu đều có lifecycle
- Mỗi câu trả lời đều có log & nguồn
- AI không được vượt quyền dữ liệu
- Có thể rollback bất kỳ tầng nào
3. Tổng quan các tầng cần giám sát
[SharePoint]
↓
[Ingestion]
↓
[Extraction / OCR]
↓
[Index / Search]
↓
[RAG Chat]
Mỗi tầng phải có:
- Health check
- Metric
- Log
4. Monitoring chi tiết theo từng tầng
4.1 Ingestion Layer
Theo dõi:
- Số file quét / phút
- Delta sync success rate
- File fail theo loại lỗi
Cảnh báo khi:
- Delta token không cập nhật > N giờ
- Lỗi permission tăng đột biến
4.2 Extraction / OCR Layer
Theo dõi:
- Thời gian OCR / trang
- OCR failure rate
- Queue length
Cảnh báo khi:
- OCR latency vượt ngưỡng
- OCR fail liên tục cùng 1 file type
4.3 Index / Search Layer
Theo dõi:
- Query latency (p50/p95)
- Index size
- Search error rate
Cảnh báo khi:
- Query > SLA
- Index out-of-sync
4.4 RAG Chat Layer
Theo dõi:
- Số câu hỏi / ngày
- % câu trả lời "không tìm thấy dữ liệu"
- Thời gian phản hồi
Cảnh báo khi:
- Error LLM
- Citation missing
5. KPI & Quality Metrics
5.1 KPI kỹ thuật
- Ingestion success rate ≥ 99%
- OCR success rate ≥ 95%
- Search latency ≤ 3s
5.2 KPI người dùng
- Query có kết quả hữu ích ≥ X%
- Click vào tài liệu gốc ≥ Y%
6. Alerting & Incident Response
6.1 Nguyên tắc
- Alert phải actionable
- Có owner rõ ràng
6.2 Incident Flow
Detect → Triage → Mitigate → Root cause → Post-mortem
7. Logging & Audit Trail
7.1 Log bắt buộc
- Ingestion log (file-level)
- Search log (query-level)
- Chat log (question, context, answer, citation)
7.2 Audit sử dụng khi:
- Khiếu nại kết quả AI
- Compliance / kiểm toán
8. Data Governance & Compliance
8.1 Nguyên tắc dữ liệu
- File gốc không rời SharePoint
- Không lưu dữ liệu ngoài phạm vi cho phép
8.2 Retention
- Metadata & log theo chính sách công ty
- Cho phép purge theo yêu cầu
9. Model / Prompt Governance
9.1 Versioning
- Prompt phải có version
- Model phải có version
9.2 Thay đổi phải:
- Có test
- Có rollback plan
10. User Feedback Loop
10.1 Thu thập feedback
- Nút "Câu trả lời hữu ích / không hữu ích"
- Comment ngắn
10.2 Sử dụng feedback để:
- Điều chỉnh prompt
- Điều chỉnh search ranking
11. Backup, Rollback & DR
- Backup index định kỳ
- Có thể rebuild index từ Extraction output
- DR plan cho:
- OpenSearch
- Metadata DB
12. Phân quyền vận hành (Ops Roles)
| Role | Trách nhiệm |
|---|---|
| System Admin | Hạ tầng |
| Data Admin | Ingestion/Search |
| AI Admin | Prompt/Model |
| Auditor | Log/Compliance |
13. Checklist vận hành định kỳ
Hàng ngày
✅ Ingestion health ✅ OCR queue
Hàng tuần
✅ Re-index test ✅ Permission sync
Hàng tháng
✅ Prompt review ✅ Compliance review
Kết thúc Operations & Governance Playbook. Đây là file hoàn thiện hệ thống ở mức enterprise.