242 lines
4.8 KiB
Markdown
242 lines
4.8 KiB
Markdown
# 6.Operations-Monitoring-Governance-Playbook.md
|
||
|
||
> Tài liệu này mô tả **cách vận hành, giám sát và kiểm soát** toàn bộ hệ thống SharePoint → Search → RAG Chat trong môi trường doanh nghiệp.
|
||
> Đây là tài liệu **rất quan trọng sau PoC**, đảm bảo hệ thống **bền vững, an toàn, có thể mở rộng và được tin cậy lâu dài**.
|
||
>
|
||
> File được viết để:
|
||
> - IT / Ops / Security đọc là hiểu
|
||
> - AI agent đọc là biết cách triển khai monitoring
|
||
> - Là nền tảng cho **quy trình vận hành & governance nội bộ**
|
||
|
||
---
|
||
|
||
## Mục lục
|
||
1. Mục tiêu Operations & Governance
|
||
2. Nguyên tắc vận hành
|
||
3. Tổng quan các tầng cần giám sát
|
||
4. Monitoring chi tiết theo từng tầng
|
||
5. KPI & Quality Metrics
|
||
6. Alerting & Incident Response
|
||
7. Logging & Audit Trail
|
||
8. Data Governance & Compliance
|
||
9. Model / Prompt Governance
|
||
10. User Feedback Loop
|
||
11. Backup, Rollback & Disaster Recovery
|
||
12. Phân quyền vận hành (Ops Roles)
|
||
13. Checklist vận hành định kỳ
|
||
|
||
---
|
||
|
||
## 1. Mục tiêu Operations & Governance
|
||
|
||
Hệ thống không chỉ cần "chạy được", mà phải:
|
||
- ✅ Ổn định
|
||
- ✅ Đúng dữ liệu
|
||
- ✅ Đúng quyền
|
||
- ✅ Truy vết được
|
||
- ✅ Giải thích được
|
||
|
||
Mục tiêu cuối cùng:
|
||
> **Người dùng tin – IT kiểm soát – Ban lãnh đạo yên tâm**
|
||
|
||
---
|
||
|
||
## 2. Nguyên tắc vận hành
|
||
|
||
1. **Fail rõ ràng, không fail im lặng**
|
||
2. **Mỗi tài liệu đều có lifecycle**
|
||
3. **Mỗi câu trả lời đều có log & nguồn**
|
||
4. **AI không được vượt quyền dữ liệu**
|
||
5. **Có thể rollback bất kỳ tầng nào**
|
||
|
||
---
|
||
|
||
## 3. Tổng quan các tầng cần giám sát
|
||
|
||
```text
|
||
[SharePoint]
|
||
↓
|
||
[Ingestion]
|
||
↓
|
||
[Extraction / OCR]
|
||
↓
|
||
[Index / Search]
|
||
↓
|
||
[RAG Chat]
|
||
```
|
||
|
||
Mỗi tầng phải có:
|
||
- Health check
|
||
- Metric
|
||
- Log
|
||
|
||
---
|
||
|
||
## 4. Monitoring chi tiết theo từng tầng
|
||
|
||
### 4.1 Ingestion Layer
|
||
|
||
**Theo dõi:**
|
||
- Số file quét / phút
|
||
- Delta sync success rate
|
||
- File fail theo loại lỗi
|
||
|
||
**Cảnh báo khi:**
|
||
- Delta token không cập nhật > N giờ
|
||
- Lỗi permission tăng đột biến
|
||
|
||
---
|
||
|
||
### 4.2 Extraction / OCR Layer
|
||
|
||
**Theo dõi:**
|
||
- Thời gian OCR / trang
|
||
- OCR failure rate
|
||
- Queue length
|
||
|
||
**Cảnh báo khi:**
|
||
- OCR latency vượt ngưỡng
|
||
- OCR fail liên tục cùng 1 file type
|
||
|
||
---
|
||
|
||
### 4.3 Index / Search Layer
|
||
|
||
**Theo dõi:**
|
||
- Query latency (p50/p95)
|
||
- Index size
|
||
- Search error rate
|
||
|
||
**Cảnh báo khi:**
|
||
- Query > SLA
|
||
- Index out-of-sync
|
||
|
||
---
|
||
|
||
### 4.4 RAG Chat Layer
|
||
|
||
**Theo dõi:**
|
||
- Số câu hỏi / ngày
|
||
- % câu trả lời "không tìm thấy dữ liệu"
|
||
- Thời gian phản hồi
|
||
|
||
**Cảnh báo khi:**
|
||
- Error LLM
|
||
- Citation missing
|
||
|
||
---
|
||
|
||
## 5. KPI & Quality Metrics
|
||
|
||
### 5.1 KPI kỹ thuật
|
||
- Ingestion success rate ≥ 99%
|
||
- OCR success rate ≥ 95%
|
||
- Search latency ≤ 3s
|
||
|
||
### 5.2 KPI người dùng
|
||
- Query có kết quả hữu ích ≥ X%
|
||
- Click vào tài liệu gốc ≥ Y%
|
||
|
||
---
|
||
|
||
## 6. Alerting & Incident Response
|
||
|
||
### 6.1 Nguyên tắc
|
||
- Alert phải **actionable**
|
||
- Có owner rõ ràng
|
||
|
||
### 6.2 Incident Flow
|
||
```text
|
||
Detect → Triage → Mitigate → Root cause → Post-mortem
|
||
```
|
||
|
||
---
|
||
|
||
## 7. Logging & Audit Trail
|
||
|
||
### 7.1 Log bắt buộc
|
||
- Ingestion log (file-level)
|
||
- Search log (query-level)
|
||
- Chat log (question, context, answer, citation)
|
||
|
||
### 7.2 Audit sử dụng khi:
|
||
- Khiếu nại kết quả AI
|
||
- Compliance / kiểm toán
|
||
|
||
---
|
||
|
||
## 8. Data Governance & Compliance
|
||
|
||
### 8.1 Nguyên tắc dữ liệu
|
||
- File gốc không rời SharePoint
|
||
- Không lưu dữ liệu ngoài phạm vi cho phép
|
||
|
||
### 8.2 Retention
|
||
- Metadata & log theo chính sách công ty
|
||
- Cho phép purge theo yêu cầu
|
||
|
||
---
|
||
|
||
## 9. Model / Prompt Governance
|
||
|
||
### 9.1 Versioning
|
||
- Prompt phải có version
|
||
- Model phải có version
|
||
|
||
### 9.2 Thay đổi phải:
|
||
- Có test
|
||
- Có rollback plan
|
||
|
||
---
|
||
|
||
## 10. User Feedback Loop
|
||
|
||
### 10.1 Thu thập feedback
|
||
- Nút "Câu trả lời hữu ích / không hữu ích"
|
||
- Comment ngắn
|
||
|
||
### 10.2 Sử dụng feedback để:
|
||
- Điều chỉnh prompt
|
||
- Điều chỉnh search ranking
|
||
|
||
---
|
||
|
||
## 11. Backup, Rollback & DR
|
||
|
||
- Backup index định kỳ
|
||
- Có thể rebuild index từ Extraction output
|
||
- DR plan cho:
|
||
- OpenSearch
|
||
- Metadata DB
|
||
|
||
---
|
||
|
||
## 12. Phân quyền vận hành (Ops Roles)
|
||
|
||
| Role | Trách nhiệm |
|
||
|----|-------------|
|
||
| System Admin | Hạ tầng |
|
||
| Data Admin | Ingestion/Search |
|
||
| AI Admin | Prompt/Model |
|
||
| Auditor | Log/Compliance |
|
||
|
||
---
|
||
|
||
## 13. Checklist vận hành định kỳ
|
||
|
||
### Hàng ngày
|
||
✅ Ingestion health
|
||
✅ OCR queue
|
||
|
||
### Hàng tuần
|
||
✅ Re-index test
|
||
✅ Permission sync
|
||
|
||
### Hàng tháng
|
||
✅ Prompt review
|
||
✅ Compliance review
|
||
|
||
---
|
||
|
||
*Kết thúc Operations & Governance Playbook. Đây là file hoàn thiện hệ thống ở mức enterprise.*
|