6.0 KiB
6.0 KiB
14.Project-Bridge-Context-for-New-Chat.md
Mục tiêu file này: cầu nối ngữ cảnh để mở New Chat và tiếp tục dự án mà không cần attach lại toàn bộ 13 file.
⚠️ Lưu ý quan trọng:
- File này là bản tóm lược có cấu trúc, KHÔNG thay thế hoàn toàn cho các file 1–13.
- Dùng khi giới hạn số file đính kèm thấp.
- Nếu cần chi tiết kỹ thuật sâu cho một mô-đun, vẫn nên attach thêm file gốc liên quan.
1. Dự án đang làm là gì?
Xây dựng hệ thống tra cứu tài liệu nội bộ theo pipeline:
SharePoint → Ingestion → Document Classification → PDF Inspection → OCR (có điều kiện) → MarkItDown → Chunking → Search → RAG Chat
Mục tiêu:
- Tra cứu nhanh nội dung tài liệu công ty lưu trong SharePoint
- Tìm đúng file, đúng trang, đúng quyền truy cập
- Hỗ trợ Search và RAG Chat có dẫn nguồn
2. Các quyết định kiến trúc đã CHỐT (không thay đổi)
2.1 Phân loại tài liệu là bắt buộc trước xử lý
- Không có one-size-fits-all cho mọi file
- Mỗi file phải đi qua Document Classification Engine (DCE) trước
2.2 PDF phải được inspect trước OCR
PDF được chia thành 3 loại:
TEXT_PDF→ không OCR, đưa thẳng vào MarkItDownSCAN_PDF→ OCR bắt buộc, page-wiseDRAWING_PDF→ không OCR đại trà, không MarkItDown, không RAG
2.3 Bản vẽ kỹ thuật / CAD / binary không đi vào RAG
- DWG/DXF/IFC/CAD/Binary → metadata search only
- Drawing PDF → metadata + optional title-block OCR, không RAG
2.4 OCR chính thức được chọn
- PaddleOCR (Detection) + VietOCR (Recognition)
- On-prem, open-source, không lock-in cloud
- OCR chỉ gọi khi:
doc_type = textual_documentpdf_type = SCAN_PDF
2.5 RAG là tầng sau Search, có điều kiện
- Search-first, LLM-second
- Không có context tốt → không trả lời
- Trả lời phải có citation
- OCR confidence thấp → không đưa vào RAG
3. Các file gốc đã tồn tại trước đó
Nhóm kiến trúc lõi
- Kiến trúc tổng thể
- SharePoint ingestion playbook
- Extraction & normalization playbook
- OpenSearch index & search playbook
- RAG chat application playbook
- Operations / monitoring / governance playbook
Nhóm review & điều phối
- Review / double-check / gap analysis
- End-to-end processing flows bullets
Nhóm phụ lục kỹ thuật quan trọng
- Appendix – Vietnamese OCR strategy
- Appendix – Document type classification and processing strategy
- Appendix – PDF inspection and text-layer detection
- Appendix – OCR integration strategy and flow
- PoC implementation checklist
4. Trạng thái hiện tại của dự án
- Đã chốt kiến trúc end-to-end
- Đã chốt luật xử lý tài liệu
- Đã chốt chiến lược OCR tiếng Việt
- Đã có checklist PoC chi tiết
- Đang chuyển sang giai đoạn bắt tay triển khai PoC thật
Trọng tâm hiện tại:
Tạo / dùng SharePoint Team Site test làm nguồn dữ liệu đầu vào cho PoC.
5. Site SharePoint test dự kiến / khuyến nghị
Loại site
- Team site
- Privacy: Private
Tên gợi ý
SP-RAG-Test
Cấu trúc thư mục test khuyến nghị
/Documents
/01-PDF-Text
/02-PDF-Scan
/03-PDF-Drawing
/04-DOCX
/05-XLSX-Textual
/06-XLSX-Structured
/07-CAD-Binary
/99-Pending-Classification
ACL test
- Có ít nhất 1 thư mục/folder restricted để test permission filtering
6. Thứ tự triển khai PoC đã chốt
- Tạo SharePoint site test
- Upload bộ dữ liệu test nhỏ nhưng đủ loại
- Kiểm tra quyền truy cập khác nhau giữa user
- Bắt đầu ingestion
- Chạy document classification
- Chạy PDF inspection
- Chỉ OCR cho SCAN_PDF
- MarkItDown / normalization / chunking
- Index vào OpenSearch
- Bật search
- Chỉ bật RAG sau khi search + ACL + citation ổn
7. Các ngưỡng / guardrails đã chốt
OCR confidence
>= 0.90→ có thể dùng cho RAG0.80 – 0.90→ search only< 0.80→ flag review
Không được làm
- Không OCR drawing PDF đại trà
- Không đưa CAD/binary vào RAG
- Không bỏ qua bước classification/PDF inspection
- Không để AI tự thay đổi kiến trúc đã chốt
8. Khi mở New Chat, AI cần tuân thủ gì?
Bắt buộc
- Không thay đổi các quyết định đã chốt ở trên
- Không đề xuất đi ngược các guardrails
- Nếu mở rộng thì chỉ tạo phụ lục mới hoặc ghi rõ là đề xuất mở rộng
- Tiếp tục đúng ngữ cảnh: từ SharePoint site test → PoC triển khai
Câu mở đầu gợi ý cho New Chat
Tôi đang tiếp tục dự án SharePoint → Search → RAG.
Hãy coi file bridge context này là source of truth tạm thời.
Mục tiêu hiện tại: dùng SharePoint site test làm input cho PoC và đi tiếp đúng theo roadmap đã chốt.
Không thay đổi kiến trúc, không nhảy bước.
9. Gợi ý attach file khi chỉ được add ít file
Tối thiểu nên attach
- File bridge này
10.Appendix-Document-Type-Classification-and-Processing-Strategy.md13.PoC-Implementation-Checklist.md
Nếu cần đi sâu OCR
Thay file 13 hoặc attach tiếp ở lượt sau:
11.Appendix-PDF-Inspection-and-TextLayer-Detection.md12.Appendix-OCR-Integration-Strategy-and-Flow.md
10. Mục tiêu thảo luận tiếp theo sau khi mở New Chat
Một trong các hướng sau:
- Chuẩn bị dataset test cho SharePoint site
- Map SharePoint site test vào PoC pipeline
- Lập execution plan theo checklist PoC
- Bắt đầu dựng skeleton triển khai kỹ thuật
Kết thúc file bridge. Đây là file cầu nối ngữ cảnh, tối ưu cho trường hợp giới hạn số file đính kèm.