Phần 10: Natural Language Processing – Lập trình AI bằng Python

Natural Language Processing (NLP) nhắc đến tới cách giao tiếp AI với những hệ thống thông minh bằng ngôn ngữ tự nhiên như tiếng Anh.
Xử lý ngôn ngữ tự nhiên là bắt buộc khi các bạn muốn 1 hệ thống thông minh như robotic làm theo hướng dẫn của các bạn, khi các bạn muốn nghe quyết định từ hệ thống chuyên gia lâm sàng dựa vào đối thoại, v.v.
Lĩnh vực NLP liên quan tới việc làm cho PC thực hiện những nhiệm vụ có ích với ngôn ngữ tự nhiên mà con người dùng. Đầu vào và đầu ra của 1 hệ thống NLP có thể là speech và writen Text
Table of Contents
1. Thành phần NLP
Ta sẽ tìm hiểu thêm về những thành phần khác nhau của NLP. Có 2 thành phần của NLP gồm :
a. Natural Language Understanding (NLU) :
Nó gồm những nhiệm vụ sau:
- Ánh xạ đầu vào đã cho bằng ngôn ngữ tự nhiên thành các biểu diễn có ích.
- Phân tích các góc cạnh khác nhau của ngôn ngữ.
b. Natural Language Generation (NLG):
Đó là quá trình tạo nên các cụm từ và câu có nghĩa dưới dạng ngôn ngữ tự nhiên từ những biểu diễn bên trong. Nó liên quan tới những thành phần sau :
- Text Planning : Điều đó gồm truy xuất nội dung có liên quan từ cơ sở kiến thức.
- Sentence planning : Điều đó gồm việc chọn lựa các từ cần thiết, tạo nên các cụm từ có nghĩa, thiết lập giọng điệu của câu.
- Text Realization : Đây chính là ánh xạ kế hoạch câu thành cấu trúc câu.
2. Những khó khăn trong NLU
NLU rất đa dạng về hình thức và cấu trúc, tuy vậy, nó là mơ hồ. Có thể có nhiều mức độ mơ hồ khác nhau :
- Sự mơ hồ về ngữ nghĩa : Nó ở cấp độ rất sơ khai ví dụ như cấp độ từ. Ví dụ, coi từ “board” là danh từ hay động từ?
- Mức độ không rõ ràng về cú pháp : 1 câu có thể được phân tích cú pháp theo những cách khác nhau. Ví dụ: “Anh ấy nâng con bọ có mũ màu đỏ.” – Anh ta dùng nắp để nhấc con bọ lên hay anh ta nhấc 1 con bọ cánh cứng có nắp màu đỏ?
- Tham chiếu không rõ ràng : Nhắc đến tới cái gì đó bằng cách sử dụng đại từ. Ví dụ, Rima đã tới Gauri. Cô ấy nói, “Tôi mệt mỏi.” – Chính xác là ai đang mệt?
3. Thuật ngữ NLP :
Hiện tại ta hãy xem một số thuật ngữ quan trọng trong thuật ngữ NLP :
- Phonology : Nghiên cứu về tổ chức âm thanh 1 cách hệ thống.
- Morphology : Nghiên cứu về cấu tạo của từ từ những đơn vị có nghĩa ban đầu.
- Morpheme : Đơn vị nghĩa nguyên thủy trong 1 ngôn ngữ.
- Syntax : Nhắc đến tới việc sắp xếp các từ để tạo nên 1 câu. Nó cũng liên quan tới việc xác định vai trò cấu trúc của các từ trong câu và ở trong các cụm từ.
- Semantics : Liên quan tới nghĩa của từ và cách kết hợp các từ thành các cụm từ và câu có nghĩa.
- Pragmatics : nhắc đến tới việc sử dụng và hiểu các câu trong những tình huống khác nhau và cách thức giải thích câu bị ảnh hưởng.
- Discourse : nhắc đến tới việc câu ngay trước đây có thể gây ảnh hưởng ra sao tới việc giải thích câu tiếp theo.
- World Knowledge : Bao gồm các kiến thức chung về thế giới.
4. Những bước trong NLP :
a. Phân tích từ vựng :
Nó liên quan tới việc xác định và phân tích cấu trúc của từ. Từ vựng của 1 ngôn ngữ nghĩa là tập hợp các từ và cụm từ trong 1 ngôn ngữ. Phân tích từ vựng là phân chia tất cả đoạn văn bản thành các đoạn văn, câu và từ.
b. Phân tích cú pháp :
Nó gồm việc phân tích các từ trong câu để tìm ngữ pháp và sắp xếp các từ theo cách thể hiện mối quan hệ giữa các từ. Câu như “The faculty go to boy” bị từ chối do bộ phân tích cú pháp tiếng Anh.
c. Phân tích ngữ nghĩa :
Nó rút ra ý nghĩa chính xác hay nghĩa từ điển từ văn bản. Văn bản được kiểm tra xem có ý nghĩa hay là không. Nó được bắt đầu bằng cách ánh xạ các cấu trúc cú pháp và những đối tượng trong miền tác vụ. Bộ phân tích ngữ nghĩa bỏ qua câu ví dụ như “sizzling ice-cream”.
d. Tích hợp bài giảng :
Ý nghĩa của bất kỳ câu nào dựa vào nghĩa của câu ngay trước nó. Ngoài ra nó còn đem ý nghĩa câu thành công ngay và lập tức.
e. Phân tích thực dụng :
Trong bây giờ, những gì đã nói sẽ được diễn giải lại dựa vào ý nghĩa thực sự của nó. Nó liên quan tới việc tạo nên những góc cạnh của ngôn ngữ đòi hỏi kiến thức thế giới thực.