Một số ứng dụng của xử lý ngôn ngữ

1. Ngôn ngữ học và xử lý ngôn ngữ – Linguistics and language processing

Ngôn ngữ học (linguistics) là nghiên cứu và mô tả ngôn ngữ của con người. Các học thuyết về ngữ pháp và ngữ nghĩa đã được phát triển từ thời cổ đại và thời trung cổ.

2. Bộ kiểm tra chính tả và ngữ pháp – Spelling and grammar checkers

Những chương trình này hiện nay là phổ biến trong các bộ xử lý văn bản như các trong bộ MS Offices, Open Offices, trong các trình soạn thảo của web, v.v và có hàng triệu người dùng chúng mỗi ngày. Các bộ kiểm tra chính tả hoạt động dựa trên cơ sở tính toán trên các từ điển và chúng loại bỏ đi các từ bị sai chính tả mà xuất hiện trong tài liệu. Bộ kiểm tra ngữ pháp sử dụng các luật để tìm ra các kiểu và lỗi ngữ pháp thông dụng (Jensen và cộng sự (1993)).

3. Đánh chỉ mục văn bản và lấy thông tin từ Internet – Text indexing and information retrieval from the Internet

Các ứng dụng kiểu này rất phổ biến của Web. Chúng dựa trên cơ sở  thu thập việc ghé thăm các site và download các văn bản mà các site chứa nó.  Việc thu thập lần theo các đường link trên các trang và vì vậy chúng khám phá các nội dung chứa trong website. Nhiều hệ thống này thực hiện việc đánh chỉ mục toàn văn (full text indexing) của tất cả các trang. Khi đó người sử dụng truy vấn một câu hỏi và các hệ thống lấy lại được nội dung trả về từ các địa chỉ internet của các tài liệu chứa các từ của câu truy vấn. Thống kê sử dụng các từ và đo mức độ phổ biến, các hệ thống có thể xếp được thứ hạng các tài liệu (Brin và Page 1998; Salton 1988).

4. Ghi chép từ lời nói – Speech transcription

Những chương trình này dựa trên nhận biến lời nói. Thay vì chúng ta phải sử dụng bàn phím để gõ vào, các hệ thống này cho phép người sử dụng ra lệnh bằng giọng nói và chúng sẽ được sao chép tự động thành văn bản, như hệ thống Microsoft Windows Speech Recognition hoặc Voice Search của Google có hiệu quả khá cao và nhận biết được các ngôn ngữ tiếng Anh, Pháp, Đức, Nhật, Trung Quốc, v.v, và giờ hỗ trợ cả ngôn ngữ Việt nam. Một vài hệ thống có thể ghi chép lại các chương trình radio và các chương trình tin tức TV với tỉ lệ lỗi các từ nhỏ hơn 10% (Nguyen và cộng sự 2004).

5. Điều khiển bằng giọng nói cho các thiết bị gia đình – Voice control of domestic devices

Hiện nay, việc xây dựng thành phố thông minh, ngôi nhà thông mình đang được hâm nóng từng ngày với các ứng dụng và tự động hóa – ví dụ như người sử dụng có thể lên lịch cho một chiếc đèn thông minh để bật vào lúc hoàng hôn, hoặc sử dụng điện thoại của bạn để tắt nó sau khi bạn lên giường. Nhưng điều gì sẽ xảy ra nếu bạn có thể đơn giản nói với ngôi nhà thông minh của mình tắt nó đi?

Những tiến bộ gần đây trong công nghệ nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên đã làm cho một ngôi nhà thông minh được điều khiển bằng giọng nói hoàn toàn có thể đạt được, và nhiều tiện ích hứa hẹn sẽ hoàn thành công việc đã có sẵn.

6. Các ứng dụng tương tác giọng nói – Interactive voice response applications

Các ựng dụng tương tác giọng nói (IVR) là một công nghệ cho phép máy tính tương tác với con người thông qua việc sử dụng giọng nói và âm thanh DTMF nhập qua bàn phím. Trong viễn thông, IVR cho phép khách hàng tương tác với hệ thống máy chủ của công ty thông qua bàn phím điện thoại hoặc bằng nhận dạng giọng nói, sau đó có thể tìm hiểu các dịch vụ thông qua đối thoại IVR. Các hệ thống IVR có thể phản hồi với âm thanh được ghi trước hoặc được tạo động để người dùng thực hiện theo các chỉ dẫn của hệ thống.

Các hệ thống IVR được triển khai với hệ thống có số lượng cuộc gọi lớn và cũng được sử dụng để gọi đi, vì hệ thống IVR thông minh hơn nhiều hệ thống quay số dự đoán.

7. Dịch máy – Machine translation

Nghiên cứu về dịch máy là một trong các lĩnh vực lâu đời nhất trong xử lý ngôn ngữ. Một trong những kết quả là hệ thống SYSTRAN mà ban đầu dịch giữa tiếng Anh và tiếng Nga cho Bộ quốc phòng Mỹ. Ngày nay, dịch máy đã được mở rộng cho nhiều ngôn ngữ khác và đã trở thành một ứng dụng chủ đạo trong xử lý ngôn ngữ tự nhiên: Google Translate hiện tại hỗ trợ hơn 60 ngôn ngữ và được sử dụng hơn 200 triệu người mỗi tháng (Och 2012). Người người đi tiên phong trong lĩnh vực này là Spoken Language Translator  mà được dịch từ ngôn ngữ nói tiếng Anh sang ngông ngữ Thuỵ điển trong  lĩnh vực giới hạn về thời gian thực (Agnäs cộng sự 1994; Rayner và cộng sự 2000)

8. Đàm thoại tự động – Conversational agents

Là một hệ thống hội thoại (Dialogue System) bằng việc hệ thống sẽ tương tác với con người thông qua việc xử lý ngôn ngữ tự nhiên và sẽ tự động trả lời bằng ngôn ngữ của con người. Các tác nhân này đại diện cho việc triển khai thực tế các ngôn ngữ học tính toán, thường được sử dụng làm chatbot qua internet hoặc làm trợ lý thiết bị cầm tay. Sự tương tác giải thích/phản hồi này có thể thực hồi bằng nhiều hình thức khác nhau, không chỉ đơn giản là văn bản.

Hệ thống hội thoại cũng có thể đọc từ (kênh đầu vào) và phản hồi bằng lời nói (kênh đầu ra), đồ họa, cử chỉ ảo hoặc cử chỉ vật lý.

9. Hỏi đáp – Question answering

Các hệ thống hỏi đáp đánh dấu cột một của mình vào năm 2011 khi hệ thống IBM Watson tranh tài trên truyền hình trong chương trình có tên Jeopardy! để thử nghiệm tính năng của nó (Ferrucci 2012). Các câu hỏi đáp của Watson đề cập trong nhiều lĩnh vực, sử dụng tri thức là ngôn ngữ tự nhiên được trích xuất từ Wikipedia và các nguồn dữ liệu gốc, các bách khoa toàn thư, các từ điển và cả những cơ sở dữ liệu như WordNet, DPedia và Yago (Fan và cộng sự 2012).

Một vài ứng dụng của xử lý ngôn ngữ ngày càng được sử dụng phổ biến như bộ kiểm tra chính tả và ngữ pháp. Một cố các khái hiện vẫn chưa sẵn sàng cho khai thác công nghiệp hoặc vẫn quá đắt cho sử dụng đại trà. Không giống như các chương trình máy tính khác, kết quả của các kỹ thuật xử lý ngôn ngữ hiếm khi đạt được tỉ lệ thành công 100%, như hệ thống nhận biết giọng nói là một ví dụ. Các kỹ thuật xử lý ngôn ngữ đạt được độ chín và có thể sử dụng được khi chúng hoạt động với độ chính xác nhất định và với chi phí chấp nhận được. Tuy nhiên thường các kỹ thuật này vẫn đang tiếp tục cải tiến và chúng thay đổi khá nhanh theo cách tương tác của chúng ta với máy tính.

Có thể bạn sẽ thích…

Để lại một bình luận