Công cụ x.ent cho trích xuất dữ liệu thực thể và quan hệ giữa các thực thể

Ngày nay với chúng ta đang sống trong thời đại bùng nổ về công nghệ thông tin, theo thống kê, mỗi ngày có 540 triệu tin nhắn văn bản được gửi đi trên toàn thế giới, 143 tỷ email được trao đổi, 40.000 gigabyte dữ liệu được tạo ra bởi Máy gia tốc hạt lớn (LHC – Large Hadron Collider), 400 triệu cập nhật trạng thái trên trang mạng xã hội Twitter được đăng, 104.000 giờ video được thêm vào YouTube, v.v. (theo NASATI) và nó còn tiếp tục tăng lên trong thời gian tới.

Việc xử lý và phân tích dữ liệu lớn dựa trên những nghiên cứu trong nhiều lĩnh vực bao gồm khoa học máy tính, thống kê, toán học, kỹ thuật dữ liệu, nhận dạng mẫu, trực quan hóa, trí tuệ nhân tạo, máy học và tính toán hiệu năng cao.

Với lượng dữ liệu rất lớn, nó có thể chứa cả những thông tin dư thừa, vì vậy việc trích xuất thông tin (IE) là một bước rất quan trọng để lấy được ra những thông tin cần thiết cho việc phân tích dữ liệu. Hiện nay trích xuất thông tin được sử dụng trong rất nhiều lĩnh vực ứng dụng như để tìm hiểu về xu hướng kinh doanh chủ yếu của người dùng, ngăn ngừa bệnh tật, phòng chống tội phạm, lĩnh vực tin sinh học, phân tích chứng khoán, v.v.

Trích xuất thực thể (IE)

Hình ảnh minh hoạ trích xuất dữ liệu tên người, vị trí, thời gian …

X.ent là một công cụ được chúng tôi xây dựng cho việc trích xuất dữ liệu văn bản (trích xuất thực thể và quan hệ giữa các thực thể), ngoài ra chúng tôi còn xây dựng một số tính năng bằng đồ hoạ được viết trên R để cung cấp cho người sử dụng các tính năng phân tích dữ liệu sau khi trích xuất. Công cụ này là sự kết hợp các ngôn ngữ lập trình khác nhau: Perl cho phần trích xuất dữ liệu, R cho việc hỗ trợ phân tích kết quả. Sau khi hoàn thành chúng tôi đã gửi công cụ của chúng tôi lên trang chủ của CRAN (là một trang chứa các gói ứng dụng của R) và được các chuyên gia thống kê học ở đây chấp nhận, hiện tại người sử dụng có thể tải về và cài đặt trực tiếp từ máy chủ CRAN. Đây là sản phẩm được tôi hoàn thành trong quá trình học cao học tại Pháp năm 2012 – 2014.

Bạn có thể download, đọc bài báo và tìm hiểu công cụ x.ent tại TimODay.edu.vn

Có thể bạn sẽ thích…

Bình luận

Thư điện tử của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *