20/09/2024

Tin Tổng Hợp | Tin Tức Trong Ngày

Cập Nhật Tin Chính Trị | Kinh Tế | Giải Trí

Công nghệ AI “Rosetta” của Facebook – Trích xuất văn bản từ hình ảnh

RemovCông nghệ AI "Rosetta" của Facebook - Trích xuất văn bản từ hình ảnhe term Công nghệ AI Rosetta Công nghệ AI Rosetta

Để giải quyết các nhu cầu giao tiếp, tìm kiếm thông tin của người dùng, chúng tôi đã xây dựng và triển khai một hệ thống học máy quy mô lớn có tên là Rosetta . Công nghệ AI “Rosetta” của Facebook trích xuất văn bản từ hơn một tỷ hình ảnh và khung video trên Facebook và Instagram công khai (bằng nhiều ngôn ngữ khác nhau), hàng ngày và trong thời gian thực, và nhập nó vào mô hình nhận dạng văn bản đã được đào tạo về bộ phân loại để hiểu ngữ cảnh của văn bản và hình ảnh cùng nhau.

Hiểu văn bản xuất hiện trên hình ảnh là điều quan trọng để cải thiện trải nghiệm. Chẳng hạn như tìm kiếm ảnh phù hợp hơn hoặc kết hợp văn bản vào trình đọc màn hình giúp người khiếm thị dễ tiếp cận Facebook hơn. Việc hiểu văn bản trong hình ảnh cùng với ngữ cảnh mà nó xuất hiện; cũng giúp hệ thống của chúng tôi chủ động xác định nội dung không phù hợp. Hoặc có hại và giữ an toàn cho cộng đồng của chúng tôi.

Facebook có thể biên dịch văn bản từ động từ hình ảnh

Tính năng biên dịch tự động của mạng xã hội lớn nhất hành tinh này hiện còn có thể hoạt động với 24 ngôn ngữ mới.

Facebook có thể biên dịch văn bản từ động từ hình ảnh

Mọi người khi online không chỉ giao tiếp với nhau thông qua ngôn từ; mà còn qua hình ảnh. Đối với một nền tảng như Facebook với hơn 2 tỷ người hoạt động mỗi tháng. Điều đó có nghĩa là có vô số các hình ảnh được đăng tải mỗi ngày, bao gồm cả các meme. Nhằm đưa các hình ảnh đi kèm với văn bản vào các kết quả tìm kiếm hình ảnh tương ứng. Để các chương trình đọc màn hình có thể hiểu được nội dung được viết trên các hình ảnh. Và đảm bảo chúng không chứa các nội dung xấu. Các từ ngữ vi phạm chính sách nội dung của website, Facebook đã tạo và triển khai một hệ thống machine learning quy mô rộng gọi là “Rosetta”.

Facebook cần một hệ thống nhận diện ký tự quang học; có thể thường xuyên xử lý một lượng lớn nội dung. Do đó họ phải “cầu cứu” đến công nghệ của riêng mình. Theo mạng xã hội này, Rosetta có thể trích xuất văn bản từ hơn 1 tỷ hình ảnh và khung hình video; có bao gồm rất nhiều loại ngôn ngữ khác nhau mỗi ngày trong thời gian thực!

Chức năng hoạt động của Rosetta

Trong một bài đăng blog mới, công ty đã giải thích cách thức hoạt động của Rosetta như sau: “Nó bắt đầu bằng cách phát hiện các vùng hình chữ nhật trong các hình ảnh có khả năng chứa văn bản. Sau đó, nó sử dụng một mạng thần kinh xoắn ốc để nhận diện và biên dịch nội dung được viết trong vùng đó. Kể cả các từ không phải Tiếng Anh hay các ký tự không phải Tiếng Latin, như Ả-rập và Hindi. Để huấn luyện hệ thống này, Facebook đã sử dụng một tập hợp các hình ảnh công khai được ghi chú bởi cả con người lẫn máy tính.

Chức năng hoạt động của Rosetta

Các nhóm khác nhau trong nội bộ Facebook và Instagram đã và đang sử dụng Rosetta để kiểm duyệt các nội dung. Và giữ cho các nền tảng mạng xã hội của họ luôn trong tình trạng “sạch sẽ”. Công ty có dự định tiếp tục “dạy” cho AI của mình biết thêm nhiều ngôn ngữ nữa. Đồng thời cải thiện kỹ năng trích xuất văn bản từ các khung hình video của nó.

Hiện Facebook đã thêm vào dịch vụ biên dịch tự động của mình 24 ngôn ngữ mới. Bao gồm tiếng Serbia, Belarus, Marathi, Sinhal, Telugu, Nepal, Kannada, Urdu, Punjabi, Cambodia, Pashto, Mongolia, Zulu, Xhosa và Somali. Facebook thừa nhận rằng khả năng biên dịch các ngôn ngữ mới thêm vào này; vẫn còn ở giai đoạn sơ khai. Do đó sẽ có khá nhiều lỗi biên dịch. Hãng dự định tiếp tục cải tiến chúng và giới thiệu thêm nhiều ngôn ngữ nữa trong tương lai.