Luận văn thạc sĩ Khoa học máy tính: Tóm tắt tự động đa văn bản tiếng việt theo cách tiếp cận dựa trên mô hình BERT (2024)

Công cụ này có thể tạo tóm tắt cho các bài báo nghiên cứukhoa học dựa trên đầu vào là một danh sách các bài nghiên cứu có cùng chuyên ngành.Công cụ này có thê tiết kiệm nhiều thời gian c

Trang 1

TÔ QUOC HUY

TOM TAT TỰ DONG DA VĂN BAN TIENG VIET THEO

CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT

LUẬN VĂN THẠC SĨ

NGÀNH KHOA HỌC MÁY TÍNH

MÃ NGÀNH: 8.48.01.01

TP HO CHÍ MINH - 2022

Trang 2

TOM TAT TU DONG DA VAN BAN TIENG VIET THEO

CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT

LUẬN VĂN THẠC SĨ

NGÀNH KHOA HỌC MÁY TÍNH

MÃ NGÀNH: 8.48.01.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYÊN LƯU THÙY NGÂN

TP HO CHÍ MINH - 2022

Trang 3

may mắn nhận được sự hỗ trợ từ Nhà Trường, Thầy Cô và Gia đình.

Học viên xin gửi lời cảm ơn chân thành đến Khoa Khoa học Máy tính, PhòngĐào Tạo Sau Đại Học, trường Đại học Công Nghệ Thông Tin đã hỗ trợ và tạo điều

kiện, giúp đỡ học viên trong suốt quá trình học (huắn luyện) và nghiên cứu tại trường

Học viên xin được gửi lời tri ân sâu sắc đến người hướng dẫn khoa học - TS.Nguyễn Lưu Thùy Ngân vì sự hướng dẫn, chỉ bảo tận tình của Cô

Học viên cũng xin gửi lời cảm ơn đến TS Nguyễn Gia Tuấn Anh, NCS.Nguyễn Văn Kiệt là những người thầy luôn theo sát, quan tâm và hỗ trợ, quý Thay,

Cô, anh chị, bạn bè đồng nghiệp tại Khoa Khoa học và Kỹ thuật Thông tin đã giúp

đỡ và chia sẻ kiến thức chuyên môn trong suốt quá trình thực hiện Luận văn

Xin gửi lời cảm ơn đến gia đình là nguồn động viên to lớn và chỗ dựa vữngchắc cho học viên vượt qua khó khăn đê hoàn thành Luận văn

Tp Hồ Chí Minh, tháng 12 năm 2022

Học viên

Tô Quốc Huy

Trang 4

VAN BẢN TIENG VIET THEO CÁCH TIẾP CAN DỰA TREN MÔ HÌNH BERT”

là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Nguyễn Lưu Thùy Ngân.

Các trích dẫn, tham khảo trong quá trình nghiên cứu đều được trích dẫn đầy

đủ, ghi rõ nguồn gốc

Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ sao chép không hợp lệ, vi

phạm quy chế đảo tạo

Người thực hiện

Tô Quốc Huy

Trang 5

13 Ý nghĩa của luận văn

1.4 Các đóng góp chính của luận văn

1.5 Cấu trúc luận văn

CHƯƠNG 2 CƠ SỞ LÝ THUYET

2.1 Tóm tắt da văn bản và các công trình liên quan

2.1.1 Tóm tắt đa văn bản

2.1.2 Các nghiên cứu liên quan

2.2 Giới thiệu về BERT

2.2.1 Khái niệm về ngữ cảnh và vai trò trong Xử lý ngôn ngữ tự nhién 9

2.2.2 Học sâu

2.2.3 Phân loại học sâu

2.2.4 Mạng thần kinh hồi quy Recurrent Neural Network (RNN)

2.2.5 Các loại mạng RNN

2.2.6 Sequence-to-sequence

Trang 6

2.2.7 Cơ chế attention

2.2.8 Transformer

2.2.9 Kiến trúc BERT

CHƯƠNG 3 CÁC MÔ HÌNH DỰA TRÊN BERT

3.1 Mô hình BERT đa ngôn ngữ

3.1.1 m-BERT (BERT multilingual)

4.1 Thuật toán gom cụm K-means

4.1.1 Phương pháp khuỷu tay

5.2.2 Phân tích sử anh hưởng của tách tt

5.2.3 So sánh kết quả hiện tại với các công trình trước đó

Trang 7

CHƯƠNG 6 KET LUẬN VÀ HƯỚNG PHAT TRIEN

6.1 Kết quả dat được

6.2 Hướng phát triên

TÀI LIEU THAM KHẢO

PHU LUC 1 DANH MỤC CÁC CONG BO KHOA HOC

Hội nghị quốc tế

PHU LUC 2 DANH MỤC CAC HO SƠ LIÊN QUAN

Trang 8

DANH MỤC CÁC BẢNG BIÊU

Bang 2.1 So sánh giữa phương pháp học có giám sát và học không giám sát 2

Bảng 2.2 Phân loại cấu trúc RNN

Bang 4.1 Tông quan về bộ dữ liệu VietnameseMDS

Bảng 4.2 So sánh giữa hai mẫu tóm tắt

Bảng 4.3 So sánh hai mô hình BERT trên các chỉ sô k

Bảng 5.1 So sánh hiệu năng các mô hình BERT

Bảng 5.2 Kết quả của các mô hình BERT khi sử dụng tài liệu đã được tách từ 56

Bang 5.3 So sánh hiệu suất của mô hình BERT và các mô hình khác

Bảng 5.4 So sánh hai mô hình có hiệu suất cao nhất với các hệ thống tóm tắt văn bản

tiếng Việt khác

Trang 9

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Hình 2.1 Mô hình kiến trúc máy học truyền thống và kiến trúc học sâu

Hình 2.4 Mô hình bộ encoder và decoder đơn giản.

Hình 2.5 Mô hình encoder-decoder của kiến trúc Transformer [29]

Hình 2.6 So sánh cấu trúc của BERTbase và BERTlarge

Hình 2.7 Quá trình nhúng từ theo ngữ cảnh

Hình 2.8 Biểu diễn đầu vào của mô hình BERT Các kết quả nhúng dau vào là tong

các token embedding, các segmentation embedding và các position embedding [30].

Hình 2.10 Các bước tao đầu vào trong bài toán NSP [30]

Hình 2.11 Các bước tạo đầu ra[30]

Hình 3.1 Sự gia tăng kích thước của tập dữ liệu CommonCrawl trên Wikipedia cho

mỗi ngôn ngữ [32]

Hình 3.2 So sánh mô hình BERT truyền thống và mô hình DistiIBERT

Hình 3.3 Mô hình mạng Siamese

Hình 3.4 Mô hình SBERT khi suy luận

Hình 4.1 Khởi tạo các centroid

Hình 4.2 Ví dụ về tính khoảng cách giữa các điểm tới các centroid

Hình 4.3 Phân cụm theo centroid

Hình 4.4 Khởi tạo lại các điểm centroid 45Hình 4.5 Biểu đồ của một ví dụ về phương pháp đánh giá khuyu tay 46

Hình 4.6 Kết quả của một thí nghiệm sử dụng phân tích Sihouette với k lần lượt bằng

2,3 và 4.

Trang 10

Hình 4.7 Mỗi câu được mã hóa bởi các mô hình BERT sau đó xếp hạng và lựa chọn

để ra tóm tắt cuối cùng Độ dai của bản tóm tắt có thể được xác định bằng thuật toán

K-means

Hình 4.8 So sánh hiệu quả của hai mô hình BERT trên các chỉ số k

Hình 5.1 Tương quan giữa chiều dai văn bản đầu vào (chia theo token) đầu vào và

kết quả của mô hình

Hình 5.2 Số lượng diém dữ liệu chia theo độ dài của sI

Trang 11

TOM TAT

Các nghiên cứu gan đây đã chứng minh rằng các mô hình BERT cho thấy tiềm năngtrong rất nhiều nhiệm vụ thuộc lĩnh vực xử lý ngôn ngữ tự nhiên Nó được sử dụngnhư một bộ mã hóa cho nhiều hệ thống tóm tắt tự động hiện đại, đạt được hiệu suấtrất cao Tuy nhiên, cho đến nay, các nghiên cứu cho bài toán tóm tắt đa văn bản vẫnchưa có nhiều cho tiếng Việt Luận văn giới thiệu cách triển khai BERT để tóm tắtvăn bản theo hướng rút trích cho nhiều văn bản tiếng Việt Học viên mô tả các sosánh giữa các mô hình BERT đa ngôn ngữ và đơn ngôn ngữ khác nhau Kết quả thửnghiệm chỉ ra rằng các mô hình đơn ngôn ngữ cho kết quả nhỉnh hơn so với các môhình đa ngôn ngữ khác cũng như so với các mô hình tóm tắt văn ban trước đây chotiếng Việt

Trang 12

CHƯƠNG 1 GIỚI THIỆU TÓNG QUAN

1.1 Đặt vấn đề

Tự động tóm tắt văn bản là một trong những nhiệm vụ khó của xử lý ngôn ngữ

tự nhiên (NLP) Tác vụ này yêu cầu máy tạo một đoạn văn bản là phiên bản ngắn hơncủa một hoặc nhiêu tài liệu đầu vào Cụ thé là, đầu ra của công cụ tóm tắt văn ban tựđộng phải được cô đọng thành thông tin trong khi vẫn bảo toàn kiến thức cơ bản của

các tài liệu đã cho.

Các ứng dụng cho bài toán này được phổ biến rộng rãi Một ví dụ đơn giản làcông cụ tóm tắt tự động Công cụ này có thể tạo tóm tắt cho các bài báo nghiên cứukhoa học dựa trên đầu vào là một danh sách các bài nghiên cứu có cùng chuyên ngành.Công cụ này có thê tiết kiệm nhiều thời gian cho các nhà nghiên cứu và cả độc giả.Mặc dù thực tế rằng phần tóm tắt (abstract) chỉ là một bản tóm tắt của một bài báonghiên cứu, nó vẫn tốn nhiều thời gian cho các nhà nghiên cứu dé đọc hết bài viết vàviết lại thành một đoạn văn ngắn gọn

Mặc dù phần lớn các nghiên cứu tóm tắt văn bản trên tiếng Anh đã đạt đượcnhững thành tựu dang kể, chúng ta vẫn chưa có nhiều nghiên cứu được thực hiện trêntiếng Việt Trong những năm gan đây, việc nghiên cứu các thuật toán tóm tắt văn bảntiếng Việt chủ yếu dựa vào xếp hạng đặc trưng [1], [2] và hệ thống dựa trên toán đòthị [3] Trong khi đó, mô hình Biểu diễn mã hóa hai chiều được huấn luyện sẵn (Pre-training of Deep Bidirectional Transformers - BERT) đã cho thấy những lợi thế đáng

kể của nó trong nhiều nhiệm vụ NLP bằng tiếng Việt như phân loại văn ban [4], [5]

và đọc hiểu máy [6] Ngoài ra, một số nghiên cứu thử nghiệm về học sâu cho bài toán

này trên bộ dit liệu tiếng 'Việt cũng cho thấy kết quả vượt trội so với các thuật toán

truyền thống [7]

Có hai loại mô hình BERT được giới thiệu và sử dụng trong các nghiên cứu là

mô hình BERT đa ngôn ngữ và mô hình BERT đơn ngôn ngữ BERT đa ngôn ngữ là

các mô hình dưa trên BERT đã được huấn luyện sẵn trên nhiều ngôn ngữ khác nhau

Do đó, các mô hình loại này có thể được áp dụng cho các bài toán Xử lý ngôn ngữ tựnhiên trên nhiều thứ tiếng Ngược lại, mô hình BERT đơn ngôn ngữ là những mô

Trang 13

hình chỉ được huấn luyện sẵn trên một ngôn ngữ duy nhất Thông thường, có mô hình

BERT đơn ngôn ngữ này được cấu hình tối ưu cho đặc tính và ngữ pháp của từngngôn ngữ riêng Vì vậy, trên một số bai toán mô hình BERT đơn ngôn ngữ có kết quả

tốt hơn các mô hình BERT đa ngôn ngữ

Các mô hình BERT nói trên đã được thử nghiệm và đánh giá hiệu quả trên

nhiều bài toán, tuy nhiên, vẫn còn khá ít các công trình nghiên cứu bài toán tóm tắtvăn bản bằng tiếng Việt mà ứng dụng các mô hình dựa trên BERT

1.2 Mục tiêu và phạm vi nghiên cứu

1.2.1 Mục tiêu

Mục tiêu của đề tài là đưa ra một các tiếp cận mới cho bài toán tóm tat đa văn

bản tiếng Việt Cách tiếp cận này áp dụng các mô hình được huấn luyện sẵn

dựa trên cấu trúc của mô hình BERT Ưu điểm vượt trội của BERT trên cácvăn bản tiếng Việt là khả năng tạo các biéu diễn theo ngữ cảnh dựa trên các từtrước và sau đó Do đó, mô hình có thé biểu diễn các từ và câu với ngữ nghĩachính xác hơn Mặt khác, các mô hình dựa vào BERT đơn thuần không đạt kếtquả mong đợi [8], do đó trong nghiên cứu này cũng kết hop BERT với một số

kỹ thuật tóm tắt văn bản khác dé tối ưu kết quả

Trong luận văn này, học viên xem xét hiệu suất của một số mô hình dựa trênBERT đối với việc tóm tắt văn bản theo hướng rút trích trên các văn bản tiếngViệt Học viên tiền hành thử nghiệm đồng thời trên cả hai loại mô hình BERTđơn ngôn ngữ và đa ngôn ngữ để so sánh hiệu suất của cả hai mô hình trong

bài toán này.

Ngoài ra, các bộ dữ liệu sử dụng cho bài toán tóm tắt văn bản tiếng Việt hiệnnay như VietnameseMDS! đều có kích thước nhỏ Trong khi đó, các mô hình

dựa trên BERT đã chứng minh hiệu quả trên các bộ dữ liệu có kích thước vừa

và nhỏ trên các bài toán xử lý ngôn ngữ tự nhiên khác trên tiếng Việt Nghiêncứu không chỉ giải đáp thắc mắc về hiệu năng thực tế của một mô hình pre-train nỗi bật hiện nay là BERT vào bai toán tom tắt văn bản tiếng Việt, mà còn

Trang 14

đối chiếu và so sánh lẫn nhau các phương pháp dựa trên BERT và với các

phương pháp đã có khác.

Tóm lại, những mục tiêu chính của luận văn bao gồm:

1 Đánh giá hiệu quả của các mô hình theo cách tiếp cận dựa trên BERT

và thuật toán gom cụm K-Means trong bài toán tóm tắt đa văn bản tiếng

Việt tự động.

2 So sánh và phân tích hiệu quả của mô hình BERT đa ngôn ngữ và BERT

đơn ngôn ngữ cho bài toán tóm tắt đa văn bản tiếng Việt tự động

3 So sánh và đánh giá mô hình đề xuất với các mô hình không dựa trên

BERT khác trên cùng một bộ dữ liệu.

1.2.2 Pham vi nghiên cứu

Luận văn này tập trung nghiên cứu vào hai loại mô hình chính là mô hình BERT

đơn ngôn ngữ và BERT đa ngôn ngữ dé tóm tắt các văn bản tiếng Việt theokiểu rút trích

Dữ liệu được sử dụng trong luận văn là các dữ liệu dạng văn bản tin tức được

rút trích từ một trang báo điện tử tiếng Việt

1.3 Ý nghĩa của luận văn

Bài toán tóm tắt văn bản đặc biệt là tóm tắt đa văn bản đã được nghiên cứurộng rãi trên toàn thé giới Như đã đề cập, bài toán nay đã được nghiên cứu rất chuyênsâu trên các văn bản tiếng Anh, nhưng vẫn chưa xuất hiện nhiều công trình nghiêncứu trên tiếng Việt Trong khi đó, các nội dung văn bản tiếng Việt ngày càng được

đa dạng hóa trên các trang tin tức điện tử cũng như các trang mạng xã hội Con người

hiện nay có rất it thời gian cho việc cập nhật tin tức Vì vậy, việc có một hệ thống có

thể tóm tắt các ý chính hoặc nội dung nôi bật từ nhiều văn bản và nhiều nguồn là cần

thiết Nó có thé giúp cho con người tiết kiệm được thời gian dé có thé nắm bắt các

thông tin quan trọng.

Do đó về mặt khoa học, luận văn đã đề xuất được một cách tiếp cận mới cho.bài toán tóm tắt đa văn bản tiếng Việt tự động Trong các tiếp cận này, học viên đã

ứng dụng nhiều loại mô hình dựa trên BERT kết hợp với phương pháp gom cụm

Trang 15

k-means Dựa vào kết quả thự nghiệm, luận văn đã chứng minh được hiệu quả của mô

hình dựa trên BERT và phương pháp gom cụm k-means.

Ngoài ra, dựa vào kết quả khả quan của cách tiếp cận mới này, các trang báo

điện có thể ứng dụng để xây dựng các hệ thống tóm tắt tin tức tự động Ứng dụng của

các tiếp cận do học viên đề xuất có thể là phần mềm tạo tiêu để tự động hoặc tạo trang

"bản tin nỗi bật" tự động Từ đó, người đọc có thể năm bắt thông tin nhanh, cụ thể và

16 ràng hơn khi đọc các trang tin tức.

1.4 Các đóng góp chính của luận văn

Các đóng góp chính của luận văn như sau:

© Dé xuất một cách tiếp cận mới cho tóm tắt đa văn bản tiếng Việt dựa trên

các mô hình dựa trên BERT tiên tiến Cách tiếp cận này đạt hiệu suất tối

ưu nhất trong việt rút trích câu từ các đoạn văn bản tiêng Việt và cấu tạothành một đoạn tóm tắt duy nhất

© Đề xuất thử nghiệm và so sánh lẫn nhau giữa các mô hình mới dựa trên

BERT và các phương pháp đã có khác.

e Luận văn đã nghiên cứu và công bố một bài báo khoa học được đăng ký

kỷ yếu tại hội nghị PACLIC2021 (xem Phụ lục 1)

1.5 Cấu trúc luận văn

Luận văn “Tóm tắt tự động đa văn bản tiếng Việt theo cách tiếp cận dựa trên

mô hình BERT” bao gồm 6 chương Nội dung từng chương như sau:

© Chương 1: TONG QUAN Chương bao gồm các nội dung: Đặt vấn dé,Mục tiêu của luận văn, Phạm vi nghiên cứu của luận văn và cuối cùng là

ý nghĩa của luận văn.

e _ Chương2: CƠ SỞ LÝ THUYET Chương này trình bày các cơ sở lý thuyết

của các thuật toán xếp hạng, gom nhóm câu và các mô hình BERT được

thử nghiệm trong luận văn.

Trang 16

Chương 3: CÁC MÔ HÌNH DỰA TRÊN BERT Chương mô tả chỉ tiết

các mô hình dựa trên BERT thuộc hai nhóm là đơn ngôn ngữ và đa ngữ.

Chương 4: PHƯƠNG PHÁP Chương này trình bày phương pháp đề xuất

của luận văn.

Chương 5: KET QUA VA PHAN TÍCH Chương này mô tả các thử

nghiệm, thống kê các kết quả đạt được và so sánh các kết quả với nhau

cũng như với các kết quả của các công trình khác

Chương 6: KET LUẬN VÀ HƯỚNG PHÁT TRIEN Trong chương cuốicùng, học viên tóm tắt lại các đề xuất và kết quả đạt được; và mô tả hướngphát triển tiếp theo

Trang 17

CHUONG2 CƠSỞLÝ THUYETChương 2 giới thiệu các kiến thức về mô hình BERT, Transformer, tiếp cận

nông/sâu, học sâu, các thuật toán xếp hạng và gom nhóm câu để tạo đoạn văn bảntóm tắt được sử dụng trong luận văn Một số nghiên cứu đã có cùng các hướng tiếpcận liên quan dé này cũng được dé cập và khảo sát

2.1 Tóm tắt đa văn bản và các công trình liên quan

2.1.1 Tóm tắt da văn bản

Các kỹ thuật để tóm tat văn bản được chia thành hai loại: rút trích và tom lượchóa Tóm tắt rút trích là sự kết hợp của các câu được rút trích từ văn bản gốc Các câunày được tính toán để mang nội dung chính của tài liệu Ngược lại, tóm tắt tóm lược

là một kỹ thuật sử dụng tài liệu gốc để tạo ra một văn bản mới Nói cách khác, phươngpháp này tạo ra những câu mới dựa trên những thông tin quan trọng nhất của bản gốc.Mặc dù mọi người thường sử dụng các cách tóm lược đê tạo một bản tóm tắt, nhưngcác phương pháp tóm tắt rút trích được chú ý nhiều hơn trong các nghiên cứu gần đây[9] Hiệu suất của hệ thống tóm tắt rút trích thường tốt hơn hệ thông tóm tắt tóm lược

[10].

Ngoài ra, có hai cách tiếp cận cho các nhiệm vụ đó: thuật toán học có giám sát

và không giám sát Trong các phương pháp tiếp cận có giám sát, bộ phân loại đượchuấn luyện bằng cách sử dụng dữ liệu được gán nhãn Bộ phân loại này xác định câunào được đưa vào tóm tắt và câu nào không Trong giai đoạn huấn luyện các phương

pháp được giám sát, các tính năng rút trích từ dữ éu huấn luyện được cung cấp chocác mô hình Sau đó, trong các giai đoạn xác thực (validation phase) và kiểm tra(testing phase), các mô hình được huấn luyện có thé dự đoán kết qua bằng cách sửdung dé liệu mới[11], [12] Cách tiếp cận này tạo cơ hội cho các nhà nghiên cứu sửađổi các mô hình dựa trên kết quả thử nghiệm trong các giai đoạn xác thực Tuy nhiên,điều kiện tiên quyết của cách tiếp cận này là các đặc trưng được gán nhãn và xác định

trước để sử dụng cho giai đoạn huấn luyện Nó vẫn là một thách thức chưa được giải

quyết đối với một ngôn ngữ ít phổ biến như tiếng Việt Do đó, các công bé trước đây

Trang 18

về tóm tắt văn bản bằng tiếng Việt đều tập trung vào thuật toán không giám sát Ưu

điểm chính của phương pháp nay là dữ liệu gan nhãn là không bắt buộc [13], [14]

Riêng về tóm tắt đa văn ban, đây là một nhiệm vụ phức tạp và thách thức trong

lĩnh vực xử lý ngôn ngử tự nhiên Trong một khảo sát của Das và Martins [15], các

nhà nghiên cứu đã chỉ ra rằng nhiệm vụ chính của hệ thống tóm tắt đa văn bản khongchỉ là chọn lọc thông tin quan trọng Nhiệm vụ này yêu cầu hệ thống phải xử lý nhiềunguồn thông tin mà trong đó các thông tin bị trùng lắp, đối lập hoặc bé trợ lẫn nhau

Vì vậy, nếu hệ thống chỉ rút trích các thông tin quan trọng thì có thé dẫn đến việc bản

tóm tắt chứa các thông tin giống nhau Hệ thống cần phải tổng hợp, phân loại, loại bỏtrùng lặp và đảm bảo tính liền mạch của văn bản tóm tắt cuối cùng

Như đã nói ở trên, đa phần các hệ thống tóm tắt văn bản hiện nay cho tiếng'Việt tập trung chủ yếu sử dụng phương pháp rút trích (extractive) hơn là phương pháptóm lược (abstractive) Điều này một phần là do trong phương pháp tóm lược, hệthống cần sử dụng thêm một phương pháp đó là tạo sinh văn bản (text generation) dé

có thể sinh ra một đoạn tóm tắt hoàn toàn mới so với các văn bản gốc Đây cũng là

một nhiệm vụ phức tạp và do đó, trong các nghiên cứu trước đây, các hệ thống thường

cho kết quả không cao

Ứng dụng của tom tắt đa văn bản được sử dụng rộng rãi trong nhiều lĩnh vực,bao gồm: tóm tắt tin tức [16], bài báo khoa học [17], thư điện tử (email) [18], tài liệu

y khoa [19], phản hồi của giảng viên [20], Gan đây, do sự bùng nổ của các hệ thong

và dữ liệu số đã dẫn đến sự cần thiết cao của hệ thống tóm tắt đa văn bản Một ví dụmới nhất là Xiaomingbot [21], một ứng dụng báo cáo tin tức được phát triển dé tạo

ra một bản tin tức được rút trích từ nhiều nguồn khác nhau

2.1.2 Cac nghiên cứu liên quan

Phương pháp học không giám sát để tóm tắt văn bản theo hướng rút trích đã

có một lịch sử lâu đời Trong hầu hết các nghiên cứu, thuật toán chính áp dụng trong

học (huấn luyện) không giám sát là thu được các câu có điểm xếp hang cao nhất.Phương pháp này tính điểm cho mỗi câu của tài liệu đầu vào dựa trên một số

điểm như độ dai câu [11], TF-IDF [22], dựa trên đồ thị [22], vi tri câu [12] Đề xuất

ic

Trang 19

tóm tắt văn bản bằng tiếng Việt cũng tập trung vào xếp hạng câu Ví dụ, Dinh và

Nguyen [23] trình bày cách biểu diễn các câu dưới dạng các nút trong biểu đồ Cáctác giả đã sử dụng thuật toán Xếp hạng trang (PageRank) dé đánh giá tầm quan trong

của các câu và nó dẫn đến hiệu suất tốt đáng kẻ trên cả tài liệu dai và ngắn

Mặt khác, Liu và Lapata [8] đã đề xuất một cách tiếp cận mới cho cả tóm tắttóm lược và rút trích bằng cách sử dụng BERT Các thử nghiệm được thực hiện trêncác tập dữ liệu nồi tiếng là CNN / Daily Mail, NYT và XSum Các tác giả đã áp dụng

BERT như một bộ mã hóa ở cấp độ tài liệu trong nghiên cứu của họ Nghiên cứu đã

chứng minh rằng BERT đã đạt được kết quả hiện đại so với cả các công cụ tóm tắt tự

động khác và đánh giá dựa trên con người Xu và cộng sự [24] cải thiện hơn nữa mô

hình BERT cơ sở đề loại bỏ các cụm từ lặp lại và không chứa thông tin trong bản tómtắt cuối cùng Nghiên cứu của họ đã giới thiệu mô hình BERT nhận biết diễn ngôn(DISCOBERT) tập trung vào các đơn vị diễn ngôn thay vi câu.

Trong nghiên cứu của Ernst và các cộng sự[25], các mô hình BERT khi kếthợp với phương pháp xác định vi trí câu đã cho kết quả rat tốt Họ đã thử nghiệm trên

cả hai hướng tiếp cận là rút trích và tóm lược cho bài toán tóm tắt đa văn bản trên bộ

dữ liệu DUC 2004 và TAC 2001 Mô hình đề xuất của các tác giả đã cao hơn khoảng

1% so với các phương pháp học sâu.

Năm 2021, tác giả Hu và các cộng sự [26] đã thử nghiệm kết hợp mô hìnhBERT và phương pháp gom cụm K-means trên bài toán tóm tắt đa văn bản Trong.nghiên cứu này, các tác giả đã sử dụng bộ dữ liệu Baidu dùng cho tiếng Trung Quốc.Kết quả cho thấy sự vượt trội của mô hình hình này so với các phương pháp học sâu

và gom cụm khác Học viên cũng đã dựa vào phương pháp của nghiên cứu này dé ápdụng cho bài toán tóm tắt đa văn bản tiếng Việt

Các phương pháp sử dụng mô hình BERT cũng đã xuất hiện trên một số nghiêncứu cho bài toán tóm tắt văn bản tiếng Việt [27], [28] Tuy nhiên, các nghiên cứu nàychỉ tập trung giải quyết bài toán tóm tắt đơn văn bản Các bộ dữ liệu được sử dụngcũng không được công khai Nó đặt ra một câu hỏi lớn về việc BERT khi kết hợp vớicác phương pháp khác (ví dụ như phương pháp gom cụm) có thé thực hiện hiệu qua

Trang 20

như thế nào trong việc tóm tắt; cũng như liệu BERT đơn ngôn ngữ có đạt được kết

quả tốt hơn BERT đa ngôn ngữ trong các tài liệu tiếng Việt, đặc biệt là khi gặp nhiềutài liệu hay không Đề giải quyết cho bài toán đó, trong luận văn này, học viên thựchiện một nghiên cứu thử nghiệm trên nhiều mô hình dựa trên BERT Học viên kếthợp BERT làm bộ mã hóa và phân cụm K-means như một thuật toán xếp hạng câu

Cách tiếp cận của học viên được mô tả kỹ hơn trong phần tiếp theo

2.2 Giới thiệu về BERT

2.2.1 Khái niệm về ngữ cảnh và vai trò trong Xử lý ngôn ngữ tự nhiên

Trong ngôn ngữ, ngữ cảnh là bối cảnh của ngôn ngữ xuất hiện trong cả văn

bản hoặc giao tiếp Vì các câu văn được cấu thành từ chuỗi các từ hoặc cụm

từ, vậy nên ngữ cảnh quan trọng bởi lẽ con người xác định rõ bối cảnh của

ngôn ngử (từ, cụm từ) dé có thé hiểu được ý nghĩa của câu hoặc văn Hiệu quả

biểu thị nội dung và truyền đạt ý nghĩa lớn hơn so với từng từ đứng độc lập.Ngoài ra, ngữ cảnh chính là chìa khóa dé con người có thé hiểu đúng ý nghĩa

của một từ trong câu Do đó, khi xây dựng các thuật toán hoặc mô hình ngôn

ngữ tiên tiến (ví dụ như BERT), các nhà nghiên cứu làm sao cho mô hình cóthể hiểu được ngữ cảnh của toàn câu thay vì chỉ một từ đơn lẻ

Phương pháp nhúng từ (word embedding) có thê được chưa thành các loại như

Sau:

© Non-context (không bối cảnh): Đây là loại nhúng từ bỏ qua ngử cảnh

của câu Thuật toán này là loại xuất hiện đầu tiên trong các nghiên cứu

thuộc lĩnh vực NLP Một số ví dụ như word2vec, fasttext hay GloVechỉ biểu diễn các từ thành các vectơ từ đơn lẻ Do đó, nghĩa của từkhông chính xác trong một số trường hợp như:

Câu 1: Cô ấy là một người hướng /ngoại)

Câu 2: Bà /ngoai] của tôi đã 80 tuôi.

Trong ví dụ trên, từ /ngoai] có hai ý nghĩa khác nhau và chúng nên

được biểu diễn với hai loại vectơ từ khác nhau Tuy nhiên, các thuậttoán thuộc loại "không bối cảnh" thì không thể làm điều nay

Trang 21

© Uni-directional (một chiều): Đây là các thuật toán nhúng từ tiên tiến

hơn khi đã có sự tác động của bối cảnh Các thuật toán nhúng từ dựa

trên mạng RNN được phân loại là thuật toán nhúng từ một chiều Trongcác thuật toán này, từ đã được nhúng có bối cảnh, tuy nhiên, chỉ có theo

một chiều Một chiều ở đây mang ý nghĩa là từ được nhúng theo bối

cảnh từ phải qua trái hoặc từ trái qua phải Xét ví dụ sau:

Câu 1: Hôm nay tôi /đ¡7 học.

Câu D: Hôm nay tôi /đi}

Trong ví dụ trên, vecto từ /di] được xác định dựa trên các từ bên trái.

Nhung nếu chi xem xét các từ phía trước trong câu như "H6m nay tôi "thì có rất nhiều từ phù hợp khác như là ngu, uống, ăn

Ta có thể thay nếu nhúng từ mà chỉ dựa vào ngữ cảnh của các từ bên trái hoặcbên phải gặp rất nhiều sai sót Vì vậy, hiện nay các thuật toán nhúng từ thường

được sử dụng nhiều nhát là nhúng từ hai ¢

¢ Bi-directional (hai chiều): Day là loại nhúng từ ma trong đó từ được

nhúng dựa trên ngữ cảnh của toàn câu Các phương pháp nhúng từ hai

chiều xem xét ngữ cảnh cả bên trái và bên phải của từ đượx xét Cácthuật toán sử dụng phương pháp nhúng từ hai chiều đã chứng minhđược độ hiệu quả trong rất nhiều bài toán thuộc lĩnh vực NLP như

BERT, ULMFit, GPT

2.2.2 Học sâu

Hoc sâu là một tập hợp con của học may nhằm mục đích tái tạo cách con người

học từ dữ liệu không quen thuộc Nó hoạt động dựa trên một loạt các thuật toán được

gọi là mạng thần kinh nhân tạo (ANN) - hệ thống máy tính được mô phỏng theo các

mạng sinh học thực tế của não người Tương tự như các tế bào thần kinh tạo nên bộ

não của chúng ta, ANN bao gồm các nút kết nối, còn được gọi là tế bào thần kinh

nhân tạo.

Sự tương đồng hấp dẫn giữa các hệ thống nhân tạo này và hệ thống não sinhhọc của chúng ta cho phép máy móc kích thích các mô hình học (huấn luyện) của con

Trang 22

người Lý do tại sao nó được gọi là học “sâu” là nó sử dụng mạng nơ-ron có

ba lớp trở lên Các lớp an bổ sung giúp các mô hình học sâu đạt được mức độ chính

xác đáng kinh ngạc, thậm chí có lúc còn vượt trội hơn con người.

Mặc dù học sâu, học máy và trí tuệ nhân tạo chồng chéo lên nhau, nhưng vẫn

có những điểm khác biệt quan trọng cần thực hiện để hiểu rõ hơn về từng lĩnh vực

này.

Một điểm quan trọng trong việc so sánh học sâu và học máy là cách làm việcvới dữ liệu Các thuật toán học máy (ML) hoạt động với các tập dữ liệu có tô chức,

có cấu trúc trong đó các tinh năng cụ thé trong dit liệu đã được xác định Trong khi

đó, các thuật toán học sâu có thé xử ly dit liệu thô, không có cấu trúc và tự động hóa

việc rút trích tính năng, loại bỏ bớt sự can thiệp của con người.

Máy học truyền thống

Gm li: - Pea

Đầu vào Rút trích đặc trưng Phân loại Đầu ra

Đầu vào Rút trích đặc trưng + Phân loại Đầu ra

Hình 2.1 Mô hình kiến trúc máy học truyền thông và kiến trúc học sâu

2.2.3 Phân loại học sâu

Dựa theo hình thức huấn luyện học sâu có thể chia thành 3 loại: học khônggiám sát, học có giám sát và kết hợp cả học không giám sát, có giám sát

Học không giám sát (unsupervised learning) là một kỹ thuật học máy trong đó

người dùng không cần giám sát mô hình Thay vào đó, nó cho phép mô hình tự hoạt

Trang 23

động dé phát hiện ra các mẫu và thông tin mà trước đây chưa được phát hiện Nó chủyếu giải quyết các dữ liệu không có nhãn.

Thuật toán học không giám sát là thuật toán thường dùng dé xử lý các bài toán

có độ phức tạo cao hơn so với phương pháp học có giám sát Các thuật toán học (huấnluyện) không giám sát bao gồm phân cụm, phát hiện bắt thường, mạng nơ-ron,

Học có giám sát (supervised learning) là phương pháp máy học thường dùng

trong các bài toán phân loại hoặc dự đoán kết quả với đầu vào là các dữ liệu đã đượcgán nhãn sẵn Trong quy trình của học có giám sát, hệ thống tự động điều chỉnh thông

số kỹ thuật cho phù hợp đề tối ưu kết quả, thông thường chúng ta biết đến quy trình

này là quy trình xác nhận chéo Các ứng dụng hiện nay đã áp dụng phương pháp học

có giám sát này một cách rộng rãi Một ứng dụng nồi bật đó là ứng dụng phân loại

thư rác.

Phương pháp học có giám sát dùng một tập dữ liệu (thường được gọi là tập

train) để tiến hành học mà tỉnh chỉnh Thông qua việc canh chỉnh kết quả dự đoánthông qua các đữ liệu đã được gán nhãn, mô hình dần đưa ra được kết quả giống vớikết quả thực tế Thuật toán được dùng trong phương pháp học có giám sát dé đo độchính xác là hàm mắt mát Hàm này tinh chỉnh đầu ra của phương pháp dé sai số củakết quả được đưa về mức thấp nhất

Bảng 2.1 So sánh giữa phương pháp học có giám sát và học không giám sát.

Thông số Học có giám sát Học không giám sát

Dữ liệu đầu vào Gan nhãn Không được gán nhãn

Độ phức tạp Độ phức tạp vừa phải Độ phức tạp rất cao

Độ chính xác Độ chính xác cao Độ chính xác khá thấp

Học bán giám sát — kết hợp hai cách học ở trên (semi-supervised learning):

Một lượng lớn dit liệu lớn nhưng trong đó chi một phần được gán nhãn phân loại thì

bài toán để giải quyết chúng được gọi là học bán giám sát Các bài toán ở nhóm nàynằm giữa hai nhóm kẻ trên Ví dụ nồi bật ở cách học nay là một phần văn bản hayhình ảnh được gán nhãn như ảnh về con người, động vật hay các văn bản báo chí,

Trang 24

khoa học, kể cả các văn bản hay hình ảnh nào khác chưa được gán nhãn được thuthập trên mạng Trong thực tế các bài toán dạng này rất phô biến vì nếu thu nhập dữliệu có gán nhãn tốn nhiều thời gian và chỉ phí Thậm chí nhiều loại dữ liệu cần được

các chuyên gia đúng chuyên ngành gán nhãn mới đáng tin cậy (lĩnh vực y tế, y khoa)

Vì thế, có thể suy luận đữ liệu mà chưa được gán nhãn có thể thu thập dé dang, khong

tốn kém chi phí từ các nguồn trên mạng

2.2.4 Mạng thần kinh hồi quy Recurrent Neural Network (RNN)

Mạng thần kinh hồi quy (RNN) là một thuật toán mà trong đó dir liệu đượcđưa vào là đữ liệu mang tính liên tục (hoặc là đữ liệu chuỗi thời gian) Với tính chấtđầu vào là các dữ liệu có tính tuần tự, các thuật toán dựa theo mạng RNN thườngđược áp dụng để xử lý các bài toán thuộc lĩnh vực NLP như dịch máy, chú thích ảnhhoặc nhận dạng giọng nói Trên thế giới, các ứng dụng mà áp dụng thuật toán này cóthé kế đến như Siri, Google Dich, Alexa Với phương pháp tương tự với mạng norontruyền xuôi (feedforward) và tích chập (CNN), mạng RNN cũng là phương pháp cầncác dữ liệu được gán nhãn đê học Dữ liệu đầu vào được đưa vào và phân biệt thôngqua "bộ nhớ" Các thông tin phía trước được tác động đến các thông tin phía sau, đâycũng là điểm khác biệt khi so sánh với các mạng thần kinh khác Điểm yếu cảnh mangRNN là không thé sử dụng các thông tin phía sau trong dữ liệu tuần tự để làm thông

tin hữu ích trong khi xác định thông tin trước đó.

a 8S

Hình 2.2 So sánh giữa mạng RNN (bên trái) và mang thân kinh truyền xuôi (bên phải)

Hãy lấy một thành ngữ, chẳng hạn như "gần mực thì đen", thường được sửdụng khi nói về một người/vật chịu ảnh hưởng từ người/vật khác, để giải thích về

Trang 25

RNN Đề thành ngữ có ý nghĩa, nó cần được diễn đạt theo thứ tự cụ thể đó Do đó,

các mạng RNN xác định vị trí của các từ trong câu và sử dụng thông tin đó để dựđoán từ tiếp theo trong chuỗi

Hình 2.3 mô tả mô hình tóm gọn (rolled) cách hoạt động của RNN đại diện

cho toàn bộ mạng thần kinh, hay đúng hơn là toàn bộ cụm từ được dự đoán, như "gần

mực thì đen." Mô hình chỉ tiết "unrolled" mô tả cho các lớp riêng lẻ, hoặc các bước

thời gian, của mạng thần kinh Mỗi lớp ánh xạ đến một từ duy nhất trong cụm từ đó,

chẳng hạn như từ “đen” Các đầu vào trước đó, chăng hạn như “gần” và “mực”, được

biểu diễn dưới dang trạng thái ân trong bước thời gian thứ ba để dự đoán đầu ra trong

Ngoài ra, có một sự khác nhau trong cách tính trọng số của mạng RNN và các

mạng thần kinh truyền xuôi Thông số của mạng RNN được chia sẻ trên toàn mạng,

trong khi đó, mỗi lớp của mạng thần kinh truyền xuôi có trọng số khác nhau Việcthiết kế như vậy tạo điều kiện dé tỉnh chỉnh vì các trọng số có thể được tinh chỉnhtrong quá trình truyền ngược của mạng RNN

Khác với phương pháp lan truyền ngược truyền thống, mạng RNN sử dụng

c BPTT là

thuật toán BPTT (lan truyền ngược theo thời gian) dé tính toán độ

phương pháp mà khi tính toán độ dốc, nó tính xuyên suốt từ đầu vào đến đầu ra Nhờ

Trang 26

đó, BPTT giúp người sử dụng mô hình điều chỉnh thông số hợp lý hơn Ngoài ra,

phương pháp tính lỗi này cũng sử dụng lỗi ở mỗi bước theo thời gian, khác vớiphuobng pháp tính lỗi khác là tính tổng lỗi Lý do là vì RNN chia sẻ trọng số trênmỗi lớp.

Thông qua quá trình này, RNN có xu hướng gặp phải hai vấn đề là gradient

biến mắt va gradient bùng nổ Những vấn dé này được xác định bởi kích thước của

gradient, là độ dốc của hàm mắt mát dọc theo đường cong lỗi Khi gradient quá nhỏ,

nó tiếp tục nhỏ hơn, cập nhật các thông số trọng lượng cho đến khi chúng trở nên

không đáng kể — tức là 0 Khi điều đó xảy ra, thuật toán không còn học nữa Gradient

bùng né xảy ra khi gradient quá lớn, tạo ra một mô hình không ồn định Trong trườnghợp này, trọng số của mô hình phát triển quá lớn và cuối cùng chúng được biều diễn

dưới dạng NaN Phương pháp đề giải quyết là giảm số lượng lớp ẩn trong mạng than

kinh, loại bỏ một số độ phúc tạp trong mô hình RNN

2.2.5 Các loại mạng RNN

Các mạng truyền xuôi ánh xạ một đầu vào đến một đầu ra, tuy nhiên trong các

mạng thần kinh hồi quy trong sơ dé trên, chúng không có ràng buộc này Thay vào

đó, các loại mạng RNN khác nhau về độ dai và chúng cũng được áp dụng đê giải

quyết các bài toán khác nhau, chẳng hạn như tạo sinh văn bản, dịch máy, phân loạicảm xúc Các loại RNN khác nhau được mô tả trong bảng 2.3.

Trang 27

Phân loại RNN Cấu trúc

Trang 28

Bang 2.2 Phân loại cầu trúc RNN

Một số biến thé của mạng RNN có thé kể đến như:

© Mạng thần kinh hồi quy hai chiều (Bidirectional recurrent neural

networks - BRNN): Mạng hai chiều RNN cải thiện độ chính xác so với

RNN một chiều vì RNN chỉ có thé sử dung từ phía trước dé dự đoán từ

sau Ví dụ như câu “gần mực thì đen” trước đó này, mô hình có thể biết

được từ “mực” là từ thứ hai nếu mô hình được cho biết từ cuối trong

câu là “đen” Ngược lại, nếu từ cuối là từ "sáng" thi từ thứ hai có thé dự

đoán được là từ "đèn".

e Long short-term memory (LSTM): Mô hình này là mô hình dita trên

RNN được sử dụng rộng rãi trong các bai toán NLP dé làm giảm

gradient Mô hình RNN giảm hiệu quả khi các thông tin trong các lớp

trước không quá liên qua đến thông tin được dự đoán Giả sử chúng tamuốn mô hình RNN đoán từ (bo đậu phông) trong câu, “Adam bị dị

Trang 29

ứng với các loại hạt Anh ấy không thé ăn bo đậu phông." Trong câu

này, cụm từ "các loại hạt" chính là bối cảnh giúp dự đoán từ Tuy nhiên,bối cảnh lại nằm ở quá xa từ cần dự đoán, vì vậy mạng RNN thông

thường khó mà lấy được thông tin Mạng LSTM chính là giải pháp khi

có "nhân" (cell) được an Ngoai ra cac cổng là cổng đầu vào, đầu ra,cổng quên (forget) cũng giúp dự đoán từ Trong một ví dụ, một đại từ

giới tính, ví dụ như “anh dy”, đã xuất hiện nhiều lần trong các câu trước

đó, LSTM có thể loại bỏ ra khỏi mạng

¢ Gated recurrent units (GRU): Đây là một biến thể tương tự như LSTMcủa mạng RNN khi nó cũng có thể giải quyết bài toán ô nhớ ngắn hạn.Thay vì sử dụng thông tin để tỉnh chỉnh “trạng thái ô”, mô hình sử dụngcác trang thái ấn Ngoài ra, GRU chỉ có hai công bao gồm công reset

và một công update Chúng hoạt động như mạng LSTM khi giúp cập

nhật thông tin chính xác hơn.

2.2.6 Sequence-to-sequence

Mô hình Sequence to Sequence (thường được viết tắt là seq2seq) là một lớp

đặc biệt của kiến trúc Mạng thần kinh hồi quy mà chúng ta thường sử dụng (nhưngkhông bị hạn chế) dé giải quyết các vấn đề ngôn ngữ phức tạp như Dịch máy, Trảlời câu hỏi, tạo Chatbots, Tóm tắt văn bản, v.v

Mô hình Seq2Seq điển hình có hai phần - bộ mã hóa (encoder) và bộ giải mã(decoder) Cả hai phần trên thực tế là hai mô hình mạng thần kinh khác nhau được

kết hợp thành một mạng khổng lồ

Trang 30

XI

Encoder

Hình 2.4 Mô hình bộ encoder và decoder đơn giản.

Nói một cách khái quác, nhiệm vụ của mạng bộ mã hóa là hiểu trình tự đầuvào và tạo ra một biểu diễn chiều nhỏ hơn của nó Biểu diễn này sau đó được chuyển

tiếp đến mạng bộ giải mã tạo ra một chuỗi của chính nó đại diện cho đầu ra

2.2.7 Cơ chế attention

Khi một người cố gắng hiêu một bức ảnh, họ tập trung vào các phần cụ thểcủa bức ảnh để có được toàn bộ bản chất của bức ảnh Theo cách tương tự, chúng ta

có thể huấn luyện một hệ thống máy học tập trung vào các yếu tố cụ thể của hình ảnh

để có được toàn bộ “bức tranh” Đây thực chất là cách hoạt động của cơ chế attention

Thay vì chú ý đến trạng thái cuối cùng của bộ mã hóa như thường làm với

RNN, trong mỗi bước của bộ giải mã, mô hình xem xét tất cả các trạng thái của bộ

mã hóa, có thé truy cập thông tin về tat cả các phan tử của chuỗi đầu vào Day là

những gì cơ chế attention thực hiện, nó rút trích thông tin từ toàn bộ chuỗi, một tong

trọng số của tất cả các trạng thái bộ mã hóa trong quá khứ Điều này cho phép bộ giải

mã gán trọng số hoặc tầm quan trọng lớn hơn cho một phần tử nhất định của đầu vàocho mỗi phần tử của đầu ra Học trong từng bước để tập trung vào đúng yếu tố đầuvào đề dự đoán yếu tố đầu ra tiếp theo

Trang 31

2.2.8 Transformer

Kiến trúc Transformer tuân theo cấu trúc bộ mã hóa-giải mã (encoder-decoder)nhưng không dựa vào sự hồi quy (recurrence) và tích chập (convolutions) dé tạo rađầu ra

Hình 2.5 Mô hình encoder-decoder của kiến trúc Transformer [29]

Nói một cách ngắn gọn, nhiệm vụ của bộ mã hóa, ở nửa bên trái của kiến trúcTransformer, là ánh xạ chuỗi đầu vào thành một chuỗi các biểu diễn liên tục, sau đó

được đưa vào bộ giải mã.

Bộ mã hóa, ở nửa bên phải của kiến trúc, nhận đầu ra của bộ mã hóa cùng vớiđầu ra của bộ giải mã ở bước thời gian trước đó đề tạo ra một chuỗi đầu ra

Trang 32

2.2.8.1 Encoder (Bộ mã hóa)

Bộ mã hóa bao gồm một chồng N = 6 lớp giống nhau, trong đó mỗi lớp baogồm hai lớp con:

® Lớpcon đầu tiên thực hiện cơ chế tự chú ý nhiều đầu Cơ chế nhiều đầu

(head) thực hiện các đầu h nhận một phiên bản được chiếu tuyến tính

(khác) của các truy vấn, khóa và giá trị, mỗi truy vấn tạo ra h đầu rasong song sau đó được sử dụng đề tạo ra kết quả cuối cùng

© Lớp con thứ hai là một mạng chuyển tiếp được kết nối đầy đủ bao gồmhai phép biến đổi tuyến tính có kích hoạt Rectified Linear Unit (ReLU)

¢ Lớp con đầu tiên nhận đầu ra trước đó của ngăn xép bộ giải mã, tăng cường

nó với thông tin vị trí và thực hiện tự chú ý nhiều đầu trên nó Trong khi bộ

mã hóa được thiết kế để tham gia vào tat cả các từ trong chuỗi đầu vào bất kể

vị trí của chúng trong chuỗi, bộ giải mã được sửa đổi để chỉ tham gia vào các

từ trước đó Do đó, dự đoán cho một từ chỉ có thé phụ thuộc vào kết quả đầu

ra đã biết cho các từ đứng trước nó trong chuỗi

¢ Lớp thứ hai thực hiện cơ chế self-attention nhiều đầu (multi-head) tương tự

như cơ chế được triển khai trong lớp con đầu tiên của bộ mã hóa Về phía bộgiải mã, cơ chế nhiều đầu này nhận các truy vấn từ lớp con bộ giải mã trước

đó và các khóa và giá trị từ đầu ra của bộ mã hóa Điều này cho phép bộ giải

mã tham gia vào tắt cả các từ trong chuỗi đầu vào

Trang 33

e_ Lớp thứ ba triển khai mạng chuyển tiếp nguồn được kết nối day đủ, tương tựnhư mạng được triển khai trong lớp con thứ hai của bộ mã hóa.

2.2.8.3 Cơ chế self-attention

Cơ chế co bản của kiến trúc transformer là cơ chế self-attention

Self-attention là một cơ chế Seq2Seq: một chuỗi các vectơ đi vào và một chuỗi các

vecto đi ra Gọi các vectơ đầu vào xi,x¿, X: và các vectơ đầu ra tương ứng

yi,y›, y Các vectơ đều có k thứ nguyên (dimension) Dé tạo ra vecto dau ra yi,

phép toán self-attention chi cần lấy giá trị trung bình có trọng số trên tat cả các

y¡ = » WijXj

i

Trong đó, j là chỉ mục trên toàn bộ chuỗi va tat cả các trọng sé tổng thành

vectơ đầu vào.

một trên tat cả j Trọng số w; ij không phải là một tham số như trong mạng thần kinhthông thường, mà nó được suy ra từ một hàm trên x; và x; Hàm này được tính bằng

tích vô hướng:

Wi = xix;

Tích số vô hướng ra một giá trị ở bat kỳ từ giữa âm đến đương vô cùng, vìvay chúng ta áp dung ham softmax dé ánh xạ các giá trị thành [0,1] và dé dam bảorằng chúng tổng bằng | trên toàn bộ chuỗi:

exp Wij

Dj exp Wi;

Day là nguyên tắc cơ bản của cơ chế self-attention

Vi dụ, mô hình Transfomer phải xử lý với một chuỗi các từ Để áp dụng cơchế self-attention, mô hình chỉ cần gán cho mỗi từ trong bộ từ vựng thành một vectơnhúng v; Đây là lớp được gọi là lớp nhúng trong mô hình trình tự Nó biến chuỗi

"hom, nay, tôi, đi, học” thành chuỗi vectơ

Vrom Pnay› Veoir Vai học

Nếu chúng ta đưa chuỗi này vào một self-attention, đầu ra là một chuỗi vecto

khác

Trang 34

hôm» Ynay› Ytôi› Vai» học

Trong đó, y;ạ¡ là tong các trọng số của tắt cả các vectơ nhing trong chuỗi đầutiên, được tính trọng số bởi tích vô hướng của chúng với 1;ại

Trong hầu hết các trường hợp, mạo từ hoặc từ ghép không liên quan nhiềuđến việc giải thích các từ khác trong câu; do đó, chúng có tích vô hướng thấp hoặc

âm với tất cả các từ khác, ví dụ như nay Mặt khác, để giải thích ý nghĩa của việc

di học trong câu này, việc tìm ra ai đang đi học rất hữu ích Hành động này có thểđược thể hiện bằng một danh từ, vì vay đối với các danh từ như ứôi và động từ như

di, các vectơ như 1ạ¡, Va; có tích vô hướng cao, và dương.

2.2.9 Kiến trúc BERT

BERT về cơ bản là lớp mã hóa của kiến trúc Transformer

Mô hình BERT có rất nhiều phiên bản khác nhau Các mô hình dựa trên BERTkhác nhau có các thông số khác nhau, trong đó có 3 thông số được thay đồ chính:

e _L: là số khối các tầng con trong cấu trúc Transformer.

e _H: là kích thước của vectơ nhúng (hay được gọi là kích thước an)

© A: là số lượng đầu (head) trong lớp multi-head, trong đó mỗi head thực hiện

cơ chế self-attention

Có hai phiên bản: base có 12 lớp trong Bộ mã hóa trong khi

BERT-large có 24 lớp trong Bộ mã hóa Đây là lớn hơn so với kiến trúc Transformer đượctrình bày trong [29](6 lớp bộ mã hóa) Kiến trúc BERT (BASE và LARGE) cũng có

mạng truyền thing lớn hon (feed-forward network) (768 va 1024 don vị an tuong

ứng) và nhiều dau attention hơn (12 va 16 tương ứng) so với kiến trac Transformerban đầu (chứa 512 đơn vị ẩn va 8 dau attention) BERT-base chứa 110 triệu tham sốtrong khi BERT-large có 340 triệu tham só[30]

Trang 35

Hình 2.6 So sánh cấu trúc của BERTbase và BERTlarge

Mô hình này lấy token CLS làm đầu vào (input), sau đó là một chuỗi các từ

làm đầu vào Ở đây, CLS là một loại token phân loại Sau đó, nó chuyển input chocác lớp trên Mỗi lớp áp dụng tinh năng self-attention, nghĩa là chuyền kết quả theodang mạng chuyền tiếp (feed-forward) sau đó chuyên giao cho bộ mã hóa tiếp theo

Mô hình xuất ra một vectơ có kích thước an (768 đối với BERTbase) Nếu chúng tamuốn xuất bộ phân loại (classifier) từ mô hình này, chúng ta có thé lấy đầu ra tương.ứng với token CLS Sau khi có được kết quả, các vecto này có thé được sử dụng déthực hiện một số tác vụ như phân loại, dịch

BERT nói chung có thê sử dụng làm một công cụ nhúng từ (word embedding)

rất tốt Về cơ bản, nhúng từ cho một từ là phép chiếu của một từ lên một vectơ có giátrị số dựa trên ý nghĩa của nó Có rất nhiều phương pháp nhúng từ như Word2vec,

GloVe,

Năm 2018, Peters và các cộng sự giới thiệu phương pháp embedding từ các

mô hình ngôn ngữ (ELMo) [31] ELMo khác với những cách nhúng trước đó vì nó

cho phép nhúng vào một từ dựa trên ngữ cảnh của nó, tức là từ được ngữ cảnh hóa.

Để tạo nhúng một từ, ELMo xem xét toàn bộ câu thay vì nhúng cố định cho một từ.ELMo sử dụng cấu trúc LSTM hai chiều được huấn luyện cho nhiệm vụ cụ thé dé cóthé tao các nhúng từ

Trang 36

Phương pháp ELMo giúp máy học hiểu được ngôn ngữ nhờ được huấn luyện

đê dự đoán từ tiếp theo trong một chuỗi các từ Điều này rất tiện lợi vì chúng ta có

một lượng lớn dữ liệu văn bản mà một mô hình như vậy có thể học mà không cần

gán nhãn.

Vi mục tiêu của BERT là tao mô hình biểu diễn ngôn ngữ, nên nó chỉ cần phần

bộ mã hóa Đầu vào cho bộ mã hóa cho BERT là một chuỗi các token, đầu tiên được

chuyền đổi thành vectơ và sau đó được xử lý trong mạng thần kinh Nhưng trước khi

quá trình xử lý có thé bắt đầu, BERT cần đầu vào được tinh chỉnh bằng một số dữ

Quá trình nhúng từ theo ngữ cảnh

Encoder

liệu bổ sung bao gồm:

e Nhung token (token embedding): Token [CLS] được thêm vào token của từ ở

đầu câu đầu tiên va token [SEP] được chèn vào cuối mỗi câu

e - Nhúng phân đoạn (segmentation embedding): Một điểm đánh dấu cho biết Câu

A hoặc Câu B được thêm vào mỗi token Điều này cho phép bộ mã hóa phân

biệt giữa các câu.

Trang 37

¢ Nhúng theo vi trí (positional embedding): Nhúng theo vị trí được thêm vào.

mỗi mã thông báo đê chỉ ra vị trí của nó trong câu.

Inout isi |Í my |[ dog |[ is |[ cute |[ tsem |[ he |[ tikes |[ play |[ ##ing |[ teen)

Embeddings E ILE: |[E; JLEs |[E¿ J[ E; JL E; JLE || Ee || E; || Eso

Hình 2.8 Biểu diễn đầu vào của mô hình BERT Các kết quả nhúng đầu vào là tổng các

token embedding, các segmentation embedding và các position embedding [30].

2.2.9.1 Mô hình BERT tinh chỉnh

Mô hình BERT đặc biệt hon các mô hình trước đây nhờ vào việc kết quả hudnluyện có thể được tỉnh chỉnh Theo như các tác giả [30], chúng ta có thêm một lớpđầu ra vào kiến trúc mô hình để tinh chỉnh nhiệm vụ huấn luyện

Hình 2.9 Mô hình pre-train và fine-tune của BERT cho các tác vụ khác nhau [30]

Mô hình BERT có thể được điều chỉnh tham số sao cho phù hợp với từng bàitoán khác nhau Nhờ đó, mô hình BERT có thể đáp ứng được cho nhiều bài toán

Tắt cả thông số của lớp chuyền tiếp được tỉnh chỉnh trong quá trình điều chỉnh

mô hình Đối với các tác vụ sử dụng chuỗi cặp (pair-sequence) làm đầu vào chẳng

Trang 38

hạn như cặp câu hỏi và câu trả lời, mô hình thêm token khởi tạo [CLS] ở đầu câu và

token [SEP] ở cuối các câu

Trong nghiên cứu, tác giả mô tả quá trình tỉnh chỉnh như sau [30]:

1 Mô hình nhúng tất cả các token của cặp câu bằng các embedding vectơ, trong

đó bao gồm cả 2 token [CLS] dé đánh dấu đầu đoạn và token [SEP] để tách

câu Các token này được dùng để dự báo ở đầu ra của decoder và xác địnhphần bắt đầu và kết thúc của câu đầu ra

2 Các embedding vectơ được truyền vào mô hình multi-head self-attention (số

lượng block code tùy thuộc vào độ lớn của mô hình, có thé dao động từ 6 tới

24 khối) Kết quả thu được là 1 vectơ đầu ra tại encoder.

3 Ở mỗi khoảng thời gian, mô hình truyền vectơ đầu ra tạ encoder vào decoder

để dự đoán phân phối xác suất cho các từ cụ thể tại decoder.

4 Trong kết quả đầu ra của decoder, chúng ta có câu hỏi trùng với câu hỏi đầuvào và các vị trí còn lại là phần mở rộng và kết thúc tương úng với câu trả lờitìm được từ câu đầu vào

Để huấn luyện mô hình BERT, chúng ta có một số cách thức sau:

2.2.9.2 Masked Language Model (MLM)

Ý tưởng ban đầu: Che (masked) ngẫu nhiên 15% các từ trong dau vào - thay

thé chúng bằng token [MASK] - chạy toàn bộ chuỗi thông qua bộ mã hóa dựa trên

attention của BERT và sau đó chỉ dự đoán các từ được che Kết quả phải dựa trênngữ cảnh được cung cấp bởi các từ không bị che từ trong chuỗi Tuy nhiên, có mộtvấn đề với phương pháp che này - mô hình chỉ cố gắng dự đoán khi nào token[MASK] có mặt trong đầu vào, trong khi chúng ta muốn mô hình có gắng dự đoán

đúng token bất kể token nào hiện diện trong đầu vào Đề giải quyết vấn dé này, 15%

token trong đầu vào được chọn đề che

Cụ thể là:

e_ Các token đầu vào bi che bở [MASK], tỷ lệ này chiếm khoảng 15% Sau đó

các token được đưa vào mô hình và các từ bị che được dự đoán dựa vào các từ

không bị che Ngoài ra ngữ cảnh cũng đóng vai trò trong việc dự đoán từ Sốlượng bị che chỉ chiến tỷ lệ rât thấp (15%) nên không ảnh hưởng đến kết quả

Trang 39

¢ BERT là mô hình dự trên kiến trúc seq2seq Trong đó, BERT có bộ mã hóahai chiều và bộ giải mã giúp nhúng từ và tìm các từ đầu ra dự vào phân phối

xác suất Để làm được việc đó, bộ mã hóa của Transformer được giữ lại khi

xử lý tác vụ này Sau khi BERT thực hiện cơ chế self-attention và chuyền tiếp,

chúng ta nhận được các vectơ nhúng làm đầu ra

e Đểtìmđầura dựa vào phân phối xác suất, BERT thêm một lớp fully connected

sau mỗi bộ giải mã của kiến trúc Transformer Hàm softmax được sử dụng détính toán phân phối xác suất Lớp fully connectd có số lượng phải bằng kíchthước của từ điển

© Sau cùng, BERT cho ra vectơ nhúng của mỗi từ đã bị đồi thành [MASK], đây

là vectơ nhúng đã giảm số chiều của vectơ đã đi qua lớp fully connected

2.2.9.3 Next Sentence Prediction (NSP)

Để hiểu mối quan hệ giữa hai câu, quá trình huấn luyện BERT cũng sử dụng

dự đoán câu tiếp theo Một mô hình được huấn luyện trước với kiểu này phù hợp vớicác nhiệm vụ như trả lời câu hỏi Trong quá trình huấn luyện, mô hình nhận được cáccặp câu đầu vào và nó học cách dự đoán xem câu thứ hai có phải là câu tiếp theotrong văn bản gốc hay không

Như đã mô tả trước đó, BERT phân tách các câu bằng một token [SEP] đặc

biệt Trong quá trình huấn luyện, mô hình được cung cấp hai câu đầu vào cùng một

lúc sao cho:

¢ 50% thời gian thì câu thứ hai đến sau câu thứ nhất

e 50% thời gian thì một câu ngẫu nhiên từ bộ ngữ liệu

BERT sau đó được yêu cầu để dự đoán liệu câu thứ hai có phải là ngẫu nhiên

hay không, với giả định rằng câu ngẫu nhiên bị ngắt khỏi câu đầu tiên Cụ thể như

Trang 40

2 Mỗi câu được thêm một vectơ, quy trình này là sentence embedding dé ghim

số thứ tự của câu

3 Các từ trong câu được ghép thêm một vecto mã hóa vị trí position embedding.

4 Đưa chuỗi vào mạng thần kinh Lấy vectơ đầu ra tại vị trí mã [CLS] được biến

đổi thành một vectơ có dang [cl c2]

5 Tinh hàm softmax trên vecto đó va đầu ra là khả năng của việc gin nhãnIsNext Đề định tính xem câu thứ hai có liên quan đến câu thứ nhất hay không,

cist |Í my |[ dog |[ is |[ cute |[ tsem |[ he |[ tikes |[ play |[ ##ing |[ teen:

Eras || Emy || Ea || Fs || Fore | | Esen || Ene || Eines | | Esay | | Essig | | Eesza

Luận văn thạc sĩ Khoa học máy tính: Tóm tắt tự động đa văn bản tiếng việt theo cách tiếp cận dựa trên mô hình BERT (2024)

References

Top Articles
Latest Posts
Recommended Articles
Article information

Author: Rueben Jacobs

Last Updated:

Views: 6256

Rating: 4.7 / 5 (57 voted)

Reviews: 88% of readers found this page helpful

Author information

Name: Rueben Jacobs

Birthday: 1999-03-14

Address: 951 Caterina Walk, Schambergerside, CA 67667-0896

Phone: +6881806848632

Job: Internal Education Planner

Hobby: Candle making, Cabaret, Poi, Gambling, Rock climbing, Wood carving, Computer programming

Introduction: My name is Rueben Jacobs, I am a cooperative, beautiful, kind, comfortable, glamorous, open, magnificent person who loves writing and wants to share my knowledge and understanding with you.