Peringkasan Teks Berita Berbahasa Indonesia Menggunakan LSTM dan Transformer
Abstract
Abstrak
Pertumbuhan informasi di internet membuat volume data tekstual semakin besar. Hal ini membuat manusia kesulitan dalam mengolah informasi dengan cepat. Peringkasan teks dapat membantu manusia untuk memahami informasi dalam jumlah yang banyak dengan cepat. Pada penelitian ini, arsitektur encoder-decoder akan diimplementasikan pada dataset Indosum menggunakan Long Short Term Memory (LSTM) dengan tambahan mekanisme atensi dan Transformer. Ujicoba juga dilakukan menggunakan fine-tuning pada pre-trained model T5-Small dan BART-Small. Eksperimen juga dilakukan dengan membandingkan dataset yang menggunakan praproses dan tanpa praproses. Berdasarkan eksperimen, model LSTM-Atensi memiliki kinerja rendah dengan nilai ROUGE-L sebesar 13.0 pada dataset yang menggunakan praproses. Sedangkan nilai ROUGE-tertinggi didapatkan dari hasil fine-tuning T5-Small dengan nilai sebesar 66.2.
===================================================
Abstract
The proliferation of information on the internet has led to an increasing volume of textual data. This presents a challenge for humans in processing information rapidly. Text summarization can aid humans in quickly comprehending large amounts of information. In this research, an encoder-decoder architecture will be implemented on the Indosum dataset using Long Short-Term Memory (LSTM) along with attention mechanisms and Transformer. Experiments will also involve fine-tuning pre-trained models T5-Small and BART-Small. The influence of preprocessing will also be studied through experiments. Based on the experiments, the LSTM-Attention model demonstrates poor performance with an ROUGE-L score of 13.0 on the preprocessed dataset. Conversely, the highest ROUGE score was achieved through fine-tuning T5-Small, scoring 66.2.