Evaluasi Lintas Domain Deteksi Sarkasme Bahasa Indonesia: Pendekatan Hybrid IndoBERT dan Fitur Pragmatis

Authors

  • Andreas Perdana Universitas Dharma Wacana
  • Febri Sugandi Universitas Dharma Wacana
  • Ar-roqiib’u Raihannicko Universitas Dharma Wacana

DOI:

https://doi.org/10.26418/jp.v12i1.102465

Keywords:

Deteksi Sarkasme, NLP Indonesia, Fitur Pragmatis, Indobert, Media Sosial

Abstract

Deteksi sarkasme dalam teks berbahasa Indonesia masih menjadi tantangan dalam pemrosesan bahasa alami (NLP), terutama pada media sosial yang kaya ekspresi pragmatis. Studi ini mengusulkan pendekatan hybrid yang mengintegrasikan model IndoBERT dengan empat kelompok fitur pragmatis, yaitu emoji, tipografi, tanda baca ekspresif, dan pola leksikal seperti intensifier dan hiperbola, untuk meningkatkan akurasi deteksi sarkasme. Evaluasi dilakukan pada dua domain media sosial, yaitu Twitter dan Reddit Indonesia. Pada domain Twitter, model hybrid meningkatkan F1-Score secara numerik dari 71.60% menjadi 72.35%. Namun, uji McNemar dengan tingkat signifikansi α = 0.05 menunjukkan bahwa perbedaan performa keseluruhan tidak signifikan secara statistik, meskipun terjadi peningkatan Recall yang signifikan secara numerik. Sebaliknya, pada domain Reddit, model baseline IndoBERT menunjukkan performa yang lebih baik dengan perbedaan yang signifikan secara statistik berdasarkan uji McNemar pada α = 0.05. Analisis kesalahan menunjukkan bahwa fitur pragmatis efektif dalam menangkap sarkasme yang bersifat eksplisit, tetapi kurang optimal untuk sarkasme yang lebih implisit dan kontekstual. Temuan ini menunjukkan bahwa integrasi fitur linguistik pragmatis dapat menjadi pelengkap penting bagi model transformer dalam sistem NLP berbahasa Indonesia, khususnya pada domain dengan ekspresi sarkasme yang lebih eksplisit serta untuk aplikasi seperti moderasi konten dan chatbot sosial.

Author Biographies

Andreas Perdana, Universitas Dharma Wacana

Fakultas Teknologi, Bisnis dan Sains

Febri Sugandi, Universitas Dharma Wacana

Fakultas Teknologi, Bisnis dan Sains

Ar-roqiib’u Raihannicko, Universitas Dharma Wacana

Fakultas Teknologi, Bisnis dan Sains

References

M. Shrivastava and S. Kumar, “A pragmatic and intelligent model for sarcasm detection in social media text,” Technology in Society, vol. 64, Art. no. 101489, 2021.

V. D. Setiawan, D. U. Iswavigra, and E. Anggiratih, “Implementation of IndoBERT for Sentiment Analysis of the Constitutional Court's Decision Regarding the Minimum Age of Vice Presidential Candidates,” Scientific Journal of Informatics, vol. 12, no. 3, pp. 397–406, 2025.

M. Eser and M. Bilgin, “Irony and Sarcasm Detection in Turkish Texts: A Comparative Study of Transformer-Based Models and Ensemble Learning,” Applied Sciences, vol. 15, no. 23, p. 12498, 2025.

N. A. Helal, A. Hassan, N. L. Badr, and Y. M. Afify, “A contextual-based approach for sarcasm detection,” Scientific Reports, vol. 14, Art. no. 15415, 2024.

O. Vitman, Y. Kostiuk, G. Sidorova, and A. Gelbukh, “Sarcasm detection framework using context, emotion and sentiment features,” Expert Systems with Applications, vol. 234, p. 121068, 2023.

P. Dubey, P. Dubey, and P. N. Bokoro, “Unpacking sarcasm: A contextual and transformer-based approach for improved detection,” Computers, vol. 14, no. 95, 2025.

L. Đoković and M. Robnik-Šikonja, “Sarcasm detection in a less-resourced language,” in Proc. Information Society 2024, 2024.

B. Wilie et al., “IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding,” in Proc. 1st Conf. of the Asia-Pacific Chapter of the Assoc. for Computational Linguistics and the 10th Int. Joint Conf. on Natural Language Processing, 2020, pp. 843–857.

H. Fu, H. Liu, H. Wang, L. Xu, J. Lin, and D. Jiang, “Multi-Modal Sarcasm Detection with Sentiment Word Embedding,” Electronics, vol. 13, no. 5, p. 855, 2024.

V. Govindan and V. Balakrishnan, “A machine learning approach in analysing the effect of hyperboles using negative sentiment tweets for sarcasm detection,” Journal of King Saud University – Computer and Information Sciences, vol. 34, no. 8, pp. 5110–5120, 2022.

D. Suhartono, R. Wongso, and E. Handoyo, “IdSarcasm: Benchmarking and evaluating language models for Indonesian sarcasm detection,” IEEE Access, 2024.

P. Kralj Novak, J. Smailović, B. Sluban, and I. Mozetič, “Sentiment of Emojis,” PLOS ONE, vol. 10, no. 12, p. e0144296, 2015.

N. Arlim, S. K. Kushadiani, S. Riyanto, R. Rodiah, R. Arianty, and M. Maukar, “Sarcasm Detection in Indonesian Tweets Using Hyperbole Features,” in Proc. 2022 Int. Conf. on Computer, Control, Informatics and Its Applications (IC3INA), 2022, pp. 130–134.

W. J. Kusoema and I. Ibrahim, “Sentiment Analysis on the PT Pertamina Corruption Case using IndoBERT and RCNN Methods,” Sistemasi: Jurnal Sistem Informasi, vol. 14, no. 5, pp. 2246–2257, 2025.

J. Pradhan, R. Verma, S. Kumar, and V. Sharma,

“An efficient sarcasm detection using linguistic features and ensemble machine learning,” Procedia Computer Science, vol. 235, pp. 1058–1067, 2024. DOI: 10.1016/j.procs.2024.04.100.

N. A. Helal, A. Hassan, N. L. Badr, and Y. M. Afify,

“A contextual-based approach for sarcasm detection,” Scientific Reports, vol. 14, Art. no. 15415, 2024.

DOI: 10.1038/s41598-024-65217-8.

R. Tasnia, N. Ayman, A. Sultana, A. N. Chy, and M. Aono, “Exploiting stacked embeddings with LSTM for multilingual humor and irony detection,” Social Network Analysis and Mining, vol. 13, no. 1, Art. no. 43, 2023.

Downloads

Published

2026-04-06