Memahami Perkataan dan Frasa Tidak Bertangkai dalam Pemprosesan Bahasa Semulajadi
Unstemmed merujuk kepada perkataan atau frasa yang tidak mempunyai bentuk batang atau akar. Dalam erti kata lain, ia adalah perkataan yang tidak boleh dikurangkan kepada bentuk pangkal atau akarnya.
Sebagai contoh, perkataan "berlari" ialah perkataan tidak bertangkai kerana ia tidak boleh dikurangkan lagi kepada bentuk yang lebih mudah seperti "lari." Begitu juga, frasa "kuda coklat besar" juga tidak bertangkai kerana ia merupakan frasa majmuk dan tidak boleh dipecahkan kepada perkataan individu dengan batangnya sendiri.
Sebaliknya, perkataan berpunca ialah perkataan yang telah dikecilkan kepada bentuk pangkal atau akarnya. Sebagai contoh, perkataan "lari" ialah perkataan berpunca kerana ia boleh dikurangkan daripada perkataan "berlari." Begitu juga, perkataan "coklat" ialah perkataan berpunca kerana ia boleh dikurangkan daripada frasa "kuda coklat besar."
Pembukaan dan pembongkaran adalah konsep penting dalam pemprosesan bahasa semula jadi dan pencarian maklumat kerana ia membantu mengenal pasti struktur asas perkataan dan frasa, yang boleh berguna untuk tugasan seperti carian teks, pengekstrakan kata kunci dan pemodelan bahasa.



