Jika anda merupakan mahasiswa teknik informatika, pasti gak asing sama mata kuliah kecerdasan buatan. Kecerdasan buatan merupakan mata kuliah wajib diambil dan ada dalam kurikulum teknik informatika. ibarat pohon, kecerdasan buatan itu batang pohon yang memiliki cabang ranting. nah cabang ilmu dari kecerdasan buatan ini salah satunya yaitu Pemprosesan Bahasa Alami (Natural Language Processing), dan dijadikan matakuliah pilihan dibeberapa diuniversitas.

Tujuan dalam bidang Natural Languase ini adalah melakukan proses pembuatan model komputasi dari bahasa, sehingga dapat terjadi suatu interaksi antara manusia dengan komputer dengan perantara bahasa alami. intinya sih memudahkan komunikasi antara manusia dengan komputer menggunakan bahasa alami.

Ada beberapa topik penelitian dibidang natural language processing yang dapat di jadikan judul topik untuk membuat skripsi, antaranya :

1. Sistem Rekomendasi
Jika kalian sering memutar video di youtube atau memberikan like komentar, serta pemberian rating pada video, maka pada bagian playlist youtobe akan menyarankan atau merekomendasikan video yang serupa dengan video sesuai dengan kegemaran pengguna. Salah satu metode yang dapat digunakan dalam perekomendasi yaitu menggunakan metode Content Based Rekomendation (CBR). Cara kerja CBR yaitu melakukan rekomendasi menggunakan deskripsi content dari item yang telah ditaring sebelumnnya oleh pengguna.

2. Identifikasi Kalimat Ambigu (Word Sense Disambiguation)
Keambiguan dapat mengakibatkan terjadinya lebih dari satu makna pada saat pembicaraan lisan ataupun dalam keadaan tertulis. Saat pembicaraan lisan mungkin dapat diantisipasi dengan pengucapan yang agak perlahan, sedangkan untuk yang tertulis apabila terdapat kekurangan tanda baca maka makna suatu kata atau kalimat menjadi berbeda dari makna yang diinginkan oleh penulis.
Word Sense Disambiguation adalah usaha untuk mengidentifikasi makna kata yang digunakan dalam kalimat tertentu ketika kata memiliki sejumlah makna yang berbeda. 
Salah satu metode yang dapat digunakan dalam mengenali pola suatu kalimat yaitu menggunakan  metode shift reduce parsing. Metode ini akan membagi masukan kalimat menjadi beberapa kata dalam bentuk stack. Setelah itu, beberapa kata tersebut dapat dikenali identitas katanya sehingga akan dapat diproses ke dalam bentuk tata bahasa tertentu 

3. Klasifikasi Dokumen (Document Claasification)
Dalam ilmu pemrosesan bahasa alami, terdapat salah satu bidang pembelajaran yang disebut dengan klasifikasi. Klasifikasi adalah algoritma yang menggunakan data dengan target (class/label) yang berupa nilai kategorikal/nominal. Algoritma untuk melakukan klasifikasi untuk teks bahasa Indonesia telah banyak dikembangkan. 
Salah satu algoritma yang digunakan untuk klasifikasi teks bahasa Indonesia adalah algoritma Naive Bayes. Naive Bayes Classifier merupakan pengklasifikasian statistik yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu class.
  
4. Sistem Tanya Jawab (Question Answering System)
Sistem tanya jawab merupakan suatu sistem dalam temu kembali informasi dimana sistem tersebut tidak hanya mengembalikan dokumen sebagai informasi namun sistem secara otomatis dapat memberikan jawaban yang relevan berdasarkan query pertanyaan yang diajukan user menggunakan bahasa alami. Salah satu algoritma yang digunakan untuk Sistem tanya jawab teks bahasa Indonesia adalah algoritma Rule Based. 
Rule Based atau penalaran berbasis aturan adalah teknik yang sederhana, dimulai dengan dasar aturan yang berisi semua pengetahuan dari permasalahan yang dihadapi yang kemudian dikodekan ke dalam aturan if-then yang mengandung data, pernyataan dan informasi awal

5. Mesin pencari (Search Engine)
Mesin pencari merupakan perangkat pencari informasi dari dokumen - dokumen yang tersedia di database. Hasil pencarian umumnya ditampilkan dalam bentuk daftar yang seringkali diurutkan menurut tingkat akurasi ataupun rasio pengunjung atas suatu berkas yang disebut sebagai hits. Informasi yang menjadi target pencarian bisa terdapat dalam berbagai macam jenis berkas seperti halaman situs web, gambar, ataupun jenis-jenis berkas lainnya. 
Salah satu algoritma yang digunakan untuk Mesin Pencarian adalah algoritma Vector Space Model. Vector Space Model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dengan suatu query.

6. Pengecekan Kesalahan Ejaan/Penulisan (Spelling Correction)
Spelling Correction atau pengecekan kesalahan penulisan merupakan salah satu bidang penerapan ilmu pemrosesan bahasa alami, yang bekerja untuk menemukan kata-kata yang salah penulisannya. Pada pengaplikasiannya, sistem diharapkan dapat menunjukkan kata yang salah dan memberikan sugesti untuk pengoreksian kata tersebut. Salah satu bentuk kesalahan ejaan yaitu kesalahan penggunaan huruf kapital dan tanda baca. Sedangkan untuk kesalahan dalam penulisan kata ialah menghilangkan huruf, menambah huruf, menyingkat kata, kesalahan dalam formasi atau susunan kata, dan penulisan imbuhan. 
Algoritma yang dapat diimplementasikan dalam pengecekan kesalahan penulisan dalam bahasa Indonesia telah banyak dikembangkan, salah satunya adalah algoritma N-gram. N-gram adalah potongan n karakter dalam satu string tertentu atau potongan kata dalam suatu kalimat. N-gram merupakan sebuah metode yang biasanya  diaplikasikan untuk pembangkitan kata atau karakter. Metode N-gram ini digunakan untuk mengambil potongan-potongan karakter huruf sejumlah n dari sebuah kata yang menjadi masukan

7. Peringkasan Teks Otomatis (Automatic Text Summarization)
Peringkasan teks otomatis (Automatic Text Summarization) merupakan proses menghasilkan atau mengekstraksi sebuah teks yang berasal dari satu atau banyak teks dimana didalamnya terdapat informasi penting dari teks sumber, dan teks hasil tersebut tidak lebih panjang dari setengah teks sumber secara otomatis.
Algoritma yang dapat diimplementasikan dalam peringkasan teks otomatis telah banyak dikembangkan, salah satunya adalah algoritma genetika. Algoritma Genetika adalah algoritma yang memanfaatkan proses seleksi alamiah yang dikenal dengan proses evolusi. Dalam proses evolusi, individu secara terus-menerus mengalami perubahan gen untuk menyesuaikan dengan lingkungan hidupnya. Proses seleksi alamiah ini melibatkan perubahan gen yang terjadi pada individu melalui proses perkembangbiakan.

8. Deteksi Plagiat
Plagiat merupakan salah satu bentuk ketidakjujuran yang sering terjadi dalam banyak konteks. Dalam bidang akademis misalnya, praktik plagiat dikategorikan sebagai penjiplakan yang melanggar hak cipta (plagiarisme) karena dilakukan dengan cara menerbitkan karya orang lain dan menjadikannya seolah-oleh karya milik sendiri.Untuk mengatasi hal tersebut perlu adanya suatu sistem untuk melakukan deteksi terhadap dokumen-dokumen yang dicurigai sebagai dokumen plagiat.  
Algoritma yang dapat diimplementasikan dalam Deteksi Plagiat telah banyak dikembangkan, salah satunya adala hmenggunakan metode string matching pattern atau dengan cara  melakukan pembandingan dengan sumber dokumen asli, suatu dokumen dapat diperiksa apakah dokumen itu plagiat.  

Itulah beberapa topik yang dapat dijadikan skripsi pada jurusan teknik informatika bidang natural language processing, semoga bermanfaat