INFOCPNS Tutorial Natural Language Processing NLP - Rista Bola

Tutorial Natural Language Processing NLP

Halo Sahabat Beritaceria.com, berjumpa lagi ya di Blog yang sama, dalam kesempatan kali ini Admin Beritaceria.com akan berbagi informasi terbaru tentang Tutorial Natural Language Processing (NLP).

Tutorial NLP menyediakan konsep dasar dan lanjutan dari tutorial NLP. Tutorial NLP kami dirancang untuk pemula dan profesional.

  • Apa itu NLP?
  • Sejarah NLP
  • Kelebihan NLP
  • Kekurangan NLP
  • Komponen NLP
  • Aplikasi NLP
  • Bagaimana cara membangun pipa NLP?
  • Fase NLP
  • Mengapa NLP Sulit?
  • API NLP
  • Perpustakaan NLP
  • Perbedaan antara bahasa alami dan bahasa komputer

Apa itu NLP?

NLP adalah singkatan dari Natural Language Processing, yang merupakan bagian dari Ilmu Komputer, Bahasa Manusia, dan Kecerdasan Buatan. Ini adalah teknologi yang digunakan oleh mesin untuk memahami, menganalisis, memanipulasi, dan menginterpretasikan bahasa manusia. Ini membantu pengembang untuk mengatur pengetahuan untuk melakukan tugas-tugas seperti terjemahan, peringkasan otomatis, Pengenalan Entitas Bernama (NER), pengenalan ucapan, ekstraksi hubungan, dan segmentasi topik.

Sejarah NLP

(1940-1960) - Berfokus pada Machine Translation (MT)
Pemrosesan Bahasa Alami dimulai pada tahun 1940-an.

1948 - Pada Tahun 1948, aplikasi NLP yang dikenal pertama kali diperkenalkan di Birkbeck College, London.

1950-an - Pada Tahun 1950-an, ada pandangan yang bertentangan antara linguistik dan ilmu komputer. Sekarang, Chomsky mengembangkan struktur sintaksis buku pertamanya dan menyatakan bahwa bahasa bersifat generatif.

Pada tahun 1957, Chomsky juga memperkenalkan gagasan Tata Bahasa Generatif, yang merupakan deskripsi berbasis aturan dari struktur sintaksis.

(1960-1980) - Dibumbui dengan Kecerdasan Buatan (AI)

Pada tahun 1960 hingga 1980, perkembangan utama adalah:

Jaringan Transisi Tertambah (ATN)

Augmented Transition Networks adalah mesin keadaan terbatas yang mampu mengenali bahasa biasa.

Tata Bahasa Kasus

Case Grammar dikembangkan oleh Linguist Charles J. Fillmore pada tahun 1968. Case Grammar menggunakan bahasa seperti bahasa Inggris untuk mengekspresikan hubungan antara kata benda dan kata kerja dengan menggunakan preposisi.

Dalam Tata Bahasa Kasus, peran kasus dapat didefinisikan untuk menghubungkan jenis kata kerja dan objek tertentu.

Misalnya: "Neha memecahkan cermin dengan palu". Dalam contoh kasus tata bahasa ini mengidentifikasi Neha sebagai agen, cermin sebagai tema, dan palu sebagai instrumen.

Pada tahun 1960 hingga 1980, sistem kuncinya adalah:

SHRDLU

SHRDLU adalah program yang ditulis oleh Terry Winograd pada tahun 1968-70. Ini membantu pengguna untuk berkomunikasi dengan komputer dan benda bergerak. Itu dapat menangani instruksi seperti "ambil buah kapas hijau" dan juga menjawab pertanyaan seperti "Apa yang ada di dalam kotak hitam." Kepentingan utama SHRDLU adalah menunjukkan sintaks, semantik, dan penalaran tentang dunia yang dapat digabungkan untuk menghasilkan sistem yang memahami bahasa alami.

LUNAR

LUNAR adalah contoh klasik dari sistem antarmuka basis data Bahasa Alami yang menggunakan ATN dan Semantik Prosedural Woods. Itu mampu menerjemahkan ekspresi bahasa alami yang rumit ke dalam kueri basis data dan menangani 78% permintaan tanpa kesalahan.
1980 - Sekarang
Hingga tahun 1980, sistem pemrosesan bahasa alami didasarkan pada seperangkat aturan tulisan tangan yang kompleks. Setelah 1980, NLP memperkenalkan algoritma pembelajaran mesin untuk pemrosesan bahasa.

Pada awal tahun 1990-an, NLP mulai berkembang lebih cepat dan mencapai akurasi proses yang baik, khususnya dalam Tata Bahasa Inggris. Pada tahun 1990 juga, sebuah teks elektronik diperkenalkan, yang menyediakan sumber daya yang baik untuk pelatihan dan pengujian program bahasa alami. Faktor lain mungkin termasuk ketersediaan komputer dengan CPU cepat dan lebih banyak memori. Faktor utama di balik kemajuan pemrosesan bahasa alami adalah Internet.

Sekarang, NLP modern terdiri dari berbagai aplikasi, seperti pengenalan suara, terjemahan mesin, dan pembacaan teks mesin. Ketika kami menggabungkan semua aplikasi ini maka itu memungkinkan kecerdasan buatan untuk mendapatkan pengetahuan tentang dunia. Mari kita perhatikan contoh AMAZON ALEXA, dengan menggunakan robot ini Anda dapat mengajukan pertanyaan ke Alexa, dan itu akan membalas Anda.

Kelebihan NLP

  • NLP membantu pengguna untuk mengajukan pertanyaan tentang subjek apa pun dan mendapatkan tanggapan langsung dalam hitungan detik.
  • NLP menawarkan jawaban yang tepat atas pertanyaan yang berarti tidak menawarkan informasi yang tidak perlu dan tidak diinginkan.
  • NLP membantu komputer untuk berkomunikasi dengan manusia dalam bahasa mereka.
  • Ini sangat efisien waktu.
  • Sebagian besar perusahaan menggunakan NLP untuk meningkatkan efisiensi proses dokumentasi, keakuratan dokumentasi, dan mengidentifikasi informasi dari database besar

Kekurangan NLP

Daftar kelemahan NLP diberikan di bawah ini:
  • NLP mungkin tidak menunjukkan konteks.
  • NLP tidak dapat diprediksi
  • NLP mungkin memerlukan lebih banyak penekanan tombol.
  • NLP tidak dapat beradaptasi dengan domain baru, dan ia memiliki fungsi terbatas, itulah sebabnya NLP dibangun hanya untuk satu tugas dan spesifik.

Komponen NLP

Ada dua komponen NLP berikut -

1. Pemahaman Bahasa Alami (NLU)

Natural Language Understanding (NLU) membantu mesin untuk memahami dan menganalisis bahasa manusia dengan mengekstraksi metadata dari konten seperti konsep, entitas, kata kunci, emosi, hubungan, dan peran semantik.

NLU terutama digunakan dalam aplikasi Bisnis untuk memahami masalah pelanggan baik dalam bahasa lisan maupun tulisan.

NLU melibatkan tugas-tugas berikut -
  • Ini digunakan untuk memetakan masukan yang diberikan ke dalam representasi yang berguna.
  • Ini digunakan untuk menganalisis berbagai aspek bahasa.

2. Generasi Bahasa Alami (NLG)

Natural Language Generation (NLG) bertindak sebagai penerjemah yang mengubah data terkomputerisasi menjadi representasi bahasa alami. Ini terutama melibatkan perencanaan Teks, perencanaan Kalimat, dan Realisasi Teks.

Catatan: NLU lebih sulit daripada NLG.

Perbedaan antara NLU dan NLG 

NLUNLG
NLU adalah proses membaca dan menafsirkan bahasa.NLG adalah proses menulis atau menghasilkan bahasa.
Ini menghasilkan output non-linguistik dari input bahasa alami.Ini menghasilkan output bahasa alami yang membangun dari input non-linguistik.

Aplikasi NLP

Ada aplikasi NLP berikut -

1. Menjawab Pertanyaan

Question Answering berfokus pada membangun sistem yang secara otomatis menjawab pertanyaan yang diajukan oleh manusia dalam bahasa alami.

2. Deteksi Spam

Deteksi spam digunakan untuk mendeteksi email yang tidak diinginkan masuk ke kotak masuk pengguna.


3. Analisis Sentimen

Analisis Sentimen juga dikenal sebagai penambangan opini. Ini digunakan di web untuk menganalisis sikap, perilaku, dan keadaan emosional pengirim. Aplikasi ini diimplementasikan melalui kombinasi NLP (Natural Language Processing) dan statistik dengan memberikan nilai pada teks (positif, negatif, atau alami), mengidentifikasi mood konteks (senang, sedih, marah, dll.)

4. Terjemahan Mesin

Terjemahan mesin digunakan untuk menerjemahkan teks atau ucapan dari satu bahasa alami ke bahasa alami lainnya.


Contoh: Google Penerjemah

5. Koreksi ejaan

Microsoft Corporation menyediakan perangkat lunak pengolah kata seperti MS-word, PowerPoint untuk koreksi ejaan.


6. Pengenalan Ucapan

Pengenalan ucapan digunakan untuk mengubah kata yang diucapkan menjadi teks. Ini digunakan dalam aplikasi, seperti seluler, otomatisasi rumah, pemulihan video, mendikte ke Microsoft Word, biometrik suara, antarmuka pengguna suara, dan sebagainya.

7. Obrolan bot

Menerapkan Chatbot adalah salah satu aplikasi penting NLP. Ini digunakan oleh banyak perusahaan untuk menyediakan layanan obrolan pelanggan.

8. Ekstraksi informasi

Ekstraksi informasi adalah salah satu aplikasi NLP yang paling penting. Ini digunakan untuk mengekstraksi informasi terstruktur dari dokumen yang dapat dibaca mesin yang tidak terstruktur atau semi-terstruktur.

9. Pemahaman Bahasa Alami (NLU)

Itu mengubah sekumpulan besar teks menjadi representasi yang lebih formal seperti struktur logika urutan pertama yang lebih mudah bagi program komputer untuk memanipulasi notasi pemrosesan bahasa alami.

Bagaimana membangun pipa NLP

Ada langkah-langkah berikut untuk membangun pipa NLP -

Langkah 1: Segmentasi Kalimat

Segmen Kalimat adalah langkah pertama untuk membangun jalur pipa NLP. Ini memecah paragraf menjadi kalimat terpisah.

Contoh: Perhatikan paragraf berikut -

Hari Kemerdekaan adalah salah satu festival penting bagi setiap warga negara India. Itu dirayakan pada tanggal 15 Agustus setiap tahun sejak India merdeka dari pemerintahan Inggris. Hari merayakan kemerdekaan dalam arti sebenarnya.

Segmen Kalimat menghasilkan hasil sebagai berikut:
  1. "Hari Kemerdekaan adalah salah satu festival penting bagi setiap warga negara India."
  2. "Itu dirayakan pada tanggal 15 Agustus setiap tahun sejak India merdeka dari kekuasaan Inggris."
  3. "Hari ini merayakan kemerdekaan dalam arti sebenarnya."
Langkah2: Tokenisasi Kata

Word Tokenizer digunakan untuk memecah kalimat menjadi kata atau token yang terpisah.

Contoh:

Beritaceria.com menawarkan Pelatihan Perusahaan, Pelatihan Musim Panas, Pelatihan Online, dan Pelatihan Musim Dingin.

Word Tokenizer menghasilkan hasil sebagai berikut:

"Beritaceria.com", "penawaran", "Perusahaan", "Pelatihan", "Musim Panas", "Pelatihan", "Online", "Pelatihan", "dan", "Musim Dingin", "Pelatihan", "."

Langkah 3: Stemming

Stemming digunakan untuk menormalkan kata menjadi bentuk dasarnya atau bentuk akarnya. Misalnya, rayakan, rayakan, dan rayakan, semua kata ini berasal dari satu akar kata "merayakan". Masalah besar dengan stemming adalah kadang-kadang menghasilkan kata dasar yang mungkin tidak memiliki arti.

Misalnya, kecerdasan, kecerdasan, dan kecerdasan, semua kata ini berasal dari satu akar kata "inteligen". Dalam bahasa Inggris, kata "intelligen" tidak memiliki arti apapun.

Langkah 4: Lemmatisasi

Lemmatisasi sangat mirip dengan Stamming. Ini digunakan untuk mengelompokkan berbagai bentuk kata yang diinfleksikan, yang disebut Lemma. Perbedaan utama antara Stemming dan lemmatisasi adalah menghasilkan kata dasar, yang memiliki arti.

Contoh: Dalam lemmatisasi, kata kecerdasan, cerdas, dan cerdas memiliki akar kata cerdas, yang memiliki arti.

Langkah 5: Mengidentifikasi Kata Berhenti

Dalam bahasa Inggris, ada banyak kata yang sangat sering muncul seperti "is", "and", "the", dan "a". Pipeline NLP akan menandai kata-kata ini sebagai kata berhenti. Hentikan kata mungkin disaring sebelum melakukan analisis statistik apa pun.

Contoh: Dia anak yang baik.
Catatan: Saat Anda membangun mesin pencari band rock, jangan abaikan kata "The".

Langkah 6: Penguraian Ketergantungan

Dependency Parsing digunakan untuk menemukan bagaimana semua kata dalam kalimat berhubungan satu sama lain.

Langkah 7: Tag POS

POS adalah singkatan dari part of speech, yang meliputi Noun, verb, adverb, dan Adjective. Ini menunjukkan bahwa bagaimana sebuah kata berfungsi dengan artinya serta secara tata bahasa dalam kalimat. Sebuah kata memiliki satu atau lebih bagian ucapan berdasarkan konteks penggunaannya.

Contoh: "Google" sesuatu di Internet.

Dalam contoh di atas, Google digunakan sebagai kata kerja, meskipun itu adalah kata benda yang tepat.

Langkah 8: Pengakuan Entitas Bernama (NER)

Named Entity Recognition (NER) adalah proses mendeteksi entitas bernama seperti nama orang, nama film, nama organisasi, atau lokasi.

Contoh: Steve Jobs memperkenalkan iPhone di Macworld Conference di San Francisco, California.

Langkah 9: Memotong

Chunking digunakan untuk mengumpulkan informasi individu dan mengelompokkannya menjadi potongan-potongan kalimat yang lebih besar. 

Fase NLP

Ada lima fase NLP berikut:


1. Analisis Leksikal dan Morfologi

Fase pertama NLP adalah Analisis Leksikal. Fase ini memindai kode sumber sebagai aliran karakter dan mengubahnya menjadi leksem bermakna. Ini membagi seluruh teks menjadi paragraf, kalimat, dan kata-kata.

2. Analisis Sintaksis (Parsing)

Sintaksis Analisis digunakan untuk memeriksa tata bahasa, pengaturan kata, dan menunjukkan hubungan antara kata-kata.

Contoh: Agra pergi ke Poonam

Di dunia nyata, Agra pergi ke Poonam, tidak masuk akal, jadi kalimat ini ditolak oleh Syntactic analyzer.

3. Analisis Semantik

Analisis semantik berkaitan dengan representasi makna. Ini terutama berfokus pada makna literal dari kata, frasa, dan kalimat.

4. Integrasi Wacana

Integrasi wacana bergantung pada kalimat-kalimat yang menghasilkannya dan juga memunculkan makna kalimat-kalimat yang mengikutinya.

5. Analisis Pragmatis

Pragmatis adalah fase kelima dan terakhir dari NLP. Ini membantu Anda menemukan efek yang diinginkan dengan menerapkan seperangkat aturan yang menjadi ciri dialog kooperatif.

Contoh: “Buka pintu” diartikan sebagai permintaan bukan perintah.

Mengapa NLP itu sulit?

NLP sulit karena Ambiguitas dan Ketidakpastian ada dalam bahasa tersebut.

Kemenduaan

Ada tiga ambiguitas berikut -
  • Ambiguitas Leksikal
Ambiguitas leksikal ada di hadapan dua atau lebih kemungkinan makna kalimat dalam satu kata.

Contoh:

Manya sedang mencari kecocokan.

Dalam contoh di atas, kata kecocokan merujuk pada Manya yang sedang mencari pasangan atau Manya yang sedang mencari jodoh. (Kriket atau pertandingan lainnya)
  • Ambiguitas sintaksis
Sintaksis Ambiguitas ada di hadapan dua atau lebih kemungkinan makna dalam kalimat.

Contoh:

Aku melihat gadis dengan teropong.

Dalam contoh di atas, apakah saya memiliki teropong? Atau apakah gadis itu memiliki teropong?
  • Ambiguitas Referensi
Ambiguitas referensial ada saat Anda mengacu pada sesuatu menggunakan kata ganti.

Contoh: Kiran pergi ke Sunita. Dia berkata, "Saya lapar."

Pada kalimat di atas, Anda tidak tahu siapa yang lapar, baik Kiran maupun Sunita.

API NLP

API Pemrosesan Bahasa Alami memungkinkan pengembang untuk mengintegrasikan komunikasi manusia-ke-mesin dan menyelesaikan beberapa tugas berguna seperti pengenalan ucapan, chatbots, koreksi ejaan, analisis sentimen, dll.

Daftar API NLP diberikan di bawah ini:

  • API IBM Watson
IBM Watson API menggabungkan berbagai teknik pembelajaran mesin canggih untuk memungkinkan pengembang mengklasifikasikan teks ke dalam berbagai kategori khusus. Ini mendukung banyak bahasa, seperti Inggris, Prancis, Spanyol, Jerman, Cina, dll. Dengan bantuan IBM Watson API, Anda dapat mengekstrak wawasan dari teks, menambahkan otomatisasi dalam alur kerja, menyempurnakan pencarian, dan memahami sentimen. Keuntungan utama dari API ini adalah sangat mudah digunakan.
Harga: Pertama, ia menawarkan akun cloud IBM percobaan 30 hari gratis. Anda juga dapat memilih paket berbayarnya.
  • API bot obrolan
Chatbot API memungkinkan Anda membuat chatbot cerdas untuk layanan apa pun. Ini mendukung karakter Unicode, mengklasifikasikan teks, banyak bahasa, dll. Sangat mudah digunakan. Ini membantu Anda membuat chatbot untuk aplikasi web Anda.
Harga: Chatbot API gratis untuk 150 permintaan per bulan. Anda juga dapat memilih versi berbayarnya, mulai dari $100 hingga $5.000 per bulan.
  • Pidato ke teks API
Speech to text API digunakan untuk mengubah ucapan menjadi teks
Harga: Speech to text API gratis untuk mengonversi 60 menit per bulan. Versi berbayarnya mulai dari $500 hingga $1.500 per bulan.
  • API Analisis Sentimen
API Analisis Sentimen juga disebut sebagai 'opinion mining' yang digunakan untuk mengidentifikasi nada pengguna (positif, negatif, atau netral)
Harga: API Analisis Sentimen gratis untuk kurang dari 500 permintaan per bulan. Versi berbayarnya mulai dari $19 hingga $99 per bulan.
  • Terjemahan API oleh SYSTRAN
Translation API oleh SYSTRAN digunakan untuk menerjemahkan teks dari bahasa sumber ke bahasa target. Anda dapat menggunakan API NLP untuk deteksi bahasa, segmentasi teks, pengenalan entitas bernama, tokenisasi, dan banyak tugas lainnya.
Harga: API ini tersedia gratis. Tetapi untuk pengguna komersial, Anda harus menggunakan versi berbayarnya.
  • API Analisis Teks oleh AYLIEN
API Analisis Teks oleh AYLIEN digunakan untuk mendapatkan makna dan wawasan dari konten tekstual. Ini tersedia baik gratis maupun berbayar mulai dari $119 per bulan. Mudah digunakan.
Harga: API ini tersedia gratis untuk 1.000 hit per hari. Anda juga dapat menggunakan versi berbayarnya, mulai dari $199 hingga S1, 399 per bulan.
  • API Cloud NLP
Cloud NLP API digunakan untuk meningkatkan kemampuan aplikasi menggunakan teknologi pemrosesan bahasa alami. Ini memungkinkan Anda untuk membawa berbagai fungsi pemrosesan bahasa alami seperti analisis sentimen dan deteksi bahasa. Mudah digunakan.
Harga: Cloud NLP API tersedia gratis.
  • API Bahasa Alami Google Cloud
Google Cloud Natural Language API memungkinkan Anda mengekstrak wawasan bermanfaat dari teks yang tidak terstruktur. API ini memungkinkan Anda untuk melakukan pengenalan entitas, analisis sentimen, klasifikasi konten, dan analisis sintaks di lebih dari 700 kategori yang telah ditentukan sebelumnya. Ini juga memungkinkan Anda untuk melakukan analisis teks dalam berbagai bahasa seperti Inggris, Prancis, Cina, dan Jerman.
Harga: Setelah melakukan analisis entitas untuk 5.000 hingga 10.000.000 unit, Anda harus membayar $1,00 per 1000 unit per bulan.

Perpustakaan NLP

Scikit-learn: Ini menyediakan berbagai macam algoritma untuk membangun model pembelajaran mesin dengan Python.

Toolkit bahasa alami (NLTK): NLTK adalah toolkit lengkap untuk semua teknik NLP.

Pola: Ini adalah modul penambangan web untuk NLP dan pembelajaran mesin.

TextBlob: Ini menyediakan antarmuka yang mudah untuk mempelajari tugas NLP dasar seperti analisis sentimen, ekstraksi frasa kata benda, atau penandaan pos.

Quepy: Quepy digunakan untuk mengubah pertanyaan bahasa alami menjadi kueri dalam bahasa kueri basis data.

SpaCy: SpaCy adalah pustaka NLP sumber terbuka yang digunakan untuk Ekstraksi Data, Analisis Data, Analisis Sentimen, dan Peringkasan Teks.

Gensim: Gensim bekerja dengan kumpulan data besar dan memproses aliran data.

Perbedaan antara bahasa alami dan Bahasa Komputer

Natural LanguageComputer Language
Bahasa alami memiliki kosakata yang sangat banyak.Bahasa komputer memiliki kosakata yang sangat terbatas.
Bahasa alami mudah dipahami oleh manusia.Bahasa komputer mudah dipahami oleh mesin.
Bahasa alami bersifat ambigu.Bahasa komputer tidak ambigu.

Prasyarat

Sebelum mempelajari NLP, Anda harus memiliki pengetahuan dasar tentang Python.

Audiens

Tutorial NLP kami dirancang untuk membantu pemula.

Jangan lupa untuk terus berkunjung dan mengikuti update terbarunya dari blog Beritaceria.com, Oh iya lupa, jika Sahabat memiliki tips-tips yang lebih bagus dari tips di atas, boleh dituliskan dimari caranya kelik menu bar lalu kelik kerja sama scrool kirim artikel. Selain itu juga, mohon dishare ketemen-temen atau keluarga jika memang artikel ini sangatlah bermanfaat untuk Sahabat.

Penulis Artikel
  1. Penulis  : Rizky Kharisma
  2. Sumber : Merangkum Dari Buku Gramedia

📢 Baca Juga :