Tokenize Data pada Python

Pagi kan selalu kembali 😊

Layaknya mentari dipagi hari dengan sinar yang sedikit berbeda dengan kemarin menghangatkan suasana pagi ini. Kicauan burung kutilang menambah indah kesejukan pagi. Deringan suara penjual sanyuran meramaikan komplek perumahan pepelegi yang sepi senyap. Harapan penjual sayur untuk menjajahkan dagangannya diutarakan dengan keras dan nada suaranya. Sedangkan aku termenung menyaksikan indahnya pemandangan yang terpancar dari ujung menara masjid perumahan pepelegi, ditemani lagu SUM 41 never there. lagu yang begitu manis yang menceritakan tentang seseorang yang disakiti kekasihnya tapi dia bangkit dan menyakinkan hatinya bahwa dia mampu bahagia walaupun tidak bersama kekasihnya, happy ending mungkin dapat dikatakan seperti itu, tapi semangatnya untuk move on dan cara berfikirnya begitu luar biasa, layaknya pagi ini mengajarkan kita bahwa tidak ada yang berakhir semua bisa kita rubah layaknya mentari terbit dari timur 😀.

Saatnya kembali ke ruang dimana hanyalan kembali terancang. ups sebelum itu kita bahas tentang text prosessing python. text prosessing adalah tahapan dimana kita melakukan seleksi data yang akan kita olah menjadi lebih terstruktur. text prosessing yang kita bahas kali ini adalah text prosessing menggunakan Library NLTK.

contoh sedrhana seperti berikut :

import NLTK



kalimat = "Pada hari rabu udara sangat panas, hari ini saya kerja"

tokens = nltk.tokenize.word_tokenize(kalimat)



print(tokens)

# output

# 'Pada' 'hari' 'rabu' 'udara' 'sangat' 'panas' ',' 'hari' 'ini' 'saya' 'kerja'

Waw 😅, ternyata mudah banget . selain itu kita juga dapat mengetahungi jumlah kata dalam kalimat berapa kali dia muncul

import NLTK
kalimat = "Pada hari rabu udara sangat panas, hari ini saya kerja"
tokens = nltk.tokenize.word_tokenize(kalimat)
kemunculan = nltk,FreqDist(tokens)



print(kemunculm.most_common())

#output

# [('pada', 1), ('hari', 2), ('rabu', 1), ('udara', 1), ('sangat', 1), ('panas', 1), ('ini', 1), ('saya', 1), ('kerja', 1)]

waw 😆semakin mudah, tenang segalanya tergantung dari pemakain. Pada percobaan tokenize ini, saya menggabungkan dengan percobaan python sebelumnya. Dari hasil get data dari API Twitter kemarin kemudian kita oleh dengan proses tokenize ini yang bertujuan untuk mengetahui kata apa yang sering muncul. berikut link githubnya ..... 😅

https://github.com/sdiik/APITwitter

Tokenize Data pada Python

You May Also Like

ليست هناك تعليقات:

Popular Posts