Thai Natural Language Processing with Python
Last updated
Was this helpful?
Last updated
Was this helpful?
ในการตัดคำภาษาไทย Thai Word Segmentation จะต้องใช้ Dictionary-based ของภาษาไทยในการตัดคำ ซึ่งก็จะประกอบไปด้วย Tokenization Engine ที่ใช้ในการตัดคำ ได้แก่ newmm, longest, multi_cut, pyicu, deepcut, tcc และ etcc
ทำการสร้าง Virtual Environment
ทำการติดตั้ง Package
ทำการสร้างไฟล์ thai_nlp.py
ทำการรัน thai_nlp.py
จะแสดงผลลัพธ์ของการตัดคำ Word Tokenization
เป็นวิธีการที่ใช้ในการทำ สำหรับการตัดคำจาก Sentence ซึ่งประกอบไปด้วย Engine ได้แก่ newmm ( default ), longest, multi_cut, pyicu, deepcut, tcc และ etcc
เป็นวิธีการที่ใช้ในการทำ ถอดเสียงภาษาไทยเป็นตัวอักษรละติน ซึ่งประกอบไปด้วย Engine ได้แก่ royin ( default ) และ thai2rom
เป็นวิธีการที่ใช้ในการทำ สำหรับหาค่าเฉลี่ยของ Vocab ที่ไม่ได้อยู่ใน Pretrained Vocab ด้วยเทคนิค Universal Language Model Fine-tuning for Text Classification ซึ่งจะช่วยลดความผิดพลาดได้ถึง 18-24%
เป็นวิธีการที่ใช้ในการทำ แปลงข้อความเป็นตัวเลขในลักษณะของ Vector สำหรับหาคำที่มีความสัมพันธ์คล้ายกันระหว่างคำ 2 คำด้วยการ Multiplication Combination Objective ซึ่งได้มาจากผลคูณด้วยวิธี Omer Levy & Yoav Goldberg ซึ่งจะได้ List of Word ที่แบ่ง Label ออกเป็น Positive และ Negative โดยสามารถนำไปประยุกต์ใช้ในการหาว่าคำใดไม่เข้าพวก
อ่านเพิ่มเติม : , , ,