วันนี้ 10 กุมภาพันธ์ พ.ศ.2567 ทาง PyThaiNLP ชุดคำสั่งเครื่องมือประมวลข้อความภาษาไทยสำหรับงานวิเคราะห์ข้อมูล ภาษาศาสตร์ งานปัญญาประดิษฐ์ แบบโอเพ่นซอร์ส ได้ปล่อย PyThaiNLP รุ่น 5.0 หลังจากที่ปล่อย PyThaiNLP 4.0 ไปเมื่อปีก่อน โดย PyThaiNLP 5.0 มีการเปลี่ยนแปลงสรุปได้ดังนี้
วันนี้ทาง PyThaiNLP ได้ปล่อย PyThaiNLP รุ่น 4.0 (Real) เป็นที่เรียบร้อย โดย PyThaiNLP เป็นชุดคำสั่งสำหรับงานประมวลผลภาษาไทย เพื่อใช้งานในการวิเคราะห์ข้อมูลภาษาไทย
สำหรับรุ่น 4.0 นี้เน้นไปเรื่องการปรับปรุงประสิทธิภาพเป็นหลัก ปรับปรุงการตัดคำ แก้ไขปัญหาด้านโมเดล
วันนี้ 24 กันยายน ค.ศ.2022 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาไทย PyThaiNLP รุ่น 3.1 บนภาษาไพธอนอย่างเป็นทางการ
สำหรับ PyThaiNLP 3.1 สรุปการเปลี่ยนแปลงได้ดังนี้
- เพิ่ม Dependency Parsing สำหรับวิเคราะห์โครงสร้างทางภาษาไทย
- เพิ่มการทับศัพท์ภาษาจีน ภาษาญี่ปุ่น และอื่น ๆ ให้กลายเป็นภาษาไทย ผ่านแพ็กเกจ wunsen
- เพิ่มแบบจำลองการสรุปข้อความ mt5 สำหรับภาษาไทยตัวใหม่
- เพิ่ม Thai-NNER (Thai Nested Named Entity Recognition) หรือตัววิเคราะห์นิพจน์หลายชั้น โดยสามารถวิเคราะห์ข้อความภาษาไทยได้ละเอียดกว่า Named Entity Recognition ตรงที่สามารถวิเคราะห์นิพจน์ย่อยได้
วันนี้ 30 มกราคม พ.ศ.2565 ทางทีมพัฒนา PyThaiNLP ได้ปล่อยแพ็กเกจประมวลผลภาษาธรรมชาติ PyThaiNLP รุ่น 3.0 หลังจากที่ปล่อย PyThaiNLP 2.3 ไปเมื่อปีก่อน
PyThaiNLP 3.0 มีความเปลี่ยนแปลงสรุปได้ดังนี้
Google Assistant เพิ่มฟังก์ชั่นใหม่หลายอย่าง อย่างแรกคือให้ผู้ใช้งานสอน AI อ่านออกเสียงคำที่ออกเสียงยากโดยเฉพาะชื่อคน ผู้ใช้งานสามารถกดอัดเสียงตัวเองเข้าไปเพื่อสอนให้ Google Assistant อ่านออกเสียงตามได้ถูกต้องในภายหลัง เมื่อแอปอัพเดตแล้วจะมองเห็นช่องทางให้สอนอ่านออกเสียง กดที่ Record your own เพื่ออัดเสียงของตัวเองเข้าไป กูเกิลบอกด้วยว่า ระบบไม่บันทึกเสียงของผู้ใช้ และเริ่มใช้งานในภาษาอังกฤษก่อน
ฟังก์ชั่นถัดมาคือการตั้งเวลา ปัจจุบันผู้ใช้งานมักใช้ Google Assistant ในการตั้งเวลาหรือตั้งปลุกเพื่อทำอะไรบางอย่าง ล่าสุดกูเกิลพัฒนาการรับรู้ Google Assistant ให้ฉลาดมากขึ้นเมื่อเปลี่ยนคำสั่งกลางคัน
วันที่ 31 มีนาคม พ.ศ.2564 ไลบรารีภาษาไพธอนสำหรับประมวลผลภาษาไทย PyThaiNLP ได้ปล่อยเวอร์ชัน 2.3 โดยสรุปความเปลี่ยนแปลงได้ดังนี้
ข้อมูลเปิดเผย: ผู้เขียนเป็นสมาชิกในทีมพัฒนา PyThaiNLP
วันนี้ทางสถาบันวิจัยปัญญาประดิษฐ์ประเทศไทยเปิดตัวชุดข้อมูลจำแนกอารมณ์จากเสียงพูดภาษาไทย (Thai Speech Emotion Recognition) หลังจากใช้เวลาพัฒนา 2 ปี ภายใต้ความร่วมมือของจุฬาลงกรณ์มหาวิทยาลัย และได้รับการสนับสนุนโดยบริษัท แอดวานซ์ อินโฟร์ เซอร์วิส จำกัด
ชุดข้อมูลจำแนกอารมณ์จากเสียงพูดภาษาไทยประกอบไปด้วย 5 อารมณ์ ได้แก่ โกรธ เศร้า สุข หงุดหงิด ปกติ นักแสดง 200 คน (ชาย 87 และหญิง 113) จำนวน 36 ชม. (23,797 ประโยค) ถือเป็นชุดข้อมูลจำแนกอารมณ์จากเสียงพูดภาษาไทยที่ใหญ่ที่สุด ณ ปัจจุบัน
ท่านใดสนใจสามารถดาวน์โหลดได้ที่ airesearch.in.th
สถาบันวิจัยปัญญาประดิษฐ์ประเทศไทย (VISTEC-depa Thailand Artificial Intelligence Research Institute) ปล่อยโมเดล WangchanBERTa ซึ่งเป็นโมเดลทางภาษาไทยสำหรับงานประมวลผลภาษาธรรมชาติโดยฝึกฝนบนสถาปัตยกรรม RoBERTa
โมเดล WangchanBERTa ถูกฝึกฝนด้วยชุดข้อมูลกว่า 78.48 GB ใช้ตัวตัดคำย่อย SentencePiece ในการแบ่งคำและ ใช้เวลาฝึกฝนโมเดล 3 เดือน
ทำให้โมเดล WangchanBERTa ถือเป็นโมเดลภาษาไทยที่ใหญ่ที่สุด ณ ขณะนี้ ซึ่งในการฝึกฝนใช้ไฟฟ้าทั้งหมด 10,566.5 kWh หรือคิดเป็นรอยเท้าคาร์บอน 7.5 ตัน เทียบเท่าการใช้รถ 1.6 คันในหนึ่งปี
วันที่ 24 มิถุนายน พ.ศ.2563 ไลบรารี PyThaiNLP ซึ่งเป็นไลบรารีประมวลผลภาษาไทยแบบโอเพนซอร์สในภาษาไพธอน ได้ออกรุ่น 2.2 โดยเน้นปรับปรุงประสิทธิภาพการทำงานของไลบรารี โดยสรุปความเปลี่ยนแปลงได้ดังนี้
ทุกวันนี้ระบบปัญญาประดิษฐ์สำหรับประมวลผลภาษา (natural language processing - NLP) ตัวที่ดีที่สุดคือ BERT เสนอโดยกูเกิลเมื่อปลายปี 2018 แม้ประสิทธิภาพจะค่อนข้างดีจนกูเกิลนำมาใช้ในบริการค้นหาแล้ว แต่ปัญหาของ BERT คือมีขนาดใหญ่มาก โมเดลเริ่มต้นมีขนาด 108 ล้านพารามิเตอร์และขนาด xlarge นั้นขึ้นไปถึง 1,270 ล้านพารามิเตอร์ ปีนี้ทีมวิจัยกูเกิลเสนอโมเดล ALBERT ที่เป็นโมเดลขนาดเล็กลง แต่ยังคงประสิทธิภาพที่ใกล้เคียงกัน โดยเฉพาะ ALBERT ในขนาดใหญ่สุด 235 ล้านพารามิเตอร์นั้นประสิทธิภาพดีกว่า BERT ในทุกการทดสอบ
KBTG หรือ KASIKORN Business-Technology Group ประกาศความร่วมมือกับ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC ในสังกัด สวทช.) และจุฬาลงกรณ์มหาวิทยาลัยเปิดตัวโครงการ Thai NLP ร่วมพัฒนาเทคโนโลยีประมวลผลภาษาธรรมชาติของภาษาไทย โดยเปิดเป็น Open API และตั้งเป้าสร้างและพัฒนาระบบนิเวศน์ ไปจนถึงชุมชนของ NLP ภาษาไทยขึ้นมาเอง โดยมีคุณขัตติยา อินทรวิชัย กรรมการผู้จัดการ ธนาคารกสิกรไทยมาเป็นประธานในการเปิดตัว NLP
ไมโครซอฟท์ทยอยเพิ่มฟีเจอร์ด้าน AI ให้กับแอพในกลุ่ม Office อยู่เรื่อยๆ รอบนี้เป็นคิวของ Excel ที่ได้ฟีเจอร์สำคัญคือรองรับการค้นหาด้วยภาษาธรรมชาติ (natural language query) เพื่อเราสามารถดูสรุปข้อมูลในตาราง โดยไม่ต้องใส่สูตร!
ตัวอย่างการใช้งานเช่น เรามีข้อมูลยอดขายสินค้าประเภทต่างๆ อยู่ในตารางอยู่แล้ว เราสามารถพิมพ์ what were the sales for clothing products? ในช่องค้นหา จากนั้น Excel จะสรุปยอดขายของสินค้าหมวดเสื้อผ้าออกมาเป็นชาร์ทให้ทันที
ไมโครซอฟท์ระบุว่าฟีเจอร์นี้จะตอบคำถามของผู้ใช้ออกมาเป็นสูตร, ชาร์ท หรือตาราง pivot table ตอนนี้ยังรองรับเฉพาะภาษาอังกฤษเท่านั้น ใช้ได้กับทั้ง Excel บนวินโดวส์ แมค และเว็บ โดยยังเปิดทดสอบเฉพาะกลุ่ม Office Insiders
กูเกิลประกาศเริ่มใช้งานโมเดลประมวลภาษาธรรมชาติ (natural language processing - NLP) แบบ deep learning ที่บริษัทโอเพนซอร์สออกมาเมื่อปีที่แล้วที่ชื่อว่า BERT ในการทำความเข้าใจคำค้นใน Google Search เพื่อให้เข้าใจความหมายของวลีที่ผู้ใช้กำลังค้นหาได้ดีขึ้น
ก่อนหน้านี้ผู้ใช้มักพยายามเพิ่มคำสำคัญที่ถูกต้อง เพราะเว็บค้นหามักใช้คำเหล่านี้ค้นฐานข้อมูล โดยไม่ได้ใช้คำขยายหรือคำบุพบทมาเป็นส่วนสำคัญ แต่การประมวลผลแบบ NLP ทำให้กูเกิลเข้าใจคำค้นได้ตรงความต้องการแม้จะค้นเหมือนพูดคุยกับคนอยู่ก็ตาม
Facebook AI Research ประกาศโอเพ่นซอร์ส PyText เฟรมเวิร์คการประมวลผลภาษาธรรมชาติหรือ NLP ให้นักพัฒนาและผู้ที่สนใจทั่วไปนำไปใช้งานได้แล้ว
PyText นั้นเป็นเครื่องมือการทำโมเดล NLP ที่ใช้ deep learning โดยตัวเฟรมเวิร์คนั้นถูกพัฒนาขึ้นมาจาก PyTorch ซึ่งปัจจุบัน Facebook ใช้ PyText กับหน้าจออัจฉริยะ Portal และระบบผู้ช่วยส่วนตัวบน Messenger ที่ชื่อว่า M โดยเฟรมเวิร์คนี้พัฒนาขึ้นเพื่อตอบโจทย์ของ Facebook ที่ต้องการเครื่องมือ NLP แบบเรียลไทม์ และมี latency ต่ำ รวมถึงทำงานได้แบบไร้รอยต่อกับเวิร์คโฟลวในการวิจัยและโปรดักชั่น
กูเกิลประกาศเพิ่มคุณสมบัติใหม่ให้กับ Google Assistant โดยผู้ใช้งานสามารถตั้งค่าภาษาที่รองรับได้เพิ่มเป็น 2 ภาษา ผ่านแอป Google Home ทำให้อุปกรณ์ Google Home สามารถรับฟังคำสั่งและโต้ตอบได้ถึง 2 ภาษา จากเดิมที่ต้องเลือกภาษาเดียว
ฟีเจอร์นี้กูเกิลเคยพูดถึงในงาน Google I/O ที่ผ่านมาว่าอยู่ในขั้นตอนการพัฒนา ทั้งนี้ภาษาที่รองรับการจับคู่ 2 ภาษา ยังมีจำกัดอยู่ ได้แก่ อังกฤษ, เยอรมัน, สเปน, อิตาลี และญี่ปุ่น นอกจากนี้ในอนาคตกูเกิลบอกว่าจะเพิ่มการรองรับให้เป็น 3 ภาษา
ในการทดลองนี้ได้ใช้ neural networks แบบ LSTM มาเรียนรู้แบบจำลองภาษาระดับอักขระจากวรรณคดีเรื่องพระอภัยมณีที่มีประมาณสองล้านตัวอักษร โดยเมื่อเรียนรู้แล้วแบบจำลองภาษาให้ค่า bit per character ในชุดข้อมูลทดสอบเท่ากับ 2.0631
เมื่อให้แบบจำลองนี้ทำการผลิตลำดับของตัวอักษรตามความน่าจะเป็นที่ได้จากการเรียนรู้มา พบว่าผลลัพธ์ที่ได้มีความละม้ายคล้ายคลึงกับบทกลอนที่อยู่ในวรรณคดีเรื่องพระอภัยมณีอยู่พอสมควร ในด้านฉันทลักษณ์มีการจัดวรรคตอนได้ถูกต้อง จำนวนพยางค์ในแต่ละวรรคตรงตามข้อกำหนด และมีสัมผัสใน
Google Translate ประกาศอัพเดต โดยเพิ่มการแปลภาษาแบบออฟไลน์สำหรับแอปมือถือด้วย Neural Machine Translation ใน 59 ภาษา ที่ทำให้การแปลระดับประโยคถูกต้องมากขึ้น (จากที่แปลเป็นคำ) ซึ่งปัจจุบันวิธีการนี้มีใช้แล้วอยู่ในแบบออนไลน์ แต่ในระดับออฟไลน์ยังไม่มี
AWS เปิดตัว API ด้านภาษาชุดใหม่ทำให้ความสามารถด้านภาษาเริ่มมีฟีเจอร์เทียบเท่ากูเกิลมากขึ้น โดย API ที่เพิ่มมาได้แก่
Google เพิ่มฟีเจอร์ใหม่ด้านความเข้าใจภาษาธรรมชาติให้กับ Google Cloud Search ซึ่งเป็นบริการเสิร์ชเอนจินสำหรับบริษัทเพื่อช่วยในการค้นหาไฟล์หรือรายละเอียดต่าง ๆ ตามที่ต้องการ
การเพิ่มฟีเจอร์ภาษาธรรมชาติบน Google Cloud Search นี้จะช่วยให้ผู้ใช้สามารถถามรายละเอียดอย่างเช่น "Docs shared by Mary," "Who’s Bob’s manager?" หรือ "What docs need my attention?" จากนั้น Cloud Search จะแสดงคำตอบเป็นการ์ดให้
Cloud Search นั้นแต่เดิมคือบริการค้นหาใน G Suite ที่ชื่อว่า Springboard และเพิ่งเปลี่ยนชื่อเมื่อต้นปีที่ผ่านมา ซึ่งผู้สมัครสมาชิก G Suite Business หรือ Enterprise สามารถใช้งานฟีเจอร์ใหม่ของ Cloud Search ได้เลย
Facebook เปิดตัว Messenger Platform เวอร์ชัน 2.0 ในงาน f8 เมื่อเดือนเมษายน เพื่อเปิดให้องค์กรภายนอกเข้ามาเชื่อมต่อระบบกับ Messenger ผ่านแชทบ็อตได้
ล่าสุด Facebook ออก Messenger Platform เวอร์ชัน 2.1 ที่มีความสามารถมากขึ้นดังนี้
Google Analytics ประกาศเพิ่มคุณสมบัติใหม่ ซึ่งเป็นหนึ่งในชุดการอัพเกรดที่เรียกว่า Analytics Intelligence โดยมีจุดขายคือผู้ใช้งานสามารถเสิร์ชด้วยคำถามภาษาธรรมชาติ จากนั้น Google Analytics จะแสดงตารางหรือกราฟข้อมูลที่เป็นคำตอบออกมาให้
ตัวอย่างคำถามเช่น "Trend of new users this month?", "Share of sessions by browser?", "What is our conversion rate in Spain?" (ดูรูปแบบคำถามทั้งหมดที่นี่)
กูเกิลบอกว่าคุณสมบัตินี้เป็นสิ่งที่ผู้ใช้ Google Analytics ต้องการอย่างมาก เนื่องจากหลายครั้งพวกเขาต้องการคำตอบแบบทันท่วงที แต่การหาคำตอบไม่สามารถทำได้รวดเร็วพอ
Google Translate ปรับปรุงฟีเจอร์การแปลเพิ่มเติม ใช้ deep learning เพิ่มความถูกต้องแม่นยำเวลาแปลทั้งประโยค แทนที่จะแปลแค่วลีมาประกอบกัน ก่อนหน้านี้อัพเดทเฉพาะ 8 ภาษาก่อนคือ อังกฤษ ฝรั่งเศส เยอรมัน สเปน โปรตุเกส จีน ญี่ปุ่น เกาหลี และตุรกี ล่าสุดเพิ่มมาอีกสามภาษาคือ ฮินดี รัสเซีย และเวียดนาม
ช่วงเดือนพฤศจิกายนปีที่แล้ว Google เปลี่ยนเอนจินการแปลใหม่ ขยายผลเทคนิค Neural Machine Translation ไปยังภาษาอื่นๆ ผลคือสามารถแปลทั้งประโยคได้ถูกต้อง และทำความเข้าใจได้มากขึ้นเมื่ออ่านรวมกันทั้งประโยค
ทาง Google ระบุว่าจะมีอัพเดทภาษาอื่นเพิ่มเติมภายใน 2-3 สัปดาห์นี้
Google Drive นำระบบประมวลผลภาษาธรรมชาติ Natural Language Processing (NLP) มาช่วยให้การค้นหาเอกสารใน Drive แม่นยำขึ้น เราสามารถพิมพ์คำสั่งว่า “find my budget spreadsheet from last December” หรือ “show me presentations from Anissa” เพื่อเข้าถึงเอกสารได้เลย
นอกจากนี้ ระบบค้นหาของ Google Drive ยังเพิ่มตัวช่วยสะกดคำ (แบบเดียวกับ Google Search) เวลาเราพิมพ์แล้วสะกดผิด ระบบก็จะถามย้ำว่าเราหมายถึงคำไหนกันแน่
ส่วนของ Google Docs ตัวแก้ไขเอกสาร ยังเพิ่มฟีเจอร์เล็กๆ อีกอย่างคือเมนู Format > Columns สำหรับสร้างเอกสารแบบหลายคอลัมน์ได้ง่ายๆ
ที่มา - Google for Work Blog
เมื่อเดือนพฤษภาคมที่ผ่านมากูเกิลเปิดซอร์สระบบประสาทเทียม SyntaxNet สำหรับการอ่านรูปประโยคของคนทั่วไป สร้างขึ้นบน TensorFlow ตอนนี้กูเกิลก็เปิดซอร์สโมเดลภาษาที่ฝึกไว้พร้อมใช้งานแล้วอีก 40 ภาษาในชื่อโครงการ Parsey’s Cousins
บริการ Google Cloud Platform เปิดบริการใหม่เพิ่มเติมอีกสองบริการ คือการวิเคราะห์ข้อความ และการแปลงเสียงเป็นข้อความ พร้อมกับเปิดศูนย์ข้อฝั่งตะวันตกของสหรัฐฯ ให้ผู้ใช้ทั่วไปบริการเมืองทางฝั่งตะวันตก เช่น ซานฟรานซิสโก
Google Cloud Natural Language API: วิเคราะห์ข้อความจากสามภาษา ได้แก่ อังกฤษ, สเปน, และญี่ปุ่น สามารถค้นหาคำสำคัญของประโยค เช่น ชื่อคน, สถานที่ วิเคราะห์อารมณ์ของประโยคว่าดีหรือร้าย และวิเคราะห์โครงสร้างประโยค ราคา 0.2-1.0 ดอลลาร์ต่อข้อความ 1,000 ตัวอักษร ยกเว้น 5,000 ตัวอักษรแรกฟรี