Pantip.com เปิดตัวฟีเจอร์ใหม่ Auto Tag ระบบจัดแท็กให้กระทู้อัตโนมัติ โดยใช้เทคนิควิเคราะห์คำในกระทู้ตั้งแต่ตอนโพสต์ ระบบจะอ่านข้อความแล้วคัดเลือกแท็กที่น่าจะเกี่ยวข้องมานำเสนอให้ 15 แท็ก (Pantip ใส่ได้ 5 แท็ก) เป้าหมายเพื่อช่วยให้เจ้าของกระทู้เลือกแท็กอย่างแม่นยำขึ้น และลดภาระการดูแลกระทู้ของทีมงานลง
ระบบนี้เป็นความร่วมมือของ Pantip.com, บริษัท อินโนเวทีฟ เอ็กซ์ตรีมิสต์ (INOX) ผู้ดูแลระบบโครงสร้างพื้นฐานไอทีให้ Pantip และภาควิชาวิศกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
คุณอภิศิลป์ ตรุงกานนท์ ซีทีโอของ Pantip (หรือที่รู้จักกันในชื่อ @macroart) เล่าว่าตอนนี้ Pantip มีคนเข้าเว็บวันละ 4.2 ล้านคน คิดเป็น 16 ล้านเพจวิว มีกระทู้ใหม่วันละ 5,000 กระทู้ ซึ่งเติบโตขึ้นเรื่อยๆ
ห้องยอดนิยมของ Pantip ในปี 2015 คือห้องก้นครัว แต่ตอนนี้ห้องบางขุนพรหม (ข่าวดารา-บันเทิง) ที่เพิ่งเปิดเมื่อกลางปีที่แล้ว แซงหน้ากลายเป็นห้องยอดนิยมอันดับหนึ่งไปแล้ว
แท็กยอดนิยมคือแท็ก "ความรัก" ตามด้วย "ชีวิตวัยรุ่น" และ "หุ้น"
ที่ผ่านมา Pantip ให้เจ้าของกระทู้เป็นฝ่ายเลือกแท็กให้กระทู้เอง ปัญหาที่พบคือ 1) ใส่แท็กไม่เป็น 2) สแปมแท็ก อยากให้คนเห็นเยอะๆ เลยตั้งแท็กหว่านๆ
ทางแก้ของ Pantip คือต้องมีทีมงานตรวจสอบกระทู้อย่างละเอียด และแก้ไขแท็กให้ถูกต้อง ปัจจุบันมีกระทู้ใหม่วันละ 5,000 กระทู้ ถือเป็นงานหนัก ต้องใช้ทีมเว็บมาสเตอร์หลายสิบคนช่วยกันมอนิเตอร์ เปลืองแรงมาก
Pantip จึงปรึกษากับ INOX ในฐานะพาร์ทเนอร์ทางเทคโนโลยี ที่คอยดูแลระบบให้อยู่แล้ว ว่าถ้ามีปัญหาแบบนี้ทำอะไรได้บ้าง ทางออกก็ชัดเจนว่าต้องมีระบบเข้ามาช่วยแยกแยะข้อความในกระทู้ เพื่อนำเสนอแท็กให้ผู้ใช้งาน
การทำระบบนี้ได้ประโยชน์ 2 ต่อ คือ ผู้ใช้เลือกแท็กได้แม่นยำขึ้น โดยไม่ต้องทำอะไรเพิ่ม และช่วยลดภาระของทีมแอดมินลง
ผู้เชี่ยวชาญที่เข้ามาช่วยคือห้องวิจัย MIKE (Massive Information & Knowledge Engineering) ของภาควิชาวิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ ที่มีความชำนาญเรื่องการจัดการข้อมูลขนาดใหญ่อยู่แล้ว
รศ.ดร.อานนท์ รุ่งสว่าง จากห้องวิจัย MIKE อธิบายว่าใช้เทคนิค Big Data และ Machine Learning สร้างระบบนี้ขึ้น กระบวนการของ Machine Learning คือ Pantip มีข้อมูลกระทู้เก่าที่คัดแยกแท็กโดยทีมงานอยู่แล้ว ข้อมูลพวกนี้ใช้เป็น Training Data เพื่อหาโมเดลการแยกแยะข้อมูลได้
รายละเอียดในเชิงเทคนิคคือสร้าง "เวกเตอร์" ของกลุ่มแท็กประเภทต่างๆ ขึ้นมาจากข้อมูลเก่าและโมเดลที่เทรนไว้
เมื่อมีกระทู้ใหม่ถูกส่งเข้ามาในระบบ มันจะถูกมองว่าเป็นเวกเตอร์ใหม่หนึ่งตัว ระบบจะพิจารณา "ทิศทาง" ของเวกเตอร์นั้นจากเนื้อหาของกระทู้ (ด้วย natural language processing) จากนั้นนำเวกเตอร์กระทู้ไปเทียบกับเวกเตอร์ตัวอื่นๆ ที่เคยประมวลผลไว้แล้ว ว่ามีความคล้ายคลึงกันแค่ไหน แล้วจึงคัดเลือกแท็กในกลุ่มเดียวกันให้
ในงานแถลงข่าวมีเดโม โดยใช้เนื้อหากระทู้จากข่าวไฟไหม้ธนาคาร SCB เมื่อคืนนี้ ผลคือระบบแยกแยะคำว่า "อุบัติเหตุ" ได้ แต่กลับไม่แนะนำแท็ก "SCB" ให้ตอนตั้งกระทู้ ซึ่งอธิบายได้ว่าเป็นผลมาจากกลุ่ม "SCB" มักใช้กับแท็ก "การเงิน" หรือ "หุ้น" มากกว่า พอมีเนื้อหาที่ไม่เชื่อมโยงกันนัก ทำให้ระบบยังไม่สามารถจัดกลุ่ม "SCB" กับ "อุบัติเหตุ" เข้าด้วยกันได้
แต่เนื่องจากระบบ Auto Tag ใช้เทคนิค Machine Learning ดังนั้นเมื่อมีเนื้อหาลักษณะนี้มากขึ้น ระบบก็จะเรียนรู้ได้เองว่ามีข่าวแบบนี้ด้วย และจะพัฒนาตัวเองให้นำเสนอแท็กที่แม่นยำขึ้นในภายหลัง
รายละเอียดในแง่การใช้งาน อ่านได้จาก เปิดตัวฟีเจอร์ใหม่ : Auto Tag
Comments
"พอดีเข้าห้องนี้บ่อยเลยขอ tag ห้องนี้นะครับ/คะ" เจอตรรกะแบบนี้เข้าผมก็ปวดหัวแทน mod เหมือนกัน
อ่านกระทู้ในพันทิปทีไร ต้องกลอกตามองบนทุกที
หมอประจำห้อง สุขภาพจิต ไปไหนไม่รู้ T^T
ข้าขอทรยศต่อคนทั้งโลก ดีกว่าให้ใครมาทรยศข้า
วิศกรรม => วิศวกรรม
ชอบเข้าหว้ากอบ่อยพอๆ กับเข้าบล็อกนัน แต่โดนยึดอมยิ้มไปละ ไปอธิบายสาเหตุที่เฟสบุ๊กไม่ขึ้นรูปโปรไฟล์ลายธงชาติไทยกรณีระเบิดราชประสงค์เหมือนเหตุระเบิดที่ฝรั่งเศส ตอนนั้นคนเข้าใจผิดกันเยอะว่าเฟสบุ๊คเคารพกฎหมายเกี่ยวกับธงชาติของไทย ซึ่งความจริงมันไม่ใช่ แต่คงแทงใจดำพวกคลั่งชาติเยอะไปหน่อย
เห็นสถิติจำนวนกระทู้และความคิดเห็นแล้วเหนื่อยเลย ตอนแรกคิดว่าน่าจะเยอะแล้ว นี่สถิติบอกเยอะกว่าไปมากเลย หวังว่าระบบนี้จะช่วยแบ่งเบาทีมงานได้ล่ะนะ แล้วเอาเวลาไปจัดการปัญหาอื่นให้ดีขึ้น
ป.ล. กังวลว่าระบบจะเพิ่มแท็ก "ราชดำเนิน" เองจังฮะ หลายกระทู้ทางเจ้าของกระทู้ก็ไม่ได้เลือกแท็กนี้ แต่หลายความคิดดันโยงไปการเมืองได้ยังไงไม่รู้ กลัวระบบจะเรียนรู้ในส่วนไม่ดีนี้
ถ้าเลือกแท็กมาจากกระทู้เก่าๆได้ ถ้าเป็นกระทู้คำถามน่าจะแสดงกระทู้เก่าๆขึ้นมาก่อนตั้งกระทู้ใหม่ก็ดี กระทู้จะได้ไม่ซ้ำ(แถมลดภาระการจัดเก็บ) อย่างพวกถามนี่ตัวอะไร ถ้าผู้ชายทำอย่างนี้หมายความว่ายังไงคะ เขารักเรารึเปล่าโน่นนี่ คำตอบไม่เก่าเกินไป หรือเก่าก็แสดงๆไปก็ไม่เสียหายไร
คนที่ดูแล server pantip เก๋า นะเนี่ยะ
รับโหลดได้เยอะขนาดนี้ เมพมาก
ขำตรง tag พจน์ อานนท์
หลังๆ ไม่ได้เข้าเลย กระทู้ไม่ค่อยน่าสนใจ แต่ยังจำเลขสมาชิกตัวเองได้ (85000) คนที่เลขสมาชิกหลักพันนี่รุ่นลายครามเลย มาพร้อมยุคก่อตั้งเว็บ
ต่อไประบบคงเรียนรู้และสร้างแท็กดราม่าขึ้นมาเป็นแท็กยอดนิยมแซงแท็กอื่นๆ แบบไม่เห็นฝุ่นเลยก็ได้
พจน์ อานนท์ ?
เมือไรจะดูกระทู้แนะนำเก่าๆแบบไม่ต้องไปหาเอง เวลากระทู้ตกหน้าแนะนำไปหาลำบากมาก
ตอบเอาไว้สิครับ จะได้ไปอยู่ในประวัติของเรา หรือทำ bookmark ไว้ก็ได้ถ้าเล่นผ่าน web
ผมไม่ได้ตามทุกกระทู้นะครับ กระทู้เก่าๆจะไปขุดจากไหน
ทำไมต้อง พจน์ อานนท์
เดาเอานะสำหรับคนที่สงสัยว่าทำไม พจน์ อานนท์ คิดว่าเขาใช้ Solr เพื่อแตกคำ ถ้าไปสังเกตุจะเห็นว่าอาจารย์ คือ ดร.อานนท์ ระบบคงอ่านจากเนื้อหา แล้วหาจากคำที่เคยบันทึกในระบบ คงมีการ Group เอาไว้ว่าคำใดมีการค้นหาบ่อย แล้วทำเป็น Auto Tag เก็บไว้ อาจารย์อาจไม่เคยเล่นพันธ์ทิปมันเลยไม่เจอ แต่บังเอิญ พจน์ อานนท์ แบบว่า Pop ในพันทิป เวลาระบบมัน Match มันก็เลยนึกว่าเป็นคนเดียวกัน