ที่ผ่านมา หลายบริษัทได้ขยับตัวไปเล่นในตลาดเทคโนโลยีทางด้านเสียงมากขึ้น อย่างการนำไปประยุกต์เป็น voice input/output ในสมาร์ทโฟน หรือการประยุกต์ใช้กับอุปกรณ์ไฟฟ้าภายในบ้าน ด้วยความที่ผมสนใจในเรื่องพวกนี้อยู่พอสมควร แล้วก็มีโอกาสได้เห็นการสาธิตโปรแกรม VAJA ของ สวทช. ในงาน Microsoft Innovation Days จึงได้นัดสัมภาษณ์ ดร. ชัย วุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศแห่ง NECTEC บุคคลหนึ่งที่เป็นผู้อยู่เบื้องหลังของโปรแกรมนี้เกี่ยวกับแนวคิดและความเป็นมาในการวิจัยและพัฒนาโปรแกรม
เท้าความก่อนว่าโปรแกรม text-to-speech คือโปรแกรมแปลงข้อความให้กลายเป็นเสียง ตัวอย่างเช่น ฟังก์ชันอ่านข้อความของ Google Translate, Vocalizer ของ Nuance, SVOX ของ SVOX Mobile Voices เป็นต้น ส่วนโปรแกรม VAJA คือโปรแกรม text-to-speech ที่พัฒนาโดย NECTEC และมีให้ดาวน์โหลดเอาไปใช้งานใน Google Play ปัจจุบันคือเวอร์ชัน 7
Blognone: รบกวนแนะนำตัวเองหน่อยครับ
สวัสดีครับ ผม ดร.ชัย วุฒิวิวัฒน์ชัย ครับ จบปริญญาโทจากจุฬาฯ ทางด้าน Digital Signal Processing มีความสนใจในเรื่อง speech processing มีอยู่ช่วงนึงผมเรียนวิชา Pattern Recognition ซึ่งเป็นวิชาประมาณว่าจำลายมือ จำหน้าคน จำเสียง ผมรู้สึกตื่นเต้นมากเลยว่า เฮ้ย! คอมพิวเตอร์มันฉลาดได้ขนาดนี้ ก็เลยไปปรึกษาอาจารย์ที่เป็น supervisor อาจารย์ท่านก็แนะนำให้ทำโปรเจคทางด้านการจำเสียง ทำไปทำมาก็รู้สึกชอบ ก็เลยไปต่อเอกที่ Tokyo Institute of Technology กับ Prof.Dr. Sadaoki Furui ซึ่งเค้าทำทางด้านนี้โดยตรง
พอเรียนจบกลับมาก็ยังคงมีความใฝ่ฝันเหมือนเดิม ก็คือว่า speech technology ของไทยมันเพิ่งจะเกิดก็อยากจะมาสร้างสรรค์ต่อ ก็มีแต่ NECTEC แหละครับที่ให้ความสนใจ เลยมาทำงานที่นี่ ตั้งแต่เป็นนักวิจัยทางด้าน speech processing มาเป็นหัวหน้างานทางด้านทีม speech แล้วก็มาเป็นหัวหน้าแล็บทางด้าน language technology และตอนนี้เมื่อประมาณปีที่ผ่านมาผมก็ขึ้นมาดูแลเรื่องของ information technology ใน NECTEC เราเป็นฮาร์ดคอร์ในงานวิจัยทางด้าน information technology มีอยู่ 70 กว่าคน ทำ speech processing, image processing, text processing แล้วก็มาทำพวก digital media
Blognone: อยากให้ ดร. แนะนำโครงการ VAJA หน่อยครับ
โครงการ VAJA เริ่มวิจัยครั้งแรกตอนปี 1997 ออกเวอร์ชัน 1 ตอนปี 1999 ทีมที่ทำ VAJA เริ่มต้นจากนักวิจัยเพียงคนเดียว คือ ดร.ประดิษฐ์ มิตราปิยานุรักษ์ พอเวอร์ชัน 2 มีนักวิจัยเพิ่มขึ้นและก็เป็นเวอร์ชันแรกที่สังคมเริ่มเห็น เพราะว่าเราออกไปทดลองใช้งานกับวิทยาลัยราชสุดาภายใต้คำแนะนำของ ศ.ดร.ไพรัช ธัชยพงษ์ (ผู้ก่อตั้ง NECTEC) ท่านอยากจะให้เริ่มทำโครงการ VAJA ก็เพราะว่าอยากจะให้คนพิการได้มีทางเลือก
ช่วงที่ออกเป็นเวอร์ชัน 3 มีการเปลี่ยนแปลงค่อนข้างเยอะ เสียง smooth ขึ้น แต่ก็ยังเป็นหุ่นยนต์แข็งๆ อยู่ คนพิการรู้สึกดีใจว่าเออได้เริ่มใช้ แต่ว่าเทคโนโลยี portable device สมัยนั้นผมว่ายังไม่สามารถรันโปรแกรมเหล่านี้ได้ เรายังใช้พีซีกันอยู่ โน้ตบุ๊คยังไม่ค่อยมี แต่อาจารย์ไพรัชท่านบอกว่า ต้องทำให้ได้เป็น portable เลยนะ ไม่งั้นคนเค้าจะเอาไปใช้กันยังไง โอ้โห! สมัยนั้นจะเอา portable device ที่่รัน text-to-speech นี่นะ ผมคิดไม่ออกเลยจริงๆ แล้วเราก็ไม่ใช่ประเทศที่เป็น manufacturing เราไม่ได้สร้าง device เองได้ เราก็ต้องมานั่งรอ โซนี่เมื่อไหร่จะออก โตชิบ้าเมื่อไหร่จะมีโมเดลใหม่
พอช่วงหลังๆ ซอฟต์แวร์ก็ค่อยๆ เล็กลง ใช้ทรัพยากรน้อยลง ตัวฮาร์ดแวร์ค่อยๆ ดีขึ้น จนกระทั่งมีสมาร์ทโฟนเข้ามาตีตลาดตอนปี 2010 ผมจำได้ว่าตอนนั้นออกเวอร์ชัน 6 ก็พัฒนาซอฟต์แวร์ให้มีขนาดเล็ก แล้วก็เสียงที่ออกมา smooth ราบเรียบขึ้น ผมเรียกว่าดีมากๆ เลย ตอนนั้นเอาไปออกงานก็ปรากฏว่ามีคนติดต่อนำไปใช้จริงครับ ASTV ใช้ ไทยรัฐใช้ โรงพยาบาลใช้ในการเรียกคิวคนไข้ บริษัทหลายๆ แห่งใช้ใน call center แต่สุดท้ายก็ยังรันบน portable device ไม่ได้นะ เพิ่งจะพัฒนาให้มาลงใน Android ได้ตอนปี 2012 ซึ่งตอนนั้นผมก็ถือว่าบรรลุเป้าหมายในเชิงวิจัยแล้ว
แล้ววิธีขายเป็นยังไง ตอนนี้ก็ขึ้น Google Play มีภาคเอกชนที่มารับ license ไปดูแลในเรื่องของการทำ service ดูแลในเรื่องของการจัดการ payment ราคาก็ไม่แพงมากเมื่อเทียบกับของต่างชาติ สามารถให้มันอ่านข้อความที่มีภาษาไทยและอังกฤษปนกันได้ แล้วเท่าที่ผมรู้ในตอนนี้ก็น่าจะเป็นเจ้าเดียวในไทยที่ยังมีการพัฒนาอย่างต่อเนื่องมาเป็นเวลายาวนาน
Blognone: บทบาทที่สำคัญของทีมวิจัยของ ดร. ที่ผ่านมาคืออะไร
ผมคิดว่าเราเป็นซอฟต์แวร์ทางเลือกให้กับลูกค้า คือผมก็ไม่ได้คิดว่าเราจะเป็นผู้นำในตลาดนะ เป็นผู้นำก็ดี แต่ว่าการเป็นซอฟต์แวร์ทางเลือกก็ไม่ได้หมายความว่าเราไปต่อสู้กับเอกชนนะครับ ถ้าเอกชนไทยทำได้ก็ดีครับเราสนับสนุน แต่ถ้าเค้าไปใช้ของเอกชนต่างชาติแล้วถูกบีบด้วยราคา มันก็ควรจะมีภาครัฐที่เข้ามาช่วยเหลือเรื่องนี้
ตัวอย่างหนึ่งที่ผมเห็นได้ชัดก็คือ ความสำเร็จของ VAJA ผมเชื่อว่าทำให้หลายๆ หน่วยงานที่จะหันไปใช้ text-to-speech เค้ามีทางเลือก ในเมื่อมีทางเลือก มีคู่แข่งในตลาดมากๆ มันสามารถทำให้ราคาลดลงให้เหมาะสมกับประเทศไทยได้ แล้วตลาดใหญ่ๆ เช่น ผู้พิการ มีความจำเป็นมากในการใช้ text-to-speech เพราะไม่กี่ปีที่ผ่านมาเค้าก็ยังใช้ text-to-speech ที่เป็นภาษาอังกฤษล้วนๆ อยู่
ผมพยายามสังเกตนะว่าเทคโนโลยีที่ต่างชาติทำอยู่แล้ว เวลามีหน่วยงานในประเทศไทยต้องการใช้ เค้าเอามาใช้ไม่ค่อยได้เพราะว่ามันจะติดอยู่บนเทคโนโลยีของเค้าเท่านั้น อย่างถ้าเกิดว่าเค้าทำอยู่แล้วบน iOS 8 แล้วเราใช้ iPhone เราก็สามารถใช้มันได้ ผมถามว่าวันใดวันหนึ่ง ผมจะเอามาใช้ในการถอดความในการประชุมรัฐสภา เราต้องทำยังไง เราต้องซื้อ iPhone แจกทุกท่านหรือเปล่า ถ้าจะมาปรับใช้กับงานเฉพาะด้าน เค้าจะทำหรือไม่ อันนี้คือสิ่งที่ประเทศไทยเองหรือแม้แต่ประเทศใดๆ ก็แล้วแต่ที่มีภาษาของตัวเองควรจะต้องตระหนักไว้นะ เพราะเราจะรอให้เทคโนโลยีเกิดขึ้นจากคนต่างชาติเป็นคนกำหนดหรือเปล่า ผมก็มีความคิดเรื่องแบบนี้เยอะ
Blognone: ภาษาไทยมีความยากง่ายต่างจากภาษาอังกฤษอย่างไรในแง่ของการพัฒนา
เอาแบบง่ายๆ คืออย่างนี้ text-to-speech จะแบ่งออกเป็น 3 ส่วน คือ
ส่วนวิเคราะห์ข้อความนั่นก็หมายความว่ามีข้อความเข้ามาก็ต้องตัดคำ ตัดให้ถูกนะ ตากลมต้องตาก-ลมนะ ไม่ใช่ตา-กลมอะไรอย่างนี้ พอตัดคำเสร็จปุ๊บต้องหาหน้าที่ของคำว่าอันนี้เป็นประธาน อันนี้เป็นกริยา อันนี้เป็นอะไร เก็บไว้ก่อน เสร็จแล้วก็เปลี่ยนให้เป็นสัญลักษณ์แทนเสียงเหมือนคาราโอเกะครับ ตรงนี้ก็ต้องอาศัยหน้าที่ของคำในการวิเคราะห์ว่าควรจะอ่านว่าอะไร อย่างสระ (สะ) กับสระ (สะ-หระ) มันก็ขึ้นอยู่กับว่าบริบทข้างๆ เป็นอะไร พอเราวิเคราะห์ตรงนั้นได้แล้ว เอาพวกนี้โยนใส่ส่วนวิเคราะห์ prosody เพื่อที่จะบอกว่า ถ้าอย่างนั้นคุณควรจะให้เสียงดังตรงบริเวณพยางค์นี้นะ เสียงนี้สูงหน่อย ตรงนี้เว้นวรรคด้วย เป็นต้น สุดท้ายเอาตัวทั้งหมดเนี้ยโยนไปให้ตัว generate เสียงให้ทำได้ตามนั้น
เรารู้เลยว่าสองส่วนแรกแตกต่างกันมาก ทุกภาษาจะไม่เหมือนกัน ก็คือว่าถ้าจะวิเคราะห์ข้อความภาษาไทยต้องตัดคำ ภาษาอังกฤษไม่ต้อง ถ้าจะวิเคราะห์ว่าคำนี้อ่านว่าอะไร ภาษาไทยมีความกำกวม ภาษาอังกฤษก็มี แต่ละภาษามีวิธีการแยกแยะความกำกวมที่ต่างกัน ส่วนการตัดประโยค ภาษาไทยก็โหดร้ายมากไม่มีการตัดประโยคอีก คือเราตัดประโยคเพื่อที่จะบอกว่าตรงนี้สามารถหยุดยาวๆ ได้ไม่ต้องมาเกี่ยวกัน เพราะฉะนั้นเวลาเราเลือกช่วงที่หยุดก็ต้องเลือกให้ถูกที่ ถ้าเลือกไม่ถูกที่เวลาพูดก็พูดไม่รู้เรื่อง แต่ส่วนหลังจะเหมือนกันหมดก็คือตัว generate เสียง เพียงแต่บอก parameter ให้ครบมันก็ generate ได้หมด
Blognone: เรื่องที่ยากที่สุดในการพัฒนาแต่ละเวอร์ชันของ VAJA คืออะไร
ผมว่ามุมมองของแต่ละคนต่างกันนะ ถ้ามุมมองของผู้ใช้ผมว่า response time เป็นเรื่องใหญ่มาก text-to-speech กดปุ๊บต้องออก เพราะว่าเค้าใช้บน mobile ไงครับ เค้าไม่รอ เพราะงั้น response time เป็นเรื่องใหญ่ แต่ถ้ามุมมองของนักวิจัย ผมคิดว่าเค้าพยายามที่จะแก้ไขในเรื่องของคุณภาพเสียงที่ยังดูไม่เป็นธรรมชาติ ทุกวันนี้ VAJA ยังมีเพี้ยนอยู่บ้าง โดยเฉพาะโทนเพี้ยน เพราะว่ามันทำนายได้ไม่ดีพอ สาเหตุที่มันทำนายได้ไม่ดีพอก็เพราะว่าตัวอย่างข้อมูลไม่เยอะพอ แล้วตัวอย่างข้อมูลทำไมไม่เยอะ จริงๆ ตัวอย่างเสียงมีให้เห็นอยู่เยอะแยะ แต่ข้อมูลที่จะเอามาใช้ในการสอนให้มันเรียนรู้ต้องผ่าน process เยอะครับ ต้องลงทุนเยอะ แล้วเราก็มีฐานข้อมูลที่ลงทุนพัฒนาไปแล้วก็ใช้อยู่สูงสุดก็ประมาณ 15 ชั่วโมงซึ่งต้องลงทุนเป็นล้าน
Blognone: สมมติว่า VAJA ที่เป็นอุดมคติคือ 100% เทียบกับโปรเจคที่ทำอยู่ ณ ตอนนี้คิดเป็นกี่เปอร์เซ็นต์แล้วครับ
Text-to-speech ที่ดีจะต้องสามารถพูดได้อย่างที่ผมพูด คือดูบริบทว่ากำลังคุยกับใคร อยู่ในเนื้อหาอะไร สภาพแวดล้อมเป็นอะไร ถ้าอยู่ในสถานบันเทิงผมต้องพูดอีกแบบหนึ่ง ถ้าอยู่ในออฟฟิศผมก็พูดอีกแบบนึง ถ้าผมพูดกับน้องผมพูดอีกแบบนึง พูดกับอาจารย์ ผู้บริหาร ผมพูดอีกแบบนึง เนื้อหาที่ผมพูดเป็นเรื่องขำขันหรือเป็นเรื่องซีเรียส ต่างกันหมดเลย VAJA สุดท้ายต้องทำได้อย่างนั้นนะ ถ้าผมถามว่าแล้วถ้าอย่างนั้นตอนนี้มันได้ซักเท่าไหร่ ผมว่ายังไม่ถึง 30% เพราะตอนนี้มันทำได้แต่อ่านข่าวครับ เพราะฉะนั้นยังห่างไกลอีกมาก text-to-speech ของชาวต่างชาติก็ยังห่างไกลเช่นกัน
Blognone: จะมีอะไรใหม่ใน VAJA เวอร์ชัน 8 ครับ
ผมอยากให้ VAJA สามารถสร้างเสียงคนได้ด้วยราคาที่ถูก มีแพลตฟอร์มพร้อมสำหรับการสร้างเสียงใหม่ในเวลาอันสั้น แต่ก็ไม่แน่ใจว่าจะเสร็จเมื่อไหร่นะ เพราะงานวิจัยบางทีต้องลุ้นเหมือนกันว่าจะทำได้สำเร็จหรือไม่ ผมยอมรับว่าผมทำวิจัยเรื่องของการที่จะเพิ่มเสียงมา 2-3 ปีแล้วแต่ไม่สำเร็จ
Blognone: ถ้าเกิดว่าน้องๆ ที่มาอ่านอยากจะเติบโตขึ้นมาเป็นนักวิจัย ดร. จะแนะนำน้องเค้าอย่างไรครับ
คือผมว่าเราต้องมี passion แรงๆ สิ่งเหล่านี้มันเกิดขึ้นได้ด้วยน้ำมือเรา ถ้าเราคิดได้แบบนี้ที่เหลือก็คือเราหาแนวร่วม หางบประมาณ ทำกันเป็นทีมให้มีความเข้มแข็งในเทคโนโลยีเหล่านั้น
ผมบอกนักวิจัยใหม่ๆ ที่อยากจะเติบโตในสายนี้อีกทางหนึ่งก็คือ คุณไปทำงานกับบริษัทเอกชนต่างชาติเลยสิ เพราะถ้าในไทยเองยังไม่มีบริษัทที่ทำวิจัยแบบนี้ คุณก็ไม่มีทางเลือกต้องไปทำกับบริษัทต่างชาติ เปิดกันเยอะแยะเลยนะ เพราะว่าพอกูเกิลทำได้ แอปเปิลก็ต้องทำเค้าก็จ้างคนไทยไป มันมีอีกหลายบริษัทที่เค้ามีความจำเป็นต้องใช้เทคโนโลยีเหล่านี้ และเค้าจำเป็นต้องพัฒนาเอง จะไปคอยซื้อจากบริษัทอื่นไม่ได้ นี่เป็นทางที่ทำให้นักวิจัยหรือนักพัฒนากลุ่มนี้มี career path ในฐานะรัฐบาลหรือของ NECTEC ผมว่าต้องสร้าง infrastructure สร้าง career path ผมมีความหวังนะว่า SME หรือแม้แต่บริษัทยักษ์ใหญ่ในประเทศไทยจะทำวิจัยมากขึ้นเพื่อที่จะเป็น career path ให้กับน้องๆ ซึ่งตอนนี้ผมคิดว่าหลายๆ บริษัทเริ่มตื่นตัวในเรื่องของการสร้าง R&D ของตัวเองบ้างแล้ว
สิ่งที่น้องๆ ควรจะต้องสร้างสมตัวเองไว้ก็คือว่าก็ต้องกล้าทำอะไรที่มันยากๆ อย่าไปทำอะไรที่มันง่ายๆ นะ เช่น ใครๆ ก็เขียนเว็บลิงก์ database ได้ก็อย่าทำเลยครับ อยากเป็นนักวิจัยแบบนี้ต้องมีอาการแบบผมนี่ คือผมทำเพื่อที่วันสุดท้ายจะได้เอ็นโดรฟินหลั่ง คือมันมีความสุขมากเลยเราสามารถทำอันนี้ได้สำเร็จในสิ่งที่ยากๆ เราต้องเรียนรู้ในสิ่งที่ยากๆ เช่น ทุกวันนี้หาคนเขียน C C++ C# ลึกๆ ไม่ได้แล้ว หายากมาก ถ้าเขียน JAVA ก็เอาแบบเบื้องลึกให้สุดโต่ง เขียน Android ก็เอาประเภทที่แบบว่าเครื่องต้องแฮงค์เลย อย่าเขียนแต่แอพง่ายๆ มันไม่พัฒนาตัวเอง ทำแบบนั้นเอาไว้แล้วก็สั่งสมความรู้ตัวเองให้มากๆ รับรองว่ามีทั้งบริษัทข้ามชาติ บริษัทไทยและภาครัฐไทยอยากได้ตัวแน่นอน
ตัวอย่างเปรียบเทียบ voice output ของโปรแกรม VAJA ในแต่ละเวอร์ชันเมื่อให้โปรแกรมอ่านบทความดังต่อไปนี้
ข้อความที่ 1: “จากนี้ บาร์โค้ดหรือแถบรหัสสินค้าที่ติดอยู่บนหีบห่อ กำลังเข้าสู่ยุคแห่งการเปลี่ยนแปลง เพราะเนคเทคอยู่ระหว่างพัฒนาบาร์โค้ดแบบ 2 มิติ รองรับการบันทึกตัวอักษรได้มากกว่าบาร์โค้ดที่ใช้ทั่วไป 200 เท่า”
VAJA เวอร์ชัน 2
VAJA เวอร์ชัน 5
VAJA เวอร์ชัน 6
ข้อความที่ 2: “David Moyes เข้ามารับตำแหน่งกุนซือใหญ่แห่งถิ่น Old Trafford ต่อจาก Sir Alex Ferguson อดีตนายใหญ่โบราณวัตถุเมื่อช่วง summer ที่แล้ว”
VAJA เวอร์ชัน 6
VAJA เวอร์ชัน 7
Comments
ผมยังใช้ V.6 อยู่เลย
ไม่น่าเชื่อว่าผ่านไปไม่นาน ระบบก็พัฒนามาได้ไกลขนาดนี้แล้ว เห็นความแตกต่างอย่างชัดเจนระหว่าง V.6 กับ V.7 เลย
ปล. ตัวอย่างข้างหลังเปลี่ยนเป็นฟาลกัลเถอะครับ นึกถึงมอยส์แล้วมันช้ำใจ T___T
ปล 2. เรียกป๋าว่าโบราณวัตถุ ยอมไม่ได้ อ๊ากกก...
ปล 3. ถ้าเสียง V.8 คมชัดเหมือนหรือดีกว่า V.2 คงจะประเสริฐมาก
บล็อกส่วนตัวที่อัพเดตตามอารมณ์และความขยัน :P
ข้อมูลเสริมข่าวเก่าครับ [ไม่สิ้นหวังแล้ว! เมื่อ NECTEC เปิดให้ทดสอบ Vaja for Android (beta)](https://www.blognone.com/news/30027) #พื้นที่โฆษณา
และถ้าใครอยากเปรียบเทียบการอ่านของ Thai Text To Speech เท่าที่มีตอนนี้ เชิญชมได้จากคลิปนี้ครับ (สคริปต์แอบผิดนิดนึง)
ป.ล. เมื่อไหร่ Vaja for Android จะซื้อผ่าน Wallet ได้สักที จ่ายแบบ in app แบบปัจจุบันนี้ค่อนข้างไม่สะดวกเลยครับ ไหนจะคนที่เปลี่ยนเครื่องบ่อยๆ อีก ถ้าซื้อเครื่องใหม่ ก็ต้องจ่ายตังใหม่ :(
@ Virusfowl
I'm not a dev. not yet a user.
ทำไมเสียงสุดท้ายแนะนำตัวว่าชื่อนาริสาล่ะครับ - -"
บอกแล้วไงครับว่าสคริปต์แอบมีผิดนิดนึง >-<
@ Virusfowl
I'm not a dev. not yet a user.
เอ.. มี PPA Salika ด้วยไหมครับ หรือว่าจะนับรวมไปกับ PPA Tatip เลย เพราะผมว่าเสียงมันก็ดีกว่า Tatip นะ
จะมีใครทำแบบ vocaloid หรือเปล่า
สักวันน่าจะมีครับ แต่พื้นฐานต่างกันค่อนข้างมาก คงต้องพัฒนาแยกกันตั้งแต่ช่วงแรกๆ เลยล่ะครับ
สำหรับ vocaloid ผมเข้าใจว่าใช้วิธีการบันทึกเสียง phenom แต่ละตัว จากนั้นตอนที่ใช้จะนำเอาเสียงไปผ่านชุด pitch shift เพื่อเพิ่ม/ลด pitch ให้ตรงโน๊ต สุดท้ายก็จะเอาไปผ่านชุดเอฟเฟคอย่าง vibrato เพื่อสร้างเอฟเฟคแบบต่าง ๆ
ผมคิดว่าถ้าจะทำมันไม่ยากนะ แต่ถึกสุด ๆ เรียกว่าอัดกันจนนักร้องเซ็งไปข้างนึง เอาจริง ๆ กลายเป็นภาษาญี่ปุ่นเป็นภาษาที่ทำ vocaloid ได้ง่ายที่สุดภาษานึงเลย เพราะความที่มีจำนวนเสียงไม่มาก ส่วนภาษาไทยนี่เรียกว่าเดินไปจ้างนักร้องข้างบ้านมาอัดให้อาจจะคุ้มค่าเสียเวลามากกว่า เพราะว่ามีำจำนวนเสียงมากกว่า
ส่วนฝั่งคนใช้ถ้าไม่มีความพยายามพอ ใส่ไปครึ่งทางก็เลิกแล้วครับ 555
คือ Vocaloid ไม่ต้องมีวิเคราะห์เรื่องคำ ไม่ต้องมีวิเคราะห์เรื่องของอารมณ์ เพราะทั้งสองส่วนผู้ใช้เป็นคนทำ นอกจากนั้นผู้ใช้ต้องควบคุมวิธีการร้องอย่างละเอียด เรื่องของการใช้เทคนิคการร้องต่าง ๆ น้ำหนักดังเบา ระดับเสียง และพารามิเตอร์อื่น ๆ อีกเป็นกระบุง (เคยทำมาแล้วครับ โ_ตรเหนื่อย ทำออกมาเพลงนึงเสร็จนี่แทบจะฉลอง นั่นขนาดว่ายังร้องพิการ ๆ อยู่นะ 555) แต่ทั้งหมดนี้ TTS ต้องทำเองหมดเลย ดังนั้นผมยังคิดว่า TTS น่าจะยากกว่าแค่จับมาร้องเพลงครับ
ปล.ใครอยากลองฟังเพลงที่ผมทำโดยใช้ Vocaloid ลองเข้าไปดูใน SoundCloud ผมนะครับ ร้องยังพิการ ๆ อยู่นะ แต่ขี้เกียจแก้แล้ว 555
เคยคิดว่าจะลองเอาโปรแกรม utau ซึ่งเป็นฟรีแวร์ใช้ทำเหมือน vocaloid มาลองทำ utauloid เอง
เมื่อได้ลองศึกษาไปลึกๆ แล้วรู้สึกว่ามันก็ลำบากเหมือนกัน ภาษาไทยต้องพูดบันทึกหลายคำมากเลยแถมมีเสียงวรรณยุกต์อีกด้วย เมื่อบันทึกเสียงมาแล้วก็ต้องมาตั้งค่าว่าไฟล์เสียงที่ได้มาแต่ละคำๆ ตรงไหนเป็นจุดเริ่ม ตรงไหนเป็นจุดจบของเสียง
พอมาถึงจุดนี้ก็เลยถอยๆ ไป แต่ก็คิดว่าถ้าอยากให้เร็วที่สุดคืออัดคำเฉพาะเพลงที่เราต้องการร้องก็พอ คือ ใช้ได้คนเดียวไม่สามารถแจกให้คนอื่นใช้งานได้เพราะเสียงไม่ครบทุกคำ
Text to Speech ภาษาไทยที่ผมชอบมากที่สุดนะครับ คือ Narisa จากเว็บนี้ครับ
http://www.oddcast.com/home/demos/tts/tts_example.php?sitepal
มีมาหลายปีแล้วครับ
ตอนนี้ Narisa อยู่ใน OS X ครับ
นาริสา ใน Garmin ผมอ่าน
งามวงศ์วาน เป็น หงัมวงวาน ทุกทีเลยอ่ะ
แต่ นาริสา ใน link นี้ไม่เป็นแฮะ
ตัว source ของแอปที่ใช้มันมีหลายขนาดเลยครับ (ยิ่งใหญ่ความละเอียดยิ่งสูง) คือจะอ่านชัดขึ้นนั่นเอง มีตั้งแต่ไม่กี่เม็ก จนตัวใหญ่สุดเกือบ 500MB เลยครับ สำหรับนาริสานี่นะ
ตัวจากเว็บที่ @hisoft แปะลิงก์ไว้ น่าจะเป็นตัวที่เป็นความละเอียดสูงสุดครับ บนคอมผมก็มีตัวนี้ใช้อยู่เหมือนกัน (ราคามหาโหด T_T) แต่ตัวที่ Garmin ใส่มาให้น่าจะเป็นตัวกลาง - เล็กครับ ดังนั้นก็อาจจะฟังดูไม่ชัดเจนเท่า แล้วก็อาจจะอ่านบางคำได้ไม่ชัดนัก แต่เท่าที่ผมลองปรับๆ อ่านดูนี่ มันก็ไม่ถึงกับ "หงำ" นะ แต่เสียงสระอาอาจจะดูสั้นๆ ลงไปบ้าง เต็มที่ก็แค่ "งำ" นะ 55
@ Virusfowl
I'm not a dev. not yet a user.
ผมไม่ได้แปะลิงก์อะไรเลยนะครับ... :p
ใช้ ios6 อ่านต่อไป เป็นThai TTS แบบพกพาที่ดีที่สุดแล้วครับ
หลายปีก่อนมีโอกาสได้เรียนวิชา select topic in a.i. กับแก ก็จำได้ว่าแกพูดถึงโปรแกรมตัวนี้อยู่เหมือนกัน
PARTY Thai Speech-to-Text นี่ก็ของ ดร. ใช่ไหมครับ
อยากให้พัฒนาไวๆมาก ตอนนี้ยังไม่เปิดให้นักพัฒนาภายนอกใช้ แต่ที่ลอง App PARTY บน iOS ไม่แม่นเอาซะเลย
เพราะตอนนี้ก็พึ่งแต่ของ Dragon ของ Nuance อยู่ licence แพงเอาการมาก
เป็นกำลังใจให้นักพัฒนาไทยครับ
อ่านแล้วนึกถึงบรรยากาศของ SLL Lab ของ NECTEC เลย เมื่อสัก 10 กว่าปีที่แล้วเคยได้ไปฟังเสียงของ TTS ดู เสียงลื่นทีเดียว สมัยนั้นก็น่าตื่นเต้นมากๆ แล้ว
lab นี้มีเป็นแหล่งรวมคนเก่งๆ ของวงการภาษาไทยบนคอมพิวเตอร์เลย เช่น คุณเทพพิทักษ์ (คนแถวนี้น่าจะรู้จักกันเยอะ) หรือ ดร.สุรพันธ์ (ที่ทำ search engine Siam Gugu)