เราได้เห็นการนำปัญญาประดิษฐ์ มาประยุกต์ใช้ทางการแพทย์มาแล้วหลายโครงการ ทั้งการวินิจฉัยปอดบวม, การทำนายภาวะออทิสติก และตรวจหาเซลล์มะเร็ง ล่าสุด ทีมนักวิจัยจากบริษัท Human Longevity ที่ทำการศึกษาเกี่ยวกับพันธุศาสตร์มนุษย์ ได้รายงานผลงานวิจัยเรื่อง การทำนายรูปลักษณ์ภายนอกจากสารพันธุกรรม (DNA) โดยใช้ machine learning ลงในวารสาร Proceedings from the National Academy of Sciences (PNAS)
ทีมนักวิจัยได้ใช้ machine learning สร้างแบบจำลองเพื่อทำนายข้อมูลกายภาพของอาสาสมัคร เช่น รูปภาพของใบหน้า สีผิว สีม่านตา ความสูง น้ำหนักตัว และเชื้อชาติโดยใช้เพียงข้อมูลลำดับเบสที่ได้จากการสกัด DNA (whole genome sequencing) โดยไม่ระบุตัวตน และใช้ผลการทำนายของแต่ละลักษณะ เช่น คุณนามสมมติ มีลำดับเบสที่ตำแหน่งที่หนึ่งเป็น A คาดว่าน่าจะเป็นคนผิวคล้ำ และมีลำดับเบสที่ตำแหน่งที่สองเป็น C น่าจะมีนัยน์ตาสีฟ้า และเปรียบเทียบลักษณะที่ทำนายได้เหล่านี้กับข้อมูลจริง พบว่าสามารถระบุตัวตนของเจ้าของกลับไปได้ถูกต้องถึงร้อยละ 80
ทีมนักวิจัยชี้ให้เห็นว่าแม้จะพยายามปิดบังตัวตนของเจ้าของข้อมูล DNA โดยไม่เปิดเผยชื่อ หรือข้อมูลอื่นๆ แล้ว การใช้เทคนิคทาง machine learning ก็สามารถใช้ในการระบุตัวเจ้าของ DNA ได้ในที่สุด และยังทิ้งท้ายว่า กลุ่มนักวิจัยในทางพันธุศาสตร์ควรเพิ่มความตระหนักในการรักษาความเป็นส่วนตัวของข้อมูล DNA ที่เปิดเผยอย่างสาธารณะ
อย่างไรก็ตาม งานวิจัยชิ้นนี้ได้รับการวิจารณ์อย่างกว้างขวาง โดยเฉพาะงานวิจัยที่ตีพิมพ์ใน bioRxiv (ซึ่งออกตามหลังงานวิจัยต้นฉบับไม่กี่ชั่วโมง) ที่ระบุว่างานวิจัยชิ้นนี้มีข้อกังขาหลายอย่าง เช่น หากไม่ใช้ข้อมูลพันธุกรรมเลย ใช้แต่ข้อมูลพื้นฐานที่เปิดเผยสาธารณะอย่าง เพศ อายุ และเชื้อชาติ ก็สามารถใช้ระบุตัวตนได้ที่ถูกต้องพอๆ กับการใช้ machine learning ที่ซับซ้อน และถูกตั้งข้อสงสัยว่าอาจไม่สามารถนำไปประยุกต์กับข้อมูลชุดอื่นในสถานการณ์จริงได้ ทั้งๆ ที่ปัจจุบันมีข้อมูลสาธารณะที่สามารถนำมาทดลองได้อย่างไม่ยากเย็น
ที่มา: Identification of individuals by trait prediction using whole-genome sequencing data ผ่าน Human Longevity Inc.'s Press Releases
Comments
lewcpe.com, @wasonliw
ขอบคุณครับ. แก้ไขหัวข้อ และเพิ่มเติมรายละเอียดของข้อสงสัยที่กล่าวถึงแล้วครับ
ตามที่แก้มา คงต้องระบุให้ชัดครับ ว่าที่บอกว่า 80% ถูกต้องนั้น อาศัยข้อมูลอื่น (โดยเฉพาะข้อมูล demographic ที่โดนโจมตี) ด้วย เพราะในจดหมายข่าวเองก็ระบุไว้ชัดเจน
lewcpe.com, @wasonliw
ขอบคุณมากครับ. ในงานวิจัยต้นฉบับใช้ sequencing data เป็น predictors ส่วน phenotypic and demographic data (และข้อมูลโครงหน้า เสียง ฯลฯ) เป็น outcome. งานวิจัยชิ้นหลังที่ออกมาแย้ง ใช้ predictors เป็นเพียงข้อมูล demographic (เพศ เชื้อชาติ อายุ) โดยไม่ได้ใช้ข้อมูลพันธุกรรมเลย. ผมเพิ่มรายละเอียดให้ชัดเจนมากยิ่งขึ้นในช่วงท้ายครับผม