สำนักงานข้อมูลรัฐวิกตอเรีย (Office of the Victorian Information Commission - OVIC) ออกรายงานการสอบสวนข้อมูลผู้โดยสารระบบขนส่งสาธารณะ ที่ขนส่งรัฐวิกตอเรียเปิดออกมาเพื่อใช้แข่ง Datathon (hackathon สำหรับนักวิยาศาสตร์ข้อมูล) แต่ผู้เข้าแข่งขันกลับพบว่าข้อมูลสามารถนำไปโยงกลับกับตัวตนผู้ใช้งานได้
ชุดข้อมูลการเดินทางนี้มาจากบัตร myki ของรัฐวิกตอเรีย เป็นข้อมูลจากบัตร 15 ล้านใบ รวม 1,800 ล้านรายการ ในช่วงปี 2015-2018 โดยข้อมูลได้ปิดบังตัวตนผ่านการเปลี่ยนหมายเลขบัตร
ปัญหาเกิดขึ้นเมื่อผู้เข้าแข่งขันรายหนึ่งในงาน Datathon สามารถตรวจสอบได้ว่ารายการเดินทางในชุดข้อมูลนี้เป็นของใคร ทางขนส่งรัฐวิกตอเรียจึงต้องแจ้งเหตุข้อมูลรั่วไหลไปยัง OVIC เพื่อสอบสวน ทาง OVIC ให้บริษัท Data61 เข้าสอบสวนชุดข้อมูลและยืนยันว่าอาจหาตัวตนผู้ใช้ได้จริงหากมีแหล่งข้อมูลอื่น
ผู้เข้าแข่งสามารถหาข้อมูลการเดินทางผู้อื่นได้ เพราะจำได้ว่าเคยเดินทางกับเพื่อนพร้อมๆ กัน ทำให้สามารถค้นหารายการเดินทางในช่วงเวลาเดียวกันได้ จากนั้นจึงหาเลขประจำตัวบัตรที่ถูกเปลี่ยนไปแล้ว และดึงประวัติการเดินทางของเพื่อนตลอดระยะเวลาสามปีออกมาได้
เหตุการณ์นี้ทางขนส่งรัฐวิกตอเรียยืนยันว่าไม่ได้ทำผิดกฎหมายข้อมูลส่วนบุคคล และรายการเดินทางที่ปกปิดตัวตนแล้วก็ไม่ใช่ข้อมูลส่วนบุคคลแต่อย่างใด และการค้นข้อมูลการเดินทางจากชุดข้อมูลอย่างเดียวก็ทำไม่ได้
ที่มา - iTNews
Comments
เปลี่ยนเลขไม่พอ ต้องเปลี่ยนวันที่ด้วย...
เปลี่ยนวันนี่น่าจะทำให้ผลการวิเคราะห์ข้อมูลเปลี่ยนไปเลยนะครับ
คิดว่าจริงๆ ควรลบ ID ทิ้งทั้งหมดเลยครับ แล้วให้วิเคราะห์ข้อมูล pattern การเดินทางเอา
แค่ hash ID แบบกรณีนี้ไม่พอ หรืออีกท่านึง คือแยก ID ของแต่ละวันออกจากกันก็น่าจะลดความเสี่ยงลงได้มาก
lewcpe.com, @wasonliw
มันเป็น Dimension ทางลึก ยังไงก็ต้องมีเพื่อหมุนข้อมูลใหม่ กรณีที่มีหลาย Pattern ที่มีเวลาเป็นมิติที่ 3 แต่ก็พอมีวิธี แต่อาจลด Performance หน่อยถ้าดูแบบ Real-time แต่ถ้าไม่ดู Real-time ก็สบาย
ข้อมล => ข้อมูล
วิธี trace กลับเกิดจากเจ้าตัวจำ transaction ของตัวเองได้ เลยไล่ย้อนดู หา grouping ข้อมูลร่วมกันกับของเพื่อนๆที่เดินทางวันเดียวกันคล้ายๆกัน
วิธีนี้ต้องคนในเท่านั้นแหละ ต่อให้แปลงค่า binding,hash หรือแม้แต่สุ่มkey ใหม่มาแทน ยังไงก็ trace ย้อนได้ ยกเว้นการ ปกปิดหรือเปลี่ยนวันที่ข้อมูลหรือตัดความเชื่อมโยงจาก key แต่มันก็จะกลายเป็นข้อมูลที่ไร้ค่า ไม่สามารถนำไปวิเคราะห์หาประโยชน์อะไรได้ เลย
อย่างข้างบนบอกให้ แยก id แต่ละวัน มันก็จะหาความเชื่อมโยงกับ timeline หรือ trend แบบละเอียดไม่ได้
ไม่ต้องคนในก็ความเสี่ยงเพิ่มขึ้นมากครับ ถ้ามี "ฐานข้อมูลอื่น"
เช่น ผมเป็น HR บริษัทในแนวรถไฟ้า รู้เวลามาทำงานแน่ชัดของแต่ละวัน ผมถอยไป search เวลาออกจากรถไฟฟ้า 10-20 นาทีเพื่อหา ID ของพนักงานคนนึง ประมาณ 10 วันเพื่อ match ให้เหลือ ID เดียว กลายเป็นว่าผมได้ข้อมูลเดินทางพนักงานตลอดสามปีเลย (หาได้เลยว่าแอบไปสัมภาษณ์ที่อื่นไหม)
lewcpe.com, @wasonliw
ถ้าเป็น HR มาค้นเองผมก็ยังว่าเข้าข่ายคนในนะ
คล้ายๆ social engineering มาหาความสัมพันธ์กับชุดข้อมูล แต่ก็ต้องมีข้อมูลที่เป็นส่วนตัวอีกชุด มาใช้ matching
ไม่ใช่ว่าจะใช้ฐานข้อมูลสาธารณะอื่นใดๆก็ได้
ผมก็ยังมองว่าขั้นนี้ก็ยังค่อนข้างยากในการระบุตัวแล้วล่ะ
ปรกติ คนเราเดินทางไปเรียน ไปเที่ยว ไปทำงาน มันจะซ้ำๆกันครับ ออกเวลาเดิม ๆ ขับรถทางเดิม ๆ กลับก็เวลาเดิม ๆ ถ้ารู้สุ่มๆซัก 10 วัน ไม่ต้องรู้ทุกวัน ที่เหลือก็ พอเดาได้นะครับ เช่น ออกจากบ้านเวลาเดิม ขึ้นรถไฟฟ้าตู้เดิม คุณจะขับมาเจอกับรถคันเดิมบนถนน(ที่ปาดหน้าคุณเมื่อวาน)หรือคนข้นรถคันเดียวกันหน้าเดิมๆ อะไรแบบนั้น
ใช่เลย ยิ่งบริการสาธารณะต่างๆและเป็นพื้นที่ที่เจาะจงลงไป ยิ่งมีสิทธิมากที่จะเจอคนกลุ่มเดิม
ช่วงที่ผมยังโสด ถึงกับต้องมารอขึ้นรถสองแถวเวลาเดิมทุกๆวัน เพราะจะได้เจอผดส.คนเดิม(คนนั้น)
เอ๊ะ ผมจำได้นะว่าเธอคนนั้นลงป้ายไหนทุกวัน
แบบนี้ถ้าผมใช้วิธีนี้ได้ ผมก็รู้ที่ทำงาน เธอแล้วสินะ
แสดงว่าได้ผลเรอะ!
ลองคิดว่าข้อมูลตกอยู่ในมือคนสะกดรอยตาม คนลักพาตัว ฆาตรกรต่อเนื่อง อาชญากร หรือแม้แต่เจ้าหน้าที่รัฐ ผลลัพธ์ที่จะเกิดก็ร้ายแรงแล้ว
ความล้มเหลว คือจุดเริ่มต้นสู่ความหายนะ มีผลกระทบมากกว่าแค่เสียเงิน เวลา อนาคต และทรัพยากรที่เสียไป - จงอย่าล้มเหลว
มีความจำเป็นต้องให้ id มาเพื่อแข่งขันมั้ยครับ?
ผมว่าข้อมูลที่ระบุตัวได้กับไม่ได้นี่มีผลมากๆ กับการใช้งานจริงๆ ดังนั้นมันก็จะมีผลมากกับการแข่งขันเช่นกันครับ เว้นแต่จะทำการแปลงข้อมูลทั้งหมดแบบที่มันไม่กระทบกับรูปแบบได้ ซึ่งก็ยากมาก
แต่พอเปิดออกสู่สาธารณะมันก็สภาพอย่างที่เห็นล่ะครับ
มันเป็น hackathon น่ะครับ แข่งกันเอาข้อมูลมา "สร้างสรรค์" ดังนั้นข้อมูลยิ่งเยอะก็ยิ่งเล่นได้เยอะ
บางทีมอาจจะหา pattern จากการเดินทาง เช่น คนเดินทางตรงเวลาทุกวันกี่คน คน flexible เวลาทำงานกี่คน อะไรแบบนั้นก็ได้ ดังนั้นการมี id ที่ตรงกันทั้งหมดจะทำให้หา pattern แบบนี้ได้ แต่ถ้า reset ID ทุกวันก็บอกไม่ได้แล้ว ว่าคนที่เดินทาง 9:13 นาฬิกาวันนี้ นี่เมื่อวานเดินทางกี่โมง
สำหรับ Data Scientist ข้อมูลยิ่งมากก็คงยิ่งดี แต่มากแค่ไหนจะไม่ละเมิด (โดยเฉพาะกรณีนี้ที่เปิดข้อมูลต่อสาธารณะ) อันนี้เป็นคำถามอีกชุด
ถ้าเคยเล่น Keggle จะเห็นว่าหลายองค์กรเลือกจะไม่เปิดข้อมูลจริงเลย โดยเฉพาะพวกชุดข้อมูลทางการเงิน แต่สร้างข้อมูลจำลองจากข้อมูลจริงขึ้นมาจัดแข่งแทน แต่นั่นก็แปลว่าข้อมูลจำลองจะผ่านมมุมมองที่คนสร้างชุดข้อมูลมองเห็นมาแล้วเท่านั้น (ถ้าคนสร้างเห็นว่าบางมิติไม่สำคัญ เขาก็ไม่จำลองในชุดข้อมูลจำลอง) ก็เป็นข้อจำกัด
lewcpe.com, @wasonliw
ขอบคุณทั้งสองท่านครับ
แสดงว่าจริงๆ แล้วมันก็ควรจะเอามาลงเพื่อให้ผู้แข่งขันเอาไปใช้สร้างสรรค์ได้มากขึ้น แต่มันไม่ควร trackback ได้ และถ้าทำได้ก็ไม่ควรเป็นข้อมูลที่อ้างอิงกับคนจริงๆ ได้