WALAI AutoLib Ultimate และ Best Practices in Data Cleaning


เมื่อวันที่ 26-28 มิถุนายน 2562 ผู้เขียนได้มีโอกาสเข้าร่วมการจัดการประชุมเชิงปฏิบัติการ  “การดำเนินกิจกรรมบนระบบเครือข่ายสารสนเทศเพื่อพัฒนาการศึกษา” ครั้งที่ 39 (Workshop on UniNet Network and computer Application : 39th WUNCA)
ณ มหาวิทยาลัยวลัยลักษณ์ อำเภอท่าศาลา จังหวัดนครศรีธรรมราช จากการเข้าร่วมงานครั้งนี้ ผู้เขียนจะขอนำเสนอในส่วนที่ได้สัมผัส และคิดว่ามันเป็นสิ่งที่น่าสนใจ และสามารถนำมาประยุกต์ใช้กับงานต่อไปได้ในอนาคตนเองได้

การเข้าร่วมงาน และ Download Application

1. ป้ายชื่อ ซึ่งแสดงข้อมูลรายละเอียดของการเข้าร่วมงาน ดังนี้

  1. ข้อมูลของผู้ร่วมงาน (รหัสผู้เข้าร่วมงาน ชื่อ-สกุล และหน่วยงาน)
  2. มี QR Code เพื่อเข้าเว็บไซต์ WUNCA 39 th 
  3. ขั้นตอนการใช้งาน WIFI WUNCA 39 th
  4. ขั้นตอนการใช้งาน Eduroam
  5. ข้อมูลผู้ประสานงานต่าง ๆ

2. ป้ายข้อมูลรายนามผู้สนับสนุน และ QR Code ต่าง ๆ ที่ให้มา เช่น กำหนดการ แบบประเมินความพึงพอใจ เป็นต้น

3. ป้าย QR Code ที่ใช้ในการ Download Application WUNCA และขั้นตอนการเข้าใช้งาน Application

นอกจากป้าย QR Code และประชาสัมพันธ์เรื่อง Application WUNCA แล้ว ใน Website ก็ให้ความสำคัญกับการประชาสัมพันธ์การใช้ Application WUNCA เช่นกัน เพราะสามารถดูข้อมูล กำหนดการ รายละเอียดต่าง ๆ ของงานได้อย่างสะดวกมากยิ่งขึ้น

Website : https://wunca.uni.net.th/wunca39/

ตัวอย่าง Application

Download Application
ใส่ Username และ Password เพื่อเข้าใช้
ข้อมูลที่ให้บริการภายใน Application

WALAI AutoLib Ultimate

เป็นระบบห้องสมุดอัตโนมัติที่รองรับการบริหารจัดการห้องสมุดประกอบด้วย

  1. ส่วนระบบงานหลัก (Core system)
  2. ส่วนระบบงานเสริม (Optional)
  3. ส่วนการเชื่อมต่อกับระบบภายนอก

ส่วนระบบงานหลัก

เป็นระบบห้องสมุดอัตโนมัติที่รองรับการบริหารจัดการห้องสมุดประกอบด้วย

  1. ระบบบริหารจัดการนโยบาย (Policy management module)
  2. ระบบจัดการข้อมูลสมาชิก (Patron management module)
  3. ระบบจัดซื้อจัดหา (Acquisition module)
  4. ระบบการทำรายการ (Cataloging module)
  5. ระบบควบคุมวารสารและสิ่งพิมพ์ต่อเนื่อง (Serials control module)
  6. ระบบควมคุมรายการหลักฐาน (Authority control module)
  7. ระบบการบริการยืม-คืน (Circulation module)
  8. ระบบการสืบค้นและบริการสมาชิก (OPAC and Utility module)
  9. ระบบการสร้างรายงาน (Report generator module)

ส่วนระบบงานเสริม

          เป็นระบบงานที่พัฒนาขึ้นเพื่อเพิ่มประสิทธิภาพการทำงานและการบริการของห้องสมุด ระบบสามารถรองรับโมดูลงานเสริม (Optional) ประกอบด้วย

  1. ระบบงานช่วยแปลงข้อมูลให้อยู่ในรูปแบบ RDA (RDA Helper)
  2. ระบบจัดการบัตรสมาชิกและชำระเงิน (Member Card & Payment)
  3. ระบบบริการจัดส่งทรัพยากร (Document Delivery)
  4. บริการการเชื่อมต่อข้อมูลสำหรับนักพัฒนาระบบ (API Service)
  5. เครื่องมือการบริหารจัดการสำหรับผู้ดูแลระบบ (Administrative Tool)
  6. แอพพลิเคชันบนโทรศัพท์มือถือ (Mobile Application) มีการนำเสนอในงานนี้ ซึ่งจะอธิบายในลำดับถัดไป
  7. ระบบควบคุมการจัดเก็บทรัพยากรและชั้นหนังสือเสมือน (Inventory Control & Virtual Book Shelf)
  8. ระบบบริการข้อมูลสำหรับผู้บริหาร (Dashboard)
  9. ระบบจัดการแถบสีสันหนังสือ (Color Label)
  10. เครื่องมือสำหรับปรับปรุงชุดข้อมูล (Global Update Tool)
  11. ระบบงานสร้างชุดข้อมูล (Create List)

ส่วนการเชื่อมต่อกับระบบภายนอก

ระบบสามารถรองรับการทำงานร่วมกันกับระบบงานอื่น ๆ ผ่านฟังก์ชันการเชื่อมต่อ ประกอบด้วย

  1. การเชื่อมโยงข้อมูลกับฐานข้อมูลสหบรรณานุกรมสถาบันอุดมศึกษาไทย (Union Catalog for Thai Academic Libraries : UC-TAL)
  2. การเชื่อมโยงข้อมูลกับระบบฐานข้อมูลงานวิจัยไทย (TDC)
  3. การเชื่อมโยงกับเครื่องยืมคืนหนังสืออัตโนมัติ (Self-check)
  4. การเชื่อมโยงกับระบบสมาชิกอื่น ๆ

แอพพลิเคชันบนโทรศัพท์มือถือ (Mobile Application)

ภายในงานได้นำเสนอเกี่ยวกับ แอพพลิเคชันบนโทรศัพท์มือถือ (Mobile Application) ซึ่งเป็นการยืมหนังสือผ่านโทรศัพท์มือถือ โดยเริ่มต้นเราต้องหาหนังสือที่เราสนใจโดยผ่านระบบ OPAC : WALAI AutoLib Ultimate ดังรูป

ระบบ OPAC : WALAI AutoLib Ultimate

เมื่อเลือกหนังสือเรียบร้อยแล้ว ตัวอย่างเช่น หนังสือ Art : a visual history ซึ่งจะมีแถบสีในเว็บและที่หนังสือจะมีสีเหมือนกัน ดังรูป

เมื่อเข้าไปดูรายละเอียดข้อมูลหนังสือจะสามารถทราบรายละเอียดหนังสือ และที่เก็บหนังสือ ดังรูป

รายละเอียดหนังสือ

เมื่อเราพบหนังสือที่เราต้องการแล้ว เราจะยืมหนังสือผ่านโทรศัพท์มือถือ โดยมีวิธีการดังนี้

1 Download Application บนมือถือ ที่ชื่อว่า WALAI AutoLib Mobile

Application : WALAI AutoLib Mobile

2 ทำการสมัครสมาชิก

สมัครสมาชิก

3 เมื่อเข้ามาหน้าแรกจะมีเมนู Self Circulation และ Shelf Discovery

หน้าแรก

Self Circulation การยืมหนังสือผ่านมือถือ โดยมีขั้นตอนดังนี้

ขั้นตอนที่ 1 สแกน QR Code ที่ติดอยู่ที่ปกหนังสือที่เราต้องการ เมื่อสแกนแล้วจะมีข้อมูลของหนังสือ และระยะเวลาการยืมแสดง ดังรูป

การยืมหนังสือ

ขั้นตอนที่ 2 ถ้าต้องการยืมให้กด Check out

ขั้นตอนที่ 3 ระบบจะให้เราตรวจสอบข้อมูลว่าถูกต้องไหม ถ้าถูกต้องให้กด Complete

การยืนยัน

หนังสือจะไปอยู่ในระบบด้านนอกประตู เมื่อเราเดินผ่านประตู รายชื่อหนังสือที่ปรากฏจะหายไป ดังวีดีโอ

สาธิการนำหนังสือออกนอกห้องสมุด

 

Shelf Discoverry เป็นการจองหนังสือที่เราต้องการจะใช้ในครั้งต่อไป โดยมีวิธีการดังภาพ

สแกน QR Code ที่หนังสือที่เราต้องการ ระบบจะแสดงรายชื่อหนังสือและสถานที่เก็บหนังสือ เพื่อเก็บไว้ในการมายืมครั้งถัดไป ดังภาพ

Best Practices in Data Cleaning

วิทยากรโดย ผศ.สมใจ บุญศิริ นายจารุมาตร ปิ่นทอง และนายธีระ บุญศิริ จากจุฬาลงกรณ์มหาวิทยาลัย กล่าวโดยสรุปว่า การเก็บข้อมูลของห้องสมุดหลาย ๆ ที่ จะมีลักษณะต่างคนต่างเก็บ จึงทำให้ข้อมูลที่ได้มีความแตกต่างกันออกไป ซึ่งข้อมูลเหล่านี้คนอ่านจะเข้าใจตรงกัน แต่ในระบบคอมพิวเตอร์จะไม่เข้าใจตรงกัน ตัวอย่างเช่น การใส่ข้อมูลวันที่ บางคนใส่ 28/06/2562 บางคนใส่ 28 มิถุนายน 2562 บางคนใส่ 28-6-19 เป็นต้น  เมื่อเวลาที่เราจะทำข้อมูลมาร่วมกันจึงทำได้อยากเพราะไม่มีมาตรฐานของข้อมูล การจะทำ Big Data, Integration หรือdata standardization สิ่งแรกที่ต้องทำคือ การทำมาตรฐานของ Data ก่อน ตัวอย่างระบบฐานข้อมูลของจุฬาลงกรณ์มหาวิทยาลัยมีทั้งหมด 5 ฐาน มีทีมดูแล 5 ทีม แต่ละทีมมีการใส่ข้อมูลที่ไม่เหมือนกัน อยู่มาวันหนึ่งผู้บริหารสั่งให้ทำ Big Data ดังนั้นต้องทำข้อมูลทั้ง 5 ก้อน ให้เป็น 1 ก้อน

Data Standardization มี 4 ขั้นตอน

1 Understanding and Cleaning Your Data ต้องเข้าใจในข้อมูลที่มี และต้องตรวจสอบให้แน่ใจว่าข้อมูลที่มีถูกต้องสมบูรณ์ มีการจัดรูปแบบ และตรวจสอบก่อนที่จะนำข้อมูลไปใช้ในฐานข้อมูล เพื่อเพิ่มประสิทธิภาพในการนำข้อมูลเหล่านี้ไปใช้ประมวลผลต่าง ๆ (การดำเนินการตรวจสอบข้อมูล คือนำข้อมูลที่ไม่ถูกต้องออกไปจากชุดข้อมูล ตารางหรือฐานข้อมูล ซึ่งเป็นหลักสำคัญของฐานข้อมูล เพราะหมายถึงความไม่สมบูรณ์ ความไม่ถูกต้อง จะไม่สัมพันธ์กับข้อมูลอื่นๆ เป็นต้น หรืออาจจะมีการแทนที่ การปรับปรุง หรือการลบข้อมูลที่ไม่ถูกต้องเหล่านี้ออกไป เพื่อให้ข้อมูลมีคุณภาพมากขึ้น)

2. Knowing the Data Entry Points ต้องทราบถึงข้อมูลเป็นแบบใด เก็บอย่างไร

3. Choosing Data Standards ต้องทำมาตรฐานของข้อมูล ซึ่งต้องใช้มาตรฐานเดียวกันทั้งองค์กร ไม่ว่าจะเป็นการกรอกข้อมูล การนำไปใช้ และการแปลผลจากข้อมูล เป็นต้น ซึ่งจะสามารถช่วยให้การทำงานของคุณง่ายขึ้น

4. Defining the Normalization Matrix กำหนด Normalization Matrix ซึ่งนำข้อมูลที่มีมาเทียบกับข้อมูลมาตรฐานที่ตั้งไว้

Data Cleaning Techniques เป็นขั้นตอนที่ใช้ระยะเวลาในการทำเยอะมาก เป็นขั้นตอนที่คนไม่ค่อยพูดถึง และต้องมีวิธีการที่ดีในการทำ Clean Data เพื่อที่จะ Predict ข้อมูลที่ถูกต้อง ให้ผู้บริหารสามารถมั่นใจในการตัดสินใจจากข้อมูลที่ถูกต้อง

Data Quality – Validity เมื่อรับข้อมูลมาแล้วต้อง Validate ก่อนที่จะนำไปเก็บ ตัวอย่างการตรวจสอบข้อมูลมีดังนี้

  1. เช็ค Data Type
  2. เช็คช่วงของข้อมูล
  3. ข้อมูลไม่ซ้ำกัน (Unique)
  4. เงื่อนบางตัวต้องอยู่ในแซต
  5. ข้อมูลบางตัวที่ไปปรากฏใน Primary key และ Foreign key
  6. เช็คข้อมูลข้าม Filed

ตัวอย่างของ Data ที่จะต้องตรวจสอบและปรับปรุงให้ถูกต้อง เช่น

  1. ต้องลง Extra Spaces เช่น Hello World จะมี Spaces ที่มองเห็นตาไม่เห็นแต่ระบบมองเห็น
  2. มีข้อมูลที่ซ้ำกัน เพราะข้อมูลมาจากหลายแหล่ง
  3. ข้อมูลที่ไม่เกี่ยวข้อง ไม่เข้าพวก ถ้าพิสูจน์ได้ต้องกำจัด
  4. การใส่ข้อมูลไม่เหมือนกัน เช่น ตัวเล็ก ตัวใหญ่ เว้นวรรค วันที่ เป็นต้น ซึ่งเกิดการผิดพลาดจากการคีย์ข้อมูล
  5. การตรวจจับสิ่งผิดปกติ เราจะมีวิธีการในการจับสิ่งผิดปกติ
  6. handling missing data วิธีการจัดการกับข้อมูลที่หายไป วิธีการที่ 1 ไม่สนใจ และไม่เอาข้อมูลดังกล่าว วิธีที่ 2 การหาค่ามาใส่ ต้องมี algorithm ในการหาค่าที่จะเอามาใส่ (ทั้งสองวิธีเราต้องรู้ว่าข้อมูลตัวนี้มันสำคัญอย่างไร เพราะถ้าคำนวณผิด algorithm ผลจะมีการเปลี่ยนแปลง หรือถ้าทิ้งข้อมูลตัวนั้น แล้วข้อมูลที่ทิ้งเกิดมีความสำคัญก็จะส่งผลที่ออกมาแตกต่างจากที่ควรจะเป็น)

จากที่กล่าวมา การ Cleaning Data ถือเป็นพื้นฐาน ในการทำ Big Data

ความรู้พื้นที่ควรรู้

  1. Data Format ควรตกลงกันให้แน่นอนก่อน
  2. Language Encoding เป็นแบบ Unicode 8/16 เพราะ Text ก็จะเปลี่ยนไปได้ ในการจะรับข้อมูลกันต้องตกลงกันให้ดี

ปัญหาที่พบในการ Import จาก Excel (CSV Format)

  1. Row & Column Limitation คือ Excel เก็บข้อมูลได้ 6,000 เซลล์ ในขณะที่ google sheet เก็บข้อมูลได้ 5,000,000 เซลล์
  2. Format แต่ละ Column เป็น Text, String, Number เป็นต้น หรือเป็นแบบไหน
  3. Special Character / Tap (ช่องว่างต่าง ๆ) Alternate Enter เวลามีหลายบันทัด Excel จะเติมอะไรลงไปบ้าง เช่น ถ้า Column นั้นมี 3 บันทัด พอเอาเข้า Database จะมี 3 Row
  4. Text / Number / Thai Number
  5. scientific notation เลขประจำตัว 13 หลัก พอ Import เข้าไป สิ่งที่คอมพิวเตอร์รู้คือ 1.23.4.5E12 มันจะไม่ใช่เลขประชาชน
  6. Marking
  7. Thai Space / Space Character

การ Cleaning Data ทำได้หลายวิธี ไม่ว่าจะเป็น Manual หรือการเขียนโปรแกรม หรือจะใช้ทั้ง 2 อย่าง ก็ได้ เพราะในการทำงาน Computer ไม่สามรถแก้ไขจุดที่ผิดให้ถูกต้องได้

สรุป

สิ่งสำคัญในการทำ Big Data

  1. การเก็บข้อมูลต้องมีมาตรฐานเดียวกัน
  2. ต้องมีการตรวจสอบความถูกต้องของ Data
  3. และต้อง Cleaning Data ก่อนนำไปใช้งาน

แล้วจึงนำข้อมูลที่ได้ไปใช้ต่อไป

เขียนและตรวจสอบโดย :
นางสาวอาทิตยา ทรัพย์สิน และนายศกล มงคลเนตร์


Mahidol University Library and Knowledge Center @ 2019