โครงการอบรมเชิงปฏิบัติการหลักสูตร Data Science 101: Basic Concepts and Tools for Beginner


วนาพล แช่มสุขี นักวิชาการคอมพิวเตอร์

วันที่ 7 – 8 กันยายน 2563 คณะเทคโนโลยีสารสนเทศและการสื่อสาร (ICT) ม.มหิดล จัดโครงการอบรมเชิงปฏิบัติการหลักสูตร Data​ Science​ 101: Basic Concepts and​ Tools​ for​ Beginner นำโดย ดร. อภิรักษ์ หุ่นหล่อ และ ดร. ศิริเพ็ญ พงษ์ไพเชฐ อาจารย์ประจำคณะ ICT เป็นวิทยากรให้การอบรม ณ ชั้น 25 อาคารมิว (วิทยาลัยการจัดการ) มหาวิทยาลัยมหิดล ถนนวิภาวดีรังสิต เขตพญาไท กรุงเทพฯ โดยในครั้งนี้มีผู้เข้าอบรมทั้งสิ้น 10 คน แบ่งเป็นบุคลากร 7 คน และบุคคลทั่วไป 3 คน

 

  • วันที่ 7 กันยายน 2563

Workshop outline

      • รู้จัก Data Science
      • การจัดการข้อมูลด้วย Excel
      • การวิเคราะห์ข้อมูลด้วย Orange
      • รู้จัก Data Science

สิ่งที่ได้รับจาก Workshop เป็นการทำความเข้าใจในเรื่องของ Data Science ที่เป็นการนำความรู้ทางวิทยาศาสตร์ มาวิเคราะห์ข้อมูลหลายรูปแบบ เพื่อหาองค์ความรู้ที่จะนำไปใช้ในการพัฒนาองค์กร หรือบริษัทของตนเองได้ ซึ่งองค์ความรู้ และทักษาะเหล่านั้นได้มาจาก Hacking Skills, Math & Statistic Knowledge, and Substantive Expertise ที่เป็นคุณสมบัติหลักของ Data Science นำมาใช้เพื่อให้คลอบคลุมทุกส่วนของธุรกิจในเรื่องของ กลุ่มข้อมูลของลูกค้า การแนะนำสินค้า การตรวจจับความผิดปกติของข้อมูล และการให้ความช่วยเหลือลูกค้าด้วย Chatbot

      • การจัดการข้อมูลด้วย Excel

ในส่วนของการจัดการข้อมูล ซึ่งเป็นวิธีสำคัญด้วยที่จำทำให้การวิเคราะห์ข้อมูลมีความถูกต้อง และแม่นยำมากยิ่งขึ้น ในส่วนของ Workshop นี้ เป็นการจัดการข้อมูลด้วย Microsoft Excel ที่เป็นซอฟแวร์สำหรับการบริการจัดการข้อมูล และผู้คนส่วนใหญ่ใช้ในการปฎิบัติงานภายในองค์กร หรือบริษัท ซึ่ง Microsoft Excel มีคุณสมบัติและมีส่วนช่วยในการทำ Data Science ของข้อมูลขนาดเล็ก จนไปถึงขนาดใหญ่ได้

เทคนิคการ Cleansing data ด้วย Microsoft Excel เพื่อการทำความสะอาดข้อมูล ที่จะทำให้ผลลัพธ์ของการวิเคราะห์ข้อมูลถูกต้องมากยิ่งขึ้น จากการทำ Workshop ซึ่งได้เรียนรู้เทคนิค และวิธีการทำ Data manipulation ดังนี้

        1. Removing duplicate rows
        2. Filling missing value
        3. Finding and replacing text
        4. Merging and splitting columns
        5. Removing spaces and nonprinting characters
        6. Transforming data: Fixing Data Format, Binning, Label Encoding
        7. Removing outliers
        8. Reconciling table data by joining and matching
          • PivotTable เป็นเครื่องมือบน Excel ที่สามารถสรุปผลข้อมูลตามเงื่อนไขที่กำหนดไว้ได้อย่างง่ายดายและรวดเร็ว ซึ่งสามารถสรุปได้ว่าข้อมูลแต่ละประเภทที่เราสนใจมีผลรวม จำนวนนับ ค่าเฉลี่ย ค่ามาก หรือน้อยสุด มีจำนวนเท่าใด

      • การวิเคราะห์ข้อมูลด้วย Orange

โปรแกรม Orange  จากการเข้าอบรม Workshop คือ A Visual Programming Tool for Machine Learning and Data Analytics มีลักษณะการทำงานแบบ Visualization สามารถทำให้ผู้ใช้งานรียกใช้โปรแกรมได้อย่างสะดวกและรวดเร็ว โดยไม่จำเป็นต้องเขียนโค้ด อีกทั้งยังเป็นโปรแกรมที่สามารถดาวน์โหลดและใช้งานได้ฟรี การทำเอา Data Mining และ Machine Learning เพื่อมุ่งเน้นอัลกอริทึมที่จะนำมาใช้เพื่อการเรียนรู้ และการพยากรณ์ของข้อมูล โดยจะอยู่บนพื้นฐานของการคำนวณด้วยวิธีเดียวกัน หากพูดถึง Data Science เปรียบได้กับการนำข้อมูลที่มีอยู่ นำมาผ่านกระบวนการวิเคราะห์ทางธุรกิจ เพื่อให้เกิดความได้เปรียบในการแข่งขัน ซึ่งในปัจจุบันมีเครื่องมือมากมาย ที่สามารถนำมาใช้ในการวิเคราะห์ข้อมูลในลักษณะนี้เช่นเดียวกัน

โปรแกรม Orange  สามารถทำอะไรได้บ้าง

          • Visual Programming
          • Interactive Data Exploration
          • Interactive Data Visualization
          • Machine Learning
          • Existing Workflow

Machine Learning step ได้อธิบายวิธีการทำงานตั้งแต่ แหล่งข้อมูลที่ได้รับ จนกระทั่งแสดงผลลัพธ์จากการวิเคราะห์ช้อมูล เพื่อนำผลที่ได้ไปประยุกต์ใช้กับการทำงาน ตามภาพด้านล่างนี้

ซึ่งการทำงานเหล่านี้ต้องอาศัยการศึกษาโมเดล หรืออัลกอริทึงต่างๆ เพื่อนำมาใช้กับการวิเคราะห์ข้อมูล เพื่อให้ได้ผลลัพธ์ของข้อมูลที่มีประสิทธิภาพ และนำมาประยุกต์ใช้กับองค์กร หรือบริษัทมากยิ่งขึ้น

  • วันที่ 8 กันยายน 2563

Workshop outline

        • Machine learning model
        • Data Modeling and Deployment using Rapid Miner
        • Data Analysis and Report using Power BI Desktop
      • Machine learning model

ผู้บรรยายได้ทบทวน และอธิบายเนื้อหาของวันที่ผ่านมา ซึ่ง Workshop ของวันนี้ได้เรียนรู้เกี่ยวกับ Model ต่างๆ ใน Machine learning และศึกษาวิธีการทำงาน พร้อมเปรียบเทียบความแตกต่าง ในของ Model

            • Nearest-Neighbor
            • K-NN
            • Decision Tree
            • Naïve Bayes
            • Linear SVM
            • Nonlinear SVMs

      • Data Modeling and Deployment using RapidMiner

คุณสมบัติของ RapidMiner สามารถจัดการข้อมูลได้ตั้งแต่การเตรียมข้อมูล การสร้างโมเดล ไปจนถึงนำไปใช้งานในการนำไปประยุกต์ใช้ ซึ่งจะแยกส่วนได้ดังนี้

          • RapidMiner Radoop เป็นเวอร์ชันที่ทำงานบน Hadoop ซึ่งเป็นการนำคอมพิวเตอร์หลายๆ เครื่องมาช่วยประมวลผล ทำให้สามารถรองรับการทำงานกับข้อมูลที่มีขนาดใหญ่ได้
          • RapidMiner Studio เป็นการทำงานบนเครื่องคอมพิวเตอร์ที่เราใช้อยู่ ซึ่งเป็นตัวหลักในการออกแบบโพรเซส ในการการวิเคราะห์ข้อมูลต่างๆ เช่น การคาดการณ์ว่าลูกค้าคนใดจะยกเลิกการใช้บริการ ด้วยโมเดล Decision Tree
          • RapidMiner Server เป็นการทำงานบนเครื่องคอมพิวเตอร์และรองรับการทำงานจากผู้ใช้งานที่หลากหลายบัญชี พร้อมๆ กัน โดยสามารถสร้างกราฟในลักษณะของ Business Intelligence และสามารถตั้งเวลาในการทำงาน รวมไปถึงการสร้าง web service เพื่อให้โปรแกรมต่างๆ สามารถใช้งานร่วมด้วย

      • Data Analysis and Report using Power BI Desktop

การทำรายงานด้วย Microsoft Power BI Desktop ซึ่งเป็นโปรแกรมที่ถูกนำมาใช้กับงานงานพัฒนาทรัพยากรสารสนเทศ ซึ่งเป็นการรายงานสถิติการยืม-คืน ผ่านระบบห้องสมุดอัตโนมัติ Sierra ซึ่งเป็นการเรียนรู้การใช้งานด้านการออกแบบสถิติ พร้อมนำมาปรับใช้ให้ตรงตามสิ่งที่งานงานพัฒนาทรัพยากรสารสนเทศต้องการ ทั้งนี้การทำ Workshop ในวันนี้ ได้รับความรู้ และเทคนิคการทำ Data Transformations, Data Modeling, และ Data Visualization เพิ่มเติมจากคอร์สอบรม ดังนี้

          • Data Transformations
            • การนำเข้าข้อมูลจากแหล่งต่างๆ
            • การจัดการข้อมูลให้พร้อมใช้งาน อย่างง่าย
            • การแยกคอลัมน์
            • การเปลี่ยนประเภทของข้อมูล
            • การเพิ่มคอลัมน์ Custom Columns
            • การเพิ่มคอลัมน์ Conditional Columns
          • Data Modeling
            • การจัดการ Data Relationship
            • การสร้าง Calculated Columns
            • การสร้าง Calculated Measures
            • การสร้าง Hierarchies
            • การวิเคราะห์ ด้านเวลา
            • การสร้าง Custom Sorting
          • Data Visualization
            • Table และ Matrix
            • Bar Chart (Combo Chart)
            • Pie และ Treemap
            • Map Visualization
            • Hierarchical Axis
            • Analytics Pane
            • Filter vs Focus
            • Clustering และ Machine Learning

จาก Workshop ในครั้งนี้สามารถนำความรู้และเทคนิคต่างๆ ที่ได้นำมาประยุกต์กับงานประจำด้านการวิเคราะห์ข้อมูล เพื่อให้งานที่ทำมีประสิทธิภาพมากยิ่งขึ้น โดยผลงานที่นำมาปรับใช้อยู่ในหน้าสถิติ บนเว็บไซต์หอสมุดและคลังความรู้ฯ https://www.li.mahidol.ac.th/statistics/


Mahidol University Library and Knowledge Center @ 2019