บทนี้ครอบคลุมการนำเข้าข้อมูลจากไฟล์ Excel ที่ซับซ้อนมายัง DataFrame ของ Pandas โดยเน้นที่การจัดการกับโครงสร้างไฟล์ที่ไม่เป็นมาตรฐาน
การอัปโหลดไฟล์: เริ่มต้นด้วยการอัปโหลดไฟล์ .xlsx ไปยัง Google Colab
การนำเข้า Pandas: ใช้คำสั่ง import pandas as pd เพื่อนำเข้าไลบรารี Pandas
การอ่านไฟล์เบื้องต้น: ใช้คำสั่ง df = pd.read_excel('filename.xlsx') เพื่ออ่านไฟล์ Excel เข้าสู่ DataFrame
การแสดงผล: กด Shift + Enter เพื่อรันคำสั่งและแสดงผล DataFrame
การจัดการไฟล์ที่ซับซ้อน:
ปัญหา: เมื่อเปิดไฟล์ที่ซับซ้อน ส่วนหัวของตารางอาจไม่ได้อยู่ที่แถวแรก ทำให้การแสดงผลผิดจากที่ต้องการ (เช่น ส่วนหัวอยู่ที่แถว 3)
วิธีแก้ไข - ข้ามแถว: ใช้พารามิเตอร์ skiprows เพื่อข้ามแถวที่ไม่ต้องการ เช่น df = pd.read_excel('filename.xlsx', skiprows=3) เพื่อข้าม 3 แถวแรก
วิธีแก้ไข - ข้ามท้ายไฟล์: หากมีแถวที่ไม่ต้องการรวมอยู่ท้ายไฟล์ (เช่น แถว 83-97 รวม 15 แถว) ให้ใช้พารามิเตอร์ skipfooter เช่น df = pd.read_excel('filename.xlsx', skiprows=3, skipfooter=15)
การเปลี่ยนชื่อคอลัมน์:
ปัญหา: คอลัมน์ในไฟล์ Excel ที่ซับซ้อนอาจมีชื่อที่ไม่สื่อความหมาย หรือมีคอลัมน์ที่ซ้ำกัน (เช่น C-F, G-J, K-N, O-R เป็นของปี 2560-2563)
การตรวจสอบคอลัมน์ปัจจุบัน: ใช้คำสั่ง df.columns เพื่อดูชื่อคอลัมน์ปัจจุบัน ซึ่งจะแสดงเป็นตัวแปรชนิด List
การเปลี่ยนชื่อคอลัมน์: คัดลอกค่าคอลัมน์จาก df.columns และนำมาปรับแก้ไขในคำสั่ง df.columns=[..., ..., ...] โดยปรับค่าใน List ให้ตรงกับชื่อคอลัมน์ที่ต้องการตามข้อมูลในไฟล์ Excel เพื่อให้คอลัมน์มีความหมายและใช้งานง่ายขึ้น