การวิเคราะห์การถดถอยและสหสัมพันธ์ด้วยโปรแกรม MS Excel

ผู้ช่วยศาสตราจารย์ ดร.วรวิทย์ จันทร์สุวรรณ
ปรับปรุงล่าสุด: 1 มีนาคม 2564

การวิเคราะห์การถดถอย

การวิเคราะห์การถดถอย (regression analysis) เป็นวิธีการทางสถิติที่ศึกษาความสัมพันธ์ของตัวแปรที่ทราบค่า เรียกว่า ตัวแปรอิสระ (independent variation) นิยมใช้สัญลักษณ์ x ซึ่งสามารถนำมาประมาณค่าของตัวแปรอีกตัวหนึ่งที่เรียกว่า ตัวแปรตาม (dependent variation) ใช้สัญลักษณ์ y การศึกษาถึงความสัมพันธ์ระหว่างตัวแปร 2 ตัว ที่สามารถบอกได้ว่าตัวแปรใดเป็นตัวแปรอิสระและตัวแปรใดเป็นตัวแปรตาม ซึ่งความสัมพันธ์ของตัวแปรทั้งสองจะอยู่ในรูปแบบใด ๆ เช่น เส้นตรง เส้นโค้ง เป็นต้น ในระดับนี้จะกล่าวเฉพาะ การวิเคราะห์การถดถอยอย่างง่าย (simple regression analysis) ซึ่งสามารถแสดงความสัมพันธ์ในรูปสมการเชิงเส้นหรือเส้นตรง

y = a + bx

การประมาณค่า a และ b จากข้อมูล (x1, y1), (x2, y2),…, (xn, yn) เพื่อให้ได้เส้นตรงที่เข้ากับข้อมูลได้ดีที่สุด มีวิธีการที่เป็นที่นิยมใช้คือ วิธีกำลังสองน้อยที่สุด (least squares method) วิธีนี้จะให้ค่าประมาณ a และ b ที่ทำให้ความแตกต่างของค่าตัวแปรตามกับค่าที่คาดคะเนได้จากสมการถดถอยมีค่าน้อยที่สุด โดยค่าจุดตัดแกน y (intercept, a) และความชัน (slope, b) ของเส้นถดถอยที่ประมาณด้วยวิธีกำลังสองน้อยที่สุด หาได้ดังนี้

การประมาณสมการถดถอยหรือคำนวณค่า a และ b จะใช้เครื่องคิดเลขที่มีฟังก์ชันเฉพาะหรือใช้คำสั่งคำนวณการถดถอยในโปรแกรมไมโครซอฟท์เอกซ์เซล ซึ่งการใช้โปรแกรมคอมพิวเตอร์จะสะดวกในทางปฏิบัติและถูกต้องมากกว่า เพราะสามารถสร้างกราฟของแผนภาพการกระจายของข้อมูลขึ้นมาก่อน เพื่อดูว่าสมการเส้นตรงเหมาะสมกับข้อมูลมากน้อยเพียงใด

 

การวิเคราะห์สหสัมพันธ์

การวิเคราะห์สหสัมพันธ์ (correlation analysis) เป็นการศึกษาระดับหรือขนาดของความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรสองตัวแปร (ตัวแปร x และ y) ว่ามีมากน้อยเพียงใด และมีทิศทางความสัมพันธ์อย่างไร เมื่อ x เป็นตัวแปรอิสระ และ y เป็นตัวแปรตาม ค่าสัมประสิทธิ์สหสัมพันธ์อย่างง่าย (simple correlation coefficient) ของข้อมูลกลุ่มตัวอย่าง นิยมเขียนแทนด้วย r โดยวัดออกมาเป็นตัวเลขที่มีค่าอยู่ระหว่าง -1 กับ 1 ดังนั้นเมื่อรวบรวมข้อมูลของตัวแปร x และ y มาจำนวน n คู่ คือ (x1, y1), (x2, y2),…,(xn, yn) จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จากข้อมูล ได้ดังนี้

ค่าสัมประสิทธิ์สหสัมพันธ์เป็นค่าที่แสดงว่าตัวแปร x มีอิทธิพลต่อตัวแปร y มากน้อยเพียงใด โดยที่ค่าสัมประสิทธิ์สหสัมพันธ์แสดงด้วย r2 โดยที่ 0 ≤ r2 ≤ 1 สรุปได้ดังนี้

  • ถ้า r มีค่าใกล้ 1 แสดงว่า ตัวแปรสองตัวนั้นมีความสัมพันธ์กันมาก และมีทิศทางเดียวกัน กล่าวคือ ถ้า x มีค่ามาก y จะมีค่ามากด้วย
  • ถ้า r มีค่าใกล้ -1 แสดงว่า ตัวแปรสองตัวนั้นมีความสัมพันธ์กันมาก แต่มีทิศทางตรงข้ามกัน กล่าวคือ ถ้า x มีค่ามาก y จะมีค่าน้อย หรือ x มีค่าน้อย y จะมีค่ามาก
  • ถ้า r จะเข้าใกล้ 0 แสดงว่า x และ y มีความสัมพันธ์กันน้อย

การวิเคราะห์สหสัมพันธ์ด้วยโปรแกรม MS Excel

การประยุกต์ใช้โปรแกรมเอกซ์เซลสำหรับคำนวณการวิเคราะห์การถดถอยและสหสัมพันธ์ เพื่อพิจารณาความสัมพันธ์ของข้อมูล โดยทั่วไปอาจนำมาใช้ในการวิเคราะห์ทางเคมี 2 ประเภท ดังนี้

1) ความสัมพันธ์เชิงฟังก์ชันแบบกราฟเส้นตรง (linear function) ซึ่งอยู่ในรูปสมการ y = ax + b เมื่อ y คือ ตัวแปรตาม x คือ ตัวแปรอิสระ a คือ ความชันของเส้นตรง และ b คือ จุดตัดแกน y
2) ความสัมพันธ์เชิงฟังก์ชันแบบกราฟไม่เป็นเส้นตรง (non-linear function) เส้นกราฟอาจมีลักษณะเป็นรูปพาราโบลา หรือเอกซ์โพเนนเชียล หรือไฮเพอร์โบลา

ในที่นี้ขอยกตัวอย่างความสัมพันธ์เชิงฟังก์ชันแบบกราฟเส้นตรงที่เกิดจากการสร้างกราฟมาตรฐานความเข้มข้น โดยมีข้อมูลผลการวิเคราะห์ค่าการดูดกลืนแสงที่ความยาวคลื่น 527 nm ของอนุภาคนาโนเมตรของทองคำ ที่มีความเข้มข้น 0.010, 0.050, 0.100, 0.200, 0.400 และ 0.600 mg/L และมีค่าการดูดกลืนเป็น 0.0045, 0.0284, 0.0561, 0.1416, 0.2853 และ 0.4364 ตามลำดับ ขั้นตอนการคำนวณการถดถอยและสหสัมพันธ์ด้วยโปรแกรมเอกซ์เซล ดังนี้

1) เปิดโปรแกรมเอกซ์เซล  บันทึกตัวเลขที่ต้องการหาความสัมพันธ์เชิงฟังก์ชันแบบกราฟเส้นตรง กำหนดแถบเลือกข้อมูล>เลือกเมนูแทรก>เลือกแผนกระจาย (X, Y) จะปรากฏเส้นจุดที่แสดงความสัมพันธ์ของข้อมูลที่เลือกระหว่างแกน x และ y

2) คลิกขวาที่จุดใดจุดหนึ่งบนแนวเส้นกราฟ จะปรากฏแถบข้อมูล x เลือกเพิ่มเส้นแนวโน้ม (Add trendline) จะปรากฏแนวโน้มเส้นกราฟ และแถบเมนูตัวเลือกแนวโน้ม ดังภาพ

3) แถบเมนูตัวเลือกแนวโน้ม (y) เลือกเส้นแนวโน้มเป็นเชิงเส้น และทำเครื่องหมาย Pที่ช่องตั้งค่าจุดตัดแกน (ถ้าต้องการกำหนดตำแหน่งจุดตัดแกน) ช่องแสดงสมการบนแผนภูมิ (เพื่อให้แสดงสมการเส้นตรง) และช่องแสดงค่า R-squared บนแผนภูมิ จากตัวอย่างจะเห็นว่าได้สมการเส้ตรงเป็น y = 0.7396x - 0.0089 โดยมีค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับ 0.9991 (z) ซึ่งแสดงความสัมพันธ์เชิงเส้นตรงของสารอนุภาคนาโนเมตรของทองคำในช่วงความเข้มข้น 0.050 - 0.600 mg/L ดังภาพ