CORRELATION LÀ GÌ

     

Phân tích đối sánh Pearson r (cung cấp cho một hệ số đối sánh Pearson, được cam kết hiệu là r) là thước đo độ mạnh của mối liên kết tuyến tính giữa hai biến. Về cơ bản, sự đối sánh Pearson cố gắng vẽ một đường cân xứng nhất trải qua dữ liệu của hai biến và hệ số đối sánh Pearson, r, cho biết khoảng cách tất cả các điểm dữ liệu này mang đến đường cân xứng nhất này (tức là các điểm dữ liệu này xuất sắc như nắm nào với mô hình / con đường mới phù hợp nhất).

Bạn đang xem: Correlation là gì

1. Bao giờ sử dụng?

Phân tích đối sánh tương quan Pearson, r, có thể được thực hiện làm cầu lượng mẫu cho tương quan dân số, ρ (rho). Nó là 1 chỉ số không tồn tại thứ nguyên về mối quan hệ tuyến tính thân hai đổi thay ngẫu nhiên, giá trị bởi 0 có nghĩa là không có mối quan hệ tuyến tính giữa các biến và giá trị bởi 1 cho biết mối quan hệ tuyến tính hoàn hảo. Nếu mối tương quan là âm, tức là giá trị tăng bên trên một trở thành được kết phù hợp với giá trị giảng trên biến kia. Cực hiếm của r có thể chuyển đổi giữa −1 với +1 bất cứ kích thước giám sát của hai biến.

Tương quan Pearson, r, bắt buộc được xem như là một thống kê trình bày (descriptive statistic) lúc 1 nhà nghiên cứu và phân tích muốn định lượng mức độ của mối quan hệ tuyến tính giữa các biến. Một đối sánh tham số sẽ thích hợp bất cứ khi nào các phép đo định lượng được tiến hành đồng thời trên nhì hoặc những biến, quan hệ giữa hai đổi mới là tuyến tính và cả hai biến hóa đều được triển lẵm chuẩn. Các mối đối sánh tương quan phải luôn luôn được soát sổ trước khi tiến hành các phân tích nhiều biến phức tạp hơn, ví dụ như phân tích yếu tố (factor analysis) hoặc phân tích thành phần chủ yếu (principal component analysis). Mức độ của mối quan hệ tuyến tính thân hai thay đổi số hoàn toàn có thể khó đánh giá từ biểu đồ phân tán và thông số tương quan cung ứng một bản tóm tắt gọn ghẽ hơn. Tuy nhiên, sẽ không khôn ngoan nếu cố gắng tính toán mối đối sánh khi biểu đồ gia dụng phân tán trình bày một mối quan hệ phi tuyến đường tính rõ ràng. Khi một nhà nghiên cứu lưu ý đến cả mức khoảng rộng và chân thành và ý nghĩa của một mối đối sánh tương quan thì r được sử dụng theo cách suy diễn như một ước lượng của mối đối sánh dân số, ρ (rho).

Công thức tính hệ số đối sánh Pearson vào hai đổi thay x cùng y từ n chủng loại như sau:

*

2. đưa thuyết vô hiệu và tư duy thống kê

Khi ước lượng kích cỡ của mối đối sánh tương quan dân số, bạn có thể muốn khám nghiệm xem nó có chân thành và ý nghĩa thống kê giỏi không. đưa thuyết vô hiệu là H0: ρ = 0, nghĩa là, trở thành X không tương quan tuyến tính với đổi mới Y. đưa thuyết sửa chữa thay thế là H1: ρ ≠ 0. Mang thuyết vô hiệu là một phép bình chọn xem có ngẫu nhiên mối quan liêu hệ ví dụ nào giữa những biến X cùng Y có thể phát sinh một cách tình cờ hay không. Triển lẵm mẫu của r là không chuẩn chỉnh khi đối sánh dân số lệch ngoài 0 với khi kích thước mẫu nhỏ dại (n Fisher’s z.

3. Những giả định thống kê

Trong một số sách thống kê giành riêng cho các nhà kỹ thuật xã hội, người ta xác định rằng để áp dụng mối đối sánh tương quan Pearson, cả hai biến phải bao gồm phân phối chuẩn, nhưng trong những văn bản khác, nó bảo rằng phân phối của tất cả hai biến nên đối xứng (symmetrical) và solo phương (unimodal) nhưng mà không tuyệt nhất thiết đề nghị chuẩn. Những chủ kiến này gây sợ hãi lớn cho các nhà nghiên cứu và cần được gia công rõ. Trường hợp thống kê tương quan chỉ được thực hiện cho mục đích mô tả thì không quan trọng phải sử dụng các giả định chuẩn về bề ngoài (form) của trưng bày dữ liệu. Các giả định độc nhất được yêu mong là:

các phép đo định lượng (mức khoảng chừng hoặc mức xác suất của phép đo) được thực hiện đồng thời trên hai hoặc nhiều đổi mới ngẫu nhiên. Tức là hai biến phải được thống kê giám sát trên thang đo khoảng chừng hoặc tỷ lệ. Tuy nhiên, cả nhì biến không cần thiết phải được đo lường trên cùng một thang đo (ví dụ, một biến hoàn toàn có thể là phần trăm và một rất có thể là khoảng).các phép đo bắt cặp cho từng đối tượng (ví dụ, mỗi người tham gia) là độc lập. Ví dụ, các bạn đã thu thập thời hạn ôn tập (tính bằng giờ) và hiệu quả thi (đo tự 0 mang lại 100) trường đoản cú 100 sv được đem mẫu tự dưng tại một trường đh (tức là bạn có hai đổi mới liên tục: “thời gian ôn tập” cùng “kỳ thi hiệu suất”). Mỗi người trong số 100 sinh viên sẽ sở hữu một cực hiếm về thời hạn ôn tập (ví dụ: “sinh viên số 1” đã học trong “23 giờ”) và tác dụng bài kiểm soát (ví dụ: “sinh viên số 1” đạt “81/100”). Vày đó, các bạn sẽ có 100 cực hiếm được ghép nối.

Các công dụng thu được sẽ trình bày mức độ mà mối quan hệ tuyến tính được áp dụng cho dữ liệu mẫu.

Ngoài ra, yêu cầu nhận xét không nguy hiểm về việc thực hiện r. Đây không phải là các giả định nghiêm khắc nhưng một trong những tình huống nghiên cứu và phân tích điển hình lúc r hoặc là cần được lý giải một giải pháp thận trọng, hoặc tránh việc sử dụng.

Khi phương không đúng của nhị thước đo hết sức khác nhau, thường tương quan đến các phạm vi khác nhau hoặc rất có thể là một phạm vi giới hạn cho một biến, thì mối đối sánh mẫu sẽ bị ảnh hưởng. Ví dụ: giả dụ một thay đổi bị tinh giảm phạm vi, (một phần của phạm vi điểm số không được áp dụng hoặc ko phù hợp) thì điều này sẽ sở hữu được xu phía làm sút (thấp hơn) mối đối sánh tương quan giữa nhị biến.Khi có những giá trị ngoại lệ, r bắt buộc được lý giải một biện pháp thận trọng.Khi những quan sát được mang từ một nhóm không đồng hóa (heterogeneous). Nếu tốt nhất, tài liệu nên là đồng độc nhất vô nhị (homoscedasticity). Đồng nhất trong tương quan có nghĩa là các phương sai dọc theo mặt đường của sự cân xứng nhất vẫn tương tự như khi dịch rời dọc theo đường. Nếu những phương sai rất khác nhau thì tất cả phương sai thay đổi (hay có cách gọi khác heteroscedasticity). Đồng tuyệt nhất (hay độ co và giãn đồng nhất) được thể hiện dễ ợt nhất bằng sơ đồ, như hình dưới đây:

*

Khi tài liệu thưa thớt (có quá không nhiều số đo), r không nên được sử dụng. Với quá ít giá trị, tất yêu nói liệu quan hệ hai biến gồm tuyến tính hay không. Tương quan Pearson r là phù hợp nhất cho các mẫu to hơn (n> 30).Không phải sử dụng đối sánh r khi những giá trị bên trên một trong số biến sẽ được cố định trước.

4. Phân tích đối sánh tương quan Pearson r trong SPSS

Ví dụ, một nhà phân tích muốn biết liệu kết quả kỳ thi viết cuối kì môn Toán giải thích có tương quan với thời gian ôn tập cuối kì của các sinh viên tuyệt không. Có 20 sinh viên được mời thâm nhập một cuộc demo nghiệm, kể từ lúc bài học tập của môn Toán giải tích kết kết mang đến ngày thi cuối kì, chúng ta được đề nghị ghi lại tổng thời gian ôn bài (cộng dồn của từng ngày) dành riêng cho môn Toán. Xong kì thi, nhà nghiên cứu thu thập điểm số của trăng tròn sinh viên này theo thang điểm 100, và tổng hợp theo bảng dưới đây.

*

Hai thắc mắc nghiên cứu được xem xét: i) Điểm thi viết cuối kì môn Toán giải thích có liên quan tuyến tính với số giờ ôn tập của những sinh viên hay không? với ii) thời gian ôn tập của những sinh viên có tương quan tuyến tính với điểm thi viết cuối kì môn Toán phân tích và lý giải hay không?

Các bước sau đây hướng dẫn chúng ta cách phân tích tương quan Pearson r trong thống kê SPSS.

Xem thêm: 7+ Cách Ủ Sữa Chua Không Cần Nước Dễ Thành Công Theo Cách Mới Nhất

– bước 1: bình chọn biểu đồ phân tán mô tả mối quan hệ giữa nhị biến. Xin vui miệng đọc bài xích cách vẽ biểu đồ gia dụng phân tán. Tác dụng vẽ biểu đồ vật phân tán được trình bày trong hình bên dưới đây.

*

Nhận xét: Biểu đồ vật scatter giữa Điểm thi với Ôn tập lưu ý xu hướng ngay gần đúng đường tính, tuy vậy cỡ chủng loại là nhỏ dại để quan tiền sát ví dụ một con đường tuyến tính. Trong thực tế, họ cần một độ lớn mẫu phệ hơn, ít nhất n > 30. Biểu đồ gia dụng này cũng cho biết một quan liền kề ngoại lệ rất cụ thể (điểm gần giá trị 4 sống trục hoành).

– bước 2: khi biểu đồ dùng phân tán dự đoán mối quan hệ tuyến tính, bọn họ tiến hành phân tích tương quan Pearson r. Click Analyze-> Correlate -> Bivariate…

*

– cách 3: Trong vỏ hộp thoại Bivariate Correlations, chúng ta chuyển các biến yêu cầu kiểm tra tương quan với nhau vào vỏ hộp Variables. Chú ý check vào hộp Pearson vào vùng Correlation Coefficients. Kế tiếp nhấp OK để chạy kết quả.

*

Phân tích kết quả:

Bảng Correlations trình bày hệ số đối sánh tương quan Pearson r, giá bán trị ý nghĩa sâu sắc p của nó và kích thước mẫu được xem toán. Trong ví dụ như này, bạn có thể thấy rằng hệ số đối sánh Pearson, r, là 0.78 và nó có ý nghĩa sâu sắc thống kê (p = 0.000).

*

Chúng ta có thể viết báo cáo rằng, một tương quan Pearson đã có chạy để xác định mối quan tiền hệ tuyến đường tính thân Điểm thi viết cuối kì môn Toán lý giải và khoảng thời gian ôn tập của các sinh viên. Kết quả cho biết có mối tương quan thuận thân Điểm thi viết cuối kì môn Toán lý giải và khoảng thời gian ôn tập của những sinh viên (r = 0.780, n = 20, p = 0.000).

– cách 4: Kiểm tra ý nghĩa sâu sắc của hệ số tương quan r

Một lúc mối tương quan đã được xem toán, nhà nghiên cứu có thể muốn biết năng lực xảy ra mối đối sánh tương quan thu được này như thế nào, nghĩa là, đây gồm phải là việc xuất hiện tình cờ hay nó đại diện thay mặt cho mối tương quan dân số xứng đáng kể?

Để tiến hành việc này, r được chuyển đổi, và phần trăm của phương pháp ước lượng này dựa vào phân phối mẫu mã của thống kê t (t-statistic). do đó, ý nghĩa sâu sắc của một hệ số đối sánh tương quan Pearson chiếm được được tấn công giá bằng phương pháp sử dụng phân phối t (t-distribution) cùng với n − 2 bậc tự do thoải mái (df) cùng được cho do phương trình sau:

*

Giả thuyết loại bỏ được kiểm định là hai biến độc lập, tức là không có mối quan hệ tuyến tính giữa chúng, H0: ρ = 0. Giả thuyết sửa chữa thay thế là, H1: ρ ≠ 0.

Để trả lời câu hỏi, có mối đối sánh đáng nhắc nào, ở tại mức 5%, giữa điểm Điểm thi viết cuối kì môn Toán phân tích và lý giải và thời gian ôn tập của các sinh viên không? t sẽ tiến hành tính như sau:

*

Tra bảng cho tới hạn của quý hiếm t (critical t-value) thu được giá trị là 2.101. Thống kê kiểm tra t là thừa quá quý giá tới hạn này, (5.433 > 2.101), và cho nên vì thế giả thuyết vô hiệu bị bác bỏ bỏ. Bọn họ kết luận rằng mối tương quan có chân thành và ý nghĩa ở nấc 5%.

– bước 5: chất vấn khoảng tin cẩn của hệ số tương quan r

Khoảng tin tưởng là dựa vào một sự biến hóa thống kê r thành những thống kê Fisher’s z. Điều này không giống hệt như độ lệch Z (Z-deviate) đối với phân phối chuẩn chỉnh (đôi khi được gọi là điểm Z). Để diễn giải khoảng tầm tin cậy, điểm số Fisher’s z đề xuất được chuyển đổi trở lại số liệu tương quan. Fisher’s z được review là:

Khoảng tin cậy (95%) mang lại mối tương quan lưỡng đổi mới giữa Điểm thi viết cuối kì môn Toán giải thích và số giờ ôn tập của các sinh viên được xem bằng công thức:

*

Công thức chuyển đổi Fisher’s Z được khái niệm là:

*

Áp dụng những công thức trong ví dụ như (với r = 0.78), ta có:

*

Khoảng tin cậy (95%):

*

= 0.57 đến 1.52

Các quý giá này hiện thời phải được biến hóa trở lại số liệu ban đầu.

Xem thêm: P/L Là Gì ? Thuật Ngữ Pl Trong Toán Học Và Kinh Doanh Xuất Nhập Khẩu

*

Nhận xét: bạn có thể kết luận rằng chúng ta chắc chắn 95% rằng mối tương quan dân số là dương cùng nằm trong vòng 0.515 đến 0.909. Khoảng tin tưởng này không bao gồm giá trị 0, điều này cho thấy mối đối sánh tương quan có chân thành và ý nghĩa thống kê ở tầm mức 5%.

Tài liệu tham khảo