Thứ Năm, 1 tháng 2, 2018

Lỗi không hiển thị giá trị Cronbach’s Alpha if Item Deleted

Hiện tượng lỗi không hiển thị giá trị Cronbach's Alpha if Item Deleted

Khi chạy chương trình SPSS,có lúc phần Cronbach's Alpha if Item Deleted không hiện số, giống như bị lỗi như hình dưới. Nhóm MBA sẽ hướng dẫn các bạn cách xử lý lỗi này nhé.

Giải pháp xử lý lỗi Cronbach's Alpha if Item Deleted không hiện ra, chỉ hiện dấu chấm .

-Thực ra nếu gọi đây là lỗi thì cũng không đúng, vì bất kì nhân tố nào có 2 biến mà chạy cronbach's alpha đều hiện ra kết quả như trên. Lý do là giá trị này là giá trị dự đoán cho cronbach's alpha của nhân tố khi loại biến trong hàng đó ra. Mà mình có mỗi 2 câu,  loại 1 câu thì chỉ còn 1 câu. Mà nhân tố chỉ có 1 câu thì không thể thực hiện chạy cronbach's alpha cho nó được. Dẫn đến kết quả chỉ hiển thị dấu chấm . chứ không có hiện số.
-Cách xử lý hợp lý nhất là lúc thiết  kế bảng câu hỏi nên thiết kế mỗi nhân tố có ít nhất 3 câu nhé. Còn nếu việc đã rồi thì chấp nhận để kết quả nhân tố có 2 câu.
Như vậy nhóm MBA đã giới thiệu nguyên nhân và cách xử lý hiện tượng Lỗi không hiển thị giá trị Cronbach's Alpha if Item Deleted , các bạn tham khảo nhé.
– Zalo, Viber, SMS
phone number
– Facebook: http://facebook.com/hoidapSPSS/

– Email:        hotrospss@gmail.com

Phân tích biệt số – Phân tích phân biệt – Discriminant analysis

Nhóm Ths QTKD ĐH Bách Khoa Hỗ Trợ SPSS giới thiệu đến các bạn bài giảng về phân tích biệt số của Th.S Phạm Lê Hồng Nhung, mời các bạn theo dõi

Phân tích biệt số là gì?

Phân tích phân biệt được dùng để giải quyết một số tình huống khi nhà nghiên cứu muốn tìm thấy sự khác biệt giữa những nhóm đối tượng nghiên cứu với nhau, ví dụ phân biệt khách hàng trung thành và không trung thành bằng một số đặc điểm nhân khẩu học, phân biệt các phân khúc khách hàng bằng một số tiêu chí lợi ích khi sử dụng một sản phẩm…
Điều kiện của phân tích phân biệt là phải có một biến phụ thuộc (là biến dùng để phân loại đối tượng thường sử dụng thang đo định danh hoặc thứ tự), và một số biến độc lập (là một số đặc tính dùng để phân tích sự khác biệt giữa các nhóm đối tượng, thường sử dụng thang đo khoảng hoặc tỷ lệ). Phân tích biệt số có thể thực hiện các việc sau:
-Xây dựng các hàm phân tích phân biệt (discriminant functions) để phân biệt rõ xã biểu hiện của biến phụ thuộc.
-Nghiên cứu xem các nhóm có sự khác biệt có ý nghĩa hay không khi được xét về các yếu tố độc lập.
-Xác định biến độc lập là nguyên nhân chính nhất gây ra sự khác biệt giữa các nhóm.
Có 2 trường hợp phân tích biệt số: phân tích biệt số 2 nhóm (khi biến phụ thuộc có 2 biểu hiện), phân tích biệt số bội (khi biến phụ thuộc có từ 3 biểu hiện trở lên).

Ví dụ phân tích biệt số

Khi phân tích về lợi nhuận của những hộ tham gia làng nghề nhà nghiên cứu đã phân thành 2 nhóm: hộ có lợi nhuận (lợi nhuận > 0) và hộ không có lợi nhuận (LN ≤ 0). Nhà nghiên cứu muốn xem xét sự khác biệt giữa 2 nhóm hộ có lợi nhuận như trên về các yếu tố: tuổi, năm kinh nghiệm, vốn, số lao động, số mặt hàng, tính chất làng nghề (1-đã được công nhận, 0 – chưa được công nhận), tính chất hoạt động của hộ (1-hộ chuyên, 0 – hộ kiêm).

Thực hành phân tích biệt số trên SPSS

Bước 1. Chia mẫu quan sát thành 2 phần
Đối với phân tích phân biệt, ta phải chia mẫu quan sát thành 2 phần: mẫu ước lượng hay mẫu phân tích (là phần dung để ước lượng hàm phân biệt); phần còn lại là để kiểm tra tính đúng đắn của hàm phân biệt (mẫu kiểm tra). Khi cỡ mẫu đủ lớn, ta có thể chia thành 2 phần bằng nhau và theo tỷ lệ của toàn bộ mẫu.
Ví dụ: trong ví dụ trên, cỡ mẫu là 122 mẫu (có 66 mẫu ko có LN – chiếm 54% và 56 mẫu có LN – chiếm 46%). Ta sẽ tiến hành chia thành 2 phần, mỗi phần gồm 61 mẫu: trong đó có 33 mẫu ko có LN và 28 mẫu có LN.
Bước 2. Tiến hành phân tích biệt số trên SPSS
Vào Analyze ->Classify->Discriminant, xuất hiện hộp thoại sau:
–  Đưa biến phân loại 2 nhóm hộ có LN khác nhau vào ô Grouping Variable -> Khai báo Define Range (1 là hộ có TN, 0 là hộ ko có TN) -> Continue.
–  Đưa các biến độc lập vào ô Independents.
–  Xác định biến quan sát dùng để phân tích và kiểm tra tại ô Selection Variable. Tiếp theo sẽ khai báo Value. Khi phân chia mẫu ở bước 1, ta đã mã hóa nhóm dùng để phân tích là 1, nhóm dùng để kiểm tra là 0, nên sẽ nhập số 1 vào ô Value for Selection Variable. -> Continue.
-Tiếp theo chọn nút Statistics và khai báo như sau: trung bình, bảng phân tích phương sai đơn, các ma trận hệ số tương quan và hiệp phương sai…
– Tiếp theo chọn nút Classify, và khai báo các phần như sau -> Continue
·Tại ô Prior Probabilities: xác suất dung để phân biệt đối tượng. Có 2 cách xác định: Xác suất bằng nhau giữa các nhóm (All groups equal), Xác suất theo tỷ lệ hay quy mô của các nhóm (Compute from group sizes).
· Display: thể hiện kết quả chi tiết của từng quan sát (case wise results), bảng kết quả phân biệt tóm tắt (summary table).
· Use Vovariance Matrix: phân biệt các quan sát bằng ma trận hiệp phương sai nội bộ các nhóm trung bình hay bằng ma trận hiệp phương sai các nhóm riêng biệt.
· Plots: vẽ biểu đồ phân tác chung cho các nhóm hay riêng cho từng nhóm, và vẽ biểu đồ vị trí.

Giải thích kết quả phân tích biệt số

-Bảng Tests of Equality of Group Means
Nếu xem xét một cách riêng biệt thì chỉ có tính chất hoạt động của hộ (hộ chuyên hay hộ kiêm), số mặt hàng, vốn cố định, và tính chất làng nghề (đã và chưa được công nhận) có khả năng phân biệt một cách có ý nghĩa khác biệt giữa những hộ có lợi nhuận và những hộ không có lợi nhuận.
Tests of Equality of Group Means
 
Wilks' Lambda
F
df1
df2
Sig.
Tuoi
.999
.071
1
59
.791
Namkinhnghiem
.998
.138
1
59
.712
Tính chất hộ
.862
9.437
1
59
.003
Tong lao dong
.975
1.496
1
59
.226
Somathang
.923
4.925
1
59
.030
Von co dinh (1000d)
.922
4.988
1
59
.029
Von luu dong (1000d)
.962
2.322
1
59
.133
Tinh chat nghe
.721
22.785
1
59
.000
– Bảng Eigenvalues. Vì trường hợp này chỉ có 2 nhóm (có lợi nhuận và không có lợi nhuận) nên chỉ có 1 hàm phân biệt được ước lượng. Giá trị eigen là 0.858 và chiếm đến 100% phương sai giải thích được nguyên nhân. Hệ số tương quan canonical tương ứng là 0.680, cho thấy 46% của phương sai biến phụ thuộc (lợi nhuận) được giải thích bởi mô hình này. (bình phương hệ số 0.680 = 0.46 = 46%).
Eigenvalues
Function
Eigenvalue
% of Variance
Cumulative %
Canonical Correlation
1
.858a
100.0
100.0
.680
a. First 1 canonical discriminant functions were used in the analysis.
-Tiếp theo sẽ xác định xem hàm phân biệt được ước lượng có ý nghĩa về mặt thống kê hay không. Với hệ số Wilk l là 0.538 và giá trị p là 0.000 nhỏ hơn mức ý nghĩa 5% rất nhiều, nên có thể kết luận sự phân biệt có ý nghĩa thống kê ở mức ý nghĩa 5%, và có thể tiến hành giải thích kết quả
Wilks' Lambda
Test of Function(s)
Wilks' Lambda
Chi-square
df
Sig.
1
.538
34.068
8
.000
-Kết quả được giải thích chi tiết như sau:
Tầm quan trọng của các biến được thể hiện qua độ lớn trị tuyệt đối của hệ số chuẩn hóa (bảng Standardized Canonical Discriminant Function Coefficients). Các biến có trị tuyệt đối hệ số chuẩn hóa càng lớn thì càng đóng góp nhiều hơn vào khả năng phân biệt của hàm. Hoặc có thể xem xét điều này tại bảng Structure Matrix, mức độ tác động của các biến được xếp theo thứ tự giảm dần.
Standardized Canonical Discriminant Function Coefficients
 
Function
 
1
Tuoi
.147
Namkinhnghiem
.316
Tính chất hộ
.551
Tong lao dong
.105
Somathang
.229
Von co dinh (1000d)
.464
Von luu dong (1000d)
.197
Tinh chat nghe
.816
Theo kết quả, ta thấy biến tính chất hoạt động của hộ là biến dự đoán quan trọng nhất dùng để phân biệt 2 nhóm lợi nhuận, tiếp đến là biến tính chất làng nghề, vốn cố định và số mặt hàng.
Dấu của các hệ số của tất cả các biến dự đoán đều dương cho thấy rằng những hộ tham gia làng nghề đã được công nhận, hộ chuyên sản xuất, vốn cố định và vốn lưu động càng cao, số mặt hang càng nhiều, tổng lao động nhiều, nhiều kinh nghiệm và tuổi chủ hộ càng cao thì hộ sẽ càng có khả năng có lợi nhuận.
–   Đánh giá hàm phân biệt thông qua mẫu kiểm tra.
Bảng Classification Results cho thấy kết quả phân loại dựa trên mẫu phân tích. Tỷ lệ phân biệt đúng là (26+22)/61 = 0.787 = 78.7%, tỷ lệ này được tính dựa vào những mẫu nhà nghiên cứu đã chọn. Để kiểm tra tính đúng đắn của hàm phân biệt được ước lượng, ta phải thực hiện kiểm tra trên mẫu được chọn một cách ngẫu nhiên. Tỷ lệ này là (16+19)/61 = 0.574 = 57.4%. Có thể kết luận mô hình phân biệt này là khá tốt.
Classification Resultsa,b
 
 
 
LN 1 cao – 0 Thap
Predicted Group Membership
Total
 
 
 
0
1
Cases Selected
Original
Count
0
26
7
33
1
6
22
28
%
0
78.8
21.2
100.0
1
21.4
78.6
100.0
Cases Not Selected
Original
Count
0
16
17
33
1
9
19
28
%
0
48.5
51.5
100.0
1
32.1
67.9
100.0
a. 78.7% of selected original grouped cases correctly classified.
 
b. 57.4% of unselected original grouped cases correctly classified.
 
 
Như vậy việc thực hiện phân tích biệt số đã được thực hiện đồng thời với việc diễn giải chi tiết ý nghĩa. Các bạn cần hỗ trợ khi làm bài, xử lý số liệu cứ liên hệ nhóm nhé.
Liên hệ:
-Zalo/Viber qua số điện thoại so-alo
-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Giá trị Communalities trong phân tích nhân tố EFA

Giá trị Communalities là mức độ một items tương quan với tất cả các items khác. Các giá trị Communalities lớn thì tốt hơn. Nếu giá trị Communalities của một biến mang giá trị thấp (giữa 0,0-0,4), thì biến đó có dấu hiệu  tải cùng lúc lên nhiều yếu tố. Trong bảng bên dưới, bạn nên xác định các giá trị thấp trong cột "Extraction". Giá trị thấp chỉ ra những ứng cử viên để loại bỏ sau khi bạn kiểm tra ma trận mẫu (pattern matrix) hoặc ma trận xoay (rotated component matrix). Tiêu chuẩn ngưỡng của giá trị Communalities > 0.4 là được chấp nhận.
Communalities
  Initial Extraction
TINCAY1 1.000 .829
TINCAY2 1.000 .790
TINCAY4 1.000 .847
DAPUNG1 1.000 .608
DAPUNG3 1.000 .824
DAPUNG5 1.000 .787
DAPUNG6 1.000 .708
DAMBAO1 1.000 .790
DAMBAO2 1.000 .620
DAMBAO3 1.000 .668
DAMBAO4 1.000 .743
CAMTHONG1 1.000 .657
CAMTHONG2 1.000 .797
CAMTHONG3 1.000 .798
HUUHINH1 1.000 .743
HUUHINH2 1.000 .728
HUUHINH3 1.000 .732
MINHBACH1 1.000 .541
MINHBACH2 1.000 .734
MINHBACH3 1.000 .526
MINHBACH4 1.000 .746
Extraction Method: Principal Component Analysis.

Lưu ý là Giá trị Communalities trong phân tích nhân tố EFA xuất hiện trong khi phân tích nhân tố, và thực tế thì giá trị này ít khi được phân tích, nguyên nhân là do khi vào ma trận xoay, biến nào xấu thì hệ số tải cũng khác thấp, và cũng bị loại nên cũng không cần loại ở bước nhận xét bảng Communalities

Cách khắc phục lỗi SPSS Error accessing the Excel file. If the file is open in another application, please close it and retry

Hiện tượng lỗi

Khi mở file excel từ phần mềm SPSS, có lúc sẽ bị lỗi : SPSS Error accessing the Excel file. If the file is open in another application, please close it and retry, (nghĩa là không thể truy cập file excel, nếu có một ứng dụng đang giữ file này, hãy đóng nó).

Có hai cách khắc phục lỗi này như sau:

1. Cách thứ 1: nếu có chương trình excel đang mở file dữ liệu này, hãy đóng nó lại.
2. Cách thứ 2: Nếu bạn xài SPSS bản 16.0 và file excel của bạn có đuôi .xlsx ,  thì bắc buộc bạn phải lưu file excel này thành dạng excel 2003 ( có đuôi là .xls) như sau:
Bật file excel data lên, chọn save as, xong chọn save as type, chọn loại là Excel 97-2003 Workbook(*.xls)
 
Sau khi lưu file mới rồi, mới dùng SPSS 16 để mở file excel mới, lúc đó chương trình sẽ hết báo lỗi Error accessing the Excel file. If the file is open in another application, please close it and retry
Chúc các bạn thành công.

Liên hệ:

-Viber/zalo qua số điện thoại so-alo

Giá trị hội tụ và giá trị phân biệt trong SPSS là gì?

  Nhóm MBA Bách Khoa giới thiệu các nội dung sau trong bài:
  • Giá trị hội tụ là gì, cách xác định một nhân tố có đạt giá trị hội tụ không?
  • Giá trị phân biệt là gì, tiêu chuẩn xác định ra sao?
Hai khái niệm Giá trị hội tụ và giá trị phân biệt xuất hiện trong khi bạn phân tích nhân tố EFA. Nhìn vào bảng ma trận xoay để đánh giá Giá trị hội tụ và Giá trị phân biệt nhé.

Giá trị hội tụ (Convergent validity)

Định nghĩa: Giá trị hội tụ có nghĩa là các biến trong một yếu tố có mối tương quan cao. Điều này được thể hiện bằng các hệ số nhân tố. Hệ số tải phụ thuộc vào kích thước mẫu của bộ dữ liệu của bạn. Nói chung, kích thước mẫu càng nhỏ thì hệ số tải yêu cầu càng cao.  Bất kể kích thước mẫu, quy tắc thông dụng tốt nhất là để tải lớn hơn 0.500 .
Cách xác định một nhân tố có đạt giá trị hội tụ: Hình bên dưới có 6 nhân tố tương ứng với 6 cột 1 2 3 4 5 6. Ta thấy trong từng cột, một nhân tố đạt giá trị hội tụ nếu hệ số tải nhân tố factor loading > 0.5 . Trong nhân tố thứ 1, có một biến làm cho nhân tố này không đạt độ giá trị hội tụ, đó là biến DAPUNG1 ( hệ số tải = 0.35) nên trong thực tế cần phải loại bỏ câu này ra và chạy lại EFA nhé.
loai bien efa 1

Giá trị phân biệt (Discriminant validity)

Định nghĩa giá trị phân biệt: là mức độ mà các yếu tố khác biệt với nhau và không tương quan với nhau. Nguyên tắc là các biến phải liên quan nhiều hơn đến yếu tố của chúng so với các yếu tố khác.
Có hai phương pháp chính để xác định giá trị phân biệt trong phân tích nhân tố:
Phương pháp đầu tiên là kiểm tra ma trận pattern matrix hoặc rotated component matrix. Tiêu chuẩn xác định giá trị phân biệt như sau: Các biến nên có hệ số tải lớn chỉ trên một nhân tố. Nếu "cross-loadings" tồn tại (biến tải trên nhiều yếu tố), thì tải chéo nên khác nhau nhiều hơn 0.3. Có nghĩa là trong cùng một dòng, hệ số tải lớn nhất và hệ số tải lớn nhì phải chênh nhau ít nhất là 0.3 . Trong hình bên dưới , có hai item không đạt giá trị phân biệt được tô màu đỏ.
loai-bien-efa-2
Phương pháp thứ hai ít được sử dụng hơn là kiểm tra ma trận tương quan yếu tố. Mối tương quan giữa các yếu tố không được vượt quá 0,7. Bởi vì tương quan lớn hơn 0,7 cho thấy shared variance lớn hơn 50%(0.7 * 0.7 = 49% shared variance). ( bảng này chỉ hiển thị khi chạy bằng phương pháp Principal Axis Factoring + Promax)
Như vậy nhóm MBA Bách Khoa đã trình bài các vấn đề liên quan đến khái niệm Giá trị hội tụ và giá trị phân biệt . Các bạn có cần hỗ trợ cứ liên hệ nhóm nhé.
-Viber/zalo qua số điện thoại so-alo
-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Ba loại T Test trong thống kê: khi nào cần sử dụng loại nào?

Trong thống kê, có ba loại t test thông dụng, đó là
  1. One-Sample T Test.
  2. Independent Samples T Test.
  3. Pair sample T test.
Nhóm MBA Bách KHoa Hỗ Trợ SPSS giới thiệu đến các bạn khi nào cần xài loại nào nhé.
Cụ thể:

Hướng dẫn sử dụng One Sample T Test để so sánh giá trị trung bình của một tổng thể với một giá trị cụ thể trong SPSS

One Sample T Test dùng để so sánh giá trị trung bình của một tổng thể với một giá trị cụ thể. Ví dụ giả thiết đặt ra là độ tuổi trung bình của khách hàng của một công ty có bằng 30 tuổi hay không. Lúc này ta sẽ dùng kiểm định giả thiết về trung bình của tổng thể, còn gọi là One-Sample T-Test.
Tuổi của khách hàng được tô đỏ như trong hình.

Thực hành sử dụng One Sample T Test trong SPSS

Đầu tiên vào menu Analyze- Compare means – One-Sample T Test như hình dưới.
Sau đó đưa biến cần test, ở đây là biến độ tuổi DoTuoi vào ô Test Variable(s). Còn ô Test Value bạn nhập giá trị cần kiểm định, ở đây nhóm nhập số 30, nghĩa là kiểm định độ tuổi trung bình xem có bằng 30 tuổi hay không.
Sau đó nhấn OK.
Kết quả ra như sau:

Cách đọc kết quả One Sample T test

Ta thấy giá trị Sig. (2 – tailed) =0.033 <5% ( phần tô đỏ trong hình trên), do đó ta có thể bác bỏ giả thiết H0 : tuổi trung bình của khách hàng là 30 tuổi. Căn cứ vào giá trị mean=28.02 trong bảng One Sample Statistics ta thấy giá trị trung bình độ tuổi thấp hơn 30 tuổi.( lưu ý ở đây giá trị kiểm đinh t về tuổi trung bình của khách hàng là t=-2.191, ứng với mức ý nghĩa 0.033<0.05)
Trong trường hợp Sig. (2 – tailed) > 5% thì ta có thể kết luận độ tuổi trung bình của khách hàng là 30 tuổi ứng với mức ý nghĩa 5%
Video hướng dẫn One Sample T Test:
Như vậy các bạn đã biết cách sử dụng One Sample T test trong SPSS rồi nhé, các bạn có gặp khó khăn khi xử lý cứ liên hệ nhóm nhé.
-Viber/zalo qua số điện thoại so-alo
-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Đa cộng tuyến: định nghĩa, cách phát hiện, hậu quả, cách khắc phục

Nhóm MBA Hỗ Trợ SPSS giới thiệu cách phát hiện đa cộng tuyến khi phân tích hồi quy, đồng thời giải thích hậu quả, cách khắc phục đa cộng tuyến.

Định nghĩa đa cộng tuyến là gì?


Trong mô hình hồi quy, nếu các biến độc lập có quan hệ chặt với nhau, các biến độc lập có mối quan hệ tuyến tính, nghĩa là các biến độc lập có tương quan chặt, mạnh với nhau thì sẽ có hiện tượng đa cộng tuyến, đó là hiện tượng các biến độc lập trong mô hình phụ thuộc lẫn nhau và thể hiện được dưới dạng hàm số. Ví dụ có hai biến độc lập A và B, khi A tăng thì B tăng, A giảm thì B giảm…. thì đó là một dấu hiệu của đa cộng tuyến. Nói một cách khác là hai biến độc lập có quan hệ rất mạnh với nhau, đúng ra hai biến này nó phải là 1 biến nhưng thực tế trong mô hình nhà nghiên cứu lại tách làm 2 biến. Hiện tượng đa cộng tuyến vi phạm giả định của mô hình hồi qui tuyến tính cổ điển là các biến độc lập không có mối quan hệ tuyến tính với nhau.

Cách phát hiện đa cộng tuyến

Có hai cách: dựa vào hệ số phóng đại phương sai VIF, hoặc dựa vào ma trận hệ số tương quan. Tuy nhiên cách dùng ma trận hệ số tương quan ít được sử dụng, chủ yếu sửa dụng cách nhận xét chỉ số VIF.

Cách 1

Dựa vào VIF ,khi thực hiện hồi quy đa biến, ta nhấn vào nút Statistics , xong check vào Collinearity diagnostics.
 
Kết quả ra như sau:

Nếu hệ số phóng đại phương sai VIF (variance inflation factor) > 2 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu VIF > 10 thì chắc chắn có đa cộng tuyến. Nếu VIF <2: không bị đa cộng tuyến
Ta cũng có thể xem xét giá trị Tolerance bằng công thức Tolerance=1/VIF . Hệ số này nằm cột bên trái của hệ số VIF. Tương ứng là: nếu hệ số Tolerance bé hơn 0.5 thì có dấu hiệu đa cộng tuyến, đây là điều không mong muốn. Nếu giá trị Tolerance bé hơn 0.1 thì chắc chắn có đa cộng tuyến.

Cách 2

Nhận dạng Multicollinearity dựa vào hệ số tương quan,có hay không tương quan tuyến tính mạnh giữa các biến độc lập. Cách làm: xây dựng ma trận hệ số tương quan cặp giữa các biến độc lập và quan sát để nhận diện độ mạnh của các tương quan giữa từng cặp biến số độc lập. Cũng có thể nhìn vào kết quả hồi quy, ta thấy R2 cao( tầm trên 0.8) và thống kê t thấp. Tuy nhiên như đã nói thì ít khi sử dụng cách hai này. Vì nó dựa vào phán đoán chủ quan hơn là công thức như cách 1.

Hậu quả của hiện tượng đa cộng tuyến:

Sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không có cơ sở bác bỏ giả thiết "không" và điều này có thể không đúng.

Ba nguyên nhân gây ra hiện tượng đa cộng tuyến

  1. Khi chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao vì đồng thời phụ thuộc vào một điều kiện khác.
  2. Cách thu thập mẫu: mẫu không đặc trưng cho tổng thể
  3. Chọn biến độc lập có độ biến thiên nhỏ.

Các giải pháp khắc phục đa cộng tuyến

Giải pháp 1: Bỏ bớt biến độc lập(điều này xảy ra với giả định rằng không có mối quan hệ giữa biến phụ thuộc và biến độc lập bị loại bỏ mô hình).
Giải pháp 2: Bổ sung dữ liệu hoặc tìm dữ liệu mới,tìm mẫu dữ liệu khác hoặc gia tăng cỡ mẫu. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn multicollinearity thì vẫn có giá trị vì mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
Giải pháp 3: Thay đổi dạng mô hình,mô hình kinh tế lượng có nhiều dạng hàm khác nhau. Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự là điều không mong muốn, thì lúc đó bạn phải thay đổi mô hình nghiên cứu.
Nhóm MBA Bách Khoa Hỗ Trợ SPSS đã giới thiệu định nghĩa, cách phát hiện, hậu quả, cách khắc phục hiện tượng đa cộng tuyến. Các bạn  làm bài luận có thắc mắc, khó khăn hoặc cần xử lý số liệu cho ra kết quả tốt hơn cứ liên hệ nhóm nhé.
-Viber/zalo qua số điện thoại so-alo
-Facebook: http://facebook.com/hoidapSPSS/

-Email: hotrospss@gmail.com

Hệ số R bình phương, R bình phương hiệu chỉnh: công thức, ý nghĩa, cách tính thủ công và cách tính bằng SPSS

Chào các bạn, hôm nay nhóm Thạc Sĩ QTKD ĐH Bách Khoa HCM giới thiệu đến các bạn chi tiết nội dung ý nghĩa của hai giá trị khá quan trọng khi chạy mô hình hồi quy tuyến tính đa biến, đó là hệ số R bình phương (R Square) và R bình phương hiệu chỉnh( còn gọi là R bình phương điều chỉnh, hay Adjusted R Square). Hai giá trị này dùng đo sự phù hợp của mô hình hồi quy, còn gọi là hệ số xác định ( coefficient of detemination). Hệ số R bình phương từ đây sẽ được gọi tắt là R2 nhé.

Công thức tính hệ số R bình phương.

Công thức tính hệ số R bình phương xuất phát từ ý tưởng: toàn bộ sự biến thiên của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy và phần biến thiên không do hồi quy( còn gọi là phần dư).
Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi quy
Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư
Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ
Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy. Trường hợp đặt biệt, phương trình hồi quy đơn biến ( chỉ có 1 biến độc lập) thì R2 chính là bình phương của hệ số tương quan r giữa hai biến đó.

Ý nghĩa R bình phương

Ý nghĩa cụ thể:giả sử R bình phương là 0.60, thì mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu ở mức 60%. Nói cách khác, 60% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.( còn 40% còn lại ở đâu, dĩ nhiên là do sai số đo lường, do cách thu thập dữ liệu, do có thể có biến độc lập khác giải thích cho biến phụ thuộc mà chưa được được vào mô hình nghiên cứu…vv). Thông thường, ngưỡng của R2 phải trên 50%, vì như thế mô hình mới phù hợp. Tuy nhiên tùy vào dạng nghiên cứu, như các mô hình về tài chính, không phải tất cả các hệ số R2 đều bắc buộc phải thỏa mãn lớn hơn 50%.( do rất khó dể dự đoán giá vàng, giá cổ phiếu mà chỉ đơn thuần dựa vào các biến độc lập ví dụ GDP, ROA,ROE….)

Hạn chế của hệ số R bình phương

Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ tăng. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 luôn luôn tăng.
Giá trị R2 tăng khả năng giải thích của mô hình, nhưng bản chất thì lại không làm rõ được tầm quan trọng của biến đưa vào, do đó nếu dựa vào giá trị R2 để đánh giá tính hiệu quả của mô hình sẽ dẫn đến tình huống không chính xác vì sẽ đưa quá nhiều biến không cần thiết, làm phức tạp mô hình.
Để ngăn chặn tình trạng như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do.

Hệ số R bình phương hiệu chỉnh

Công thức tính hệ số R bình phương hiệu chỉnh

Trong đó:
n= số lượng mẫu quan sát.
k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1
R2: hệ số R bình phương
Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n-1)/(n – k) không bao giờ nhỏ hơn 1 nên R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2 . Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không.  Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = 0,125 .

Ví dụ tính R2 và R2 hiệu chỉnh bằng tay theo công thức dựa trên kết quả phân tích hồi quy đa biến

Sau khi thực hiện phân tích hồi quy đa biến, sẽ ra được bảng kết quả sau:
 
Trong bảng Model Summary đã có sẵn R2 và R2 hiệu chỉnh. Tuy nhiên ta sẽ thực hiện tính toán giá trị này dựa vào bảng ANOVA bên dưới để hiểu rõ vấn đề.
Nhắc lại công thức tính R bình phương:
Trong bài này:
ESS=Residual Sum of Squares= 30.036
TSS=Total Sum of Squares = 86.721
do đó: R2=1-(ESS/TSS) =1-(30.036/86.721)= 0.654
Như vậy ta đã tính được bằng công thức giá trị R square=0.654. Bây giờ ta tính tiếp giá trị adjusted R square nhé
R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)
n= số lượng mẫu quan sát=160
k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1= 6+1=7
vậy R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)=1-(160-1)*(1-0.654)/(160-7)= 0.640
Như vậy R_bìnhphương_hiệuchỉnh=0.640 bé hơn R_bìnhphương=0.654
Khi các bạn làm bài dạng như: các yếu tố ảnh hưởng đến quyết định, ý định, sự hài lòng… nói chung là các bài dạng khảo sát thị trường , nếu gặp trường hợp R bình phương thấp hơn 0.5, hãy gởi mô hình nghiên cứu, bảng câu hỏi, thông tin liên quan… để nhóm tư vấn cách xử lý triệt để nhé. Nhóm sẽ có cách tư vấn xử lý để hệ số R bình phương lớn hơn 50%.
Chúc các bạn làm bài tốt.

Liên hệ:

-Viber/zalo qua số điện thoại so-alo