SAT Math – Standard Deviation (Độ lệch chuẩn)

Xin chào các bạn,

Hôm nay anh sẽ viết một bài chia sè về các câu hỏi liên quan đến chủ đề Độ lệch chuẩn (Standard Deviation) là một chủ đề mà rất nhiều bạn quan tâm và gặp khó khăn khi học SAT nhé.

Standard Deviation (SD) là gì?

Standard deviation is a way to measure how closely clustered a data set is about its mean. Như vậy các bạn có thể hiểu SD chính là thể hiện mức phân bố của các giá trị xung quanh giá trị trung bình (Mean). Khi SD càng lớn tức là mức độ phân tán của dữ liệu sẽ càng nhiều.

Khi các values trong một set mà rất gần với giá trị trung bình, SD sẽ thấp (narrow spread) nhưng khi các values cách xa giá trị trung bình thì SD sẽ cao (wide spread).

Ví dụ các bạn có thể tham khảo 2 bảng dữ liệu sau 

 

Chúng ta có thể thấy cả hai bảng A và B đều có 21 giá trị và có cùng giá trị trung bình tuy nhiên SD của Set A sẽ nhỏ hơn Set B? Lý do tại vì sao — chính là vì Set A có nhiều giá trị nằm ở gần với giá trị Mean hơn so với Set B (Với Mean = 3 thì Set A có 18 số xung quanh 3 còn Set B chỉ có 14 số xung quanh 3. Hơn nữa, Set A có 10 số có giá trị bằng Mean còn Set B chỉ có 4 số có giá trị bằng Mean).

Tiếp theo, chúng ta thử tham khảo một số câu hỏi nhé

Câu hỏi 1

Câu A – Do khi biết từng số trong một Set bằng bao nhiêu về lý thuyết chắc chắn chúng ta có thể tính được giá trị của SD nên câu A nói rằng “cannot be calculated” sẽ là đáp án sai.

Phân tích dữ liệu: Các bạn thấy hầu hết các giá trị của City A đều tập trung xung quanh vùng có nhiệt độ 20 độ (Có 20 giá trị của A bằng 20) còn ở B thì rải rác đều ở các vùng nhiệt độ --> Do đó mức độ spread xung quanh Mean ở B sẽ cao hơn A. Điều này có nghĩa SD của A không thể bằng B. City nào có mức độ closely clustered của dữ liệu nhiều hơn thì SD sẽ thấp hơn. Vậy SD của B sẽ cao hơn SD của A. Do đó:

Câu B – SD của A bằng SD của B --> Sai

Câu C – SD của A cao hơn SD của B --> Sai 

Câu D – SD của B cao hơn SD của A --> chính xác.

Câu hỏi 2 (Panda Math Workbook)

Đề bài yêu cầu chúng ta xác định trong số 10 canals với giá trị được cho trong bảng thì 2 canals nào nếu chúng ta bỏ đi sẽ dần dến việc giảm giá trị SD nhiều nhất?

Điều đầu tiên, các bạn cần nắm về mặt lý thuyết là khi nào SD sẽ giảm nhiều nhất? Do SD chính là thể hiện mức độ spread của dữ liệu cho nên dữ liệu có mức độ spead càng nhiều tức là càng xa giá trị trung bình thì SD sẽ càng lớn. Ở đây ngay cả không cần dùng máy tính chúng ta cũng xác định được đa số giá trị nằm trong khoảng 25-35 và chỉ có 1 giá trị rất thấp (Rhone = 5) và một giá trị rất lớn (Voges = 93) là sẽ cách xa vùng giá trị mà đa số các dữ liệu khác tập trung nên khi loại đi 2 giá trị này thì SD sẽ thay đổi nhiều nhất.

Nếu các bạn dùng máy tính, có thể xác định giá trị trung bình bằng 31.8 nên các giá trị nào cách xa 31.8 nhất thì sẽ là đáp án khi chúng ta loại đi sẽ làm giảm SD nhiều nhất.

Câu 3  (Đề thi năm 2019)

 

Đề bài này cho chúng ta 27 số và sau đó chúng ta sẽ cộng thêm 7 đơn vị vào các số lớn hơn median và trừ đi 7 đơn vị khỏi các số nhỏ hơn median. Sau đó, trong 4 giá trị (Median, Mean, Sum, và SD) thì giá trị nào sẽ thay đổi (not have the same value in both the original and new data sets).

Các bạn sẽ thấy 1 set có 27 số và median bằng 33 thì sẽ có 16 số nhỏ hơn 33 và 16 số lớn hơn 33. Do đó, khi 16 số nhỏ hơn 33 trừ đi 7 và 16 số lớn hơn 33 cộng thêm 7 vào thì giá trị SUM về cơ bản sẽ không thay đổi do phần cộng vào và phần trừ đi triệt tiêu hết cho nhau rồi. (Loại câu C). Khi SUM không thay đổi thì Mean cũng sẽ không thay đổi vì Mean = Sum / 33 (Loại câu B). Cuối cùng, Median cũng không đổi vì sẽ vẫn luôn có 16 số lớn hơn 33 và 16 số nhỏ hơn 33 (Loại câu A). Vậy chỉ còn SD là sẽ thay đổi (Nguyên tắc thì khi các giá trị thay đổi thì SD sẽ thay đổi theo).

Các bạn có thể tham gia group SAT của VietAccepted để học hỏi và cập nhật tài liệu luyện thi SAT nhé