3.3 — Regression + Correlation
≠ Causation

ภาค 3 · คณิต-สถิติ · อ่าน ~7 นาที · วิ่งตามกันไม่เหมือนกับทำให้กัน — กับดักที่แพงที่สุดในการสร้างระบบเทรด

มีคนพบว่า "ยอดขายไอศกรีมในอเมริกาสูงขึ้น — คนจมน้ำตายเพิ่มขึ้นพร้อมกันทุกปี" — ไอศกรีมทำให้จมน้ำไหม?
แน่นอนว่าไม่ · แต่ตัวเลขมัน "สัมพันธ์กัน" จริงๆ · บทนี้จะสอนทำไม "สัมพันธ์กัน" กับ "ทำให้" เป็นคนละเรื่องกันสิ้นเชิง — และกับดักนี้อยู่ในทุก backtest ที่สร้างด้วยความรวดเร็ว

1. Regression คืออะไร — หาเส้นความสัมพันธ์

Regression (การถดถอย) คือวิธีหาเส้นที่ "อธิบายความสัมพันธ์" ระหว่างตัวแปรสองตัว · ภาษาที่เข้าใจง่ายที่สุดคือ: "ถ้า X เปลี่ยนหน่วยหนึ่ง — Y จะเปลี่ยนไปเท่าไหร่โดยเฉลี่ย?"

ตัวอย่างรูปธรรมในชีวิต:
"ส่วนสูงเพิ่ม 1 นิ้ว → น้ำหนักเพิ่มโดยเฉลี่ย 3 กก."
→ นี่คือ regression อย่างง่าย: X = ส่วนสูง · Y = น้ำหนัก

ในเทรด:
"S&P 500 ขึ้น 1% → หุ้น Apple มักขึ้น 1.2% โดยเฉลี่ย" → Beta = 1.2
"Dollar index แข็งค่า 1% → ทองคำลง 0.8% โดยเฉลี่ย" → ความสัมพันธ์กลับด้าน

ผลของ regression คือ "เส้นตรง" ที่ตัดผ่านจุดข้อมูลให้ใกล้เคียงที่สุด — ใช้ประมาณการได้ว่า "ถ้า X เป็นค่านี้ Y น่าจะเป็นเท่าไหร่" · แต่การที่ "เส้นลากได้" ไม่ได้แปลว่า "X ทำให้ Y เกิด"

2. Correlation คืออะไร — วัดว่า "วิ่งตามกันแค่ไหน"

Correlation (สหสัมพันธ์) คือตัวเลขวัดว่า "X กับ Y วิ่งตามกันมากแค่ไหน" — เป็นตัวเลขตั้งแต่ −1 ถึง +1

+1.0 → วิ่งตามกันเป๊ะ (X ขึ้น Y ขึ้นพร้อมกันทุกครั้ง)
+0.7 → วิ่งตามกันค่อนข้างมาก — ส่วนใหญ่ไปทิศเดียวกัน
0.0 → ไม่มีความสัมพันธ์เลย — X ขึ้นลงไม่เกี่ยวกับ Y
−0.7 → วิ่งสวนกันค่อนข้างมาก — X ขึ้น Y มักลง
−1.0 → วิ่งสวนกันเป๊ะตลอด

ตัวอย่างจริง: ทองคำ vs USD index ≈ −0.6 ถึง −0.8 ในระยะยาว

correlation สูงหมายความว่า "สองอย่างนี้วิ่งตามกัน" — แต่ ไม่ได้บอกเลย ว่าใครทำให้ใคร · และไม่ได้บอกว่าจะยังวิ่งตามกันต่อไปในอนาคต

3. Correlation ≠ Causation — กับดักที่แพงที่สุด

นี่คือหลักการที่วงการวิทยาศาสตร์เตือนมา 100 ปี แต่คนยังเหยียบซ้ำ เพราะสมองมนุษย์ถูกออกแบบมาให้ "เห็นสาเหตุ" อัตโนมัติเมื่อเห็นสิ่งที่เกิดพร้อมกัน:

ตัวอย่าง Spurious Correlation (ความสัมพันธ์ไร้สาระ) ที่เกิดจริง:

• ยอดขายไอศกรีม vs คนจมน้ำ — correlation สูง ตัวการจริง: ฤดูร้อน
• จำนวนโจรสลัดในโลก vs อุณหภูมิโลกที่สูงขึ้น — correlation สูงมาก ทั้งคู่เพิ่งเกิดพร้อมกันในยุค 200 ปีที่ผ่านมา
• การบริโภคชีส vs คนสำลักในเตียง — สัมพันธ์กัน 95%+ (ข้อมูลจริงในอเมริกา ช่วง 2000-2009)

ทั้งหมดนี้ไม่ได้หมายความว่า "ชีสทำให้สำลักขณะนอนหลับ" · มันแค่บังเอิญขึ้นพร้อมกันตามสาเหตุที่สาม (third variable)

ในเทรด spurious correlation อันตรายกว่ามาก — เพราะข้อมูลตลาดมีตัวแปรเป็นหมื่นตัว ที่อยู่ร่วมกันในช่วงเวลาเดียวกัน · ถ้าลองหาความสัมพันธ์ 1,000 คู่ จะเจอ ~50 คู่ที่ "สัมพันธ์กันที่ p<0.05" โดยบังเอิญ — ตัวเลข 50 คู่นั้นคือโชค ไม่ใช่ edge

4. ตัวกวนซ่อน (Confounding Variable) — ตัวการที่แท้จริง

เหตุผลที่ spurious correlation เกิดขึ้นมักคือ "ตัวกวนที่ซ่อนอยู่" — ตัวที่ทำให้ทั้ง X และ Y เกิดพร้อมกัน แต่เราไม่ได้วัด:

X ที่เห็น	Y ที่เห็น	ตัวกวนจริง (Z)
ยอดขายไอศกรีม↑	คนจมน้ำ↑	ฤดูร้อน — คนออกนอกบ้านมากขึ้น
ราคาหุ้น Tech↑	Bitcoin↑	ความเสี่ยงของนักลงทุน (risk-on sentiment)
Dollar แข็ง	ทองลง	การคาดการณ์ดอกเบี้ยสูง — กดทั้งคู่ผ่านคนละเหตุผล
RSI oversold	ราคาดีดขึ้น	อาจเป็นแค่ mean reversion ของ volatility — ไม่ใช่ RSI ทำให้ดีด

ตัวกวนซ่อนอันตรายเพราะมันทำให้ "ความสัมพันธ์ที่ดูจริง" หายไปได้เมื่อ regime ตลาดเปลี่ยน — ระบบที่สร้างจาก correlation ล้วนๆ โดยไม่เข้าใจกลไก มักล่มเมื่อเจอตลาดใหม่ที่ไม่เหมือนช่วง backtest

5. Regression ใช้ในเทรดยังไง — ประโยชน์และข้อระวัง

แม้ correlation จะไม่ใช่ causation แต่ regression ยังมีประโยชน์ถ้าใช้ถูก:

ประโยชน์จริงของ regression ในเทรด:

1. วัด Beta — ความเสี่ยงเทียบตลาด: หุ้นตัวนี้วิ่งแรงกว่า/อ่อนกว่า index เท่าไหร่ · ใช้วางขนาด position ในพอร์ตให้สมดุล

2. หา Mean Reversion Zone: ราคาเบี่ยงออกจากเส้น regression ไปมากแค่ไหน — เบี่ยงมากผิดปกติมักดึงกลับ (basis trading, pair trading)

3. ดู Factor Exposure: พอร์ตนี้รับความเสี่ยงด้านไหนมากกว่าที่ตั้งใจไหม (เช่น ซื้อ "หุ้นเติบโต" แต่ regression บอกว่าจริงๆ แล้วพอร์ตรับ momentum factor มากกว่า growth)

ข้อระวัง — อย่าใช้ regression ผิดสี่วิธีนี้:

1. ห้ามสรุปว่า "X ทำให้ Y" จากแค่ correlation · ต้องมีเหตุผลกลไกว่าทำไมถึงสมเหตุสมผลก่อน
2. ระวัง regime change: ความสัมพันธ์ที่จริงใน 2010-2020 อาจเปลี่ยนใน 2020-2030 (ตัวอย่าง: bond กับ equity correlation พลิกเครื่องหมายในยุคเงินเฟ้อ 2022)
3. ระวัง spurious correlation จาก "look-ahead": ถ้า X วัดหลังจาก Y เกิดขึ้นแล้ว — ความสัมพันธ์ที่เห็นใช้เทรดไม่ได้
4. ระวัง "non-linear" ที่เส้นตรงจับไม่ได้: ความสัมพันธ์อาจเป็นจริงแต่เส้นโค้ง — linear regression จะบอกว่า "ไม่มีความสัมพันธ์" ทั้งที่มีอยู่จริง

6. กับดัก Spurious Correlation ในโลกเทรดจริง

นี่คือกับดักที่นักเทรดระดับสูงเหยียบ ไม่ใช่แค่มือใหม่:

เคสที่พบบ่อย:

• "RSI <30 แล้วซื้อ": ผลดีใน backtest — แต่ RSI <30 วัดได้หลัง ราคาลงมาแล้ว · เหตุผลจริงที่ดีดขึ้นคือ oversold แท้จริง (supply หมด) หรือแค่ volatility reversion? ถ้าไม่รู้ = อ่านสัญญาณตามความสัมพันธ์ โดยไม่รู้ว่ากลไกจริงคืออะไร

• "ทองขึ้นเมื่อ Dollar ลง — เสมอ": จริงในหลายช่วง แต่มีช่วง 2022 ที่ Dollar ลง ทองก็ลงพร้อมกัน · ความสัมพันธ์เปลี่ยนตาม regime · คนที่ไม่รู้กลไกจะงงว่า "กฎพัง" ทั้งที่แค่ตัวกวนเปลี่ยน

• "หุ้น X กับ Y มี correlation 0.9 ในช่วง 2 ปีที่ผ่านมา": นำมาทำ pair trade — แต่ correlation อาจสูงเพราะ sector ทั้ง sector วิ่งพร้อมกัน · พอ sector cycle เปลี่ยน pair อาจแตกทันที

7. วิธีใช้ให้ถูก — ถามกลไกก่อน ไม่ใช่ถามตัวเลข

กฎของ quant ที่ดี: "ทุก factor ที่ใช้ในระบบ ต้องอธิบายได้ว่ากำไรมาจากไหน ใครจ่าย ทำไมถึงยังจ่ายต่อได้ในอนาคต"

คำถามที่ต้องตอบได้ก่อนใช้ความสัมพันธ์ใดๆ:

1. กลไกคืออะไร? — X ส่งผลต่อ Y ผ่านช่องทางไหน?
2. มีตัวกวนซ่อนไหม? — อาจมีตัว Z ที่ทำให้ทั้งคู่เคลื่อนพร้อมกัน?
3. ใครจ่าย? — ถ้า edge จริง มีใครเสียเปรียบระบบนี้ คนนั้นคือใคร ทำไมยังยอมเสีย?
4. Regime ไหนที่ความสัมพันธ์นี้อาจพัง? — เตรียมออก/ปรับระบบไว้ก่อน

💡 โยงกับ Wyckoff ของหลิว — นี่คือจุดแข็งของหลิวที่ quant ส่วนใหญ่ไม่มี:

หลิวไม่ได้แค่เห็น "volume สูงแล้วราคาดีด" — หลิวเข้าใจ ทำไม: มือใหญ่สะสมของ ผู้ขายหมดแรง demand มากกว่า supply → นั่นคือ "กลไก" · ความสัมพันธ์ที่มีกลไกรองรับเอาไว้แล้ว "ทนทานกว่า" ความสัมพันธ์ที่เจอจาก data mining เฉยๆ อย่างมาก

quant เพิ่มแค่ "วัดให้ได้ตัวเลข" — แต่กลไกที่หลิวเข้าใจอยู่แล้วคือส่วนที่แข็งแรงที่สุด ซึ่งข้อมูลยืนยันทีหลัง ไม่ใช่ข้อมูลนำหน้า

บทถัดไป → 3.4 · Time Series — ข้อมูลที่มีลำดับเวลา (สถิติพิเศษสำหรับตลาด)
← สารบัญหนังสือ

3.3 — Regression + Correlation≠ Causation