Survivorship bias
กับดักที่ทำให้เราเห็นแต่ผู้ชนะ

ชั้น 3 · คิดแบบ quant · อ่าน ~5 นาที · สุสานไม่มีไมค์ — เราเห็นแต่คนที่ยังมีชีวิตอยู่

มีคำถามที่ดูเหมือนง่ายแต่เปลี่ยนวิธีคิดทั้งหมด: "ที่เห็นอยู่นี้ เราเห็นผู้รอดกี่คน จากผู้เริ่มทั้งหมดกี่คน?"
ถ้าตอบไม่ได้ — ทุกสถิติที่อ่านอยู่อาจ โกหกโดยไม่ตั้งใจ

1. Survivorship bias คืออะไร — เห็นแต่ศพที่ยังหายใจ

ในสงครามโลกครั้งที่สอง ทีมวิศวกรถูกขอให้เสริมเกราะเครื่องบินรบ — พวกเขาดูเครื่องบินที่กลับมา แล้วพบว่าปีกและลำตัวส่วนหางโดนกระสุนหนักที่สุด จึงเสนอให้เสริมเกราะบริเวณนั้น

นักสถิติชื่อ Abraham Wald บอกว่า ผิดทั้งหมด — เครื่องบินที่โดนกระสุนตรงจุดนั้น ยังบินกลับมาได้ หมายความว่าจุดนั้นไม่ critical · เครื่องที่โดนตรงเครื่องยนต์คือเครื่องที่ ไม่เคยกลับมา — เราไม่เห็นมันในข้อมูล เพราะมันจมอยู่ก้นทะเล

นี่คือ survivorship bias — ข้อมูลของเราขาดผู้ที่ตายไปแล้วอย่างเป็นระบบ และทำให้สรุปผิดทิศทาง

2. สามตัวอย่างในโลกเทรดที่เจ็บจริง

ตัวอย่างที่ 1 — หุ้นที่ถูกถอดออกจากดัชนี
ถ้าทดสอบกลยุทธ์กับ "หุ้นใน SET50 ปัจจุบัน" ย้อนหลัง 10 ปี — รายชื่อที่ใช้ทดสอบคือ ผู้รอดชีวิตของวันนี้ ไม่ใช่รายชื่อที่มีอยู่จริง 10 ปีก่อน
หุ้นที่ถูกถอดออกเพราะเจ๊ง ลิสต์หายไปเงียบๆ → ระบบ "ทดสอบกับคนที่รวยแล้ว" แล้วบอกว่าดี = ไม่น่าแปลกใจเลย

ตัวอย่างที่ 2 — กองทุนที่ปิดตัว
กองทุนที่ผลงานแย่มักปิดตัวหรือควบรวมกับกองทุนอื่น — database กองทุนในปัจจุบันจึงมีแต่กองทุนที่ "รอดมาได้"
ผลตอบแทนเฉลี่ยของกองทุน active ในตลาดจึงสูงกว่าความจริงอย่างมีนัยสำคัญ เพราะตัดตัวแย่ออกไปแล้ว

ตัวอย่างที่ 3 — เหรียญ crypto ที่ "ตาย"
ปี 2017-2018 มีเหรียญใหม่เกิดหลายพันตัว — ปัจจุบันเหลือไม่กี่ร้อยที่ยังเทรดได้จริง
ถ้าทดสอบกลยุทธ์ "ซื้อ altcoin ราคาต่ำ" กับ universe ปัจจุบัน = ทดสอบกับเหรียญที่ รอดแล้ว ทั้งนั้น ไม่ใช่เหรียญที่มีอยู่ตอนนั้นจริงๆ

3. ระบบ 41 ตัวของเรา — ตัวอย่างสดจากโปรเจกต์จริง

ระบบเราทดสอบกับ 41 สินทรัพย์ที่คัดมา — ทั้งหมดล้วนเป็น "ผู้รอด" ที่ยังมีสภาพคล่องสูงในวันนี้ · ถ้าใช้ผลตอบแทน buy & hold ของ 41 ตัวนี้เป็น benchmark ย้อนหลัง ผลจะ สวยเกินจริง เพราะไม่มีตัวที่เจ๊งหายไปในช่วงนั้นเลย

วิธีที่เราจัดการกับมัน (แทนการซ่อน):

1. รู้และแถลงตรงๆ ในทุกรายงาน — "universe นี้คือผู้รอดชีวิตวันนี้"
2. เน้นข้อสรุปแบบ "เทียบภายใน" — กลยุทธ์ A vs B บนข้อมูลเดียวกัน
→ อคติ survivorship หักล้างกันเองเมื่อใช้ข้อมูลชุดเดียวกัน
3. ห้ามเปรียบเทียบสัมบูรณ์ กับ benchmark ที่ไม่มีอคติเดียวกัน

การรู้ข้อจำกัดแล้วแถลงตรงๆ ไม่ใช่ความอ่อนแอ — คือ มาตรฐานวิชาชีพ

4. Survivorship ซ่อนอยู่ทุกที่กว่าที่คิด

ฟีดโซเชียล = เครื่องคัดผู้รอดที่สมบูรณ์แบบ
คนเจ๊งทางเทรด ไม่โพสต์ / เลิกเล่น / บัญชีหาย → ประชากร "เทรดเดอร์ที่เห็นบนฟีด" คือ top tail ของการกระจายเสมอ
ความรู้สึก "ใครๆ ก็กำไรกัน เราห่วยคนเดียว" = ภาพลวงทางสถิติ 100%

ความจริงจากงานวิจัย: เทรดเดอร์รายย่อย 62-82% ขาดทุนในระยะยาว

แม้แต่ดัชนีหุ้นก็ survivorship
ดัชนี S&P500 "ผลตอบแทนระยะยาว 8-10% ต่อปี" — คือดัชนีที่ คัดตัวแพ้ออกอัตโนมัติทุกไตรมาส
ตลาดหุ้นบางประเทศที่เจ๊งทั้งตลาด (รัสเซีย 1917 / จีน 1949) หายไปจากสถิติ "ผลตอบแทนระยะยาวของโลก" ด้วย

5. ทักษะป้องกัน — ถามหา denominator ก่อนเชื่ออะไร

ทุกครั้งที่เห็นความสำเร็จ ถามอัตโนมัติ:

"ฉันกำลังดูผู้รอดกี่คน จากผู้เริ่มต้นกี่คน?"

ถ้าไม่รู้ ตัวส่วน (denominator) — ก็ยังสรุปอะไรไม่ได้เลย

• Prop firm โชว์คน challenge ผ่าน รับเงินแสน → ไม่โชว์ 95%+ ที่จ่ายค่าสอบแล้วตก
• เพจเทรดโชว์ win streak 10 ไม้ → ลอง 100 แบบก่อน จนเจอแบบที่เวิร์ค แล้วโชว์แบบเดียวนั้น
• กูรูบอก "ระบบนี้ทำกำไรมา 5 ปี" → กี่คนที่ใช้แล้วขาดทุน? ไม่มีใครบอก

6. วิธีจัดการในระบบเรา

เมื่อทดสอบกลยุทธ์ใหม่ใน Lab ทุกครั้ง จะมีการระบุ universe ที่ใช้ทดสอบ ชัดเจนเสมอ — ใช้ 41 ตัวที่มีอยู่ในวันนี้ ก็แถลงว่า "41 ตัวผู้รอด" ไม่ใช่แกล้งทำเป็นว่าเป็นภาพตลาดทั้งหมด · เปรียบเทียบ A vs B ไม่ใช่เปรียบเทียบกับ benchmark ภายนอก

ถ้าวันหนึ่งขยายไปหุ้นรายตัว — ต้องหา universe ที่มีทั้ง "ตัวที่อยู่" และ "ตัวที่ถูกถอดออก" ในช่วงนั้นจริงๆ ก่อน ไม่งั้น backtest ผลสวยทั้งหมดจะไม่มีความหมาย

จำแค่นี้พอ: Survivorship = ทดสอบกับผู้รอดชีวิต ไม่ใช่ทั้งหมด · ยาแก้ = รู้+แถลง+เทียบภายใน · ถามเสมอ: ดูผู้รอดกี่คนจากผู้เริ่มกี่คน · สุสานไม่มีไมค์
หน้าถัดไปในชั้น 3: Overfitting — ทำไม "จูนจนผ่าน" ถึงเป็นศัตรูตัวจริง
← กลับคลังความรู้