← สารบัญหนังสือ
3.2 — สถิติอนุมาน
ฟลุ้กหรือจริง (p-value, hypothesis test)
ภาค 3 · คณิต-สถิติ · อ่าน ~6 นาที · คำถามที่ทุก backtest ต้องตอบ ก่อนเอาเงินจริงลง
หลิว backtest ระบบได้ win rate 60% จาก 50 ไม้ — น่าดีใจไหม?
คำตอบที่ถูกต้องคือ: "ยังไม่รู้เลย" — เพราะ 50 ไม้นั้นอาจเป็นโชคล้วนๆ ที่ไม่มีวันซ้ำ · บทนี้จะสอนวิธีแยก "ฟลุ้กจริงๆ" ออกจาก "ระบบที่ดีจริง"
1. คำถามหลักที่สถิติอนุมานตอบ
"สถิติอนุมาน" ฟังดูน่ากลัว แต่ใจความมีข้อเดียว: ผลที่เราเห็นจากข้อมูลกลุ่มเล็กๆ — บอกอะไรเราได้บ้างเกี่ยวกับความจริงที่ใหญ่กว่า?
ตัวอย่างที่จับต้องได้: โยนเหรียญ 10 ครั้ง ออกหัว 7 ครั้ง — เหรียญนี้ "ไม่ยุติธรรม" จริงไหม? หรือแค่โชค? · ถ้าโยน 1,000 ครั้ง ออกหัว 700 ครั้ง — คำตอบเปลี่ยนไหม?
ในเทรด คำถามเดียวกันคือ: ระบบ backtest ชนะ 60% จาก 50 ไม้ — นี่คือ "edge จริง" หรือ "เหรียญโชคดี 50 ครั้ง"?
2. p-value แบบบ้านๆ — ไม่ต้องจำสูตร จำแค่ความหมาย
p-value คือ: "ถ้าระบบของเราไม่ได้ดีกว่าการสุ่มเลย — โอกาสที่โชคล้วนๆ จะให้ผลดีกว่านี้ มีเท่าไหร่?"
ตัวอย่างรูปธรรม:
สมมติระบบ "ถ้าเหรียญยุติธรรม" ควรชนะ 50% — เราชนะได้ 60% จาก 50 ไม้
p-value = โอกาสที่เหรียญธรรมดา (ยุติธรรม) จะโยน 50 ครั้งแล้วออกหัว ≥30 ครั้ง โดยบังเอิญ
คำนวณออกมา = ~13% (ไม่ต้องคำนวณเอง — จำตัวเลขนี้)
แปลว่า: มีโอกาสถึง 13% ที่ผลนี้เกิดจากโชคล้วนๆ
→ ยังไม่ควรเชื่อ
กติกาทั่วไปของวงการ:
p-value > 0.10 → ผลนี้อาจเป็นโชคได้ง่ายมาก — ไม่ควรสรุป
p-value ≤ 0.05 → ผลนี้เกิดจากโชคล้วนๆ โอกาสต่ำกว่า 5% — เริ่มน่าสนใจ
p-value ≤ 0.01 → <1% — หลักฐานแข็ง
ระวัง: p ≤ 0.05 ≠ "ถูกต้อง 95%"
มันแค่บอกว่า "โชคน้อยกว่า 5% จะได้ผลนี้" — ยังต้องตรวจสอบอีกหลายด้าน
p-value ไม่ได้บอกว่า "ระบบดีแค่ไหน" — มันบอกแค่ว่า "ผลที่เห็นโชคหรือไม่" · ของจริงต้องมีทั้ง p-value ต่ำ และเหตุผลทางเศรษฐศาสตร์ว่า "ทำไมถึงได้เปรียบ"
3. Hypothesis Test — วิธีคิดที่ถูก ก่อนดู backtest
วิธีที่ถูกในการทดสอบระบบ ต้องเริ่มจากการตั้ง "สมมติฐานก่อน" — ไม่ใช่ดูผลก่อนแล้วค่อยอธิบาย:
ขั้นตอนที่ถูกต้อง:
1. ตั้งสมมติฐานล่วงหน้า: "ฉันเชื่อว่าระบบนี้จะชนะมากกว่า 50% — เพราะ [เหตุผลเศรษฐศาสตร์ที่อธิบายได้ก่อนเห็นผล]"
2. รัน backtest ครั้งเดียว: ดูผลจริง เปรียบกับ "ถ้าระบบไม่ได้ดีกว่าสุ่ม ผลควรเป็นยังไง"
3. คำนวณโอกาสที่โชคจะให้ผลนี้ (p-value): ต่ำพอไหม?
4. ถ้าผ่าน — ทดสอบ out-of-sample ก่อนใช้เงินจริง
ขั้นตอนที่ผิด (แต่คนทำกันมาก): ลองระบบ 50 แบบ เลือกแบบที่ผล backtest ดีที่สุด แล้วค่อยสร้างเหตุผลอธิบาย — นั่นคือการ "หาคำอธิบายให้โชค" ไม่ใช่การหา edge จริง (เรื่องนี้ลึกขึ้นในบท backtest ภาค 7)
4. Sample Size — ต้องกี่ไม้ถึงเชื่อได้
สิ่งที่ p-value ไม่ได้บอกตรงๆ คือ: "กี่ไม้ถึงพอ?" — ตอบด้วยความจริงข้อหนึ่ง: ยิ่งไม้น้อย ความไม่แน่นอนยิ่งสูง
สูตรหยาบที่จำได้: แถบความไม่แน่นอนของ win rate ≈ ±1/√n (n = จำนวนไม้)
| จำนวนไม้ (n) | วัด win rate ได้ 60% ค่าจริงอยู่แถวๆ | ควรทำอะไร |
| 25 ไม้ | 40–80% | ยังไม่รู้อะไรเลย อย่าตัดสินใจ |
| 100 ไม้ | 50–70% | เห็นทิศทาง แต่ยังแกว่งมาก |
| 400 ไม้ | 55–65% | ขั้นต่ำที่ควรเรียกว่า "หลักฐาน" |
| 1,000+ ไม้ | 57–63% | วงการเริ่มเรียกว่าแข็งแรง |
กับดักของเทรดเดอร์ที่พบบ่อยสุด:
backtest ที่มี 30 ไม้แล้วสรุป "ระบบชนะ 70%!" = แถบจริงคือ 52–88% = แทบไม่รู้อะไรเลย
เพจ/กูรูที่โชว์ผล "20 ไม้ล่าสุดชนะ 85%!" → ±1/√20 = ±22% → ค่าจริงอาจอยู่ที่ 63–100% หรือ 63% ก็ยังเรียกว่าดี แต่มันอาจเป็น 43% ก็ได้ — ตัวเลขที่แกว่งได้ขนาดนั้นไม่ใช่หลักฐาน เป็นเรื่องเล่า
ทำไมต้อง ≥100 ไม้ก่อนเชื่อ? เพราะที่ 100 ไม้ แถบความไม่แน่นอนยังถึง ±10% — ระบบที่ "วัด" ได้ 60% อาจจริงแค่ 50% คือไม่มี edge เลย · แค่ ≥400 ไม้ ถึงจะเริ่มแยกแยะได้ชัดขึ้น
5. Significance กับ Confidence — อ่านแบบนักปฏิบัติ
สองคำนี้โผล่บ่อยเวลาดู backtest report หรืองานวิจัย — ความหมายบ้านๆ:
Statistical Significance — ผลที่เห็น "ไม่น่าจะเป็นโชค" · วัดด้วย p-value
→ "ผลที่เห็นนี้บังเอิญหรือเปล่า?"
Confidence Interval (ช่วงความเชื่อมั่น) — ค่าจริงน่าจะอยู่ในช่วงไหน · วัดด้วย ±1/√n หรือสูตรที่ซับซ้อนกว่า
→ "ถ้า win rate วัดได้ 60% จาก 400 ไม้ — ค่าจริงน่าจะอยู่ใน 55–65% ด้วยความเชื่อมั่น 95%"
ใช้ทั้งคู่ประกอบกัน — significant แต่ช่วงกว้างมากก็ยังไม่พอ · significant และช่วงแคบ = เริ่มน่าเชื่อถือ
6. ผลใช้งาน — ถามสิ่งเหล่านี้ก่อนเชื่อระบบใดๆ
💡 เช็คลิสต์ก่อนเชื่อ backtest ทุกชิ้น:
1. กี่ไม้? → <100 = เรื่องเล่า · <400 = เงา · 400+ = เริ่มฟัง · 1,000+ = หลักฐาน
2. ลองมากี่แบบ? → ลอง 100 แบบเจอ 5 แบบดี = นั่นคือโชค ไม่ใช่ edge (ลองหลายแบบ p-value ที่จะเชื่อต้องต่ำกว่ามาก)
3. มีเหตุผลก่อนเห็นผลไหม? → กฎที่อธิบายล่วงหน้าได้ว่า "ทำไมถึงได้เปรียบ ใครจ่าย" — น่าเชื่อกว่ากฎที่หาคำอธิบายหลังเห็นผล
4. ผ่าน out-of-sample ไหม? → ถ้าดีแต่ใน in-sample ที่ใช้สร้างกฎ = อาจแค่จำข้อมูลได้ ไม่ใช่เข้าใจตลาด
7. เหตุผลว่าทำไมต้อง ≥100 ไม้ก่อนเชื่อ — เป็นตัวเลขไม่ใช่ขนบ
ตัวเลข 100 ไม้ไม่ใช่กฎที่ "ใครๆ เขาว่ากัน" แต่มาจากตรรกะของ p-value โดยตรง:
ระบบ win rate จริง = 55% (มี edge เล็กน้อย) · เทียบ "เหรียญ" ที่ 50%
ที่ 50 ไม้: p-value ≈ 0.24 → โชค 24% → ไม่ชัดเจนพอ (ไม่ผ่าน)
ที่ 100 ไม้: p-value ≈ 0.13 → ยังคลุมเครือ
ที่ 200 ไม้: p-value ≈ 0.06 → เริ่มมีน้ำหนัก
ที่ 400 ไม้: p-value ≈ 0.02 → ผ่านมาตรฐาน · เริ่มเชื่อได้
edge เล็กๆ แค่ 5% (จาก 50% เป็น 55%) ต้องใช้ไม้หลายร้อยกว่าจะ "มองเห็น" ผ่านสัญญาณรบกวน · นั่นคือเหตุผลที่ระบบที่ดี "สร้างยาก แต่ควรค่าต่อการสร้าง" — เพราะคู่แข่งส่วนใหญ่ไม่มีความอดทนพอจะรอ
📌 โยงกับชีวิตเทรดจริงของหลิว:
ก่อนปรับกฎในระบบใดๆ — ถามก่อนว่า "ข้อมูลที่เห็นมาจากกี่ไม้?" · ระบบแพ้ 5 ไม้ติดที่ 100 ไม้รวม = ยังไม่ใช่หลักฐานว่าพัง (ดูตารางบท 3.1 + คำนวณ p-value ว่ามันแค่โชคแย่ปกติ) · แต่แพ้หนักผิดปกติในช่วงที่ตลาดเปลี่ยน regime = นั่นต่างหากที่ควรหยุดดู