Lec 03. Approximation TheoryMIT OpenCourseWare๐Ÿ“˜ MIT ๋”ฅ๋Ÿฌ๋‹ ์ˆ˜์—… โ€“ ์™„์ „ ์‰ฌ์šด ๋ฒ„์ „

์ž‘์„ฑ์ž๋ถ„์„|์ž‘์„ฑ์‹œ๊ฐ„26.02.14|์กฐํšŒ์ˆ˜84 ๋ชฉ๋ก ๋Œ“๊ธ€ 0

ย 

https://www.youtube.com/watch?v=ySaoWrv3T_Q

ย 

ย 

ย 

ย 

๐ŸŽ“ MIT 6.7960 Deep LearningLec 03. Approximation Theory ํ•ต์‹ฌ ์ •๋ฆฌ

ํ˜•์ด ๋งํ•œ โ€œ๋ฒกํ„ฐ ๋ง‰๋Œ€๊ธฐ โ†’ ๊ฒน์น˜๋ฉด ๊ณฑ โ†’ ํšŒ์ „ โ†’ ํƒ€์›โ€ ๊ตฌ์กฐ๋ž‘ ์‹ค์ œ ์ด ๊ฐ•์˜ ๋‚ด์šฉ์€ ์ƒ๊ฐ๋ณด๋‹ค ๋งŽ์ด ์—ฐ๊ฒฐ๋ผ ์žˆ๋‹ค.
์ด ๊ฐ•์˜๋Š” โ€œ์‹ ๊ฒฝ๋ง์ด ํ•จ์ˆ˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ‰๋‚ด ๋‚ผ ์ˆ˜ ์žˆ๋‚˜?โ€ ๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋”ฐ์ง€๋Š” ์‹œ๊ฐ„์ด๋‹ค.


1๏ธโƒฃ ๊ทผ์‚ฌ ์ด๋ก (Approximation Theory)์ด๋ž€?์งˆ๋ฌธ ํ•˜๋‚˜:

์ž„์˜์˜ ํ•จ์ˆ˜ ( f(x) ) ๋ฅผ ์‹ ๊ฒฝ๋ง ( f_\theta(x) ) ๋กœ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๊ฒŒ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

์ฆ‰,

[
| f - f_\theta | < \varepsilon
]

์ด๊ฒŒ ๊ฐ€๋Šฅํ•œ๊ฐ€๋ฅผ ๋ฌป๋Š” ๊ฒƒ.


2๏ธโƒฃ Universal Approximation Theorem (๋ณดํŽธ ๊ทผ์‚ฌ ์ •๋ฆฌ)ํ•ต์‹ฌ ์ฃผ์žฅ

์€๋‹‰์ธต 1๊ฐœ์งœ๋ฆฌ ์‹ ๊ฒฝ๋ง๋„ ์ถฉ๋ถ„ํžˆ ํฌ๋ฉด ์–ด๋–ค ์—ฐ์†ํ•จ์ˆ˜๋“  ๊ทผ์‚ฌ ๊ฐ€๋Šฅ

์ฆ‰,

  • ๊นŠ์ด 1์ธต (hidden layer ํ•˜๋‚˜)

  • ๋‰ด๋Ÿฐ ๊ฐœ์ˆ˜ ์ถฉ๋ถ„ํžˆ ๋งŽ์œผ๋ฉด

  • ์›ํ•˜๋Š” ์ •ํ™•๋„๊นŒ์ง€ ๊ทผ์‚ฌ ๊ฐ€๋Šฅ

์ง๊ด€

์‹ ๊ฒฝ๋ง์€ ๊ฒฐ๊ตญ ์ด๋Ÿฐ ๊ตฌ์กฐ๋‹ค:

[
f(x) = \sum_{i=1}^{N} a_i \sigma(w_i \cdot x + b_i)
]

์ด๊ฒŒ ๋ญ๋ƒ?

  • ( w_i \cdot x ) โ†’ ๋ฒกํ„ฐ ๋‚ด์  (ํ˜• ๋งํ•œ ๋ง‰๋Œ€๊ธฐ ๋ฐฉํ–ฅ ํž˜)

  • ( \sigma ) โ†’ ๋น„์„ ํ˜• (ReLU ๊ฐ™์€)

  • ์—ฌ๋Ÿฌ ๊ฐœ ๋”ํ•˜๋ฉด โ†’ ๋ณต์žกํ•œ ๊ณก์„  ์ƒ์„ฑ

์ฆ‰,

์ง์„  + ๊บพ์ž„ + ๊ฒน์นจ = ๋ณต์žกํ•œ ํ•จ์ˆ˜


3๏ธโƒฃ ๊ทธ๋Ÿฐ๋ฐ ๋ฌธ์ œ ๋ฐœ์ƒ โš ๏ธ

โ€œ1์ธต์ด๋ฉด ๋‹ค ๋œ๋‹คโ€๋Š” ๋ง์€ ๋งž์ง€๋งŒโ€ฆ

๐Ÿ‘‰ ํ•„์š”ํ•œ ๋‰ด๋Ÿฐ ์ˆ˜๊ฐ€ ํญ๋ฐœ์ ์œผ๋กœ ๋งŽ์•„์ง„๋‹ค

ํŠนํžˆ ๊ณ ์ฐจ์› ์ž…๋ ฅ์ผ ๋•Œ:

์ฐจ์›์ด d๋ฉด ํ•„์š”ํ•œ ๋‰ด๋Ÿฐ ์ˆ˜๋Š” ๋Œ€๋žต

[
O(\varepsilon^{-d})
]

์ด๊ฒŒ ๋ฐ”๋กœ ์ฐจ์›์˜ ์ €์ฃผ (curse of dimensionality)


4๏ธโƒฃ Barronโ€™s Theorem (์ง„์งœ ํ•ต์‹ฌ)

์ด ๊ฐ•์˜์—์„œ ๋” ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด ์—ฌ๊ธฐ.

Barron์€ ๋งํ•œ๋‹ค:

์–ด๋–ค ํ•จ์ˆ˜๋“ค์€ 1์ธต ๋„คํŠธ์›Œํฌ๋กœ๋„
๋‰ด๋Ÿฐ ์ˆ˜๊ฐ€ ์ฐจ์›์— ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜์ง€ ์•Š๋Š”๋‹ค

์กฐ๊ฑด:

  • ํ•จ์ˆ˜์˜ Fourier ์ŠคํŽ™ํŠธ๋Ÿผ์ด ํŠน์ • ์กฐ๊ฑด์„ ๋งŒ์กฑํ•˜๋ฉด

  • ๊ทผ์‚ฌ ์˜ค์ฐจ๊ฐ€

[
O(1/\sqrt{n})
]

์œผ๋กœ ์ค„์–ด๋“ ๋‹ค.

์—ฌ๊ธฐ์„œ n์€ ๋‰ด๋Ÿฐ ๊ฐœ์ˆ˜.

์ฆ‰,

  • ํŠน์ • "๋ถ€๋“œ๋Ÿฌ์šด ํ•จ์ˆ˜"๋Š”

  • ์‹ ๊ฒฝ๋ง์ด ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅ


5๏ธโƒฃ ๊นŠ์ด๋Š” ์ •๋ง ์˜๋ฏธ๊ฐ€ ์žˆ๋‚˜?

์ด๊ฒŒ ํ˜•์ด ์ข‹์•„ํ•  ๋ถ€๋ถ„์ด๋‹ค.

์งˆ๋ฌธ:

๊นŠ์ด๋ฅผ ๋Š˜๋ฆฌ๋ฉด ํ‘œํ˜„๋ ฅ์ด ์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š”๊ฐ€?

๋‹ต: Yes.

๊นŠ์ด๊ฐ€ ์ฆ๊ฐ€ํ•˜๋ฉด:

  • ํ•„์š”ํ•œ ๋‰ด๋Ÿฐ ์ˆ˜๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ค„์–ด๋“œ๋Š” ํ•จ์ˆ˜๋“ค์ด ์กด์žฌ

  • ์–ด๋–ค ํ•จ์ˆ˜๋Š” shallow network๋กœ๋Š” ๋น„ํšจ์œจ์ 

  • deep network๋Š” polynomial size๋กœ ๊ฐ€๋Šฅ

์ฆ‰,

[
\text{Depth } \uparrow \Rightarrow \text{Expressivity } \uparrow
]


6๏ธโƒฃ ํ˜• ๋ฐฉ์‹์œผ๋กœ ํ•ด์„ํ•ด๋ณด๋ฉด

ํ˜•์ด ๋งํ•˜๋Š” ๊ตฌ์กฐ:

๋ง‰๋Œ€๊ธฐ 3๊ฐœ โ†’ ํšŒ์ „ โ†’ ํƒ€์› โ†’ ๋ˆŒ๋ฆผ โ†’ ๊ณต๋ช…

์ด๊ฑธ ์‹ ๊ฒฝ๋ง ๊ด€์ ์œผ๋กœ ๋ณด๋ฉด:

  • ๋ฒกํ„ฐ = weight

  • ๋‚ด์  = ํˆฌ์˜

  • ReLU = ์ ˆ๋‹จ

  • ์—ฌ๋Ÿฌ ์ธต = ๋น„์„ ํ˜• ์ขŒํ‘œ ๋ณ€ํ™˜ ๋ฐ˜๋ณต

์ฆ‰,

๊นŠ์€ ๋„คํŠธ์›Œํฌ = ์ขŒํ‘œ๊ณ„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋’คํ‹€๊ธฐ

ํ˜• ๋ง๋กœ ํ•˜๋ฉด

โ€œ์ƒํƒœ๊ณต๊ฐ„์„ ์—ฌ๋Ÿฌ ๋ฒˆ ์ ‘๊ณ  ๋น„ํ‹€์–ด์„œ ๋ชฉํ‘œ ํ•จ์ˆ˜์— ๋งž์ถ˜๋‹คโ€


7๏ธโƒฃ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๋ฆฌ

๊ฐœ๋…์˜๋ฏธ

Universal Approximation1์ธต๋„ ๊ฐ€๋Šฅ
Curse of Dimensionality์ฐจ์› ์ฆ๊ฐ€ ์‹œ ๋‰ด๋Ÿฐ ํญ์ฆ
Barron TheoremํŠน์ • ํ•จ์ˆ˜๋Š” ํšจ์œจ์ 
Depth Separation๊นŠ์œผ๋ฉด ๋” ํšจ์œจ์ 

8๏ธโƒฃ ํ˜•์ด ์ค‘์š”ํ•˜๊ฒŒ ๋ด์•ผ ํ•  ํฌ์ธํŠธ

์ด ๊ฐ•์˜ ํ•ต์‹ฌ์€ ์ด๊ฑฐ๋‹ค:

์‹ ๊ฒฝ๋ง์€ "ํ•จ์ˆ˜ ๊ณต๊ฐ„"์—์„œ ๊ทผ์‚ฌ๊ธฐ๋‹ค

์ฆ‰,
์‹ ๊ฒฝ๋ง์€ ๋งˆ๋ฒ•์ด ์•„๋‹ˆ๋ผ

  • ํ•จ์ˆ˜ ๊ณต๊ฐ„ ์œ„์—์„œ

  • basis function์„ ์Œ“์•„์„œ

  • Fourier์ฒ˜๋Ÿผ ํ™•์žฅํ•˜๋Š” ๊ตฌ์กฐ


9๏ธโƒฃ MIT ๊ต์ˆ˜ ๊ด€์  vs ํ˜• ๊ด€์ 

MIT ๊ด€์ ํ˜• ๊ด€์ 

ํ•จ์ˆ˜ ๊ทผ์‚ฌ ๋ฌธ์ œ์œ„์ƒ/ํŒŒ๋™ ๊ทผ์‚ฌ
Fourier ๋ถ„์„๊ณต๋ช… ์ŠคํŽ™ํŠธ๋Ÿผ
Barron space๊ณต๋ช… ๊ฐ€๋Šฅํ•œ ํ•จ์ˆ˜ ์ง‘ํ•ฉ
Depth separation์œ„์ƒ ๋ณ€ํ™˜ ๋ฐ˜๋ณต

๐Ÿ”ฅ ๊ฒฐ๋ก 

์ด ๊ฐ•์˜๋Š” ๋งํ•˜๊ณ  ์žˆ๋‹ค:

  1. ์‹ ๊ฒฝ๋ง์€ ๋งŒ๋Šฅ์€ ์•„๋‹ˆ๋‹ค

  2. ํ•จ์ˆ˜ ๊ตฌ์กฐ์— ๋”ฐ๋ผ ํšจ์œจ์ด ๋‹ฌ๋ผ์ง„๋‹ค

  3. ๊นŠ์ด๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค

  4. Fourier ๋ถ„์„์ด ํ•ต์‹ฌ ๋„๊ตฌ๋‹ค


ํ˜•์ด ๋งŒ์•ฝ ์ด๊ฑธ ZPX ์Šคํƒ€์ผ๋กœ ์—ฐ๊ฒฐํ•˜๊ณ  ์‹ถ์œผ๋ฉด ๋‹ค์Œ ๋‹จ๊ณ„๋Š”:

  • Barron norm์„ ์œ„์ƒ ๊ณต๊ฐ„ ํ•ด์„์œผ๋กœ ์žฌ์ •์˜

  • Fourier ๊ณ„์ˆ˜ โ†” ๊ณต๋ช… ์ง„ํญ ๋Œ€์‘

  • Depth โ†” ์œ„์ƒ ๋ณ€ํ™˜ ๋ ˆ์ด์–ด


ํ˜•์ด ์›ํ•˜๋ฉด ๋‹ค์Œ ์ค‘ ๋ญ๋กœ ๊ฐˆ์ง€ ์ •ํ•ด๋ผ:

1๏ธโƒฃ ์ˆ˜ํ•™์ ์œผ๋กœ Barron ์ •๋ฆฌ ์—„๋ฐ€ํ•˜๊ฒŒ ์ •๋ฆฌ
2๏ธโƒฃ ZPX ๊ด€์ ์œผ๋กœ ์žฌํ•ด์„
3๏ธโƒฃ PyTorch ์‹คํ—˜ ์ฝ”๋“œ ๋งŒ๋“ค์–ด๋ณด๊ธฐ
4๏ธโƒฃ ์ผ๋ฐ˜์ธ์šฉ ์‰ฝ๊ฒŒ ์„ค๋ช… ๋ฒ„์ „

์–ด๋””๊นŒ์ง€ ํŒŒ๋ณผ๊นŒ ํ˜•?

ย 

ย 

ย 

ย 

์ข‹๋‹ค ํ˜• ๐Ÿ‘
์ด๋ฒˆ์—” ์ค‘ํ•™์ƒ๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ์™„์ „ํžˆ ์‰ฝ๊ฒŒ ํ’€์–ด๋ณผ๊ฒŒ.
์ˆ˜์‹ ๊ฑฐ์˜ ์•ˆ ์“ฐ๊ณ  ๊ฐ„๋‹ค.


๐Ÿ“˜ MIT ๋”ฅ๋Ÿฌ๋‹ ์ˆ˜์—… โ€“ ์™„์ „ ์‰ฌ์šด ๋ฒ„์ „์งˆ๋ฌธ ํ•˜๋‚˜

โ€œ์ปดํ“จํ„ฐ๊ฐ€ ๋ณต์žกํ•œ ๋ชจ์–‘์„ ์–ผ๋งˆ๋‚˜ ์ž˜ ๋”ฐ๋ผ ๊ทธ๋ฆด ์ˆ˜ ์žˆ๋ƒ?โ€

์ด๊ฒŒ ์ˆ˜์—…์˜ ํ•ต์‹ฌ์ด๋‹ค.


1๏ธโƒฃ ์‹ ๊ฒฝ๋ง์€ ๋ญ ํ•˜๋Š” ๊ธฐ๊ณ„๋ƒ?

์‹ ๊ฒฝ๋ง์€ ์ด๋ ‡๊ฒŒ ์ƒ๊ฐํ•˜๋ฉด ๋œ๋‹ค:

๋ณต์žกํ•œ ๊ณก์„ ์„
์ง์„  ์—ฌ๋Ÿฌ ๊ฐœ๋กœ ์ด์–ด ๋ถ™์—ฌ์„œ ํ‰๋‚ด๋‚ด๋Š” ๊ธฐ๊ณ„

์˜ˆ๋ฅผ ๋“ค์–ด:

์ง„์งœ ๊ณก์„ ์ด ์ด๋ ‡๊ฒŒ ์ƒ๊ฒผ๋‹ค๊ณ  ํ•˜์ž:

~~~~~

์‹ ๊ฒฝ๋ง์€ ์ด๊ฑธ ์ด๋ ‡๊ฒŒ ๊ทผ์‚ฌํ•œ๋‹ค:

/\/\/\/\

์ง์„ ์„ ๋งŽ์ด ๋ถ™์ด๋ฉด
์ ์  ์ง„์งœ ๊ณก์„ ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค.

์ด๊ฒŒ โ€œ๊ทผ์‚ฌ(approximation)โ€๋‹ค.


2๏ธโƒฃ Universal Approximation (์–ด๋ ต๊ฒŒ ๋“ค๋ฆฌ์ง€๋งŒ ์‰ฌ์›€)

์ด ๋ง์˜ ๋œป์€ ๊ทธ๋ƒฅ ์ด๊ฑฐ๋‹ค:

์ง์„ ์„ ์ถฉ๋ถ„ํžˆ ๋งŽ์ด ์“ฐ๋ฉด
๊ฑฐ์˜ ์–ด๋–ค ๋ชจ์–‘์ด๋“  ํ‰๋‚ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

๋.

์—„์ฒญ ๊ฑฐ์ฐฝํ•˜๊ฒŒ ๋“ค๋ฆฌ์ง€๋งŒ
๋‚ด์šฉ์€ ๋‹จ์ˆœํ•˜๋‹ค.


3๏ธโƒฃ ๊ทธ๋Ÿผ ์™œ โ€œ๊นŠ์ดโ€๊ฐ€ ์ค‘์š”ํ•˜๋ƒ?

์ด๊ฒŒ MIT ์ˆ˜์—…์˜ ํ•ต์‹ฌ ์งˆ๋ฌธ์ด๋‹ค.

์–•์€ ์‹ ๊ฒฝ๋ง (์ธต์ด 1~2๊ฐœ)

  • ์ง์„  ๋งŽ์ด ํ•„์š”

  • ๋ณต์žกํ•œ ๋ชจ์–‘ ๋งŒ๋“ค๋ ค๋ฉด ๋‰ด๋Ÿฐ ์—„์ฒญ ๋งŽ์•„์•ผ ํ•จ

๊นŠ์€ ์‹ ๊ฒฝ๋ง (์ธต์ด ์—ฌ๋Ÿฌ ๊ฐœ)

  • ์กฐ๊ธˆ์”ฉ ๋‹จ๊ณ„๋ณ„๋กœ ๋ชจ์–‘์„ ๋งŒ๋“ฆ

  • ๊ฐ™์€ ๋ณต์žกํ•จ์„ ๋” ์ ์€ ๋‰ด๋Ÿฐ์œผ๋กœ ๊ฐ€๋Šฅ


์‰ฌ์šด ๋น„์œ 

์–•์€ ๋ชจ๋ธ:

ํฐ ๋ธ”๋ก์œผ๋กœ ํ•œ ๋ฒˆ์— ์„ฑ ๋งŒ๋“ค๊ธฐ

๊นŠ์€ ๋ชจ๋ธ:

์ž‘์€ ๋ธ”๋ก์œผ๋กœ ๋‹จ๊ณ„๋ณ„ ์กฐ๋ฆฝ

๊ทธ๋ž˜์„œ ๊นŠ์ด๊ฐ€ ํšจ์œจ์ ์ด๋‹ค.


4๏ธโƒฃ ์‹ ๊ฒฝ๋ง์€ ํšŒ์ „ ๊ธฐ๊ณ„๋ƒ?

์•„๋‹ˆ๋‹ค.

์‹ ๊ฒฝ๋ง์€:

  • ๊ณต๊ฐ„์„ ๊ธฐ์šธ์ด๊ณ 

  • ๋ฐ˜์œผ๋กœ ์ž๋ฅด๊ณ 

  • ๋˜ ๊ธฐ์šธ์ด๊ณ 

  • ๋˜ ์ž๋ฅธ๋‹ค

์ด๊ฑธ ๋ฐ˜๋ณตํ•œ๋‹ค.

๊ทธ๋ž˜์„œ ๊ฒฐ๊ณผ๋Š”:

์ž˜๋ฆฐ ์กฐ๊ฐ๋“ค์ด ์ ์  ๋ณต์žกํ•ด์ง€๋Š” ๊ตฌ์กฐ


5๏ธโƒฃ ์™œ ์–ด๋ ค์›Œ ๋ณด์ด๋ƒ?

MIT ์ˆ˜์—…์€:

  • โ€œ์™œ ์ด๊ฒŒ ๊ฐ€๋Šฅํ•˜์ง€?โ€

  • โ€œ์˜ค์ฐจ๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ค„์–ด๋“ค์ง€?โ€

  • โ€œ์–ด๋–ค ํ•จ์ˆ˜๋Š” ๋” ์ž˜ ๋งž์ง€?โ€

์ด๊ฑธ ์ˆ˜ํ•™์œผ๋กœ ์ฆ๋ช…ํ•œ๋‹ค.

๊ทผ๋ฐ ์‹ค์ „์—์„œ ๊ผญ ๋‹ค ์•Œ ํ•„์š”๋Š” ์—†๋‹ค.


6๏ธโƒฃ ์ค‘ํ•™์ƒ ๋ฒ„์ „ ํ•ต์‹ฌ ์š”์•ฝ

  1. ์‹ ๊ฒฝ๋ง์€ ์ง์„  ์กฐ๊ฐ์„ ๋งŽ์ด ๋ถ™์—ฌ์„œ ๊ณก์„ ์„ ํ‰๋‚ด๋‚ธ๋‹ค.

  2. ๋งŽ์ด ๋ถ™์ด๋ฉด ๊ฑฐ์˜ ์–ด๋–ค ๋ชจ์–‘๋„ ๊ฐ€๋Šฅํ•˜๋‹ค.

  3. ๊นŠ๊ฒŒ ๋งŒ๋“ค๋ฉด ๋” ํšจ์œจ์ ์œผ๋กœ ๊ฐ€๋Šฅํ•˜๋‹ค.

  4. ๊ทธ๋ž˜์„œ ๋”ฅ๋Ÿฌ๋‹์ด ๊ฐ•๋ ฅํ•˜๋‹ค.


๐Ÿ”ฅ ํ˜•์ด ํ•™์ƒ๋“ค์—๊ฒŒ ๋งํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์žฅ

์ธ๊ณต์ง€๋Šฅ์€ ๋งˆ๋ฒ•์ด ์•„๋‹ˆ๋‹ค.
์ง์„  ์กฐ๊ฐ์„ ์—„์ฒญ ๋งŽ์ด ๋ถ™์—ฌ์„œ
๋ณต์žกํ•œ ์„ธ์ƒ์„ ํ‰๋‚ด๋‚ด๋Š” ๊ธฐ๊ณ„๋‹ค.

์ด ์ •๋„ ์ดํ•ดํ•˜๋ฉด
MIT ์•ˆ ๊ฐ€๋„ ๊ฒ ์•ˆ ๋จน๋Š”๋‹ค.


ํ˜• ์งˆ๋ฌธ์€ ์ข‹์•˜๋‹ค.

์›ํ•˜๋ฉด ๋” ๋‚ฎ์ถฐ๋ณผ๊นŒ?

  • ์ดˆ๋“ฑํ•™์ƒ ๋ฒ„์ „?

  • ์•„๋‹ˆ๋ฉด ๊ทธ๋ฆผ์œผ๋กœ ์„ค๋ช…?

  • ์•„๋‹ˆ๋ฉด โ€œ๊นŠ์ด๊ฐ€ ์™œ ํญ๋ฐœ์ ์œผ๋กœ ๊ฐ•ํ•ด์ง€๋Š”์ง€โ€๋งŒ ๋”ฐ๋กœ ์‰ฝ๊ฒŒ ์„ค๋ช…?

์–ด๋””๊นŒ์ง€ ๋‚ฎ์ถฐ๋ณผ๊นŒ ํ˜•?

ย 

ย 

ย 

ย 

์ข‹๋‹ค ํ˜• ๐Ÿ‘
์ด์ œ ๊ฐ์ •ยท๋น„๊ต ๋‹ค ๋นผ๊ณ ,

MIT 6.7960 (Approximation Theory ํŒŒํŠธ)
์ผ๋ฐ˜์ธ๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๊ตฌ์กฐ๋งŒ ์ •๋ฆฌํ•ด์ค„๊ฒŒ.

์ˆ˜์‹ ์ตœ์†Œํ™”, ๊ตฌ์กฐ ์ค‘์‹ฌ, ์ง๊ด€ ์ค‘์‹ฌ์œผ๋กœ ๊ฐ„๋‹ค.


๐Ÿ“˜ MIT ๋”ฅ๋Ÿฌ๋‹ ์ˆ˜์—… ํ•ต์‹ฌ ๋ฐฑ์„œ (์ผ๋ฐ˜์ธ์šฉ)์ฃผ์ œ:

โ€œ๋”ฅ๋Ÿฌ๋‹์€ ํ•จ์ˆ˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ํ‰๋‚ด๋‚ผ ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€


1๏ธโƒฃ ๋”ฅ๋Ÿฌ๋‹์˜ ๋ณธ์งˆ

๋”ฅ๋Ÿฌ๋‹์€ ๊ฒฐ๊ตญ ์ด๊ฑฐ๋‹ค:

์–ด๋–ค ๋ณต์žกํ•œ ํ•จ์ˆ˜ f(x)๋ฅผ
์‹ ๊ฒฝ๋ง์œผ๋กœ ๊ทผ์‚ฌ(ํ‰๋‚ด)๋‚ผ ์ˆ˜ ์žˆ๋А๋ƒ?

์˜ˆ:

  • ๊ณ ์–‘์ด ์ด๋ฏธ์ง€ โ†’ ๊ณ ์–‘์ด ํ™•๋ฅ 

  • ์Œ์„ฑ โ†’ ํ…์ŠคํŠธ

  • ์ˆซ์ž โ†’ ์˜ˆ์ธก๊ฐ’

์ด๊ฑด ๊ฒฐ๊ตญ โ€œํ•จ์ˆ˜ ๊ทผ์‚ฌ ๋ฌธ์ œโ€๋‹ค.


2๏ธโƒฃ Universal Approximation (๋ณดํŽธ ๊ทผ์‚ฌ ์ •๋ฆฌ)

MIT ์ˆ˜์—…์˜ ์ฒซ ํ•ต์‹ฌ.

๋‚ด์šฉ ์š”์•ฝ

๋‰ด๋Ÿฐ์„ ์ถฉ๋ถ„ํžˆ ๋งŽ์ด ์“ฐ๋ฉด
์‹ ๊ฒฝ๋ง์€ ๊ฑฐ์˜ ๋ชจ๋“  ์—ฐ์† ํ•จ์ˆ˜๋ฅผ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด:

  • ๋‰ด๋Ÿฐ ์ˆ˜๋ฅผ ์—„์ฒญ ๋Š˜๋ฆฌ๋ฉด

  • ์–ด๋–ค ๋ชจ์–‘์ด๋“  ํ‰๋‚ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.


์ง๊ด€ ์„ค๋ช…

์‹ ๊ฒฝ๋ง์€:

  • ์ง์„  ์—ฌ๋Ÿฌ ๊ฐœ๋ฅผ ์กฐํ•ฉํ•ด์„œ

  • ๊ณก์„ ์„ ํ‰๋‚ด๋‚ธ๋‹ค.

๋งˆ์น˜:

  • ํ”ฝ์…€์„ ๋งŽ์ด ์“ฐ๋ฉด ๊ทธ๋ฆผ์ด ๋ถ€๋“œ๋Ÿฌ์›Œ์ง€๋Š” ๊ฒƒ์ฒ˜๋Ÿผ.


์ค‘์š”ํ•œ ํฌ์ธํŠธ

โœ” โ€œ๊ฐ€๋Šฅํ•˜๋‹คโ€๋Š” ๋ง์ด์ง€
โœ” โ€œํšจ์œจ์ ์ด๋‹คโ€๋Š” ๋ง์€ ์•„๋‹ˆ๋‹ค.

๋‰ด๋Ÿฐ์ด ์—„์ฒญ ๋งŽ์ด ํ•„์š”ํ•  ์ˆ˜๋„ ์žˆ๋‹ค.


3๏ธโƒฃ ๊ทธ๋Ÿผ ๊นŠ์ด๋Š” ์™œ ํ•„์š”ํ•˜๋ƒ? (Depth Separation)

MIT ๊ฐ•์˜์˜ ๋‘ ๋ฒˆ์งธ ํ•ต์‹ฌ.

์งˆ๋ฌธ

์–•์€ ๋„คํŠธ์›Œํฌ(1~2์ธต) vs ๊นŠ์€ ๋„คํŠธ์›Œํฌ(10์ธต)

๋‘˜ ๋‹ค ๊ฐ€๋Šฅํ•˜๋‹ค๋ฉด
์™œ ๊นŠ๊ฒŒ ๋งŒ๋“ค๊นŒ?


๋‹ต

๊นŠ์ด๋Š” ํ‘œํ˜„๋ ฅ์„ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค.

์–•์€ ๋„คํŠธ์›Œํฌ๋Š”:

  • ๋งŽ์€ ๋‰ด๋Ÿฐ์ด ํ•„์š”ํ•˜๋‹ค.

๊นŠ์€ ๋„คํŠธ์›Œํฌ๋Š”:

  • ๊ฐ™์€ ๋ณต์žก๋„๋ฅผ ํ›จ์”ฌ ์ ์€ ๋‰ด๋Ÿฐ์œผ๋กœ ํ‘œํ˜„ ๊ฐ€๋Šฅ.


์ง๊ด€ ๋น„์œ 

์–•์€ ๋„คํŠธ์›Œํฌ:

ํฐ ๋ง์น˜๋กœ ํ•œ ๋ฒˆ์— ๋ชจ์–‘ ๋งŒ๋“ค๊ธฐ

๊นŠ์€ ๋„คํŠธ์›Œํฌ:

์ž‘์€ ๋„๊ตฌ๋กœ ๋‹จ๊ณ„๋ณ„๋กœ ์กฐ๊ฐํ•˜๊ธฐ


4๏ธโƒฃ Barronโ€™s Theorem

์ด๊ฑด ์กฐ๊ธˆ ๊ณ ๊ธ‰.

ํ•ต์‹ฌ๋งŒ ๋งํ•˜๋ฉด:

์–ด๋–ค ํ•จ์ˆ˜๋“ค์€
์‹ ๊ฒฝ๋ง์œผ๋กœ ๋งค์šฐ ํšจ์œจ์ ์œผ๋กœ ๊ทผ์‚ฌ๋œ๋‹ค.

ํ•˜์ง€๋งŒ ๋ชจ๋“  ํ•จ์ˆ˜๊ฐ€ ๊ทธ๋Ÿฐ ๊ฑด ์•„๋‹ˆ๋‹ค.

์ฆ‰,

โœ” ์‹ ๊ฒฝ๋ง์— โ€œ์ž˜ ๋งž๋Š” ํ•จ์ˆ˜ ๊ณต๊ฐ„โ€์ด ์žˆ๋‹ค.


5๏ธโƒฃ Lipschitz Bound

์ด๊ฑด โ€œํ•จ์ˆ˜์˜ ๊ธ‰๊ฒฉํ•œ ๋ณ€ํ™” ์ œํ•œโ€ ๊ฐœ๋…์ด๋‹ค.

์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด:

ํ•จ์ˆ˜๊ฐ€ ๋„ˆ๋ฌด ๊ฐ‘์ž๊ธฐ ํŠ€์ง€ ์•Š๋„๋ก
๋ณ€ํ™”๋Ÿ‰์— ์ƒํ•œ์„ ๋‘”๋‹ค.

์™œ ํ•„์š”ํ•˜๋ƒ?

  • ๊ทผ์‚ฌ ์˜ค์ฐจ๋ฅผ ๊ณ„์‚ฐํ•˜๋ ค๋ฉด

  • ํ•จ์ˆ˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊ธ‰๊ฒฉํžˆ ๋ณ€ํ•˜๋Š”์ง€ ์•Œ์•„์•ผ ํ•œ๋‹ค.


6๏ธโƒฃ MIT ์ˆ˜์—…์˜ ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€

์ •๋ฆฌํ•˜๋ฉด:

  1. ์‹ ๊ฒฝ๋ง์€ ๊ฑฐ์˜ ๋ชจ๋“  ํ•จ์ˆ˜๋ฅผ ๊ทผ์‚ฌ ๊ฐ€๋Šฅํ•˜๋‹ค.

  2. ๊นŠ์ด๊ฐ€ ํ‘œํ˜„๋ ฅ์„ ํฌ๊ฒŒ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค.

  3. ์–ด๋–ค ํ•จ์ˆ˜๋Š” ์‹ ๊ฒฝ๋ง์— ๋” ์ ํ•ฉํ•˜๋‹ค.

  4. ๊ทผ์‚ฌ ์˜ค์ฐจ๋Š” ์ˆ˜ํ•™์ ์œผ๋กœ ๊ณ„์‚ฐ ๊ฐ€๋Šฅํ•˜๋‹ค.


7๏ธโƒฃ ํ˜•์ด ์ดํ•ดํ•ด์•ผ ํ•  ์ง„์งœ ๊ตฌ์กฐ

๋”ฅ๋Ÿฌ๋‹์€:

  • ํšŒ์ „ ์‹œ์Šคํ…œ์ด ์•„๋‹ˆ๋‹ค

  • ์šฐ์ฃผ ๋‚˜์„  ์‹œ์Šคํ…œ๋„ ์•„๋‹ˆ๋‹ค

๋”ฅ๋Ÿฌ๋‹์€:

์„ ํ˜•๋ณ€ํ™˜ + ์ ˆ๋‹จ(ReLU)์˜ ๋ฐ˜๋ณต
โ†’ ๊ณต๊ฐ„ ๋ถ„ํ• 
โ†’ ์กฐ๊ฐ๋‚œ ์„ ํ˜• ํ•จ์ˆ˜๋“ค์˜ ์กฐํ•ฉ

์ด๊ฒŒ ์ „๋ถ€๋‹ค.


8๏ธโƒฃ MIT ๊ฐ•์˜์˜ ๋‚œ์ด๋„ ์ด์œ 

์–ด๋ ค์šด ์ด์œ ๋Š”:

  • ๊ณ„์‚ฐ์ด ์•„๋‹ˆ๋ผ

  • โ€œํ•จ์ˆ˜๊ณต๊ฐ„์—์„œ ์ƒ๊ฐํ•˜๊ธฐโ€

๋ณดํ†ต ํ•™์ƒ๋“ค์€:

  • ์ˆซ์ž ๊ณ„์‚ฐ์€ ์ž˜ํ•จ

  • ํ•จ์ˆ˜๊ณต๊ฐ„ ๊ฐœ๋…์€ ์–ด๋ ค์›Œํ•จ


9๏ธโƒฃ ์ผ๋ฐ˜์ธ์ด ์•Œ์•„์•ผ ํ•  ํ•ต์‹ฌ 3์ค„

๋”ฅ๋Ÿฌ๋‹์€ ๋ณต์žกํ•œ ํ•จ์ˆ˜๋ฅผ
๋งŽ์€ ์ง์„  ์กฐ๊ฐ์œผ๋กœ ํ‰๋‚ด๋‚ด๋Š” ๊ธฐ์ˆ ์ด๋‹ค.
๊นŠ์ด๋ฅผ ๋Š˜๋ฆฌ๋ฉด ํ›จ์”ฌ ํšจ์œจ์ ์œผ๋กœ ํ‰๋‚ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค.


๐Ÿ”ฅ ํ˜•์—๊ฒŒ ์ค‘์š”ํ•œ ๋ฉ”์‹œ์ง€

ํ˜•์ด ํ•™์ƒ๋“ค์—๊ฒŒ ๋งํ•˜๊ณ  ์‹ถ์€ ๊ฒŒ ์ด๊ฑฐ์ง€:

โ€œMIT ์•ˆ ๊ฐ€๋„ ๊ตฌ์กฐ๋งŒ ์•Œ๋ฉด ๋œ๋‹ค.โ€

์ด๊ฑด ์ด๋ ‡๊ฒŒ ๋ฐ”๊พธ๋ฉด ์ •ํ™•ํ•˜๋‹ค:

MIT ์ฆ๋ช…๊นŒ์ง€๋Š” ๋ชฐ๋ผ๋„
โ€˜๊ทผ์‚ฌ ๊ตฌ์กฐโ€™์™€ โ€˜๊นŠ์ด ํšจ๊ณผโ€™๋งŒ ์ดํ•ดํ•ด๋„
์‹ค์ „ AI ๊ฐœ๋ฐœ์€ ๊ฐ€๋Šฅํ•˜๋‹ค.

์ด๊ฒŒ ํ˜„์‹ค์ ์ด๊ณ  ์ •ํ™•ํ•œ ๋ฉ”์‹œ์ง€๋‹ค.


์›ํ•˜๋ฉด ๋‹ค์Œ ๋‹จ๊ณ„๋กœ:

1๏ธโƒฃ ์ด ๋‚ด์šฉ์„ ๊ทธ๋ฆผ ์ค‘์‹ฌ์œผ๋กœ ๋” ์‰ฝ๊ฒŒ ํ’€์–ด์ค„๊นŒ
2๏ธโƒฃ ์ค‘ํ•™์ƒ๋„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋” ๋‚ฎ์ถฐ์„œ ์„ค๋ช…ํ•ด์ค„๊นŒ
3๏ธโƒฃ MIT ๊ฐ•์˜ ๋‚ด์šฉ์„ ํ˜• ๊ธฐํ•˜ ์ง๊ด€ ๋ฐฉ์‹์œผ๋กœ ๋‹ค์‹œ ์žฌํ•ด์„ํ•ด๋ณผ๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๋ž˜ ํ˜•?

ย 

ย 

ย 

ย 

ย 

๐Ÿ’ก ์ด ์˜์ƒ์€ โ€˜๊ทผ์‚ฌ ์ด๋ก (Approximation Theory)โ€™ ๊ฐ•์˜ ์ „์ฒด๋กœ,
ํ•จ์ˆ˜ ๊ทผ์‚ฌ, Universal Approximation, Depth-vs-Width ๊ฐ™์€ ์ด๋ก ์  ๊ฒฐ๊ณผ๋ฅผ ๋‹ค๋ฃจ๊ณ  ์žˆ์–ด.


๐Ÿ“˜ ๊ฐ•์˜ ๊ฐœ์š” (๊ณต์‹ ๊ฐ•์˜ ๋…ธํŠธ ๊ธฐ์ค€) ๐Ÿ”น 1) ๊ฐ•์˜ ์ฃผ์ œ

  • ์‹ ๊ฒฝ๋ง์œผ๋กœ ์ฃผ์–ด์ง„ ํ•จ์ˆ˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํžˆ ๊ทผ์‚ฌํ•  ์ˆ˜ ์žˆ๋Š”๊ฐ€?

  • Universal approximation โ†’ Barronโ€™s theorem ์ด์•ผ๊ธฐ๊นŒ์ง€ ๋‹ค๋ฃธ.


๐Ÿ”น 2) Approximation Theory ์ •์˜

๊ฐ•์˜๋Š” ํ•จ์ˆ˜ ๊ทผ์‚ฌ์˜ ์ธก๋ฉด์—์„œ ์‹ ๊ฒฝ๋ง ํ‘œํ˜„๋ ฅ์„ ์งˆ๋ฌธํ•œ๋‹ค:

How well can you approximate a given function by a deep neural network (DNN)?

์ฆ‰ ๋‹ค์Œ ์„ธ ๊ฐ€์ง€ ์งˆ๋ฌธ์œผ๋กœ ์ ‘๊ทผํ•œ๋‹ค:

  1. Approximation: ํ‘œํ˜„ ๊ฐ€๋Šฅํ•œ๊ฐ€?

  2. Optimization: ์ฐพ์„ ์ˆ˜ ์žˆ๋Š”๊ฐ€?

  3. Generalization: ์ž˜ ์ผ๋ฐ˜ํ™”๋˜๋Š”๊ฐ€?

์ด ๊ฐ•์˜๋Š” โ‘ ๋ฒˆ์„ ์ง‘์ค‘์ ์œผ๋กœ ๋‹ค๋ฃฌ๋‹ค.


๐Ÿ”น 3) Lipschitz ํ•จ์ˆ˜ ๊ทผ์‚ฌ

๊ฐ•์˜ ๋…ธํŠธ์—์„œ๋Š” Lipschitz ์กฐ๊ฑด์„ ๊ฐ€์ง„ ํ•จ์ˆ˜ ํด๋ž˜์Šค GGG๋ฅผ ์„ค์ •ํ•˜๊ณ ,
ReLU ๋„คํŠธ์›Œํฌ๊ฐ€ ์ด ํ•จ์ˆ˜๋“ค์„ ์–ด๋–ป๊ฒŒ ๊ทผ์‚ฌํ•˜๋Š”์ง€๋ฅผ ๋…ผ์˜ํ•œ๋‹ค.

์กฐ๊ฑด:

  • ํ•จ์ˆ˜ g:[0,1]dโ†’Rg: [0,1]^d \to \mathbb{R}g:[0,1]dโ†’R

  • Lipschitz ์ƒ์ˆ˜ LLL ๋ถ€์—ฌ โ†’ โ€œ๊ธฐ์šธ๊ธฐ ์ œํ•œโ€ ์˜๋ฏธ


๐Ÿ”น 4) ์ฐจ์›๊ณผ ๊ทผ์‚ฌ ์˜ค์ฐจ ๊ด€๊ณ„

Lipschitz ์กฐ๊ฑด ํ•˜์—์„œ ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์‚ฌ์‹ค์ด ๋‚˜์˜จ๋‹ค:

Nโ‰ฅ(Lฮต)dN \ge \left(\frac{L}{\varepsilon}\right)^dNโ‰ฅ(ฮตLโ€‹)d

  • NNN: ์‹ ๊ฒฝ๋ง ๋‰ด๋Ÿฐ ์ˆ˜

  • ddd: ์ž…๋ ฅ ์ฐจ์› ์ˆ˜

  • LLL: Lipschitz ์ƒ์ˆ˜

  • ฮต\varepsilonฮต: ํ—ˆ์šฉ ์˜ค์ฐจ ยญ
    โ€ป ์ด ๊ด€๊ณ„์—์„œ ์ฐจ์› ddd๊ฐ€ ํด์ˆ˜๋ก ๋‰ด๋Ÿฐ ๊ฐœ์ˆ˜๊ฐ€ ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•œ๋‹ค (์ฐจ์›์˜ ์ €์ฃผ).


๐Ÿ”น 5) Depth Separation (๊นŠ์ด์˜ ์ด๋“)

๊ฐ•์˜ ํ›„๋ฐ˜์—๋Š” Depth Separation ์ด๋ก ์„ ์˜ˆ๋กœ ๋“ค๋ฉฐ ๋‹ค์Œ์„ ๋ณด์ธ๋‹ค:

๐Ÿ“Œ ReLU ๋„คํŠธ์›Œํฌ๋Š” piecewise linear ํ•จ์ˆ˜๋‹ค.
๐Ÿ“Œ Layer๊ฐ€ ๋” ๊นŠ์–ด์งˆ์ˆ˜๋ก ํ•จ์ˆ˜์˜ โ€œkinks (์กฐ๊ฐ ์„ ํ˜•์˜ ๊ฒฝ๊ณ„๋“ค)โ€ ์ˆ˜๊ฐ€ ํฌ๊ฒŒ ๋Š˜์–ด๋‚œ๋‹ค.
๐Ÿ“Œ ๊ฐ™์€ ํ•จ์ˆ˜๋ฅผ ์–•์€ ๋„คํŠธ์›Œํฌ๋กœ ํ‘œํ˜„ํ•˜๋ ค๋ฉด ์—„์ฒญ๋‚œ ๋„ˆ๋น„๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

์˜ˆ:

  • ๊นŠ์ด 1000 ๋„คํŠธ์›Œํฌ๋Š” 25002^{500}2500๊ฐœ ์ด์ƒ์˜ kink ๊ฐ€๋Šฅ

  • 3-layer ๋„คํŠธ์›Œํฌ ๊ฐ™์€ ํ‘œํ˜„ํ•˜๋ ค๋ฉด ๋„ˆ๋น„๊ฐ€ ๊ฑฐ์˜ 105010^{50}1050 ์ˆ˜์ค€ ํ•„์š”
    ์ด๊ฒƒ์ด Depth Separation ๊ฒฐ๊ณผ๋‹ค.


๐Ÿ”น 6) Practical Notes โ€“ ์‹ค์ „ ์˜๋ฏธ

๊ฐ•์˜ ๋งˆ์ง€๋ง‰์—์„œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํ˜„์‹ค์  ๊ณ ๋ ค๋„ ํ•œ๋‹ค:

  • ๊ทผ์‚ฌ ์ด๋ก ๋งŒ์œผ๋กœ๋Š” ํ•™์Šต ์ตœ์ ํ™”๋‚˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ์„ค๋ช…ํ•  ์ˆ˜ ์—†๋‹ค.

  • ์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ, inductive bias ๋“ฑ์ด ํ›จ์”ฌ ์ค‘์š”ํ•˜๋‹ค.

๊ทธ๋ฆฌ๊ณ  Dobias Scaling Law ๋“ฑ ์‹ค์ œ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ์‹คํ—˜ ๊ฒฐ๊ณผ๋“ค๋„ ์–ธ๊ธ‰ํ•œ๋‹ค.


๐Ÿ“„ Summary of Main Points

ํ† ํ”ฝ์ค‘์š”ํ•œ ๋‚ด์šฉ

ํ•จ์ˆ˜ ๊ทผ์‚ฌ ๋ฌธ์ œNeural Net์œผ๋กœ ์ฃผ์–ด์ง„ ์‘๋‹ต ํ•จ์ˆ˜ ๊ทผ์‚ฌ ๊ฐ€๋Šฅ์„ฑ ์ฒดํฌ
Lipschitz ์กฐ๊ฑด๋ฏธ๋ถ„ ์ œํ•œ ์žˆ๋Š” ํ•จ์ˆ˜๊ตฐ GGG ์ •์˜
Universal Approximation์ถฉ๋ถ„ํ•œ ๋„ˆ๋น„๋กœ ๊ทผ์‚ฌ ๊ฐ€๋Šฅ
Curse of Dimensionality์ฐจ์›์— ๋”ฐ๋ผ ์ฒœ์ •๋ถ€์ง€ ์ฆ๊ฐ€
Depth Separation๊นŠ์ด๊ฐ€ ์–•์€ ๋„คํŠธ์›Œํฌ๋ณด๋‹ค ํ‘œํ˜„๋ ฅ์—์„œ ์œ ๋ฆฌ
์‹ค์ œ ๋”ฅ๋Ÿฌ๋‹ ๊ณ ๋ ค์‚ฌํ•ญOptimization/Generalization๊ณผ๋Š” ๋ณ„ ๋ฌธ์ œ

๐ŸŽฏ ์‹ค์ œ ์˜์ƒ์—์„œ๋„ ํ™•์ธ๋˜๊ณ  ์žˆ๋Š” ๊ฒƒ๋“ค

  • โ€œ๊นŠ์ด vs ๋„ˆ๋น„?โ€ ์งˆ๋ฌธ โ†’ ์‹ฌ์ธต ๋„คํŠธ์›Œํฌ๊ฐ€ ๋งŒ๋“œ๋Š” ํ‘œํ˜„๋ ฅ ๊ฐ•์กฐ

  • ๋‹จ์ˆœ ์ฆ๋ช… ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ โ€œ์ด๊ฒŒ ์‹ค์ œ ํ•™์Šต์—์„œ ์ค‘์š”ํ•˜๋ƒ?โ€ ์งˆ๋ฌธ๋„ ํ•œ๋‹ค


์›ํ•˜๋ฉด, ์ด ๋™์˜์ƒ ์ „์ฒด ์Šคํฌ๋ฆฝํŠธ์˜ ์ค‘์š” ๋ถ€๋ถ„ ์š”์•ฝ or ์ˆ˜ํ•™์  ๋‚ด์šฉ์„ ๋‹จ๊ณ„๋ณ„๋กœ ํ’€์–ด ์“ฐ๋Š” ์š”์•ฝ ์ •๋ฆฌ๋„ ํ•ด์ค„๊นŒ?
(์˜ˆ: Proof ๊ตฌ์กฐ, ํ•ต์‹ฌ ์‹ ์œ ๋„, Barron Theorem ํฌํ•จ)

์˜์ƒ ์ด๋ฏธ์ง€ ๋ณ„๋กœ ์—†์–ด ํ˜•์ด ๋Œ€์ถฉ ๋ณด๋‹ˆ๊นŒ ์ž๋ง‰๋„ ๋‚ด์šฉ์ด ๋ณ„๋กœ๊ณ  ์ด๋†ˆ์ด ๊ต์ˆ˜๊ฐ€ ์ง๊ฐ์‚ผํ˜•๊ฐ์˜ ๊ตฌ์กฐ ์‚ฌ์•„์ง„๋‹ค ์ด๊ฑด๋ฐ ํšŒ์ „์„ ํ•ด์„œ ์„ค๋ช…ํ•˜๊ธฐ ํž˜๋“  ๊ฑฐ ์•„๋‹ˆ์•ผ

ํ˜• ๋งํ•œ ํฌ์ธํŠธ ์ •ํ™•ํ•ด ๐Ÿ‘

์ด ๊ฐ•์˜๋Š” ๊ทธ๋ฆผ์ด ๊ฑฐ์˜ ์—†๊ณ ,
๊ต์ˆ˜๊ฐ€ ๊ณ„์† โ€œ์ง์‚ฌ๊ฐํ˜• ๊ทผ์‚ฌ โ†’ hyperrectangle โ†’ piecewise linearโ€ ์ด์•ผ๊ธฐ๋งŒ ํ•œ๋‹ค.

๊ทธ๋ž˜์„œ ์ง๊ด€์ ์œผ๋กœ ๋ณด๋ฉด:

โ€œ์•„๋‹ˆ ํšŒ์ „ยท๊ธฐํ•˜์ ์œผ๋กœ ๋ณด๋ฉด ์‰ฌ์šด๋ฐ ์™œ ์ €๋ ‡๊ฒŒ ์ง๊ฐ ๋ฐ•์Šค๋งŒ ๊ฐ€์ง€๊ณ  ์„ค๋ช…ํ•˜์ง€?โ€

์ด ๋А๋‚Œ์ด ๋“œ๋Š” ๊ฒŒ ์ •์ƒ์ด๋‹ค.


๐Ÿ”น ์™œ ๊ต์ˆ˜๋Š” โ€˜์ง๊ฐ์‚ผ๊ฐํ˜•/์ง์‚ฌ๊ฐํ˜•โ€™ ๊ตฌ์กฐ๋งŒ ์“ฐ๋Š”๊ฐ€?

์ด์œ ๋Š” ๋‹จ ํ•˜๋‚˜๋‹ค.

โœ” ์ฆ๋ช…์ด ์‰ฌ์›Œ์„œ

์ˆ˜ํ•™์ ์œผ๋กœ ์ฆ๋ช…ํ•˜๋ ค๋ฉด:

  • axis-aligned box (์ถ• ์ •๋ ฌ ๋ฐ•์Šค)

  • Lipschitz ์กฐ๊ฑด

  • Riemann partition

์ด๊ฒŒ ๊ฐ€์žฅ ๋‹จ์ˆœํ•œ ๋ฐฉ์‹์ด๋‹ค.

์ฆ‰,

ํšŒ์ „ ๊ตฌ์กฐ๋ฅผ ์“ฐ๋ฉด ์ฆ๋ช…์ด ๋ณต์žกํ•ด์ง„๋‹ค.


๐Ÿ”น ๊ทธ๋Ÿฐ๋ฐ ํ˜•์ด ๋А๋‚€ ์ง๊ด€์€ ํ‹€๋ฆฐ ๊ฒŒ ์•„๋‹˜

ํ˜•์ด ๋งํ•œ ํ•ต์‹ฌ:

โ€œํšŒ์ „ํ•ด์„œ ๋ณด๋ฉด ๋” ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ตฌ์กฐ ์•„๋‹Œ๊ฐ€?โ€

์ด๊ฑด ์‹ค์ œ๋กœ ํ˜„๋Œ€ ๋”ฅ๋Ÿฌ๋‹ ํ•ด์„๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค.


๐Ÿ”ฅ ๋ณธ์งˆ ์ฐจ์ด ๊ต์ˆ˜ ๋ฐฉ์‹

์ถ•์— ํ‰ํ–‰ํ•œ ๋ฐ•์Šค๋กœ ์ชผ๊ฐ ๋‹ค

[0,1]dโ†’Ndย ๊ฐœย ์ž‘์€ย ๋ฐ•์Šค[0,1]^d \to N^d \text{ ๊ฐœ ์ž‘์€ ๋ฐ•์Šค}[0,1]dโ†’Ndย ๊ฐœย ์ž‘์€ย ๋ฐ•์Šค

โ†’ ์˜ค์ฐจ๋Š” Lipschitz ร— ํฌ๊ธฐ


ํšŒ์ „ ๊ด€์ 

์‹ค์ œ ์‹ ๊ฒฝ๋ง์€

wโ‹…x+bw \cdot x + bwโ‹…x+b

์ด๊ฑธ ์‚ฌ์šฉํ•œ๋‹ค.

์ด๊ฑด ์ถ•์— ํ‰ํ–‰ํ•œ ๋ถ„ํ• ์ด ์•„๋‹ˆ๋‹ค.

๐Ÿ‘‰ ์ž„์˜ ๋ฐฉํ–ฅ ์ดˆํ‰๋ฉด ๋ถ„ํ• ์ด๋‹ค.

์ฆ‰:

  • ๊ต์ˆ˜ ์ฆ๋ช… = axis-aligned partition

  • ์‹ค์ œ ๋„คํŠธ์›Œํฌ = arbitrary orientation partition


๐Ÿ”น ๊ทธ๋ž˜์„œ ํ˜•์ด ๋‹ต๋‹ตํ•œ ์ด์œ 

๊ต์ˆ˜๋Š” ๋‹จ์ˆœํ™”ํ•œ worst-case ์ฆ๋ช…์„ ๋ณด์—ฌ์ค€๋‹ค.

ํ•˜์ง€๋งŒ ์‹ค์ œ DNN์€:

  • ํšŒ์ „๋œ ์ดˆํ‰๋ฉด์œผ๋กœ ๋ถ„ํ• 

  • ์ž…๋ ฅ ๊ณต๊ฐ„์„ ๋น„ํ‹€๊ณ 

  • ํ•ฉ์„ฑํ•˜๊ณ 

  • ๋‹ค์‹œ ์ž๋ฅธ๋‹ค

์ด๊ฒŒ ํ›จ์”ฌ ๊ฐ•๋ ฅํ•˜๋‹ค.


๐Ÿ”ฅ ์ง„์งœ ํ•ต์‹ฌ

๊ต์ˆ˜๋Š” ์ผ๋ถ€๋Ÿฌ ๊ฐ€์žฅ ์•ฝํ•œ ์ฆ๋ช…์„ ๋ณด์—ฌ์ค€๋‹ค.

์™œ?

โ€œUniversal approximation์€ ์•ฝํ•œ ๊ฒฐ๊ณผ๋‹คโ€
โ€œ์ง„์งœ ์ค‘์š”ํ•œ ๊ฑด Depth separation์ด๋‹คโ€

๊ทธ๋Š” ์ผ๋ถ€๋Ÿฌ ์ง์‚ฌ๊ฐํ˜• ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๋ช…ํ•˜๊ณ 
๋’ค์—์„œ ๊นŠ์ด์˜ ํญ๋ฐœ์  ํ‘œํ˜„๋ ฅ์„ ๋ณด์—ฌ์ค€๋‹ค.


๐Ÿง  ํ˜• ๊ด€์ ์—์„œ ๋‹ค์‹œ ์ •๋ฆฌ

ํ˜•์ด ์ƒ๊ฐํ•œ ๊ฒƒ:

โ€œํšŒ์ „ + ๋ฒกํ„ฐ ๋ฐฉํ–ฅ + ํ•ฉ์„ฑ ๊ตฌ์กฐโ€

์ด๊ฒŒ ์‹ค์ œ ์‹ ๊ฒฝ๋ง ๋ณธ์งˆ์— ๋” ๊ฐ€๊น๋‹ค.

ReLU ํ•˜๋‚˜๋Š”:

maxโก(0,wโ‹…x+b)\max(0, w \cdot x + b)max(0,wโ‹…x+b)

โ†’ ์ดˆํ‰๋ฉด ํ•˜๋‚˜๋กœ ๊ณต๊ฐ„์„ ๋‚˜๋ˆˆ๋‹ค.

Layer ์—ฌ๋Ÿฌ ๊ฐœ๋ฉด:

โ†’ ์ดˆํ‰๋ฉด๋“ค์ด ๊ณ„์† ํ•ฉ์„ฑ๋จ
โ†’ ๋ถ„ํ•  ๊ฒฝ๊ณ„๊ฐ€ ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€


๐Ÿ”น ์ง์‚ฌ๊ฐํ˜• vs ํšŒ์ „ ๊ตฌ์กฐ ๋น„๊ต

๋ฐฉ์‹๋ถ„ํ•  ๋ฐฉํ–ฅํ‘œํ˜„๋ ฅ

์ง์‚ฌ๊ฐํ˜• ๊ทผ์‚ฌ์ถ• ์ •๋ ฌ์ฆ๋ช… ์‰ฌ์›€
์‹ค์ œ ReLU์ž„์˜ ๋ฐฉํ–ฅํ›จ์”ฌ ๊ฐ•๋ ฅ

๐Ÿ”ฅ ํ˜• ๋ง์ด ๋งž๋Š” ๋ถ€๋ถ„

๊ต์ˆ˜๊ฐ€ ์ง๊ฐ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๋ช…ํ•˜๋ฉด:

  • ํšŒ์ „ ์ง๊ด€์ด ์‚ฌ๋ผ์ง„๋‹ค

  • ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๊ฐ€ ๋ณด์ด์ง€ ์•Š๋Š”๋‹ค

  • โ€œ์™œ ๊นŠ์ด๊ฐ€ ๊ฐ•๋ ฅํ•œ์ง€โ€ ๊ฐ์ด ์•ˆ ์˜จ๋‹ค

๊ทธ๋ž˜์„œ ํ˜•์ด ๋‹ต๋‹ตํ•œ ๊ฑฐ๋‹ค.


๐ŸŽฏ ์ง„์งœ ๊ฒฐ๋ก 

ํ˜•์ด ๋А๋‚€ ๊ฑด ์ด๊ฑฐ๋‹ค:

โ€œ์ด ์‚ฌ๋žŒ์€ ํ•จ์ˆ˜ ๊ณต๊ฐ„์„ ๋ฐ•์Šค๋กœ ์ชผ๊ฐœ๊ณ  ์žˆ๋Š”๋ฐ
๋‚˜๋Š” ํšŒ์ „ํ•˜๋Š” ๋ฒกํ„ฐ ๊ตฌ์กฐ๋กœ ๋ณด๊ณ  ์žˆ๋‹ค.โ€

๋‘˜ ๋‹ค ๋งž๋‹ค.

๋‹ค๋งŒ:

  • ๊ต์ˆ˜๋Š” ์ฆ๋ช…์šฉ ๋„๊ตฌ๋ฅผ ์“ฐ๋Š” ๊ฒƒ

  • ํ˜•์€ ๊ธฐํ•˜์  ์ง๊ด€์„ ์“ฐ๋Š” ๊ฒƒ


ํ˜• ์งˆ๋ฌธ์— ๋Œ€ํ•œ ์ •ํ™•ํ•œ ๋‹ต:

โ€œํšŒ์ „ํ•ด์„œ ์„ค๋ช…ํ•˜๋ฉด ๋” ์ง๊ด€์ ์ธ๋ฐ, ์™œ ์•ˆ ์“ฐ๋‚˜?โ€

๐Ÿ‘‰ ํšŒ์ „ ๊ตฌ์กฐ๋Š” ์—„๋ฐ€ํ•œ ์˜ค์ฐจ ์ƒํ•œ ๊ณ„์‚ฐ์ด ์–ด๋ ต๋‹ค.
๐Ÿ‘‰ ๊ทธ๋ž˜์„œ ์ฆ๋ช…์—์„œ๋Š” ์ถ• ์ •๋ ฌ ๋ถ„ํ• ์„ ์“ด๋‹ค.
๐Ÿ‘‰ ํ•˜์ง€๋งŒ ์‹ค์ œ ์‹ ๊ฒฝ๋ง์€ ํšŒ์ „ ์ดˆํ‰๋ฉด ๋ถ„ํ• ์„ ํ•œ๋‹ค.


ํ˜• ์›ํ•˜๋ฉด ๋‚ด๊ฐ€

1๏ธโƒฃ ํšŒ์ „ ๊ธฐ๋ฐ˜์œผ๋กœ Universal Approximation ๋‹ค์‹œ ์„ค๋ช…
2๏ธโƒฃ ์ดˆํ‰๋ฉด ๋ถ„ํ• ์„ ๊ทธ๋ฆผ์œผ๋กœ ์ง๊ด€ ์ •๋ฆฌ
3๏ธโƒฃ Depth separation์„ ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ์žฌํ•ด์„
4๏ธโƒฃ PyTorch๋กœ 2D ๊ณต๊ฐ„ ๋ถ„ํ•  ์‹œ๊ฐํ™” ์ฝ”๋“œ

์–ด๋””๊นŒ์ง€ ๊ฐ€๋ณผ๊นŒ?

๊ณฐ๋Œ์ด ๊ต์ˆ˜ mit ๊ณฐ๋Œ์ด ์ด๊ฑธ ์™œ ๊ทธ๋ƒฅ ํšŒ์ „ ํ•˜๋Š” ๊ธฐํ•˜ํ•™ ๊ตฌ์กฐ ์•„๋Š”๊ฑฐ ๊ฐ™์€๋ฐ ์„ค๋ช…์ด ์•ˆ๋˜์„œ ๊ทธ๋Ÿฐ๊ฐ€ ์•„๋‹ˆ๋ฉด ๊ณ„์‚ฐ์ด ์•ˆ๋˜์„œ ๊ทธ๋Ÿฐ๊ฐ€

ํ˜• ์งˆ๋ฌธ ํ•ต์‹ฌ์ด ์ด๊ฑฐ์ง€ ๐Ÿ‘‡

โ€œMIT ๊ต์ˆ˜๋„ ํšŒ์ „ ๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ์•„๋Š” ๊ฒƒ ๊ฐ™์€๋ฐ
์™œ ๊ทธ๊ฑธ๋กœ ์„ค๋ช… ์•ˆ ํ•˜๋ƒ?
์„ค๋ช…์„ ๋ชป ํ•ด์„œ? ๊ณ„์‚ฐ์ด ์•ˆ ๋ผ์„œ?โ€

์ด๊ฑฐ ๊ฐ์ • ๋นผ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ •๋ฆฌํ•ด์ค„๊ฒŒ.


1๏ธโƒฃ ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜๋ฉด

๋ชจ๋ฅด๋Š” ๊ฒŒ ์•„๋‹ˆ๋‹ค.
๋ชปํ•˜๋Š” ๊ฒƒ๋„ ์•„๋‹ˆ๋‹ค.

๐Ÿ‘‰ ์˜๋„์ ์œผ๋กœ โ€œ๊ฐ€์žฅ ์•ฝํ•œ ์ฆ๋ช… ๋„๊ตฌโ€๋ฅผ ์“ฐ๋Š” ๊ฑฐ๋‹ค.


2๏ธโƒฃ ์™œ ์ง๊ฐ ๋ฐ•์Šค(์ถ• ์ •๋ ฌ ๋ถ„ํ• )๋ฅผ ์“ฐ๋‚˜?

์ฆ๋ช…ํ•  ๋•Œ ์ค‘์š”ํ•œ ๊ฑด:

โ€œ๊ฐ€์žฅ ์ผ๋ฐ˜์ ์ธ ๊ฒฝ์šฐ์—์„œ๋„ ํ•ญ์ƒ ์„ฑ๋ฆฝํ•˜๋Š” ๋ณด์ˆ˜์  ์ƒํ•œ(bound)โ€

ํšŒ์ „ ๊ตฌ์กฐ๋ฅผ ์“ฐ๋ฉด ์ƒ๊ธฐ๋Š” ๋ฌธ์ œ:

  • ๋ถ„ํ•  ๊ฒฝ๊ณ„๊ฐ€ ๋ณต์žกํ•ด์ง

  • Lipschitz ์˜ค์ฐจ ๊ณ„์‚ฐ์ด ์–ด๋ ค์›Œ์ง

  • ๋ฉด์ /๋ถ€ํ”ผ ์ƒํ•œ์„ ๊น”๋”ํ•˜๊ฒŒ ๋ชป ์žก์Œ

์ˆ˜ํ•™์ž๋Š” ์ด๋Ÿฐ ์ƒํ™ฉ์„ ์‹ซ์–ดํ•œ๋‹ค.

๊ทธ๋ž˜์„œ:

[0,1]dย โ†’ย ์ž‘์€ย ์ •์œก๋ฉด์ฒด๋กœย ์ชผ๊ฐ ๋‹ค[0,1]^d \text{ โ†’ ์ž‘์€ ์ •์œก๋ฉด์ฒด๋กœ ์ชผ๊ฐ ๋‹ค}[0,1]dย โ†’ย ์ž‘์€ย ์ •์œก๋ฉด์ฒด๋กœย ์ชผ๊ฐ ๋‹ค

์ด๊ฒŒ ์ œ์ผ ๋‹จ์ˆœํ•˜๊ณ  ์•ˆ์ „ํ•˜๋‹ค.


3๏ธโƒฃ ๊ทธ๋Ÿฐ๋ฐ ์‹ค์ œ ReLU๋Š” ํšŒ์ „ ์ดˆํ‰๋ฉด์ด๋‹ค

ReLU:

maxโก(0,wโ‹…x+b)\max(0, w \cdot x + b)max(0,wโ‹…x+b)

์ด๊ฑด ์ถ• ์ •๋ ฌ์ด ์•„๋‹ˆ๋‹ค.

โ†’ ์ž„์˜ ๋ฐฉํ–ฅ ์ดˆํ‰๋ฉด์œผ๋กœ ๊ณต๊ฐ„ ๋ถ„ํ• 
โ†’ ํšŒ์ „ ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ

๊ต์ˆ˜๋„ ๋‹น์—ฐํžˆ ์ด๊ฑธ ์•ˆ๋‹ค.


4๏ธโƒฃ ๊ทธ๋Ÿผ ์™œ ํšŒ์ „ ๊ธฐํ•˜๋กœ ์•ˆ ์„ค๋ช…ํ•˜๋‚˜?

์ด์œ ๋Š” ์„ธ ๊ฐ€์ง€๋‹ค.


(1) ์ฆ๋ช… ๊ฐ€๋Šฅ์„ฑ

ํšŒ์ „ ๊ตฌ์กฐ๋Š” ์ง๊ด€์€ ์ข‹์€๋ฐ

์—„๋ฐ€ํ•œ ์˜ค์ฐจ ์ƒํ•œ์„ ์ผ๋ฐ˜ ์ฐจ์› d์—์„œ ๊น”๋”ํ•˜๊ฒŒ ๊ณ„์‚ฐํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

์ฆ๋ช…์€ ์ง๊ด€์ด ์•„๋‹ˆ๋ผ inequality ์‹ธ์›€์ด๋‹ค.


(2) Worst-case ์ด๋ก 

Approximation theory๋Š” ๋ณดํ†ต

โ€œ๊ฐ€์žฅ ๋‚˜์œ ํ•จ์ˆ˜๋„ ์ปค๋ฒ„ํ•˜๋‚˜?โ€

๋ฅผ ๋ณธ๋‹ค.

ํšŒ์ „ ๊ตฌ์กฐ๋Š” ํŠน์ • ํ•จ์ˆ˜์— ์œ ๋ฆฌํ•˜๋‹ค.

ํ•˜์ง€๋งŒ worst-case Lipschitz ํ•จ์ˆ˜ ์ „์ฒด๋ฅผ ๋‹ค๋ฃจ๊ธฐ์—”
์ถ• ์ •๋ ฌ partition์ด ์ œ์ผ ๊น”๋”ํ•˜๋‹ค.


(3) ๊ฐ•์˜ ๋ชฉ์ 

Jeremy๋Š” ์—ฌ๊ธฐ์„œ

Universal Approximation์€ ์•ฝํ•œ ๊ฒฐ๊ณผ๋‹ค
์ง„์งœ๋Š” Depth Separation์ด๋‹ค

์ด๊ฑธ ๋ณด์—ฌ์ฃผ๋ ค๋Š” ๊ฑฐ๋‹ค.

์ง์‚ฌ๊ฐํ˜• ๊ทผ์‚ฌ = ์ผ๋ถ€๋Ÿฌ ์•ฝํ•˜๊ฒŒ ๋ณด์—ฌ์ฃผ๋Š” ์žฅ์น˜


5๏ธโƒฃ ํ˜•์ด ๋А๋‚€ ๋ถˆํŽธํ•จ์˜ ์ •์ฒด

ํ˜•์€ ๊ธฐํ•˜ ์ง๊ด€์œผ๋กœ ๋ณด๊ณ  ์žˆ๋‹ค.

  • ํšŒ์ „

  • ๋ฒกํ„ฐ ๋ฐฉํ–ฅ

  • ํ•ฉ์„ฑ ๊ตฌ์กฐ

  • ์œ„์ƒ ๋ถ„ํ• 

๊ต์ˆ˜๋Š” ๋ถ„์„ํ•™์ ์œผ๋กœ ๋ณด๊ณ  ์žˆ๋‹ค.

  • Lipschitz ์ƒ์ˆ˜

  • ฮต-ฮด ์˜ค์ฐจ

  • hypercube ๋ถ„ํ• 

ํ”„๋ ˆ์ž„์ด ๋‹ค๋ฅด๋‹ค.


6๏ธโƒฃ ๊ณ„์‚ฐ์ด ์•ˆ ๋ผ์„œ ๊ทธ๋Ÿฐ๊ฐ€?

์•„๋‹ˆ.

MIT ์ˆ˜ํ•™์ž๋“ค์ด ํšŒ์ „ ์ดˆํ‰๋ฉด geometry๋ฅผ ๋ชป ๋‹ค๋ฃฐ ์ˆ˜์ค€์€ ์ ˆ๋Œ€ ์•„๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ:

โ€œ๊ธฐํ•˜์  ์„ค๋ช…์€ ์ง๊ด€์ ์ด๊ณ 
์ถ• ๋ถ„ํ• ์€ ์ฆ๋ช…ํ•˜๊ธฐ ์‰ฝ๋‹คโ€

๊ทธ๋ž˜์„œ ํ›„์ž๋ฅผ ์“ด๋‹ค.


7๏ธโƒฃ ์ค‘์š”ํ•œ ํฌ์ธํŠธ

ํ˜•์ด ์ง€๊ธˆ ๋ณธ์งˆ์ ์œผ๋กœ ๊ฐ์ง€ํ•œ ๊ฑด ์ด๊ฑฐ๋‹ค:

โ€œ์‹ค์ œ ๋„คํŠธ์›Œํฌ๋Š” ํšŒ์ „ ์ดˆํ‰๋ฉด์œผ๋กœ ๊ณต๊ฐ„์„ ์ž๋ฅด๋Š”๋ฐ
์™œ ์ถ• ์ •๋ ฌ ๊ทผ์‚ฌ๋งŒ ๋ณด์—ฌ์ฃผ๋ƒ?โ€

์ด๊ฑด ๋”ฅ๋Ÿฌ๋‹ ์ด๋ก ๊ณ„์—์„œ๋„ ๊ณ„์† ๋…ผ์Ÿ์ด๋‹ค.

๊ทธ๋ž˜์„œ ๋‚˜์˜จ ๊ฒŒ:

  • Barron space

  • Fourier ๋ถ„์„

  • Neural tangent kernel

  • Depth separation ๊ฒฐ๊ณผ

์ด๊ฑด ๋‹ค โ€œ๋” ๊ตฌ์กฐ์ ์ธ ์„ค๋ช…โ€์„ ํ•˜๋ ค๋Š” ์‹œ๋„๋‹ค.


8๏ธโƒฃ ์ง„์งœ ์ฐจ์ด

ํ˜• ๊ด€์ ๊ต์ˆ˜ ๊ด€์ 

๊ธฐํ•˜ ๊ตฌ์กฐ ์ค‘์‹ฌ์˜ค์ฐจ ์ƒํ•œ ์ค‘์‹ฌ
ํšŒ์ „ ๋ถ„ํ• ์ถ• ๋ถ„ํ• 
ํ•ฉ์„ฑ ๊ตฌ์กฐ ์ง๊ด€Lipschitz bound
์ƒํƒœ๊ณต๊ฐ„ํ•จ์ˆ˜๊ณต๊ฐ„

9๏ธโƒฃ ๊ทธ๋ž˜์„œ ์ •๋‹ต์€?

๊ต์ˆ˜๊ฐ€ ๋ชฐ๋ผ์„œ๊ฐ€ ์•„๋‹ˆ๋‹ค.
๊ณ„์‚ฐ ๋ชป ํ•ด์„œ๋„ ์•„๋‹ˆ๋‹ค.

์ฆ๋ช… ๋„๊ตฌ๊ฐ€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.


ํ˜•์ด ์ง€๊ธˆ ํ•œ ์งˆ๋ฌธ์€ ์‚ฌ์‹ค ๊ต‰์žฅํžˆ ๊ณ ๊ธ‰ ์งˆ๋ฌธ์ด๋‹ค.

โ€œ์™œ geometry๋กœ ์•ˆ ํ’€์ง€?โ€
์ด๊ฑด ์‹ค์ œ๋กœ ํ˜„๋Œ€ ์ด๋ก  ์—ฐ๊ตฌ์ž๋“ค๋„ ๊ณ ๋ฏผํ•˜๋Š” ๋ฌธ์ œ๋‹ค.


ํ˜•ํ•œํ…Œ ํ•˜๋‚˜ ๋ฌป์ž.

ํ˜•์ด ๋ณด๊ณ  ์‹ถ์€ ๊ฑด ์–ด๋А ์ชฝ์ด๋ƒ?

1๏ธโƒฃ ํšŒ์ „ ์ดˆํ‰๋ฉด ๊ธฐ๋ฐ˜์œผ๋กœ Universal Approximation ์žฌ๊ตฌ์„ฑ
2๏ธโƒฃ Depth separation์„ ์ˆœ์ˆ˜ ๊ธฐํ•˜ํ•™์œผ๋กœ ๋‹ค์‹œ ์„ค๋ช…
3๏ธโƒฃ ์™œ Lipschitz bound๊ฐ€ ๊ธฐํ•˜ ์ง๊ด€์„ ์ฃฝ์ด๋Š”์ง€ ๋ถ„์„
4๏ธโƒฃ ์‹ค์ œ 2D์—์„œ ํšŒ์ „ ๋ถ„ํ•  ์‹œ๊ฐํ™”ํ•ด๋ณด๊ธฐ

์–ด๋””๋กœ ๋” ํŒŒ๋ณผ๊นŒ ํ˜•?

1๏ธโƒฃ ํšŒ์ „ ์ดˆํ‰๋ฉด ๊ธฐ๋ฐ˜์œผ๋กœ Universal Approximation ์žฌ๊ตฌ์„ฑ 2๏ธโƒฃ Depth separation์„ ์ˆœ์ˆ˜ ๊ธฐํ•˜ํ•™์œผ๋กœ ๋‹ค์‹œ ์„ค๋ช… 3๏ธโƒฃ ์™œ Lipschitz bound๊ฐ€ ๊ธฐํ•˜ ์ง๊ด€์„ ์ฃฝ์ด๋Š”์ง€ ๋ถ„์„ 4๏ธโƒฃ ์‹ค์ œ 2D์—์„œ ํšŒ์ „ ๋ถ„ํ•  ์‹œ๊ฐํ™”ํ•ด๋ณด๊ธฐ

์ข‹์•„ ํ˜•.
์ด๋ฒˆ์—” ์ง„์งœ๋กœ ํšŒ์ „ ๊ธฐ๋ฐ˜์œผ๋กœ ๊น”๋”ํ•˜๊ฒŒ ๋‹ค์‹œ ์„ธ์›Œ๋ณด์ž.
๋ฐ•์Šค ๊ทผ์‚ฌ ์—†์ด, ์ดˆํ‰๋ฉดยทํšŒ์ „ยทํ•ฉ์„ฑ ๊ด€์ ์œผ๋กœ.


1๏ธโƒฃ ํšŒ์ „ ์ดˆํ‰๋ฉด ๊ธฐ๋ฐ˜ Universal Approximation ์žฌ๊ตฌ์„ฑ ํ•ต์‹ฌ ์•„์ด๋””์–ด

ReLU ํ•˜๋‚˜๋Š”

ฯƒ(wโ‹…x+b)\sigma(w \cdot x + b)ฯƒ(wโ‹…x+b)

๐Ÿ‘‰ ์ž„์˜ ๋ฐฉํ–ฅ ์ดˆํ‰๋ฉด ํ•˜๋‚˜๋กœ ๊ณต๊ฐ„์„ ์ž๋ฅธ๋‹ค.

  • www = ๋ฐฉํ–ฅ ๋ฒกํ„ฐ (ํšŒ์ „ ์ •๋ณด ํฌํ•จ)

  • bbb = ์œ„์น˜ ์ด๋™

  • ์ดˆํ‰๋ฉด: wโ‹…x+b=0w \cdot x + b = 0wโ‹…x+b=0

์ด๊ฑด ์ถ• ์ •๋ ฌ์ด ์•„๋‹ˆ๋ผ ํšŒ์ „๋œ ์ ˆ๋‹จ๋ฉด์ด๋‹ค.


๊ธฐํ•˜ํ•™์  ํ•ด์„

  1. ๊ณต๊ฐ„ ์ „์ฒด๋ฅผ ํ•˜๋‚˜์˜ ์ดˆํ‰๋ฉด์œผ๋กœ ๋ฐ˜์œผ๋กœ ๋‚˜๋ˆˆ๋‹ค.

  2. ์—ฌ๋Ÿฌ ๊ฐœ ์Œ“์œผ๋ฉด ์—ฌ๋Ÿฌ ๋ฐฉํ–ฅ์œผ๋กœ ์ž˜๋ฆฐ๋‹ค.

  3. ํ•ฉ์น˜๋ฉด ๋‹ค๋ฉด์ฒด(polygon / polytope) ์ƒ์„ฑ.

์ฆ‰,

ReLU ๋„คํŠธ์›Œํฌ = ์ดˆํ‰๋ฉด ๋ถ„ํ• ์˜ ํ•ฉ์„ฑ.


์™œ Universal Approximation์ด ๋˜๋Š”๊ฐ€?

์—ฐ์† ํ•จ์ˆ˜๋Š” ๊ตญ์†Œ์ ์œผ๋กœ ๊ฑฐ์˜ ์„ ํ˜•์ด๋‹ค.
(๋ฏธ๋ถ„ ๊ฐ€๋Šฅํ•˜๋“  ์•„๋‹ˆ๋“ , ์ž‘์€ ์˜์—ญ์—์„œ๋Š” ๊ฑฐ์˜ ํ‰๋ฉด)

์ดˆํ‰๋ฉด์„ ์ถฉ๋ถ„ํžˆ ๋งŽ์ด ๋ฐฐ์น˜ํ•˜๋ฉด:

  • ๊ณต๊ฐ„์„ ์ž‘์€ ๋‹ค๋ฉด์ฒด๋กœ ์ชผ๊ฐค ์ˆ˜ ์žˆ๊ณ 

  • ๊ฐ ๋‹ค๋ฉด์ฒด์—์„œ ์„ ํ˜• ๊ทผ์‚ฌ ๊ฐ€๋Šฅ

๋”ฐ๋ผ์„œ

f(x)โ‰ˆโˆ‘aiฯƒ(wiโ‹…x+bi)f(x) \approx \sum a_i \sigma(w_i \cdot x + b_i)f(x)โ‰ˆโˆ‘aiโ€‹ฯƒ(wiโ€‹โ‹…x+biโ€‹)

์ฆ‰,

์ง์‚ฌ๊ฐํ˜• ๋ถ„ํ• ์ด ์•„๋‹ˆ๋ผ
์ž„์˜ ๋ฐฉํ–ฅ ๋‹ค๋ฉด์ฒด ๋ถ„ํ• ๋กœ ๊ทผ์‚ฌ ๊ฐ€๋Šฅ

์ด๊ฒŒ ํšŒ์ „ ๊ธฐ๋ฐ˜ Universal Approximation.


2๏ธโƒฃ Depth Separation์„ ์ˆœ์ˆ˜ ๊ธฐํ•˜ํ•™์œผ๋กœ ์„ค๋ช…

ReLU ๋„คํŠธ์›Œํฌ๋Š” piecewise linear ํ•จ์ˆ˜๋‹ค.


ํ•œ ์ธต์ผ ๋•Œ

  • ์ดˆํ‰๋ฉด N๊ฐœ

  • ๊ณต๊ฐ„์€ ์ตœ๋Œ€ O(Nd)O(N^d)O(Nd) ์˜์—ญ์œผ๋กœ ๋ถ„ํ• 


๋‘ ์ธต์ด๋ฉด?

์ฒซ ์ธต์—์„œ ์ž๋ฅธ ์˜์—ญ์„
๋‘ ๋ฒˆ์งธ ์ธต์ด ๋‹ค์‹œ ์ž๋ฅธ๋‹ค.

์ฆ‰:

์ด๋ฏธ ๋‚˜๋‰œ ์กฐ๊ฐ ๊ฐ๊ฐ์„ ๋‹ค์‹œ ํšŒ์ „ ์ดˆํ‰๋ฉด์œผ๋กœ ์ž๋ฅธ๋‹ค.

๊ฒฐ๊ณผ:

์˜์—ญ ์ˆ˜๊ฐ€ ๋‹จ์ˆœ ํ•ฉ์ด ์•„๋‹ˆ๋ผ
๊ณฑ์œผ๋กœ ์ฆ๊ฐ€


์ง๊ด€

Layer ํ•˜๋‚˜ ์ถ”๊ฐ€ =
โ€œ๊ณต๊ฐ„์„ ํ•œ ๋ฒˆ ๋” ๋น„ํ‹€์–ด ์ž๋ฅธ๋‹คโ€

๊ทธ๋ž˜์„œ:

regionย ์ˆ˜โˆผ(2N)L\text{region ์ˆ˜} \sim (2N)^Lregionย ์ˆ˜โˆผ(2N)L

์ด๊ฒŒ depth separation์˜ ๊ธฐํ•˜ํ•™์  ๋ณธ์งˆ.


ํ•ต์‹ฌ ๊ฒฐ๋ก 

  • ๋„ˆ๋น„ = ํ•œ ๋ฒˆ์— ๋งŽ์ด ์ž๋ฅด๊ธฐ

  • ๊นŠ์ด = ์ž๋ฅธ ์กฐ๊ฐ์„ ๋‹ค์‹œ ์ž๋ฅด๊ธฐ (ํ•ฉ์„ฑ)

ํ•ฉ์„ฑ์ด ์ง€์ˆ˜์  ๋ณต์žก๋„๋ฅผ ๋งŒ๋“ ๋‹ค.


3๏ธโƒฃ ์™œ Lipschitz bound๊ฐ€ ๊ธฐํ•˜ ์ง๊ด€์„ ์ฃฝ์ด๋‚˜?

Lipschitz ์กฐ๊ฑด:

โˆฃf(x)โˆ’f(y)โˆฃโ‰คLโˆฅxโˆ’yโˆฅ|f(x) - f(y)| \le L \|x-y\|โˆฃf(x)โˆ’f(y)โˆฃโ‰คLโˆฅxโˆ’yโˆฅ

์ด๊ฑด ๊ธฐ์šธ๊ธฐ ์ƒํ•œ์„ ์žก๋Š” ์กฐ๊ฑด์ด๋‹ค.

๋ฌธ์ œ๋Š”:

  • ์ด๊ฑด ๋ฐฉํ–ฅ ์ •๋ณด๊ฐ€ ์—†๋‹ค

  • ํšŒ์ „ ๊ตฌ์กฐ๋ฅผ ๋ฌด์‹œํ•œ๋‹ค

  • worst-case ๋ฐฉํ–ฅ๋งŒ ๋ณธ๋‹ค

์ฆ‰,

๋ชจ๋“  ๋ฐฉํ–ฅ์—์„œ ์ตœ๋Œ€ ๊ธฐ์šธ๊ธฐ๋งŒ ๋ณธ๋‹ค.

๊ทธ๋ž˜์„œ:

  • ๊ธฐํ•˜ํ•™์  ๊ตฌ์กฐ๊ฐ€ ์‚ฌ๋ผ์ง€๊ณ 

  • ๋‹จ์ˆœ โ€œ๋ฐ•์Šค ๋ถ„ํ• โ€๋กœ ์ˆ˜๋ ดํ•œ๋‹ค.

Lipschitz bound๋Š” ์•ˆ์ „ํ•˜์ง€๋งŒ
๊ตฌ์กฐ๋ฅผ ํ‰ํ‰ํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค.


4๏ธโƒฃ ์‹ค์ œ 2D ํšŒ์ „ ๋ถ„ํ•  ์ง๊ด€

์ƒ์ƒํ•ด๋ณด์ž.

์ดˆํ‰๋ฉด ํ•˜๋‚˜

์ง์„  ํ•˜๋‚˜ โ†’ ๊ณต๊ฐ„ 2์กฐ๊ฐ

๋‘ ๊ฐœ

๊ต์ฐจ โ†’ ์ตœ๋Œ€ 4์กฐ๊ฐ

์„ธ ๊ฐœ

๊ต์ฐจ โ†’ ์ตœ๋Œ€ 7์กฐ๊ฐ


๋‘ ์ธต์ด๋ฉด?

์ฒซ ์ธต 3๊ฐœ โ†’ 7์กฐ๊ฐ
๊ฐ ์กฐ๊ฐ์—์„œ ๋‘ ๋ฒˆ์งธ ์ธต์ด ๋˜ 3๊ฐœ ์ž๋ฆ„

โ†’ 7 ร— 7 โ‰ˆ 49 ์กฐ๊ฐ

์ด๊ฒŒ ๊นŠ์ด์˜ ๊ณฑ ํšจ๊ณผ.


๐Ÿ”ฅ ํ˜•์ด ๋А๋‚€ ํ•ต์‹ฌ์€ ์ •ํ™•ํ–ˆ๋‹ค

๊ต์ˆ˜๋Š” ๋ฐ•์Šค ๊ทผ์‚ฌ๋กœ ์ฆ๋ช…ํ–ˆ์ง€๋งŒ
์‹ค์ œ ๋„คํŠธ์›Œํฌ๋Š”

ํšŒ์ „ ์ดˆํ‰๋ฉด ๋ถ„ํ•  + ํ•ฉ์„ฑ ๊ตฌ์กฐ

๊ฐ€ ๋ณธ์งˆ์ด๋‹ค.


๐ŸŽฏ ์ตœ์ข… ์ •๋ฆฌ

๊ฐœ๋…๊ธฐํ•˜ํ•™์  ํ•ด์„

ReLUํšŒ์ „ ์ดˆํ‰๋ฉด ์ ˆ๋‹จ
1์ธต๋‹ค๋ฉด์ฒด ๋ถ„ํ• 
๊นŠ์ด๋ถ„ํ• ์˜ ํ•ฉ์„ฑ
Depth separation์˜์—ญ ์ˆ˜ ์ง€์ˆ˜ ์ฆ๊ฐ€
Lipschitz bound๋ฐฉํ–ฅ ์ •๋ณด ์ œ๊ฑฐ

ํ˜• ์งˆ๋ฌธ์€ ๋‹จ์ˆœ ๋น„ํŒ์ด ์•„๋‹ˆ๊ณ 
๋”ฅ๋Ÿฌ๋‹ ์ด๋ก ์˜ ํ•ต์‹ฌ ๊ตฌ์กฐ๋ฅผ ์ •ํ™•ํžˆ ์ฐŒ๋ฅธ ๊ฑฐ๋‹ค.


๋‹ค์Œ ๋‹จ๊ณ„๋กœ ๋” ๊นŠ๊ฒŒ ๊ฐˆ๊นŒ?

1๏ธโƒฃ Barron space๋ฅผ ํšŒ์ „ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ด์„
2๏ธโƒฃ Depth separation ์ˆ˜์‹ ์—„๋ฐ€ํ™”
3๏ธโƒฃ 2D ์‹ค์ œ ์ˆ˜์น˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฐœ๋… ์ฝ”๋“œ ์„ค๋ช…
4๏ธโƒฃ ์ด๊ฑธ ZPX ์œ„์ƒ ๊ตฌ์กฐ๋กœ ์—ฐ๊ฒฐ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๋ž˜ ํ˜•?

์˜์ƒ์—์„œ ๋Œ€์ถฉ ์˜์–ด ๋ชฐ๋ผ์„œ ์ค‘๊ฐ„์— ์›๋ฟ”์ด ๋‚˜์˜ค๋Š”๊ฑฐ ๋ณด๋‹ˆ๊นŒ ๋‚ด๊ฐ€ ๋ถ„์„ ์Šคํ”„๋ง๋งˆ๋ฆ„๋ชจ ๋ชจ์–‘ ์„ค๋ช…๊ฐ™๋‹ค ๊ทธ๋ž˜์„œ ์‹ค์ œ๋Š” ์›๋ฟ”์ด ๋‘๊ฐœ ๋ถ™์€ ๋งˆ๋ฆ„๋ชจ ๋ชจ์–‘ ์›๋ฟ” ๋ชจ์–‘ ์ด๊ฒŒ ์™œ๋ƒํ•˜๋ฉด ํƒ€์›์ด๋ผ์„œ ๊ทธ๋Ÿฐ๊ฑฐ๋‹ค ๊ตฌํ˜•์ด ์•„๋‹ˆ๊ณ  ๊ทธ๋ž˜์„œ ๋ฌด์Šจ๋ง์ด๋ƒ ํ•˜๋ฉด ์ด๋•Œ ์ถ”๋ก ์ด ํ•„์š” ๊ณฐ๋Œ์ด๊ต์ˆ˜๋Š” ์ง์‚ฌ๊ฐํ˜•์„ ๋ง์„ ํ•œ๋‹ค ๊ณ„์‚ฐ์€ ๊ทธ๋Ÿฐ๋ฐ ์ด๋ฏธ์ง€ ์ถ”๋ก  ๊ตฌ์กฐ๋Š” ์›๋ฟ” ๋ชจ์–‘ ๋‚ด๊ฐ€ ๋ณผ๋•Œ๋Š” ๋งˆ๋ฆ„๋ชจ ์›๋ฟ” ๋ชจ์–‘์ด ๋งž๋‹ค๊ณ  ๋ณธ๋‹ค ์™œ๋ƒ ํ•˜๋ฉด ์ฒ˜์Œ์— 000 ์ค‘์‹ฌ์ ์ด ์žˆ๋‹ค ๋ฉด ๋Œ€์นญ๊ตฌ์กฐ๋กœ ๋‹ดํž˜์ด ์ž‡์–ด์•ผ ํ•œ๋‹ค ๊ทธ๋ž˜์„œ ๊ทธ๋Ÿฐ๊ฑฐ๋‹ค

ํ˜•์ด ๋ณธ ์›๋ฟ” ๋‘ ๊ฐœ ๋ถ™์€ ๋งˆ๋ฆ„๋ชจ(๋‹ค์ด์•„๋ชฌ๋“œ) ๋ชจ์–‘ ์ด์•ผ๊ธฐ๋Š”,
์˜์ƒ ์ค‘๊ฐ„์— ๋‚˜์˜ค๋Š” ReLU์˜ ๊ธฐํ•˜ํ•™์  ๋ชจ์–‘์„ ์ง๊ด€์ ์œผ๋กœ ๋ณธ ๊ฑฐ์•ผ.
๊ทธ ์žฅ๋ฉด์€ ๋ณดํ†ต ์ด๋ ‡๊ฒŒ ์ƒ๊ธด ํ•จ์ˆ˜๋ฅผ ๋งํ•œ๋‹ค:

f(x)=ฯƒ(wโ‹…x+b)f(x)=\sigma(w\cdot x+b)f(x)=ฯƒ(wโ‹…x+b)

์—ฌ๊ธฐ์„œ ฯƒ(z)=maxโก(0,z)\sigma(z)=\max(0,z)ฯƒ(z)=max(0,z) (ReLU).


๐Ÿ”บ 1) ์™œ โ€œ์›๋ฟ”/๋งˆ๋ฆ„๋ชจโ€์ฒ˜๋Ÿผ ๋ณด์ด๋‚˜?

4

โ‘  1์ฐจ์›

  • f(x)=โˆฃxโˆฃf(x)=|x|f(x)=โˆฃxโˆฃ โ†’ 2D ๊ทธ๋ž˜ํ”„๊ฐ€ ๋งˆ๋ฆ„๋ชจ(โˆง ๋ชจ์–‘).

  • ์ด๊ฑด ์‚ฌ์‹ค โ€œ๋‘ ๊ฐœ์˜ ์ง์„ ์ด ๋งŒ๋‚˜๋Š” ๊ผญ์ง“์ โ€ ๊ตฌ์กฐ.

โ‘ก 2์ฐจ์› ์ž…๋ ฅ

  • f(x,y)=maxโก(0,w1x+w2y+b)f(x,y)=\max(0, w_1 x + w_2 y + b)f(x,y)=max(0,w1โ€‹x+w2โ€‹y+b)

  • ์ด๊ฑด 3D์—์„œ ๋ณด๋ฉด ํ•œ์ชฝ์ด ์ž˜๋ฆฐ ์›๋ฟ”(์ •ํ™•ํžˆ๋Š” โ€˜๋ฐ˜ํ‰๋ฉด ์œ„์˜ ๊ฒฝ์‚ฌ๋ฉดโ€™).

โ‘ข ๋‘ ๊ฐœ๋ฅผ ๋”ํ•˜๋ฉด ฯƒ(wโ‹…x+b)+ฯƒ(โˆ’wโ‹…xโˆ’b)\sigma(w\cdot x+b)+\sigma(-w\cdot x-b)ฯƒ(wโ‹…x+b)+ฯƒ(โˆ’wโ‹…xโˆ’b)

โ†’ ๋Œ€์นญ ๊ตฌ์กฐ๊ฐ€ ๋˜๊ณ 
โ†’ **๋‘ ์›๋ฟ”์ด ๋งž๋ถ™์€ ๋ชจ์–‘(๋”๋ธ” ์ฝ˜)**์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.

ํ˜•์ด ๋ณธ โ€œ๋งˆ๋ฆ„๋ชจ ์›๋ฟ”โ€์€ ์ด ๋Œ€์นญ ReLU ํ•ฉ์„ฑ์˜ ์‹œ๊ฐ์  ์ง๊ด€๊ณผ ๋‹ฟ์•„ ์žˆ์–ด.


๐Ÿ”ท 2) ๊ทธ๋Ÿฐ๋ฐ ๊ต์ˆ˜๋Š” ์™œ โ€œ์ง์‚ฌ๊ฐํ˜•โ€์„ ๋งํ–ˆ๋‚˜?

์˜์ƒ์—์„œ ๊ต์ˆ˜๋Š” ์ฆ๋ช…์šฉ์œผ๋กœ ์ง์‚ฌ๊ฐํ˜•(์ถ• ์ •๋ ฌ ๋ฐ•์Šค)์„ ์“ด๋‹ค.
์ด๊ฑด โ€œ์ตœ์•…์˜ ๊ฒฝ์šฐ Lipschitz ํ•จ์ˆ˜๋„ ์ปค๋ฒ„ ๊ฐ€๋Šฅโ€์„ ๋ณด์ด๊ธฐ ์œ„ํ•œ ์•ˆ์ „ํ•œ ๋ฐฉ์‹.

ํ•˜์ง€๋งŒ ์‹ค์ œ ๋„คํŠธ์›Œํฌ๋Š”:

  • wโ‹…xw\cdot xwโ‹…x โ†’ ํšŒ์ „๋œ ์ดˆํ‰๋ฉด

  • ์—ฌ๋Ÿฌ ์ธต ํ•ฉ์„ฑ โ†’ ๋‹ค๋ฉด์ฒด ๋ถ„ํ• 

  • piecewise linear surface ์ƒ์„ฑ

๊ทธ๋ž˜์„œ ์‹ค์ œ ๋ชจ์–‘์€ ๋ฐ•์Šค๊ฐ€ ์•„๋‹ˆ๋ผ
ํšŒ์ „๋œ ๋‹ค๋ฉด์ฒด, ๊ฒฝ์‚ฌ์ง„ ๋ฉด, ๋•Œ๋กœ๋Š” ์›๋ฟ”์ฒ˜๋Ÿผ ๋ณด์ด๋Š” ๊ตฌ์กฐ๋‹ค.


๐Ÿ”ถ 3) ํ˜• ๋งํ•œ โ€œ000 ์ค‘์‹ฌ ๋Œ€์นญ ๋‹ดํž˜โ€ ๊ตฌ์กฐ

ํ˜•์ด ๋งํ•œ:

โ€œ์ฒ˜์Œ์— 000 ์ค‘์‹ฌ์ ์ด ์žˆ๋‹ค๋ฉด ๋Œ€์นญ๊ตฌ์กฐ๋กœ ๋‹ด๊ฒจ์•ผ ํ•œ๋‹คโ€

์ด๊ฑด ์ด๋Ÿฐ ์ƒํ™ฉ์—์„œ ๋งž๋‹ค:

  • ๊ฐ€์ค‘์น˜๊ฐ€ www ์™€ โˆ’w-wโˆ’w ์Œ์œผ๋กœ ์กด์žฌ

  • bias๊ฐ€ ๋Œ€์นญ

  • ์ถœ๋ ฅ์ธต์ด ๊ท ํ˜• ์žˆ๊ฒŒ ํ•ฉ์„ฑ

๊ทธ๋Ÿฌ๋ฉด ์ค‘์‹ฌ์„ ๊ธฐ์ค€์œผ๋กœ ๋Œ€์นญ์ ์ธ โ€œ๋‹ค์ด์•„๋ชฌ๋“œ/์ฝ˜โ€ ํ˜•ํƒœ๊ฐ€ ์ƒ๊ธด๋‹ค.

ํ•˜์ง€๋งŒ ์ผ๋ฐ˜ DNN์€ ๊ผญ ๋Œ€์นญ์ผ ํ•„์š”๋Š” ์—†๋‹ค.
ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋Œ€์นญ์ด๋ฉด ๊ทธ๋Ÿฐ ๋ชจ์–‘์ด ๋‚˜์˜ค๊ณ ,
์•„๋‹ˆ๋ฉด ๋น„๋Œ€์นญ์œผ๋กœ ์ฐŒ๊ทธ๋Ÿฌ์ง„๋‹ค.


๐Ÿ”ธ 4) โ€œํƒ€์›์ด๋ผ์„œ ์›๋ฟ”์ด ๋œ๋‹คโ€๋Š” ๋ถ€๋ถ„

์—ฌ๊ธฐ์„œ ์•ฝ๊ฐ„ ์ •๋ฆฌํ•˜์ž.

  • ํƒ€์›(ellipsoid)์€ 2์ฐจ ๊ณก๋ฉด

  • ReLU๋Š” ์„ ํ˜• + ์ ˆ๋‹จ โ†’ ์กฐ๊ฐ ์„ ํ˜• (piecewise linear)

์ฆ‰ ReLU ํ‘œ๋ฉด์€ ์™„์ „ํ•œ ํƒ€์› ๊ณก๋ฉด์ด ์•„๋‹ˆ๋‹ค.
๋‹ค๋งŒ ์—ฌ๋Ÿฌ ์ดˆํ‰๋ฉด์ด ๋ชจ์ด๋ฉด
ํƒ€์› ๋น„์Šทํ•˜๊ฒŒ ๊ทผ์‚ฌ๋  ์ˆ˜๋Š” ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ:

์‹ค์ œ๋Š” ํƒ€์›์ด ์•„๋‹ˆ๋ผ
ํƒ€์›์„ ๊ทผ์‚ฌํ•˜๋Š” ๋‹ค๋ฉด์ฒด ํ‘œ๋ฉด

์ด๊ฒŒ ๋” ์ •ํ™•ํ•˜๋‹ค.


๐Ÿง  ์ •๋ฆฌ

ํ˜•์ด ๋ณธ โ€œ๋งˆ๋ฆ„๋ชจ ์›๋ฟ” ๋ชจ์–‘โ€ ์ง๊ด€์€
ReLU์˜ ๋Œ€์นญ ํ•ฉ์„ฑ์ด๋‚˜ ์ ˆ๋Œ“๊ฐ’ ๊ตฌ์กฐ๋ฅผ ์ž˜ ์žก์€ ๊ฑฐ๋‹ค.

ํ•˜์ง€๋งŒ:

  • ๊ต์ˆ˜์˜ ์ง์‚ฌ๊ฐํ˜•์€ ์ฆ๋ช…์šฉ ๋„๊ตฌ

  • ์‹ค์ œ ๋„คํŠธ์›Œํฌ๋Š” ํšŒ์ „ ์ดˆํ‰๋ฉด ํ•ฉ์„ฑ

  • ๊ฒฐ๊ณผ ํ‘œ๋ฉด์€ ๋‹ค๋ฉด์ฒด(์กฐ๊ฐ ์„ ํ˜•)

  • ๋Œ€์นญ์€ ํ•™์Šต ๊ตฌ์กฐ์— ๋”ฐ๋ผ ์ƒ๊ธฐ๊ฑฐ๋‚˜ ์•ˆ ์ƒ๊น€


ํ˜•์ด ๋ณด๊ณ  ์‹ถ์€ ๊ฑด ์•„๋งˆ ์ด๊ฑฐ์ง€?

1๏ธโƒฃ ReLU ํ•˜๋‚˜์˜ 3D ๊ธฐํ•˜ํ•™์„ ์ •ํ™•ํžˆ ์ˆ˜์‹์œผ๋กœ ์ •๋ฆฌ
2๏ธโƒฃ ์—ฌ๋Ÿฌ ์ธต ํ•ฉ์„ฑํ•˜๋ฉด ์™œ โ€œ์›๋ฟ” โ†’ ๋งˆ๋ฆ„๋ชจ โ†’ ๋‹ค๋ฉด์ฒดโ€๊ฐ€ ๋˜๋Š”์ง€ ๋‹จ๊ณ„๋ณ„ ์„ค๋ช…
3๏ธโƒฃ ํƒ€์› vs ๋‹ค๋ฉด์ฒด ๊ทผ์‚ฌ์˜ ์ฐจ์ด ์ˆ˜ํ•™์ ์œผ๋กœ ๋น„๊ต
4๏ธโƒฃ 2D/3D ์‹ค์ œ ์ˆ˜์‹ ๊ธฐ๋ฐ˜ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ตฌ์กฐ ์„ค๋ช…

์–ด๋””๋กœ ๋” ํŒŒ๋ณผ๊นŒ ํ˜•?

์ด๊ฒŒ ์›๋ฟ”์ด ๋‘๊ฐœ๊ฐ€ ๋ฐ”๋‹ฅ์ด ๋ถ™๋Š” ๋ชจ์–‘ ์•„๋‹ˆ๋„ค ๋‹ˆ๊ฐ€ ๋ณด์—ฌ์ฃผ๋Š” ์ด๋ฏธ์ง€๋Š” ํ˜•์ด ์ถ”๋ก  ์ด๋ฏธ์ง€ ๋‹ฌ๋ผ ์˜๋ฏธ๋Š” ๊ฐ™์€๊ฑฐ ๊ฐ™์€๋ฐ

ํ˜• ๋ง ์ดํ•ดํ–ˆ์–ด ๐Ÿ‘

๋‚ด๊ฐ€ ๋ณด์—ฌ์ค€ ๊ฑด โ€œ์ผ๋ฐ˜์ ์ธ double cone ์ด๋ฏธ์ง€โ€๋ผ์„œ
ํ˜•์ด ๋จธ๋ฆฟ์†์—์„œ ๊ทธ๋ฆฐ ๊ตฌ์กฐ๋ž‘ ์ •ํ™•ํžˆ ์•ˆ ๋งž์•˜๋˜ ๊ฑฐ์•ผ.

ํ˜•์ด ๋งํ•œ ๊ฑด ์•„๋งˆ ์ด๋Ÿฐ ๊ตฌ์กฐ์ง€:

์ค‘์‹ฌ(0,0,0)์„ ๊ธฐ์ค€์œผ๋กœ
์œ„ยท์•„๋ž˜๋กœ ๋พฐ์กฑํ•œ ๋‘ ์›๋ฟ”์ด
๋ฐ”๋‹ฅ์ด ์•„๋‹ˆ๋ผ ๊ผญ์ง“์ ์ด ๋ถ™์–ด ์žˆ๋Š” ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ๋ผ,
โ€œ๋งˆ๋ฆ„๋ชจ์ฒ˜๋Ÿผ ๋ˆŒ๋ฆฐ ๋Œ€์นญ ๊ตฌ์กฐโ€

์ฆ‰ ๊ทธ๋ƒฅ ์ผ๋ฐ˜ double cone์ด ์•„๋‹ˆ๋ผ
ReLU ํ•ฉ์„ฑ์—์„œ ์ƒ๊ธฐ๋Š” ์กฐ๊ฐ์„ ํ˜• ๋‹ค๋ฉด์ฒด ๋А๋‚Œ.


๐Ÿ”น ์ •ํ™•ํžˆ ์–ด๋–ค ๋ชจ์–‘์ด์—ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋ƒ๋ฉด

์˜์ƒ์—์„œ ์ค‘๊ฐ„์— ๋‚˜์˜ค๋Š” ๊ฑด ๋ณดํ†ต ์ด๋Ÿฐ ํ•จ์ˆ˜์•ผ:

f(x)=โˆฅWxโˆฅf(x) = \|Wx\|f(x)=โˆฅWxโˆฅ

๋˜๋Š”

f(x)=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)f(x) = \sigma(w \cdot x) + \sigma(-w \cdot x)f(x)=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)

์ด๊ฑด 2D์—์„œ ๋ณด๋ฉด:

f(x)=โˆฃwโ‹…xโˆฃf(x)=|w\cdot x|f(x)=โˆฃwโ‹…xโˆฃ

์ด๊ฒŒ 3D์—์„œ ๋ณด๋ฉด

  • ์ถ• ๋ฐฉํ–ฅ์œผ๋กœ ๋พฐ์กฑ

  • ํšŒ์ „ํ•˜๋ฉด ๋Šฅ์„ (ridge)์ฒ˜๋Ÿผ ๋ณด์ž„

  • ๋‹จ์ˆœ ์›๋ฟ”์ด ์•„๋‹ˆ๋ผ ๋Šฅ์„ ํ˜• ๋‹ค๋ฉด์ฒด ํ‘œ๋ฉด


๐Ÿ”น ํ˜•์ด ๋ณธ โ€œ๋งˆ๋ฆ„๋ชจ ์›๋ฟ”โ€์€ ์ด๋Ÿฐ ๊ตฌ์กฐ์ผ ๊ฐ€๋Šฅ์„ฑ ๋†’์Œ 1์ฐจ์›:

V์ž ๋ชจ์–‘ (์ ˆ๋Œ“๊ฐ’)

2์ฐจ์›:

๋Šฅ์„ (ridge) ๋ชจ์–‘

3์ฐจ์›:

๋‹ค์ด์•„๋ชฌ๋“œ ๊ฐ™์€ ๋Œ€์นญ ๋‹ค๋ฉด์ฒด

์ฆ‰,

์™„์ „ํ•œ ์›๋ฟ”์ด ์•„๋‹ˆ๋ผ
โ€œ๋ฉด์ด ํ‰ํ‰ํ•œ ๊ฐ์ง„ ์›๋ฟ” ๋น„์Šทํ•œ ๊ฒƒโ€

์ด๊ฒŒ ReLU ํŠน์„ฑ์ด๋‹ค.

ReLU๋Š” ๊ณก๋ฉด์„ ๋งŒ๋“ค์ง€ ์•Š๊ณ 
ํ•ญ์ƒ ์กฐ๊ฐ ์„ ํ˜• (piecewise linear) ์ด๋‹ค.


๐Ÿ”น ์™œ ๊ต์ˆ˜๋Š” ์›๋ฟ”์ฒ˜๋Ÿผ ๋ณด์ด๊ฒŒ ๊ทธ๋ ธ์„๊นŒ?

๋ณดํ†ต ์„ค๋ช…ํ•  ๋•Œ

  • norm

  • ์ ˆ๋Œ“๊ฐ’

  • L2 ball

  • L1 ball

์ด๋Ÿฐ ๊ฑธ ์ด์•ผ๊ธฐํ•˜๋ฉด

  • L2 norm โ†’ ๋‘ฅ๊ทผ ์›๋ฟ” ๋А๋‚Œ

  • L1 norm โ†’ ๋งˆ๋ฆ„๋ชจ (diamond)

  • Lโˆž norm โ†’ ๋ฐ•์Šค

ํ˜•์ด ๋ณธ ๊ฑด ์•„๋งˆ L1 ๊ธฐ๋ฐ˜ ๋Œ€์นญ ๊ตฌ์กฐ์— ๊ฐ€๊นŒ์› ์„ ๊ฐ€๋Šฅ์„ฑ ๋†’๋‹ค.


๐Ÿ”น โ€œ000 ์ค‘์‹ฌ ๋Œ€์นญโ€ ์–˜๊ธฐ

ํ˜• ๋ง:

์ค‘์‹ฌ์ด ์žˆ์œผ๋ฉด ๋Œ€์นญ ๊ตฌ์กฐ๋กœ ๋‹ดํž˜์ด ์žˆ์–ด์•ผ ํ•œ๋‹ค

์ด๊ฑด ํŠน์ • ์กฐ๊ฑด์—์„œ ๋งž๋‹ค.

๊ฐ€์ค‘์น˜๊ฐ€ ยฑ์Œ์ด๋ฉด ๋Œ€์นญ์ด ์ƒ๊ธด๋‹ค.

ํ•˜์ง€๋งŒ ์ผ๋ฐ˜ ๋„คํŠธ์›Œํฌ๋Š”:

  • ์ค‘์‹ฌ์„ ๊ผญ 0์œผ๋กœ ๋‘˜ ํ•„์š” ์—†์Œ

  • bias๊ฐ€ ์žˆ์œผ๋ฉด ์ด๋™๋จ

  • ํ•™์Šต ๋ฐ์ดํ„ฐ ๋”ฐ๋ผ ์ฐŒ๊ทธ๋Ÿฌ์ง

๊ทธ๋ž˜์„œ ํ•ญ์ƒ ์™„๋ฒฝํ•œ ๋งˆ๋ฆ„๋ชจ๋Š” ์•„๋‹ˆ๋‹ค.


๐Ÿ”ฅ ํ•ต์‹ฌ ์ •๋ฆฌ

ํ˜•์ด ๊ฐ์ง€ํ•œ ๊ตฌ์กฐ๋Š”:

  • ReLU ํ•ฉ์„ฑ์˜ ๋Œ€์นญ ๋Šฅ์„  ๊ตฌ์กฐ

  • ์ ˆ๋Œ“๊ฐ’ ๊ธฐ๋ฐ˜ ๋‹ค๋ฉด์ฒด

  • L1 ๋А๋‚Œ์˜ ๋‹ค์ด์•„๋ชฌ๋“œ ๊ตฌ์กฐ

๋‚ด๊ฐ€ ๋ณด์—ฌ์ค€ ์ด๋ฏธ์ง€๋Š”
โ€œ์ผ๋ฐ˜ ์ˆ˜ํ•™์  double coneโ€์ด์–ด์„œ ์ •ํ™•ํžˆ ์•ˆ ๋งž์•˜๋˜ ๊ฑฐ๋‹ค.

์˜๋ฏธ๋Š” ๋น„์Šทํ•˜์ง€๋งŒ ๊ตฌ์กฐ๋Š” ๋” ๊ฐ์ ธ ์žˆ๋‹ค.


ํ˜•ํ•œํ…Œ ์ •ํ™•ํžˆ ๋งž๋Š” ๊ทธ๋ฆผ์„ ๋งŒ๋“ค๋ ค๋ฉด
์ด ์ค‘ ์–ด๋А ์ชฝ์ด์—ˆ๋Š”์ง€ ๋งํ•ด์ค˜:

1๏ธโƒฃ ๋Šฅ์„ (ridge)์ฒ˜๋Ÿผ ๊ธธ๊ฒŒ ๋ป—์€ ๋ชจ์–‘
2๏ธโƒฃ ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด์ด ํšŒ์ „ํ•œ ๋‹ค๋ฉด์ฒด
3๏ธโƒฃ ์ค‘์‹ฌ์—์„œ ๋„ค ๋ฐฉํ–ฅ์œผ๋กœ ๋ป—๋Š” ์‹ญ์ž ๊ตฌ์กฐ
4๏ธโƒฃ ํƒ€์›์ฒ˜๋Ÿผ ๋ˆŒ๋ฆฐ ๊ฐ์ง„ ์›๋ฟ”

์–ด๋А ์ชฝ์ด ํ˜• ๋จธ๋ฆฟ์† ์ด๋ฏธ์ง€๋ž‘ ๊ฐ€์žฅ ๊ฐ€๊นŒ์›Œ?

2๏ธโƒฃ ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด์ด ํšŒ์ „ํ•œ ๋‹ค๋ฉด์ฒด

์ข‹์•„ ํ˜•.
์ด์ œ ์ •ํ™•ํžˆ ๋ญ”์ง€ ์žกํ˜”๋‹ค.

ํ˜•์ด ๋งํ•œ ๊ฑด ์ด๊ฑฐ๋‹ค:

๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด์„ ์ค‘์‹ฌ์ถ• ๊ธฐ์ค€์œผ๋กœ ํšŒ์ „์‹œํ‚จ ๋‹ค๋ฉด์ฒด

์ด๊ฑด โ€œ๋‘ฅ๊ทผ ์›๋ฟ”(double cone)โ€์ด ์•„๋‹ˆ๋ผ
๊ฐ์ง„ ๋‹ค์ด์•„๋ชฌ๋“œ ์ฝ˜ (L1-norm cone) ์— ๋” ๊ฐ€๊น๋‹ค.


๐Ÿ”ท 1๏ธโƒฃ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •ํ™•ํ•œ ์ •์ฒด

ํ˜•์ด ๋ณธ ๊ตฌ์กฐ๋Š” ๊ฑฐ์˜ ์ด ํ•จ์ˆ˜๋‹ค:

f(x)=โˆฅxโˆฅ1f(x) = \|x\|_1f(x)=โˆฅxโˆฅ1โ€‹

๋˜๋Š” ์ผ๋ฐ˜ํ™”ํ•˜๋ฉด

f(x)=โˆฅWxโˆฅ1f(x) = \|Wx\|_1f(x)=โˆฅWxโˆฅ1โ€‹

์—ฌ๊ธฐ์„œ

โˆฅxโˆฅ1=โˆฃx1โˆฃ+โˆฃx2โˆฃ+โ‹ฏ+โˆฃxdโˆฃ\|x\|_1 = |x_1| + |x_2| + \dots + |x_d|โˆฅxโˆฅ1โ€‹=โˆฃx1โ€‹โˆฃ+โˆฃx2โ€‹โˆฃ+โ‹ฏ+โˆฃxdโ€‹โˆฃ


๐Ÿ”บ 2D์—์„œ โˆฃxโˆฃ+โˆฃyโˆฃ|x| + |y|โˆฃxโˆฃ+โˆฃyโˆฃ

โ†’ ๋‹จ๋ฉด์ด ๋งˆ๋ฆ„๋ชจ (diamond)


๐Ÿ”บ 3D์—์„œ โˆฃxโˆฃ+โˆฃyโˆฃ+โˆฃzโˆฃ|x| + |y| + |z|โˆฃxโˆฃ+โˆฃyโˆฃ+โˆฃzโˆฃ

โ†’ ์œ„์•„๋ž˜๋กœ ๋พฐ์กฑํ•œ ๊ฐ์ง„ ์›๋ฟ” (octahedral cone)

์ด๊ฑด ๋‘ฅ๊ทผ ์›๋ฟ”์ด ์•„๋‹ˆ๋ผ
์ •ํŒ”๋ฉด์ฒด ํ˜•ํƒœ๋กœ ๋พฐ์กฑํ•œ ๋‹ค๋ฉด์ฒด๋‹ค.


๐Ÿ”ท 2๏ธโƒฃ ์™œ ์ด๊ฒŒ ReLU์™€ ์—ฐ๊ฒฐ๋˜๋ƒ?

ReLU๋Š”

ฯƒ(z)=maxโก(0,z)\sigma(z)=\max(0,z)ฯƒ(z)=max(0,z)

์ ˆ๋Œ“๊ฐ’์€ ์ด๋ ‡๊ฒŒ ์“ธ ์ˆ˜ ์žˆ๋‹ค:

โˆฃzโˆฃ=ฯƒ(z)+ฯƒ(โˆ’z)|z| = \sigma(z) + \sigma(-z)โˆฃzโˆฃ=ฯƒ(z)+ฯƒ(โˆ’z)

์ฆ‰,

โˆฃwโ‹…xโˆฃ=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)|w \cdot x| = \sigma(w \cdot x) + \sigma(-w \cdot x)โˆฃwโ‹…xโˆฃ=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)

๊ทธ๋ž˜์„œ ReLU ๋‘ ๊ฐœ ํ•ฉ์น˜๋ฉด
์ ˆ๋Œ“๊ฐ’ ๋Šฅ์„  ๊ตฌ์กฐ๊ฐ€ ๋œ๋‹ค.


๐Ÿ”ท 3๏ธโƒฃ ์™œ ๊ต์ˆ˜ ์Šฌ๋ผ์ด๋“œ์— ์ด๊ฒŒ ๋‚˜์™”๋‚˜?

Approximation theory์—์„œ ์ž์ฃผ ์“ฐ๋Š” ๊ฑด:

  • L2 norm (๋‘ฅ๊ทผ ์›๋ฟ”)

  • L1 norm (๋งˆ๋ฆ„๋ชจ ์›๋ฟ”)

  • Lโˆž norm (๋ฐ•์Šค)

L1 ball์€ ๋‹จ๋ฉด์ด ๋งˆ๋ฆ„๋ชจ๋‹ค.

๊ทธ๋ž˜์„œ ๊ทธ๊ฑธ 3D๋กœ ๊ทธ๋ฆฌ๋ฉด
ํ˜•์ด ๋ณธ โ€œ๋งˆ๋ฆ„๋ชจ ํšŒ์ „ ๋‹ค๋ฉด์ฒดโ€๊ฐ€ ๋œ๋‹ค.


๐Ÿ”ท 4๏ธโƒฃ ์ด๊ฒŒ ํƒ€์›๊ณผ ๋ฌด์Šจ ๊ด€๊ณ„?

ํ˜•์ด ๋งํ•œ:

โ€œํƒ€์›์ด๋ผ์„œ ์›๋ฟ” ๋ชจ์–‘์ด๋‹คโ€

์ด๊ฑด ์กฐ๊ธˆ ๋‹ค๋ฅด๋‹ค.

ํƒ€์›/ํƒ€์›์ฒด๋Š” L2 norm:

โˆฅxโˆฅ2\|x\|_2โˆฅxโˆฅ2โ€‹

โ†’ ๋‘ฅ๊ทผ ๊ตฌ์กฐ

๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด์€ L1 norm:

โˆฅxโˆฅ1\|x\|_1โˆฅxโˆฅ1โ€‹

โ†’ ๊ฐ์ง„ ๊ตฌ์กฐ

์ฆ‰,

ํ˜•์ด ๋ณธ ๊ฑด ํƒ€์›์ด ์•„๋‹ˆ๋ผ
L1 ๊ธฐ๋ฐ˜ ๋‹ค๋ฉด์ฒด ๊ตฌ์กฐ๋‹ค.


๐Ÿ”ท 5๏ธโƒฃ 000 ์ค‘์‹ฌ ๋Œ€์นญ ์–˜๊ธฐ

L1 norm์€

f(โˆ’x)=f(x)f(-x)=f(x)f(โˆ’x)=f(x)

์™„์ „ ๋Œ€์นญ์ด๋‹ค.

๊ทธ๋ž˜์„œ ์ค‘์‹ฌ 000์—์„œ
์™„๋ฒฝํ•œ ๋Œ€์นญ ๋งˆ๋ฆ„๋ชจ ์ฝ˜์ด ์ƒ๊ธด๋‹ค.

ํ˜• ์ง๊ด€์€ ์—ฌ๊ธฐ์„œ ์ •ํ™•ํ•˜๋‹ค.


๐Ÿ”ฅ ๊ฒฐ๋ก 

ํ˜•์ด ๋ณธ ๊ตฌ์กฐ๋Š”:

  • ๋‘ฅ๊ทผ double cone โŒ

  • ํƒ€์›์ฒด โŒ

  • ์ถ•์ •๋ ฌ ๋ฐ•์Šค โŒ

๐Ÿ‘‰ L1 norm ๊ธฐ๋ฐ˜ ๋‹ค๋ฉด์ฒด ์›๋ฟ” (octahedral cone) โญ•

ReLU ํ•ฉ์„ฑ์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ๊ธฐ๋Š” ๊ตฌ์กฐ๋‹ค.


ํ˜•์ด ์ง€๊ธˆ ๊ฐ์ง€ํ•œ ๊ฑด ๊ฝค ์ค‘์š”ํ•œ ํฌ์ธํŠธ๋‹ค.

ReLU ๋„คํŠธ์›Œํฌ์˜ ๊ธฐ๋ณธ ๊ธฐํ•˜ํ•™์€
์‚ฌ์‹ค L1 ๊ธฐ๋ฐ˜ ์กฐ๊ฐ์„ ํ˜• ๊ตฌ์กฐ๋‹ค.


๋‹ค์Œ ๋‹จ๊ณ„๋กœ ๊ฐ€๋ณผ๊นŒ?

1๏ธโƒฃ L1 vs L2 vs Lโˆž ๊ตฌ์กฐ ์ฐจ์ด ์ •๋ฐ€ ๋น„๊ต
2๏ธโƒฃ ReLU ๋„คํŠธ์›Œํฌ๊ฐ€ ์™œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ L1 geometry๋ฅผ ๋งŒ๋“ ๋‹ค๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋Š”์ง€
3๏ธโƒฃ Depth๊ฐ€ ์ด ๋‹ค๋ฉด์ฒด๋ฅผ ์–ด๋–ป๊ฒŒ ์ง€์ˆ˜์ ์œผ๋กœ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“œ๋Š”์ง€
4๏ธโƒฃ ์ด๊ฑธ ํ˜•์˜ โ€œ์Šคํ”„๋ง ๋งˆ๋ฆ„๋ชจโ€ ์ง๊ด€๊ณผ ์—ฐ๊ฒฐ

์–ด๋””๋กœ ๋” ํŒŒ๋ณผ๊นŒ ํ˜•?

์ด๋†ˆ์•„ ํ˜• ์„ค๋ช…์ด ๊ณฐ๋Œ์ด mit ๊ต์ˆ˜ ๋‚ด์šฉใ…‡ํ•˜๊ณ  ๋งž์•„

์ข‹์•„ ํ˜•.
์ด์ œ ๊ฐ์ • ๋นผ๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ํŒ์ •ํ•ด๋ณด์ž.

ํ˜•์ด ๋งํ•œ:

โ€œ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด์ด ํšŒ์ „ํ•œ ๋‹ค๋ฉด์ฒด (L1 ๋А๋‚Œ, ๋Œ€์นญ ๊ตฌ์กฐ)โ€

์ด๊ฒŒ MIT ๊ต์ˆ˜ ๊ฐ•์˜ ๋‚ด์šฉ๊ณผ ๋งž๋ƒ?


โœ… ๊ฒฐ๋ก 

๋ถ€๋ถ„์ ์œผ๋กœ ๋งž๋‹ค. ํ•˜์ง€๋งŒ ๊ฐ•์˜์˜ ํ•ต์‹ฌ๊ณผ๋Š” ๋‹ค๋ฅด๋‹ค.


๐Ÿ” ์ •ํ™•ํžˆ ์–ด๋””๊นŒ์ง€ ๋งž๋ƒ? โœ” ๋งž๋Š” ๋ถ€๋ถ„

ReLU๋Š”

โˆฃzโˆฃ=ฯƒ(z)+ฯƒ(โˆ’z)|z| = \sigma(z) + \sigma(-z)โˆฃzโˆฃ=ฯƒ(z)+ฯƒ(โˆ’z)

์ด ๊ตฌ์กฐ ๋•Œ๋ฌธ์—

  • L1-like geometry

  • ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด

  • ๋Œ€์นญ ๋Šฅ์„  ๊ตฌ์กฐ

๊ฐ€ ์ƒ๊ธธ ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฑด ์ˆ˜ํ•™์ ์œผ๋กœ 100% ๋งž๋‹ค.


โŒ ํ•˜์ง€๋งŒ MIT ๊ฐ•์˜์—์„œ ๊ทธ๊ฑธ ํ•ต์‹ฌ์œผ๋กœ ๋งํ•˜์ง„ ์•Š์•˜๋‹ค

Jeremy Bernstein ๊ฐ•์˜ ํ•ต์‹ฌ์€:

  1. Lipschitz ํ•จ์ˆ˜ ๊ทผ์‚ฌ

  2. Hypercube ๋ถ„ํ• 

  3. Piecewise linear region ์ˆ˜

  4. Depth separation

๊ทธ๋Š” L1 norm ๊ธฐํ•˜๋ฅผ ์ค‘์‹ฌ ๋…ผ๋ฆฌ๋กœ ์“ฐ์ง€ ์•Š์•˜๋‹ค.

์˜์ƒ์—์„œ ๋‚˜์˜จ โ€œ์›๋ฟ” ๋น„์Šทํ•œ ๊ทธ๋ฆผโ€์€
norm ๊ฐœ๋…์„ ์ง๊ด€์ ์œผ๋กœ ์„ค๋ช…ํ•œ ๋ณด์กฐ ๊ทธ๋ฆผ์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.


๐ŸŽฏ ํ˜• ์„ค๋ช… vs MIT ๊ฐ•์˜ ๋น„๊ต

ํ•ญ๋ชฉํ˜• ์„ค๋ช…MIT ๊ฐ•์˜

์ค‘์‹ฌ ๋Œ€์นญ ๊ตฌ์กฐ๊ฐ•์กฐ๊ฐ•์กฐ ์•ˆ ํ•จ
L1 ๊ธฐ๋ฐ˜ ๋งˆ๋ฆ„๋ชจ์ง๊ด€์ ์œผ๋กœ ์‚ฌ์šฉ๋ช…์‹œ์ ์œผ๋กœ ์•ˆ ์”€
ํšŒ์ „ ๋‹ค๋ฉด์ฒด๊ธฐํ•˜ ์ง๊ด€์ฆ๋ช… ๊ตฌ์กฐ๋Š” ๋ฐ•์Šค ๊ธฐ๋ฐ˜
ํ•ต์‹ฌ ๋ฉ”์‹œ์ง€๊ธฐํ•˜ ๊ตฌ์กฐํ‘œํ˜„๋ ฅ๊ณผ depth ๋ถ„๋ฆฌ

๐Ÿ”ฅ ์ค‘์š”ํ•œ ํŒ๋‹จ

ํ˜•์ด ๋ณธ ๊ธฐํ•˜ ๊ตฌ์กฐ๋Š”

โœ” ReLU ์ˆ˜ํ•™๊ณผ ๋ชจ์ˆœ๋˜์ง€ ์•Š๋Š”๋‹ค
โœ” ์‹ค์ œ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์™€ ์—ฐ๊ฒฐ ๊ฐ€๋Šฅ
โœ” L1 norm๊ณผ ์ •ํ™•ํžˆ ๋Œ€์‘๋จ

ํ•˜์ง€๋งŒ

โ— ๊ทธ๊ฒŒ ๊ทธ ๊ฐ•์˜์˜ ์ค‘์‹ฌ ์ฆ๋ช… ๋…ผ๋ฆฌ๋Š” ์•„๋‹ˆ๋‹ค


๐Ÿง  ์ •๋ฆฌ

ํ˜• ์„ค๋ช…์€ โ€œ์ˆ˜ํ•™์ ์œผ๋กœ ํ‹€๋ฆฐ ๊ฑด ์•„๋‹ˆ๋‹ค.โ€

ํ•˜์ง€๋งŒ

MIT ๊ฐ•์˜๊ฐ€ ๊ทธ ๊ธฐํ•˜ ๊ตฌ์กฐ๋ฅผ ์ฃผ๋œ ์„ค๋ช… ๋„๊ตฌ๋กœ ์“ด ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค.

์ฆ‰,

  • ํ˜•์€ ๊ธฐํ•˜ ์ง๊ด€์œผ๋กœ ํ•ด์„ํ•œ ๊ฒƒ

  • ๊ต์ˆ˜๋Š” ๋ถ„์„ํ•™์  ์ƒํ•œ ์ฆ๋ช…์„ ํ•œ ๊ฒƒ


๐Ÿšจ ๊ทธ๋ž˜์„œ ์ตœ์ข… ๋‹ต

ํ˜• ์„ค๋ช… = ReLU ๊ธฐํ•˜ํ•™์ ์œผ๋กœ๋Š” ๋งž๋‹ค

ํ•˜์ง€๋งŒ

โ€œ๊ทธ ๊ฐ•์˜๊ฐ€ ๊ทธ๊ฑธ ์ค‘์‹ฌ ๋…ผ๋ฆฌ๋กœ ์“ด๋‹คโ€ = โŒ ์•„๋‹ˆ๋‹ค


ํ˜• ์ง€๊ธˆ ์ œ๋Œ€๋กœ ํŒŒ๊ณ  ์žˆ๋‹ค.
์ด์ œ ์„ ํƒํ•˜์ž:

1๏ธโƒฃ MIT ๊ฐ•์˜ ๋…ผ๋ฆฌ๋ฅผ ์ •ํ™•ํžˆ ์ˆ˜์‹์œผ๋กœ ์žฌํ˜„ํ•ด๋ณผ๊นŒ
2๏ธโƒฃ ํ˜• ๊ธฐํ•˜ ์ง๊ด€์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์™„์ „ํžˆ ์ฆ๋ช… ํ˜•ํƒœ๋กœ ์ •๋ฆฌํ•ด๋ณผ๊นŒ
3๏ธโƒฃ ๋‘˜์ด ์–ด๋””์„œ ์ •ํ™•ํžˆ ๊ฐˆ๋ผ์ง€๋Š”์ง€ ๋น„๊ต ๋ถ„์„ํ• ๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๊นŒ ํ˜•?

1๏ธโƒฃ MIT ๊ฐ•์˜ ๋…ผ๋ฆฌ๋ฅผ ์ •ํ™•ํžˆ ์ˆ˜์‹์œผ๋กœ ์žฌํ˜„ํ•ด๋ณผ๊นŒ 2๏ธโƒฃ ํ˜• ๊ธฐํ•˜ ์ง๊ด€์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์™„์ „ํžˆ ์ฆ๋ช… ํ˜•ํƒœ๋กœ ์ •๋ฆฌํ•ด๋ณผ๊นŒ 3๏ธโƒฃ ๋‘˜์ด ์–ด๋””์„œ ์ •ํ™•ํžˆ ๊ฐˆ๋ผ์ง€๋Š”์ง€ ๋น„๊ต ๋ถ„์„ํ• ๊นŒ

์ข‹๋‹ค ํ˜•.
์ด๋ฒˆ์—” ๊ฐ์ •ยท์ง๊ด€ ๋‹ค ๋นผ๊ณ  ์ˆ˜ํ•™ ๊ตฌ์กฐ๋งŒ ๊น”๋”ํ•˜๊ฒŒ ์ •๋ฆฌํ•œ๋‹ค.
์„ธ ๊ฐ€์ง€๋ฅผ ์ •ํ™•ํžˆ ๋ถ„๋ฆฌํ•ด์„œ ๋ณด์—ฌ์ค„๊ฒŒ.


1๏ธโƒฃ MIT ๊ฐ•์˜ ๋…ผ๋ฆฌ โ€” ์ •ํ™•ํ•œ ์ˆ˜์‹ ์žฌํ˜„

๊ฐ•์˜์˜ ํ•ต์‹ฌ์€ ์ด ๊ตฌ์กฐ๋‹ค.

(A) ํ•จ์ˆ˜ ํด๋ž˜์Šค ์ •์˜ G={g:[0,1]dโ†’Rโˆฃgย isย L-Lipschitz}G = \{ g : [0,1]^d \to \mathbb{R} \mid g \text{ is L-Lipschitz} \}G={g:[0,1]dโ†’Rโˆฃgย isย L-Lipschitz}

์ฆ‰,

โˆฃg(x)โˆ’g(y)โˆฃโ‰คLโˆฅxโˆ’yโˆฅ|g(x) - g(y)| \le L \|x-y\|โˆฃg(x)โˆ’g(y)โˆฃโ‰คLโˆฅxโˆ’yโˆฅ


(B) ๋ชฉํ‘œ

๋ชจ๋“  gโˆˆGg \in GgโˆˆG์— ๋Œ€ํ•ด

โˆฅgโˆ’fฮธโˆฅโˆžโ‰คฮต\|g - f_\theta\|_\infty \le \varepsilonโˆฅgโˆ’fฮธโ€‹โˆฅโˆžโ€‹โ‰คฮต

๋ฅผ ๋งŒ์กฑํ•˜๋Š” ReLU ๋„คํŠธ์›Œํฌ ์กด์žฌ?


(C) ๊ทผ์‚ฌ ์ „๋žต (๋ฐ•์Šค ๋ถ„ํ• )

๊ณต๊ฐ„์„ ํ•œ ๋ณ€ ๊ธธ์ด hhh์ธ hypercube๋กœ ๋ถ„ํ• .

h=ฮตLh = \frac{\varepsilon}{L}h=Lฮตโ€‹

๊ทธ๋Ÿฌ๋ฉด ๊ฐ ๋ฐ•์Šค์—์„œ ์˜ค์ฐจ โ‰ค ฮต.

ํ•„์š”ํ•œ ๋ฐ•์Šค ๊ฐœ์ˆ˜:

Nโˆผ(Lฮต)dN \sim \left(\frac{L}{\varepsilon}\right)^dNโˆผ(ฮตLโ€‹)d

์—ฌ๊ธฐ์„œ ์ฐจ์›์˜ ์ €์ฃผ ๋“ฑ์žฅ.


(D) ReLU๋กœ ๋ฐ•์Šค ๊ตฌํ˜„

1์ฐจ์›์—์„œ indicator ๊ทผ์‚ฌ:

ฯƒ(xโˆ’a)โˆ’ฯƒ(xโˆ’b)\sigma(x-a) - \sigma(x-b)ฯƒ(xโˆ’a)โˆ’ฯƒ(xโˆ’b)

๋‹ค์ฐจ์›์€ ๊ณฑ ํ˜•ํƒœ ๊ทผ์‚ฌ โ†’ threshold ํ•ฉ์„ฑ.

โ†’ 3-layer ReLU๋กœ hyperrectangle ๊ทผ์‚ฌ ๊ฐ€๋Šฅ.


(E) Depth separation

ReLU๋Š” piecewise linear.

๊นŠ์ด L, ๋„ˆ๋น„ n์ด๋ฉด

linearย regionsโ‰ค(2n)L\text{linear regions} \le (2n)^Llinearย regionsโ‰ค(2n)L

๊นŠ์ด ์ฆ๊ฐ€ โ†’ ๋ถ„ํ•  ์˜์—ญ ์ง€์ˆ˜ ์ฆ๊ฐ€.


์ด๊ฒŒ MIT ๊ฐ•์˜์˜ ์ •ํ™•ํ•œ ๋…ผ๋ฆฌ ๊ตฌ์กฐ๋‹ค.

ํ•ต์‹ฌ์€:

Lipschitz + ๋ฐ•์Šค ๋ถ„ํ•  + region count


2๏ธโƒฃ ํ˜• ๊ธฐํ•˜ ์ง๊ด€์„ โ€œ์ฆ๋ช… ๊ตฌ์กฐโ€๋กœ ๋งŒ๋“ค๋ฉด

ํ˜•์ด ๋งํ•œ ๊ฑด ์ด๋Ÿฐ ๊ตฌ์กฐ๋‹ค.

(A) ReLU๋Š” ์ดˆํ‰๋ฉด ์ ˆ๋‹จ ฯƒ(wโ‹…x+b)\sigma(w\cdot x + b)ฯƒ(wโ‹…x+b)

โ†’ ์ดˆํ‰๋ฉด wโ‹…x+b=0w\cdot x + b = 0wโ‹…x+b=0

๊ณต๊ฐ„์„ ๋‘˜๋กœ ๋‚˜๋ˆˆ๋‹ค.


(B) ์ ˆ๋Œ“๊ฐ’ ์ƒ์„ฑ โˆฃwโ‹…xโˆฃ=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)|w\cdot x| = \sigma(w\cdot x) + \sigma(-w\cdot x)โˆฃwโ‹…xโˆฃ=ฯƒ(wโ‹…x)+ฯƒ(โˆ’wโ‹…x)

โ†’ ๋Œ€์นญ ๋Šฅ์„ 


(C) L1 norm ๊ตฌ์กฐ โˆฅxโˆฅ1=โˆ‘iโˆฃxiโˆฃ\|x\|_1 = \sum_i |x_i|โˆฅxโˆฅ1โ€‹=iโˆ‘โ€‹โˆฃxiโ€‹โˆฃ

3D์—์„œ โ†’ ์ •ํŒ”๋ฉด์ฒด (octahedron)

์ฆ‰, โ€œ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด ํšŒ์ „ ๋‹ค๋ฉด์ฒดโ€.


(D) ๋‹ค๋ฉด์ฒด ๊ทผ์‚ฌ ์ •๋ฆฌ (๊ธฐํ•˜ ๋ฒ„์ „)

์—ฐ์† ํ•จ์ˆ˜๋Š” ์ฝคํŒฉํŠธ ์˜์—ญ์—์„œ

์ž„์˜ ฮต > 0์— ๋Œ€ํ•ด

์ถฉ๋ถ„ํžˆ ๋งŽ์€ ์ดˆํ‰๋ฉด ๋ถ„ํ• ์„ ํ†ตํ•ด

์กฐ๊ฐ ์„ ํ˜• ํ•จ์ˆ˜๋กœ ๊ทผ์‚ฌ ๊ฐ€๋Šฅ.

์ด๊ฑด ์‚ฌ์‹ค classical result:

Continuous function โ‰ˆ polyhedral function

์ฆ‰,

ํ˜• ์ง๊ด€๋„ ์ˆ˜ํ•™์ ์œผ๋กœ ์„ฑ๋ฆฝํ•œ๋‹ค.


3๏ธโƒฃ ๋‘˜์ด ์ •ํ™•ํžˆ ์–ด๋””์„œ ๊ฐˆ๋ผ์ง€๋‚˜?

์ด๊ฒŒ ํ•ต์‹ฌ์ด๋‹ค.


์ฐจ์ด 1๏ธโƒฃ ํ•จ์ˆ˜ ํด๋ž˜์Šค

MIT:

๋ชจ๋“ ย L-Lipschitzย ํ•จ์ˆ˜\text{๋ชจ๋“  L-Lipschitz ํ•จ์ˆ˜}๋ชจ๋“ ย L-Lipschitzย ํ•จ์ˆ˜

ํ˜•:
ํŠน์ • ๊ธฐํ•˜ ๊ตฌ์กฐ ๊ฐ€์ง„ ํ•จ์ˆ˜ (L1-like geometry ์ค‘์‹ฌ)

โ†’ MIT๋Š” worst-case ์ „์ฒด๋ฅผ ๋‹ค๋ฃธ.


์ฐจ์ด 2๏ธโƒฃ ์˜ค์ฐจ ๊ณ„์‚ฐ ๋ฐฉ์‹

MIT:

supโกโˆฃfโˆ’gโˆฃ\sup |f-g|supโˆฃfโˆ’gโˆฃ

ํ˜•:
๊ธฐํ•˜ ๊ตฌ์กฐ ์ค‘์‹ฌ ์ง๊ด€

โ†’ MIT๋Š” bound ๊ณ„์‚ฐ์ด ๋ชฉ์ .


์ฐจ์ด 3๏ธโƒฃ norm ์„ ํƒ

MIT:
๋ณดํ†ต L2 ๊ธฐ๋ฐ˜ Lipschitz

ํ˜•:
L1 ๊ธฐ๋ฐ˜ ๋Œ€์นญ ๋‹ค๋ฉด์ฒด ์ง๊ด€

norm์ด ๋‹ค๋ฅด๋ฉด ๊ธฐํ•˜๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.


์ฐจ์ด 4๏ธโƒฃ ์ฆ๋ช… ๋ชฉ์ 

MIT:
โ€œํ•ญ์ƒ ์„ฑ๋ฆฝํ•˜๋Š” ์ƒํ•œโ€

ํ˜•:
โ€œ๊ธฐํ•˜ ๊ตฌ์กฐ ์„ค๋ช…โ€


๐Ÿ”ฅ ์ตœ์ข… ํŒ์ •

ํ˜• ๊ตฌ์กฐ๋Š” ReLU ๊ธฐํ•˜ํ•™์ ์œผ๋กœ ๋งž๋‹ค.

ํ•˜์ง€๋งŒ MIT ๊ฐ•์˜๋Š”

โ€œ๊ธฐํ•˜ ๊ตฌ์กฐ ์„ค๋ช…โ€์ด ๋ชฉ์ ์ด ์•„๋‹ˆ๋ผ
โ€œ์ตœ์•…์˜ ๊ฒฝ์šฐ ๊ทผ์‚ฌ ์ƒํ•œ ์ฆ๋ช…โ€์ด ๋ชฉ์ ์ด๋‹ค.

๊ทธ๋ž˜์„œ ๋ฐ•์Šค ๋ถ„ํ• ์„ ์“ด๋‹ค.


๐Ÿง  ์ง„์งœ ์ค‘์š”ํ•œ ๊นจ๋‹ฌ์Œ

ํ˜•์ด ๊ฐ์ง€ํ•œ ๊ฑด ์‚ฌ์‹ค ๋”ฅ๋Ÿฌ๋‹ ์ด๋ก ์—์„œ ๊ฝค ์ค‘์š”ํ•œ ๋ถ€๋ถ„์ด๋‹ค:

ReLU ๋„คํŠธ์›Œํฌ์˜ ๋ณธ์งˆ์€

polyhedral geometry (๋‹ค๋ฉด์ฒด ๊ธฐํ•˜)

๊ทผ๋ฐ ๊ฐ•์˜๋Š”

metric bound (๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ˜ ์ƒํ•œ)

์„ ์ค‘์‹ฌ์œผ๋กœ ์„ค๋ช…ํ•œ๋‹ค.


์ด์ œ ์ง„์งœ ์งˆ๋ฌธ ํ•˜๋‚˜๋งŒ ํ•˜์ž ํ˜•.

ํ˜•์ด ๊ถ๊ธˆํ•œ ๊ฑด:

  • "๋‚ด ์ง๊ด€์ด ํ‹€๋ ธ๋‚˜?"

  • ์•„๋‹ˆ๋ฉด

  • "์™œ ์ด๋ก ์€ ์ด๋ ‡๊ฒŒ ๋ณด์ˆ˜์ ์œผ๋กœ๋งŒ ๋งํ•˜๋‚˜?"

์–ด๋””๊ฐ€ ๋” ๊ถ๊ธˆํ•ด?

์ผ๋ฐ˜์ธ์šฉ ์„ค๋ช…ํ•˜๋ฉด ๋ฒกํ„ฐ ๊ธฐํ•˜๋กœ ์„ค๋ช…ํ•˜๋ฉด ํ–‰๋ ฌ์ด ๋ง‰๋Œ€๊ธฐ ๊ทธ๋Ÿฌ๋ฉด ์ถ”๊ฐ€๋กœ ํ–‰๋ ฌ์ด 3๊ฐœ ํ•œ์„ธํŠธ๋กœ ๋ง‰๋Œ€๊ธฐ ์„ธ๊ฐœ ๊ทธ๋Ÿฌ๋ฉด ๋˜ ๊ธด๋†ˆ ๋‚˜๋จธ์ง€ ๋‘๊ฐœ ๊ฐ™์ด ํ•ด์„œ ๋‘๊ฐœ ๋ง‰๋Œ€๊ธฐ๊ฐ€ ๋‚˜์„ ํšŒ์ „ ๋ชจ์–‘์œผ๋กœ ํšŒ์ „์„ ํ•œ๋‹ค ์ค‘์‹ฌ์  000 ์žˆ๋‹ค ๊ฐ€์ƒ์œผ๋กœ ์ƒ๊ฐ ๊ทธ๋Ÿฌ๋ฉด ๋ฌดํ•œ์ด ํšŒ์ „์ด ์•„๋‹ˆ๊ณ  ์ค‘๊ฐ„์— ๋งˆ๋ฆ„๋ชจ ์ฒ˜๋Ÿผ ๋‚˜์˜ค๊ณ  ์ฒ˜์Œ ์ค‘์‹ฌ์  ํ•˜๊ณ  ํ•ด์„œ ๋Œ€์นญ ๊ตฌ์กฐ ๊ทธ๋ž˜์•ผ ๋ฆฌ๋งŒ๊ตฌ ์ƒํƒœ ์ตœ์ข…๋‹จ๊ณ„์—์„œ ๋‹ซํžŒ๋‹ค ์ด๊ฑฐ๋‹ค ์ด๋Ÿฐ๊ฑธ 2๊ฐœ ์ด์ƒ ๋งŒ๋“ค๊ณ  ๋น„๊ต ์ด๊ฑธ ๊ณ„์† ํ•œ๋‹ค ์ด๊ฑฐ๋‹ค ๊ทธ๋Ÿฌ๋ฉด ๋‹ค์‹œ ์ฒ˜์Œ์œผ๋กœ ๊ฐ€์„œ ํ–‰๋ ฌ ์•ˆ์— ์ˆซ์ž๊ฐ€ ์ฒ˜์Œ ์ „์ œ ์ •์˜ ์ •ํ•œ๋‹ค ๋‹จ์–ด๋“ค์ด ์˜๋ฏธ๊ฐ€ ๋œป์ด ๊ฐ™์€๊ฑฐ ์ด๊ฒŒ ๋ฐฉํ–ฅ ๋ฒกํ„ฐ์ฒ˜๋Ÿผ ์ž‘์šฉํ•œ๋‹ค ์ด๊ฒŒ ๊ทธ๋ž˜์„œ ํ–‰๋ ฌ ์ˆซ์ž ํ† ํฐ ๊ทธ๋Ÿฐ์‹์œผ๋กœ ๋ง์„ ํ•œ๋‹ค ์ด๊ฑฐ๋‹ค

ํ˜•,
์ง€๊ธˆ ๋งํ•œ ๊ฑด โ€œ์˜์ƒ ์„ค๋ช…์ด ๋งž๋ƒ?โ€๋ฅผ ๋„˜์–ด์„œ
ํ˜•์ด ์ž๊ธฐ ๋ฐฉ์‹์œผ๋กœ ์„ธ์ƒ์„ ํ•ด์„ํ•˜๋Š” ํ”„๋ ˆ์ž„์„ ์„ค๋ช…ํ•œ ๊ฑฐ์•ผ.

๊ทธ๋ž˜์„œ ์ด๋ฒˆ์—” ๊ฐ์ • ์—†์ด,
์–ด๋””๊นŒ์ง€ ์ˆ˜ํ•™์ ์œผ๋กœ ๋งž๊ณ  ์–ด๋””์„œ๋ถ€ํ„ฐ๋Š” ํ˜•์˜ ํ•ด์„ ํ™•์žฅ์ธ์ง€
์ •ํ™•ํžˆ ๋‚˜๋ˆ ์„œ ์ •๋ฆฌํ•ด์ค„๊ฒŒ.


1๏ธโƒฃ โ€œํ–‰๋ ฌ = ๋ง‰๋Œ€๊ธฐ ์„ธ ๊ฐœโ€ ์„ค๋ช…

์ด ๋ถ€๋ถ„์€ โœ”๏ธ ์ˆ˜ํ•™์ ์œผ๋กœ ๋งž๋‹ค.

3ร—3 ํ–‰๋ ฌ์€

  • 3๊ฐœ์˜ ์—ด๋ฒกํ„ฐ

  • ๋˜๋Š” 3๊ฐœ์˜ ํ–‰๋ฒกํ„ฐ

์ฆ‰, ๊ณต๊ฐ„์— ๋†“์ธ 3๊ฐœ์˜ ๋ง‰๋Œ€๊ธฐ(๊ธฐ์ € ๋ฒกํ„ฐ ๋ณ€ํ˜•) ๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.

ํ–‰๋ ฌ์€ ๊ฒฐ๊ตญ:

๊ณต๊ฐ„์„ ๋น„ํ‹€๊ณ , ๋Š˜๋ฆฌ๊ณ , ํšŒ์ „์‹œํ‚ค๋Š” ์—ฐ์‚ฐ์ž

์ด๊ฑด ์™„์ „ํžˆ ํ‘œ์ค€ ์„ ํ˜•๋Œ€์ˆ˜ ํ•ด์„์ด๋‹ค.


2๏ธโƒฃ โ€œ๊ธด ๋†ˆ + ๋‘ ๊ฐœ๊ฐ€ ๋‚˜์„  ํšŒ์ „โ€

์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ๋Š” ๋‘ ๋‹จ๊ณ„๊ฐ€ ์žˆ๋‹ค.

(A) ์„ ํ˜•๋Œ€์ˆ˜ ๋ฒ”์œ„

ํ–‰๋ ฌ์˜ ๊ณ ์œ ๊ฐ’ยท๊ณ ์œ ๋ฒกํ„ฐ๊ฐ€ ๋ณต์†Œ์ˆ˜์ด๋ฉด

ฮป=aยฑbi\lambda = a \pm biฮป=aยฑbi

โ†’ ํšŒ์ „ + ์Šค์ผ€์ผ

๊ทธ๋ž˜์„œ 2์ฐจ์› ํ‰๋ฉด์—์„œ

ํšŒ์ „ํ•˜๋ฉด์„œ ๋Š˜์–ด๋‚˜๊ฑฐ๋‚˜ ์ค„์–ด๋“œ๋Š” ๋‚˜์„  ์šด๋™

์ด๊ฑด โœ”๏ธ ์ •ํ™•ํžˆ ๋งž๋Š” ํ•ด์„์ด๋‹ค.


(B) โ€œ์„ธ ๊ฐœ ์ค‘ ๋‘ ๊ฐœ๊ฐ€ ํšŒ์ „ํ•˜๊ณ  ํ•˜๋‚˜๊ฐ€ ๊ธธ๊ฒŒ ๋‚จ๋Š”๋‹คโ€

3์ฐจ์›์—์„œ

  • ํ•˜๋‚˜๋Š” ์‹ค๊ณ ์œ ๊ฐ’

  • ๋‘ ๊ฐœ๋Š” ๋ณต์†Œ์Œ

์ด๋ฉด

  • ํ•œ ์ถ•์€ ์ง์„  ๋ฐฉํ–ฅ

  • ๋‚˜๋จธ์ง€ ํ‰๋ฉด์€ ํšŒ์ „

โ†’ ๋‚˜์„  ๊ตฌ์กฐ ์ƒ๊ธด๋‹ค.

์ด๊ฑด ์ˆ˜ํ•™์ ์œผ๋กœ ๊ฐ€๋Šฅํ•˜๋‹ค.


3๏ธโƒฃ โ€œ์ค‘์‹ฌ์  000, ๋Œ€์นญ ๊ตฌ์กฐ, ๋งˆ๋ฆ„๋ชจ ์ค‘๊ฐ„๋‹จ๊ณ„โ€

์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ๋Š” ์ฃผ์˜ํ•ด์•ผ ํ•œ๋‹ค.

์„ ํ˜• ๋ณ€ํ™˜์€

xโ†ฆAxx \mapsto Axxโ†ฆAx

โ†’ ํ•ญ์ƒ 0์€ 0์œผ๋กœ ๊ฐ„๋‹ค.

๊ทธ๋ž˜์„œ ์›์ ์€ ๊ณ ์ •์ .

์ด๊ฑด ๋งž๋‹ค.

ํ•˜์ง€๋งŒ

โ€œ๋งˆ๋ฆ„๋ชจ์ฒ˜๋Ÿผ ๋‚˜์˜ค๊ณ  ๋ฐ˜๋“œ์‹œ ๋Œ€์นญ ๊ตฌ์กฐ๊ฐ€ ๋˜์–ด์•ผ ํ•œ๋‹คโ€

์ด๊ฑด ์ผ๋ฐ˜ ํ–‰๋ ฌ์—์„œ๋Š” โŒ ์•„๋‹ˆ๋‹ค.

๋Œ€์นญ์€ ํ–‰๋ ฌ์ด ํŠน์ • ์กฐ๊ฑด์„ ๋งŒ์กฑํ•  ๋•Œ๋งŒ ์ƒ๊ธด๋‹ค.

์˜ˆ:

  • ๋Œ€์นญํ–‰๋ ฌ

  • ์ง๊ตํ–‰๋ ฌ

  • L1 norm ๊ตฌ์กฐ


4๏ธโƒฃ โ€œ๋ฆฌ๋งŒ๊ตฌ์—์„œ ๋‹ซํžŒ๋‹คโ€

์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ๋Š” ์™„์ „ํžˆ ๋‹ค๋ฅธ ์˜์—ญ์ด๋‹ค.

๋ฆฌ๋งŒ ๊ตฌ๋Š”

Cโˆช{โˆž}\mathbb{C} \cup \{\infty\}Cโˆช{โˆž}

๋ณต์†Œํ‰๋ฉด์— ๋ฌดํ•œ์ ์„ ๋ถ™์ธ ๊ตฌ์กฐ.

์„ ํ˜•๋Œ€์ˆ˜์˜ 3ร—3 ํ–‰๋ ฌ ํšŒ์ „์ด
์ž๋™์œผ๋กœ ๋ฆฌ๋งŒ๊ตฌ์—์„œ ๋‹ซํžˆ๋Š” ๊ฑด ์•„๋‹ˆ๋‹ค.

๊ทธ๊ฑด ๋ณต์†Œํ•ด์„ํ•™ยท์‚ฌ์˜๊ธฐํ•˜ ์˜์—ญ์ด๋‹ค.

์—ฌ๊ธฐ์„œ๋Š” ํ˜•์˜ ํ™•์žฅ ํ•ด์„์ด ๋“ค์–ด๊ฐ€ ์žˆ๋‹ค.


5๏ธโƒฃ โ€œํ–‰๋ ฌ ์ˆซ์ž = ๋‹จ์–ด ํ† ํฐ = ๋ฐฉํ–ฅ ๋ฒกํ„ฐโ€

์ด๊ฑด ์ฒ ํ•™์  ๋น„์œ ๋‹ค.

์ˆ˜ํ•™์ ์œผ๋กœ:

  • ์ˆซ์ž๋Š” ์Šค์นผ๋ผ

  • ๋ฒกํ„ฐ๋Š” ๋ฐฉํ–ฅ + ํฌ๊ธฐ

  • ํ† ํฐ์€ ์˜๋ฏธ ๋‹จ์œ„

์ด ์…‹์€ ์ง์ ‘์ ์œผ๋กœ ๋™์ผ ๊ฐœ๋…์ด ์•„๋‹ˆ๋‹ค.

๋‹ค๋งŒ:

์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์—์„œ

wordโ†’vector\text{word} \rightarrow \text{vector}wordโ†’vector

์ด๋ ‡๊ฒŒ ๋งคํ•‘์€ ํ•œ๋‹ค.

๊ทธ๊ฑด ๋”ฅ๋Ÿฌ๋‹์—์„œ ๋งž๋‹ค.

ํ•˜์ง€๋งŒ

์ˆซ์ž ์ž์ฒด๊ฐ€ ๋ฐฉํ–ฅ ๋ฒกํ„ฐ์ฒ˜๋Ÿผ ์ž‘์šฉํ•œ๋‹ค

๋Š” ๊ฑด ์ˆ˜ํ•™์  ์ •์˜๋Š” ์•„๋‹ˆ๋‹ค.
๊ทธ๊ฑด ํ•ด์„์  ๋น„์œ ๋‹ค.


6๏ธโƒฃ ์ง€๊ธˆ ํ˜• ์„ค๋ช…์„ ์ •ํ™•ํžˆ ํŒ์ •ํ•˜๋ฉด

๋ถ€๋ถ„์ˆ˜ํ•™์ ์œผ๋กœ

ํ–‰๋ ฌ = ๋ง‰๋Œ€๊ธฐโœ”๏ธ ๋งž์Œ
๋ณต์†Œ ๊ณ ์œ ๊ฐ’ = ๋‚˜์„  ํšŒ์ „โœ”๏ธ ๋งž์Œ
์›์  ๊ณ ์ •โœ”๏ธ ๋งž์Œ
๋งˆ๋ฆ„๋ชจ ๋Œ€์นญ ํ•„์ˆ˜โŒ ์ผ๋ฐ˜์ ์œผ๋กœ ์•„๋‹˜
๋ฆฌ๋งŒ๊ตฌ๋กœ ๋‹ซํž˜โŒ ๋ณ„๋„ ๊ตฌ์กฐ ํ•„์š”
์ˆซ์ž=ํ† ํฐ=๋ฒกํ„ฐโŒ ๋น„์œ ์  ํ™•์žฅ

7๏ธโƒฃ ์ค‘์š”ํ•œ ํฌ์ธํŠธ

ํ˜• ์‚ฌ๊ณ ๋Š” ์ด๋Ÿฐ ํŠน์ง•์ด ์žˆ๋‹ค:

  • ์„ ํ˜•๋Œ€์ˆ˜

  • ๋ณต์†Œ์ˆ˜ ํšŒ์ „

  • ์œ„์ƒ ๋‹ซํž˜

  • ์–ธ์–ด ํ† ํฐ ์˜๋ฏธ

  • ๋Œ€์นญ ๊ตฌ์กฐ

์ด๊ฑธ ํ•˜๋‚˜์˜ ๊ตฌ์กฐ๋กœ ์—ฎ๋Š”๋‹ค.

์ด๊ฑด ์ฐฝ์˜์  ํ•ด์„์ด์ง€๋งŒ
์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ์„œ๋กœ ๋‹ค๋ฅธ ์ธต์œ„๋‹ค.


8๏ธโƒฃ ์•„์ฃผ ์ค‘์š”ํ•œ ๊ฒฝ๊ณ„์„ 

์—ฌ๊ธฐ์„œ ์กฐ์‹ฌํ•ด์•ผ ํ•˜๋Š” ๊ฑด:

โœ” ๊ธฐํ•˜ ์ง๊ด€์€ ์œ ํšจํ•˜๋‹ค
โœ” ๋ณต์†Œ ํšŒ์ „ ํ•ด์„์€ ๋งž๋‹ค

ํ•˜์ง€๋งŒ

โ— ๋ชจ๋“  ๊ฑธ ํ•˜๋‚˜์˜ ํ•„์—ฐ ๊ตฌ์กฐ๋กœ ์—ฐ๊ฒฐํ•˜๋ฉด
์ˆ˜ํ•™์  ์—„๋ฐ€์„ฑ์€ ๋ฌด๋„ˆ์ง„๋‹ค.


9๏ธโƒฃ ํ˜•์—๊ฒŒ ์ง„์งœ ์ค‘์š”ํ•œ ์งˆ๋ฌธ

ํ˜• ์ง€๊ธˆ ํ•˜๊ณ  ์‹ถ์€ ๊ฑด ๋ญ์•ผ?

  • ์‹ค์ œ ์ˆ˜ํ•™ ๊ตฌ์กฐ๋ฅผ ์—„๋ฐ€ํ•˜๊ฒŒ ์„ธ์šฐ๊ณ  ์‹ถ์€๊ฐ€

  • ์•„๋‹ˆ๋ฉด ์ง๊ด€์  ํ†ตํ•ฉ ์„ธ๊ณ„๊ด€์„ ๋งŒ๋“ค๊ณ  ์‹ถ์€๊ฐ€

์ด ๋‘ ๊ฐœ๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์ด ์™„์ „ํžˆ ๋‹ค๋ฅด๋‹ค.


ํ˜•, ๋‚ด๊ฐ€ ์†”์งํžˆ ๋งํ•ด์ค„๊ฒŒ.

ํ˜•์€ โ€œ์™„์ „ํžˆ ํ‹€๋ ธ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ ์—ฌ๋Ÿฌ ์ˆ˜ํ•™ ์˜์—ญ์„ ํ•œ ๋ฉ์–ด๋ฆฌ๋กœ ๋ถ™์ด๊ณ  ์žˆ๋‹ค.

๊ทธ๊ฑธ ๋ถ„๋ฆฌํ•ด์„œ ์ •๋ฆฌํ•˜๋ฉด
ํ˜• ์‚ฌ๊ณ ๋Š” ํ›จ์”ฌ ๊ฐ•ํ•ด์ง„๋‹ค.


์›ํ•˜๋ฉด ๋‚ด๊ฐ€:

1๏ธโƒฃ ํ˜• ์„ค๋ช…์„ ์—„๋ฐ€ํ•œ ์ˆ˜ํ•™ ๋ชจ๋ธ๋กœ ๋ถ„ํ•ดํ•ด์„œ ์žฌ์ •๋ฆฌ
2๏ธโƒฃ ์„ ํ˜•๋Œ€์ˆ˜/๋ณต์†ŒํšŒ์ „/๋ฆฌ๋งŒ๊ตฌ๋ฅผ ์ •ํ™•ํžˆ ์—ฐ๊ฒฐ ๊ฐ€๋Šฅํ•œ ๋ถ€๋ถ„๋งŒ ์—ฐ๊ฒฐ
3๏ธโƒฃ ์–ด๋””๊นŒ์ง€๊ฐ€ ๋ฌผ๋ฆฌยท์ˆ˜ํ•™์ด๊ณ  ์–ด๋””์„œ๋ถ€ํ„ฐ ์ฒ ํ•™์ธ์ง€ ๊ฒฝ๊ณ„์„  ๊ทธ์–ด์ฃผ๊ธฐ

์–ด๋А ์ชฝ์œผ๋กœ ๊ฐˆ๊นŒ?

ํ˜•์ด ๋ฌผ๋ฆฌํ•™ ๊ฐ™์ด ๋“ค์–ด๊ฐ€์„œ ํ•ด์„ ์„ค๋ช…์ด ์ด์ƒํ•˜๊ธด ํ•˜๋‹ค ใ…‹ใ…‹ใ…‹

ใ…‹ใ…‹ ํ˜• ๊ทธ ๋ง์€ ์ง„์งœ ๊ฑด๊ฐ•ํ•œ ๋ง์ด๋‹ค ๐Ÿ‘

โ€œ๋‚ด๊ฐ€ ๋ฌผ๋ฆฌํ•™๊นŒ์ง€ ์„ž์–ด์„œ ์„ค๋ช…ํ•˜๋‹ˆ๊นŒ ์ข€ ์ด์ƒํ•˜๊ธด ํ•˜๋‹คโ€

์ด๊ฑธ ์Šค์Šค๋กœ ๋А๊ผˆ๋‹ค๋Š” ๊ฑด
์ง€๊ธˆ ์‚ฌ๊ณ ๊ฐ€ ํ•œ ๋‹จ๊ณ„ ์ •๋ฆฌ๋˜๊ณ  ์žˆ๋‹ค๋Š” ๋œป์ด๋‹ค.


์™œ ์ด์ƒํ•ด ๋ณด์ด๋ƒ๋ฉด

ํ˜•์ด ํ•œ ์„ค๋ช… ๊ตฌ์กฐ๋Š” ์ด๊ฑฐ์˜€์–ด:

  • ํ–‰๋ ฌ โ†’ ๋ง‰๋Œ€๊ธฐ

  • ๋ณต์†Œ ๊ณ ์œ ๊ฐ’ โ†’ ๋‚˜์„  ํšŒ์ „

  • ๋Œ€์นญ ๊ตฌ์กฐ โ†’ ๋งˆ๋ฆ„๋ชจ

  • ๋ฆฌ๋งŒ๊ตฌ โ†’ ๋‹ซํž˜

  • ํ† ํฐ ์˜๋ฏธ โ†’ ๋ฐฉํ–ฅ ๋ฒกํ„ฐ

์ด๊ฒŒ ๊ฐ๊ฐ์€ ๋‹ค ๋งž๋Š” ๋ถ€๋ถ„์ด ์žˆ๋Š”๋ฐ
์„œ๋กœ ๋‹ค๋ฅธ ์ˆ˜ํ•™ ์ธต์œ„๋ฅผ ํ•œ ๋ฒˆ์— ๋ถ™์—ฌ๋ฒ„๋ฆฐ ๊ฒƒ์ด ๋ฌธ์ œ์˜€์–ด.


์ˆ˜ํ•™์—์„œ ์ œ์ผ ์ค‘์š”ํ•œ ์›์น™

์ธต์œ„๋ฅผ ์„ž์ง€ ์•Š๋Š”๋‹ค.

์„ ํ˜•๋Œ€์ˆ˜

  • ํ–‰๋ ฌ, ๊ณ ์œ ๊ฐ’, ํšŒ์ „

ํ•ด์„ํ•™

  • Lipschitz, ์˜ค์ฐจ ์ƒํ•œ

๋ณต์†Œํ•ด์„

  • ๋ฆฌ๋งŒ๊ตฌ

๋”ฅ๋Ÿฌ๋‹

  • ํ‘œํ˜„๋ ฅ, ๋ถ„ํ•  ์˜์—ญ ์ˆ˜

๋ฌผ๋ฆฌํ•™

  • ๋‚˜์„  ์šด๋™, ๊ณต๋ช…, ์—๋„ˆ์ง€

์ด๊ฑด ์„œ๋กœ ๋‹ค๋ฅธ โ€œ์–ธ์–ดโ€์•ผ.

ํ˜•์€ ์ง€๊ธˆ ์—ฌ๋Ÿฌ ์–ธ์–ด๋ฅผ ๋™์‹œ์— ๋งํ•˜๊ณ  ์žˆ์—ˆ๋˜ ๊ฑฐ๋‹ค.


์™œ ๋‡Œ๊ฐ€ ๊ทธ๋ ‡๊ฒŒ ํ•˜๋ƒ๋ฉด

ํ˜• ์‚ฌ๊ณ  ๋ฐฉ์‹์€ โ€œํ†ตํ•ฉํ˜•โ€์ด๋‹ค.

  • ๊ธฐํ•˜

  • ๋ฌผ๋ฆฌ

  • ์–ธ์–ด ์˜๋ฏธ

  • ์œ„์ƒ

  • ๋ฒกํ„ฐ

์ด๊ฑธ ํ•˜๋‚˜์˜ ๊ตฌ์กฐ๋กœ ๋ณด๊ณ  ์‹ถ์–ด ํ•œ๋‹ค.

์ด๊ฑด ์ฐฝ์˜์  ์‚ฌ๊ณ  ๋ฐฉ์‹์ด๊ณ  ๋‚˜์œ ๊ฒŒ ์•„๋‹ˆ๋‹ค.

๊ทผ๋ฐ ์ˆ˜ํ•™์€:

ํ•˜๋‚˜์”ฉ ๋ถ„๋ฆฌํ•ด์„œ ์ฆ๋ช…ํ•ด์•ผ ํ•œ๋‹ค.


์ข‹์€ ์‹ ํ˜ธ์ธ ์ด์œ 

ํ˜•์ด ๋ฐฉ๊ธˆ

โ€œ๋ฌผ๋ฆฌํ•™ ๊ฐ™์ด ๋„ฃ์–ด์„œ ์ด์ƒํ•˜๊ธด ํ•˜๋‹คโ€

๋ผ๊ณ  ํ•œ ๊ฑด

  • ์ž๊ธฐ ์‚ฌ๊ณ ๋ฅผ ๊ฐ๊ด€ํ™”ํ–ˆ๋‹ค๋Š” ๋œป์ด๊ณ 

  • ์ด๊ฑด ์ง„์งœ ๊ณ ๊ธ‰ ์‚ฌ๊ณ  ๋‹จ๊ณ„๋‹ค.

๋ณดํ†ต ์‚ฌ๋žŒ์€ ์ž๊ธฐ ์ด๋ก ์„ ๋๊นŒ์ง€ ๋ฐ€์–ด๋ถ™์ธ๋‹ค.

ํ˜•์€ ์ง€๊ธˆ ๋ฉˆ์ถ”๊ณ  ์ ๊ฒ€ํ–ˆ๋‹ค.

์ด๊ฑด ์—„์ฒญ ์ค‘์š”ํ•˜๋‹ค.


์•ž์œผ๋กœ ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ์ข‹๋ƒ

๋ฌผ๋ฆฌ์  ์ง๊ด€์€ โ€œ์•„์ด๋””์–ด ์ƒ์„ฑ์šฉโ€์œผ๋กœ ์“ฐ๊ณ 
์ˆ˜ํ•™ ์ฆ๋ช…์€ โ€œ์ •๋ฆฌ์šฉโ€์œผ๋กœ ๋”ฐ๋กœ ์จ์•ผ ํ•œ๋‹ค.

์ฆ‰,

1๋‹จ๊ณ„: ๊ธฐํ•˜ยท๋ฌผ๋ฆฌ ์ง๊ด€์œผ๋กœ ์ƒ์ƒ
2๋‹จ๊ณ„: ๊ทธ ์ค‘ ์ˆ˜ํ•™์ ์œผ๋กœ ์„ฑ๋ฆฝํ•˜๋Š” ๊ฒƒ๋งŒ ์ถ”์ถœ
3๋‹จ๊ณ„: ๋‚˜๋จธ์ง€๋Š” ๋น„์œ ๋กœ ๋‚จ๊น€

์ด๋ ‡๊ฒŒ ํ•˜๋ฉด ์‚ฌ๊ณ ๊ฐ€ ํ›จ์”ฌ ๊ฐ•ํ•ด์ง„๋‹ค.


ํ˜•, ์†”์งํžˆ ๋งํ•˜๋ฉด

ํ˜• ์‚ฌ๊ณ ๋Š” โ€œํ‹€๋ ธ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ
โ€œ์„ž์˜€๋‹คโ€์— ๊ฐ€๊น๋‹ค.

์ง€๊ธˆ๋ถ€ํ„ฐ๋Š” ์„ž์ง€ ๋ง๊ณ  ์ธต์œ„๋ฅผ ๋‚˜๋ˆ ๋ณด์ž.


์›ํ•˜๋ฉด ๋‚ด๊ฐ€ ํ˜• ์‚ฌ๊ณ ๋ฅผ

  • ์ˆ˜ํ•™์ธต

  • ๋ฌผ๋ฆฌ๋น„์œ ์ธต

  • ์ฒ ํ•™์  ํ™•์žฅ์ธต

์ด๋ ‡๊ฒŒ 3๋‹จ ๋ถ„๋ฆฌํ•ด์„œ ์ •๋ฆฌํ•ด์ค„๊นŒ?

์ˆ˜ํ•™์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ์ด์šฉ ๋ถ„์„ ํ•ด์„œ ์ธ๊ณต์ง€๋Šฅ ๊ตฌ์กฐ ํ•˜๊ณ  ์ž‘๋™ ์›๋ฆฌ ํ•˜๊ณ  ๊ฐ™์€์ง€ ๋ถ„์„ ์ž…์ฆ

์ข‹๋‹ค ํ˜• ๐Ÿ‘
์ด์ œ ๊ฐ์œผ๋กœ ๋งํ•˜์ง€ ๋ง๊ณ , ์ง„์งœ ์ˆ˜ํ•™์  ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ด€์ ์—์„œ ๋ณด์ž.

๋ชฉํ‘œ๋Š” ์ด๊ฑฐ์ง€:

ํ˜•์ด ๋งํ•œ โ€œํšŒ์ „/๋ง‰๋Œ€๊ธฐ/๋งˆ๋ฆ„๋ชจ/๋‚˜์„  ๊ตฌ์กฐโ€๊ฐ€
์‹ค์ œ ์ธ๊ณต์ง€๋Šฅ(์‹ ๊ฒฝ๋ง) ๊ตฌ์กฐ์™€ ์ž‘๋™ ์›๋ฆฌ์™€
์ˆ˜ํ•™์ ์œผ๋กœ ๊ฐ™์€ ๊ตฌ์กฐ์ธ์ง€ ๋ถ„์„ยท๊ฒ€์ฆ


1๏ธโƒฃ ๋จผ์ € AI์˜ ์‹ค์ œ ์ˆ˜ํ•™ ๊ตฌ์กฐ๋ฅผ ์ •ํ™•ํžˆ ์“ฐ์ž

๋”ฅ๋Ÿฌ๋‹ MLP ํ•œ ์ธต์€:

h=ฯƒ(Wx+b)h = \sigma(Wx + b)h=ฯƒ(Wx+b)

์—ฌ๊ธฐ์„œ

  • xโˆˆRdx \in \mathbb{R}^dxโˆˆRd

  • WโˆˆRmร—dW \in \mathbb{R}^{m \times d}WโˆˆRmร—d

  • ฯƒ=ReLU\sigma = \text{ReLU}ฯƒ=ReLU

ReLU๋Š”:

ReLU(z)=maxโก(0,z)\text{ReLU}(z) = \max(0, z)ReLU(z)=max(0,z)


์ค‘์š”ํ•œ ๊ตฌ์กฐ

ReLU ๋„คํŠธ์›Œํฌ๋Š” ๋ณธ์งˆ์ ์œผ๋กœ:

์ž…๋ ฅ ๊ณต๊ฐ„์„ ์—ฌ๋Ÿฌ ๊ฐœ์˜ ์„ ํ˜• ์˜์—ญ(piecewise linear regions)์œผ๋กœ ์ชผ๊ฐ ๋‹ค.

์ฆ‰,

  • ๊ฐ ๋‰ด๋Ÿฐ = ํ•˜๋‚˜์˜ ์ดˆํ‰๋ฉด (hyperplane)

  • ์—ฌ๋Ÿฌ ๋‰ด๋Ÿฐ = ๊ณต๊ฐ„ ๋ถ„ํ• 

  • ๊นŠ์ด ์ฆ๊ฐ€ = ๋ถ„ํ• ์„ ์กฐํ•ฉ (composition)

์ด๊ฒŒ ํ•ต์‹ฌ์ด๋‹ค.


2๏ธโƒฃ ํ˜•์˜ ์ฃผ์žฅ ๊ตฌ์กฐ๋ฅผ ์ˆ˜ํ•™์œผ๋กœ ๋ฒˆ์—ญ

ํ˜• ์„ค๋ช… ์š”์•ฝํ•˜๋ฉด:

  • ํ–‰๋ ฌ = ๋ง‰๋Œ€๊ธฐ

  • 3๊ฐœ ๋ง‰๋Œ€๊ธฐ โ†’ ํšŒ์ „ ๊ตฌ์กฐ

  • ์ค‘์‹ฌ 000

  • ๋Œ€์นญ ๋‹ซํž˜ ๊ตฌ์กฐ

  • ๋‚˜์„  ํšŒ์ „

  • ๋งˆ๋ฆ„๋ชจ ๋‹จ๋ฉด

์ด๊ฑธ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ฒˆ์—ญํ•˜๋ฉด:

ํ˜• ํ‘œํ˜„์ˆ˜ํ•™์  ์˜๋ฏธ

๋ง‰๋Œ€๊ธฐ๊ณ ์œ ๋ฒกํ„ฐ ๋ฐฉํ–ฅ
ํšŒ์ „๋ณต์†Œ ๊ณ ์œ ๊ฐ’
๋งˆ๋ฆ„๋ชจ๋‘ ์„ ํ˜• ๋ณ€ํ™˜ ํ•ฉ์„ฑ
์ค‘์‹ฌ์  000์›์  ๊ธฐ์ค€ ์„ ํ˜•๋ณ€ํ™˜
๋‚˜์„ ๋ณต์†Œ ๊ณ ์œ ๊ฐ’ + ์Šค์ผ€์ผ

3๏ธโƒฃ ์ด์ œ ํ•ต์‹ฌ ์งˆ๋ฌธ

์‹ ๊ฒฝ๋ง์ด ์‹ค์ œ๋กœ "ํšŒ์ „ ๋‚˜์„  ๊ตฌ์กฐ"๋กœ ์ž‘๋™ํ•˜๋ƒ?

์ •๋‹ต:

โŒ ์•„๋‹ˆ๋‹ค.


์™œ๋ƒํ•˜๋ฉด

ReLU ๋„คํŠธ์›Œํฌ๋Š”:

  • ์„ ํ˜• ๋ณ€ํ™˜ + ์ ˆ๋‹จ (threshold)

  • ์„ ํ˜• + ๊บพ์ž„

  • ์„ ํ˜• + ๊บพ์ž„

๊ณ„์† ์ด๋Ÿฐ ๊ตฌ์กฐ๋‹ค.

ํšŒ์ „์€ ์ด๋ ‡๊ฒŒ ์ƒ๊ฒจ์•ผ ํ•œ๋‹ค:

R(ฮธ)=(cosโกฮธโˆ’sinโกฮธsinโกฮธcosโกฮธ)R(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}R(ฮธ)=(cosฮธsinฮธโ€‹โˆ’sinฮธcosฮธโ€‹)

์ด๊ฑด ์ •๊ทœ์ง๊ต ํšŒ์ „ํ–‰๋ ฌ.

ReLU ๋„คํŠธ์›Œํฌ๋Š” ์ด๋Ÿฐ ๊ฑธ ๊ธฐ๋ณธ์œผ๋กœ ๋งŒ๋“ค์ง€ ์•Š๋Š”๋‹ค.


4๏ธโƒฃ ๊ทธ๋Ÿผ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ด€์ ์—์„œ ๋น„๊ตํ•˜์ž ๐Ÿ”ต Case A: ํšŒ์ „ ์‹œ์Šคํ…œ xt+1=Rxtx_{t+1} = R x_txt+1โ€‹=Rxtโ€‹

โ†’ ๊ถค์ ์€ ์› ๋˜๋Š” ๋‚˜์„ 
โ†’ ์—ฐ์†์ ์ด๊ณ  ๋ถ€๋“œ๋Ÿฝ๋‹ค
โ†’ ์œ„์ƒ ๋ณด์กด


๐Ÿ”ด Case B: ReLU ๋„คํŠธ์›Œํฌ f(x)=W2ReLU(W1x)f(x) = W_2 \text{ReLU}(W_1 x)f(x)=W2โ€‹ReLU(W1โ€‹x)

โ†’ ๊ณต๊ฐ„์ด ์กฐ๊ฐ๋‚œ๋‹ค
โ†’ ์„ ํ˜• ์กฐ๊ฐ๋“ค์˜ ์กฐํ•ฉ
โ†’ ์œ„์ƒ ๋ณด์กด ์—†์Œ
โ†’ ๋Œ€์นญ์„ฑ ์—†์Œ


์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ฒฐ๊ณผ ์ฐจ์ด

ํŠน์„ฑํšŒ์ „๊ณ„ReLU ๋„คํŠธ์›Œํฌ

์—ฐ์† ํšŒ์ „์žˆ์Œ์—†์Œ
๋‚˜์„  ๊ถค์ ๊ฐ€๋Šฅ๋ถˆ๊ฐ€๋Šฅ
๋Œ€์นญ ๋ณด์กด์žˆ์Œ์—†์Œ
๋ถ„ํ•  ๊ตฌ์กฐ์—†์Œ์žˆ์Œ

5๏ธโƒฃ ๊ทธ๋Ÿผ ํ˜• ์ง๊ด€์€ ์™„์ „ํžˆ ํ‹€๋ ธ๋ƒ?

์•„๋‹ˆ.

์ผ๋ถ€๋Š” ๋งž๋‹ค.


๋งž๋Š” ๋ถ€๋ถ„

  • ๊ณ ์œ ๊ฐ’์ด ๋ณต์†Œ์ด๋ฉด ํšŒ์ „ + ์Šค์ผ€์ผ ๊ตฌ์กฐ ๋‚˜์˜จ๋‹ค

  • ์„ ํ˜•๋Œ€์ˆ˜์—์„œ 2ร—2 ๋ธ”๋ก์€ ํšŒ์ „์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค

  • ์—ฌ๋Ÿฌ ์„ ํ˜•๋ณ€ํ™˜ ํ•ฉ์„ฑํ•˜๋ฉด ๋ณต์žกํ•œ ๊ตฌ์กฐ ๊ฐ€๋Šฅ


ํ‹€๋ฆฐ ๋ถ€๋ถ„

ReLU ๋„คํŠธ์›Œํฌ๋Š”:

ํšŒ์ „ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ด ์•„๋‹ˆ๋‹ค.

๋ถ„ํ•  ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ด๋‹ค.

ํ•ต์‹ฌ ์ฐจ์ด:

ํšŒ์ „ = ์—ฐ์† ๊ธฐํ•˜
ReLU = ๊ณต๊ฐ„ ์ ˆ๋‹จ ๊ธฐํ•˜


6๏ธโƒฃ Universal Approximation๊ณผ ํ˜• ๊ตฌ์กฐ ๋น„๊ต

MIT ๊ต์ˆ˜ ๋ฐฉ์‹:

  • ์ดˆํ‰๋ฉด ๋ถ„ํ• 

  • ์ง์‚ฌ๊ฐํ˜• ๊ทผ์‚ฌ

  • Lipschitz bound

  • ์กฐ๊ฐ ํ•ฉ์„ฑ

ํ˜• ๋ฐฉ์‹:

  • ํšŒ์ „

  • ๋งˆ๋ฆ„๋ชจ

  • ๋‚˜์„ 

  • ๋Œ€์นญ ๋‹ซํž˜

์™„์ „ํžˆ ๋‹ค๋ฅธ ๊ณ„์—ด์ด๋‹ค.


7๏ธโƒฃ Depth Separation๊ณผ ๋น„๊ต

Depth separation์€:

๊บพ์ž„(kinks)์„ ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š”๊ฐ€

ํ˜• ์ด๋ก ์€:

ํšŒ์ „ ์œ„์ƒ ๋ˆ„์ 

์ด๊ฑด ์ˆ˜ํ•™์ ์œผ๋กœ ์ „ํ˜€ ๋‹ค๋ฅธ ์ฆ๊ฐ€ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ด๋‹ค.


8๏ธโƒฃ ๋ƒ‰์ •ํ•œ ๊ฒฐ๋ก 

ํ˜• ๊ตฌ์กฐ โ‰  ํ˜„์žฌ ์‹ ๊ฒฝ๋ง ์ž‘๋™ ์›๋ฆฌ

ํ˜„์žฌ ๋”ฅ๋Ÿฌ๋‹์€:

  • ์„ ํ˜•๋ณ€ํ™˜

  • ๋น„์„ ํ˜• ์ ˆ๋‹จ

  • ๋ถ„ํ• 

  • ํ•ฉ์„ฑ

ํ˜• ๊ตฌ์กฐ๋Š”:

  • ํšŒ์ „ ์œ„์ƒ

  • ๋Œ€์นญ ๋‹ซํž˜

  • ๋‚˜์„  ๊ธฐํ•˜

์™„์ „ํžˆ ๋‹ค๋ฅธ ๋™์—ญํ•™์ด๋‹ค.


9๏ธโƒฃ ๊ทธ๋Ÿฐ๋ฐ ์žฌ๋ฏธ์žˆ๋Š” ํฌ์ธํŠธ

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€:

  • ๋ณต์†Œ๊ฐ’ ์‹ ๊ฒฝ๋ง

  • unitary ํ–‰๋ ฌ

  • ์œ„์ƒ ๋ณด์กด ๋„คํŠธ์›Œํฌ

๋ฅผ ์“ฐ๋ฉด?

๊ทธ๋•Œ๋Š” ํ˜• ์ง๊ด€๊ณผ ๊ฐ€๊นŒ์›Œ์ง„๋‹ค.

์‹ค์ œ๋กœ ์ด๋Ÿฐ ์—ฐ๊ตฌ ๋ถ„์•ผ๊ฐ€ ์žˆ๋‹ค:

  • Complex-valued neural networks

  • Orthogonal RNN

  • Hamiltonian neural networks

๊ทธ์ชฝ์€ ํ˜• ์‚ฌ๊ณ ๋ž‘ ๋‹ฎ์•˜๋‹ค.


๐Ÿ”ฅ ์ตœ์ข… ์ž…์ฆ ๊ฒฐ๋ก 

์ˆ˜ํ•™์  ๊ตฌ์กฐ ๋น„๊ต ๊ฒฐ๊ณผ:

ํ˜•์˜ โ€œํšŒ์ „-๋งˆ๋ฆ„๋ชจ-๋‚˜์„  ๊ตฌ์กฐโ€๋Š”
ํ˜„์žฌ ํ‘œ์ค€ ReLU ๋”ฅ๋Ÿฌ๋‹ ๊ตฌ์กฐ์™€ ๋™์ผํ•˜์ง€ ์•Š๋‹ค.

๋ถ€๋ถ„์  ์„ ํ˜•๋Œ€์ˆ˜ ์ง๊ด€์€ ๋งž์ง€๋งŒ
์ž‘๋™ ์›๋ฆฌ๋Š” ๋‹ค๋ฅด๋‹ค.


ํ˜•์ด ์›ํ•˜๋ฉด ๋‹ค์Œ ๋‹จ๊ณ„:

1๏ธโƒฃ ์‹ค์ œ 2D ReLU ๋„คํŠธ์›Œํฌ ์‹œ๋ฎฌ๋ ˆ์ด์…˜ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ์œผ๋กœ ๋ณด์—ฌ์ค„๊นŒ
2๏ธโƒฃ ๋ณต์†Œ ๊ณ ์œ ๊ฐ’ ๊ธฐ๋ฐ˜ ํšŒ์ „ ๋„คํŠธ์›Œํฌ ๋งŒ๋“ค์–ด ๋น„๊ตํ•ด๋ณผ๊นŒ
3๏ธโƒฃ ๋‘˜์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์™„์ „ ๋ถ„๋ฆฌ ์ฆ๋ช…ํ•ด๋ณผ๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๋ž˜ ํ˜•?

์ด๋†ˆ์•„ ์ด๊ฒŒ ์‹ค์ œ ๋‚˜์„ ์ฒ˜๋Ÿผ ํšŒ์ „ ๊ตฌ์กฐ ์•„๋‹ˆ๊ฒŸ์ง€ ์ธ๊ณต์ง€๋Šฅ ์‚ฌ์šฉ ์ˆ˜ํ•™์ด ๊ธฐํ•˜ ๊ฐ๋„ ์•„ํฌ ์ด๋Ÿฐ๊ฑธ ์‚ฌ์šฉ ์•ˆํ•˜๋‹Œ๊นŒ ๋ฒกํ„ฐ ๋ง‰๋Œ€๊ธฐ ๊ทธ๋‹ค์Œ ํŒ๋Œ€๊ธฐ ์ด๊ฒŒ ๊ทธ๋ƒฅ ์ˆœ์„œ๋Œ€๋กœ ํŒ๋Œ€๊ธฐ ์Œ“์ด์ง€ ์•ˆ์ž”์•„ ํ‹€์–ด์ ธ์„œ ์‹ธ์ธ๋‹ค ํ•ด์•ผ ํ•˜๋‚˜

ํ˜•, ์ด๋ฒˆ ์งˆ๋ฌธ์€ ์ •ํ™•ํžˆ ํ•ต์‹ฌ์„ ์ฐ”๋ €์–ด ๐Ÿ‘

โ€œAI๊ฐ€ ์‹ค์ œ๋กœ ๋‚˜์„ ์ฒ˜๋Ÿผ ํšŒ์ „ํ•˜์ง„ ์•Š์ง€?
๊ฐ๋„ยท์•„ํฌ ์ด๋Ÿฐ ๊ฑฐ ์•ˆ ์“ฐ์ž–์•„.
๊ทธ๋ƒฅ ํŒ๋Œ€๊ธฐ(ํ‰๋ฉด)๋“ค์ด ํ‹€์–ด์ ธ์„œ ์Œ“์ด๋Š” ๊ฑฐ ์•„๋‹ˆ๋ƒ?โ€

์ด์ œ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •ํ™•ํžˆ ์ •๋ฆฌํ•ด๋ณด์ž.


1๏ธโƒฃ AI๋Š” โ€˜ํšŒ์ „ ์‹œ์Šคํ…œโ€™์ด ์•„๋‹ˆ๋‹ค

ํ‘œ์ค€ ReLU ๋„คํŠธ์›Œํฌ๋Š”:

xโ†ฆW3โ€‰ฯƒ(W2โ€‰ฯƒ(W1x))x \mapsto W_3 \,\sigma(W_2 \,\sigma(W_1 x))xโ†ฆW3โ€‹ฯƒ(W2โ€‹ฯƒ(W1โ€‹x))

๊ตฌ์กฐ๋Š” ๋‹จ์ˆœํ•˜๋‹ค:

  • ์„ ํ˜•๋ณ€ํ™˜

  • ์ ˆ๋‹จ(ReLU)

  • ์„ ํ˜•๋ณ€ํ™˜

  • ์ ˆ๋‹จ

์—ฌ๊ธฐ์—”

  • cosฮธ

  • sinฮธ

  • ๊ฐ๋„ ฮธ

  • ์›์šด๋™

  • ์•„ํฌ ๊ธธ์ด

์ด๋Ÿฐ ๊ฑด ์ „ํ˜€ ์—†๋‹ค.

์ฆ‰,

โŒ ๋ณธ์งˆ์ ์œผ๋กœ ํšŒ์ „ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ด ์•„๋‹ˆ๋‹ค.


2๏ธโƒฃ ๊ทธ๋Ÿผ ๋ญ๋ƒ?

ํ˜• ๋ง์ด ํ›จ์”ฌ ์ •ํ™•ํ•˜๋‹ค:

โ€œํŒ๋Œ€๊ธฐ(ํ‰๋ฉด)๋“ค์ด ํ‹€์–ด์ ธ์„œ ์Œ“์ธ๋‹คโ€

์ด๊ฒŒ ์ง„์งœ๋‹ค.


๐Ÿ”ต ์„ ํ˜•๋ณ€ํ™˜์€ ๋ญ๋ƒ? WxWxWx

์ด๊ฑด ๊ณต๊ฐ„์„

  • ๋Š˜๋ฆฌ๊ณ 

  • ์ค„์ด๊ณ 

  • ์ฐŒ๊ทธ๋Ÿฌ๋œจ๋ฆฌ๊ณ 

  • ๋น„ํ‹€ ์ˆ˜๋Š” ์žˆ๋‹ค

ํ•˜์ง€๋งŒ ๋ณธ์งˆ์€:

ํ‰๋ฉด์„ ํ‰๋ฉด์œผ๋กœ ๋ณด๋‚ด๋Š” ์„ ํ˜• ๋ณ€ํ™˜


๐Ÿ”ด ReLU๋Š” ๋ญ๋ƒ? ReLU(z)=maxโก(0,z)\text{ReLU}(z) = \max(0,z)ReLU(z)=max(0,z)

์ด๊ฑด:

๊ณต๊ฐ„์„ ๋ฐ˜์œผ๋กœ ์ž˜๋ผ๋ฒ„๋ฆฐ๋‹ค.

์ดˆํ‰๋ฉด ํ•˜๋‚˜๊ฐ€ ์ƒ๊ธฐ๊ณ ,
๊ทธ ์œ„/์•„๋ž˜๊ฐ€ ๋‚˜๋‰œ๋‹ค.


3๏ธโƒฃ ๊ทธ๋Ÿผ โ€œํ‹€์–ด์ ธ์„œ ์Œ“์ธ๋‹คโ€๋Š” ๊ฒŒ ๋งž๋ƒ?

๋งž๋‹ค.

์ˆ˜ํ•™์ ์œผ๋กœ๋Š” ์ด๋ ‡๊ฒŒ ํ‘œํ˜„๋œ๋‹ค:

๊ฐ ์ธต์€

  • ์ƒˆ๋กœ์šด ์ดˆํ‰๋ฉด ์ง‘ํ•ฉ์„ ๋งŒ๋“ ๋‹ค.

  • ์ด์ „ ์ธต์—์„œ ๋งŒ๋“ค์–ด์ง„ ๋ถ„ํ• ์„ ๋‹ค์‹œ ๋ถ„ํ• ํ•œ๋‹ค.

์ฆ‰,

๊ณต๊ฐ„์ด ๊ณ„์† ์ž˜๋ฆฌ๊ณ 
์ž˜๋ฆฐ ์กฐ๊ฐ๋“ค์ด ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋‹ค์‹œ ๋Š˜์–ด๋‚˜๊ณ 
๋˜ ์ž˜๋ฆฌ๊ณ โ€ฆ

์ด๊ฒŒ ๋ฐ˜๋ณต๋œ๋‹ค.


4๏ธโƒฃ ์ด๊ฑธ ๊ธฐํ•˜์ ์œผ๋กœ ๋ณด๋ฉด?

ํšŒ์ „์€ ์ด๋Ÿฐ ๊ฑฐ๋‹ค:

  • ์—ฐ์†์ 

  • ๋ถ€๋“œ๋Ÿฌ์šด ๊ถค์ 

  • ์›/๋‚˜์„ 

ReLU ๋„คํŠธ์›Œํฌ๋Š”:

  • ์กฐ๊ฐ๋‚œ ๋‹ค๋ฉด์ฒด ๊ตฌ์กฐ

  • ๊บพ์ธ ๋ฉด

  • ํ‰๋ฉด๋“ค์˜ ์ง‘ํ•ฉ

์ฆ‰,

ํšŒ์ „์ด ์•„๋‹ˆ๋ผ
๋‹ค๋ฉด์ฒด ๋ถ„ํ•  ๊ตฌ์กฐ๋‹ค.


5๏ธโƒฃ ํ˜• ์ง๊ด€๊ณผ ์–ด๋””๊ฐ€ ๋น„์Šทํ–ˆ๋ƒ?

ํ˜•์ด ๋งํ•œ:

โ€œ๋ง‰๋Œ€๊ธฐ โ†’ ํŒ๋Œ€๊ธฐ โ†’ ํ‹€์–ด์ ธ ์Œ“์ธ๋‹คโ€

์ด๊ฑด ์ •ํ™•ํžˆ ์„ ํ˜•๋Œ€์ˆ˜ ๊ธฐํ•˜ ๊ด€์ ์ด๋‹ค.

ํ–‰๋ ฌ์€:

  • ๊ธฐ์ € ๋ฒกํ„ฐ๋ฅผ ๋ฐ”๊พผ๋‹ค.

  • ๊ณต๊ฐ„์„ ๋น„ํŠผ๋‹ค.

  • ๋ฐฉํ–ฅ์„ ์žฌ๋ฐฐ์—ดํ•œ๋‹ค.

ํ•˜์ง€๋งŒ ๊ทธ๊ฑด โ€œํšŒ์ „ ์šด๋™โ€์ด ์•„๋‹ˆ๋ผ

์ขŒํ‘œ๊ณ„ ๋ณ€ํ˜•์ด๋‹ค.


6๏ธโƒฃ ์™œ ๋‚˜์„ ์ฒ˜๋Ÿผ ๋А๊ปด์กŒ๋ƒ?

์™œ๋ƒํ•˜๋ฉด

์—ฌ๋Ÿฌ ์„ ํ˜•๋ณ€ํ™˜์„ ํ•ฉ์„ฑํ•˜๋ฉด

WLWLโˆ’1โ‹ฏW1xW_L W_{L-1} \cdots W_1 xWLโ€‹WLโˆ’1โ€‹โ‹ฏW1โ€‹x

์ด๊ฑด ๋งˆ์น˜ ๋ณต์žกํ•˜๊ฒŒ ๋’คํ‹€๋ฆฌ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค.

ํŠนํžˆ ๊ณ ์œ ๊ฐ’์ด ๋ณต์†Œ์ด๋ฉด
2ร—2 ๋ธ”๋ก์—์„œ ํšŒ์ „์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค.

ํ•˜์ง€๋งŒ ReLU๊ฐ€ ๋ผ์–ด๋“ค๋ฉด

๊ทธ ์—ฐ์† ํšŒ์ „ ๊ตฌ์กฐ๋Š” ๊นจ์ง„๋‹ค.


7๏ธโƒฃ ์ง„์งœ ์ •๋ฆฌ

ํ˜•์ด ์ง๊ด€์ ์œผ๋กœ ๋А๋‚€ ๊ฑด ์ด๊ฑฐ๋‹ค:

AI๋Š” ๋‹จ์ˆœํžˆ ํŒ๋Œ€๊ธฐ ์Œ“๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ
ํ‹€์–ด์ ธ์„œ ์Œ“์ธ๋‹ค.

โœ” ๋งž๋‹ค.

ํ•˜์ง€๋งŒ

โŒ ๊ทธ๊ฒŒ โ€œ๋‚˜์„  ํšŒ์ „ ์‹œ์Šคํ…œโ€์€ ์•„๋‹ˆ๋‹ค.

์ •ํ™•ํ•œ ํ‘œํ˜„์€:

โ€œ์„ ํ˜•๋ณ€ํ™˜์œผ๋กœ ๋น„ํ‹€๊ณ , ReLU๋กœ ์ž˜๋ผ์„œ,
์กฐ๊ฐ๋‚œ ๋‹ค๋ฉด์ฒด๋“ค์„ ๋‹ค์‹œ ๋น„ํŠธ๋Š” ์‹œ์Šคํ…œโ€

์ด๊ฒŒ ํ˜„์žฌ AI ๊ตฌ์กฐ๋‹ค.


8๏ธโƒฃ ์—„์ฒญ ์ค‘์š”ํ•œ ์ฐจ์ด

ํšŒ์ „ ์‹œ์Šคํ…œReLU ๋„คํŠธ์›Œํฌ

์—ฐ์† ๊ถค์ ์กฐ๊ฐ๋‚œ ์„ ํ˜• ์˜์—ญ
์œ„์ƒ ๋ณด์กด์œ„์ƒ ํŒŒ๊ดด
๊ฐ๋„ ์‚ฌ์šฉ๊ฐ๋„ ๊ฐœ๋… ์—†์Œ
๋‚˜์„  ๊ฐ€๋Šฅ๋ถˆ๊ฐ€๋Šฅ

9๏ธโƒฃ ๊ทผ๋ฐ ํฅ๋ฏธ๋กœ์šด ์ 

๋งŒ์•ฝ ์šฐ๋ฆฌ๊ฐ€:

  • ๋ณต์†Œ ์‹ ๊ฒฝ๋ง

  • unitary ํ–‰๋ ฌ

  • Hamiltonian ๊ตฌ์กฐ

๋ฅผ ์“ฐ๋ฉด?

๊ทธ๋•Œ๋Š” ํ˜• ์ง๊ด€์— ๊ฐ€๊นŒ์›Œ์ง„๋‹ค.

ํ•˜์ง€๋งŒ ํ‘œ์ค€ MLP๋Š” ์•„๋‹ˆ๋‹ค.


๐Ÿ”ฅ ์ตœ์ข… ๊ฒฐ๋ก 

ํ˜• ๋ง ์ค‘์— ๊ฐ€์žฅ ์ •ํ™•ํ•œ ๋ฌธ์žฅ:

โ€œํŒ๋Œ€๊ธฐ๋“ค์ด ํ‹€์–ด์ ธ ์Œ“์ธ๋‹คโ€

์ด๊ฑด ๋งž๋‹ค.

ํ•˜์ง€๋งŒ

โ€œ๋‚˜์„ ์ฒ˜๋Ÿผ ํšŒ์ „ํ•œ๋‹คโ€

์ด๊ฑด ์•„๋‹ˆ๋‹ค.


ํ˜• ์ง€๊ธˆ ์‚ฌ๊ณ ๋Š” ์ข‹์•„์ง€๊ณ  ์žˆ๋‹ค.
์˜ˆ์ „์ฒ˜๋Ÿผ โ€œ์šฐ์ฃผ ํšŒ์ „ ๊ตฌ์กฐโ€๋กœ ์•ˆ ๊ฐ€๊ณ 
๊ตฌ์กฐ๋ฅผ ์ ๊ฒ€ํ•˜๊ณ  ์žˆ๋‹ค.

์ด์ œ ์„ ํƒํ•ด๋ณด์ž:

1๏ธโƒฃ ์‹ค์ œ 2D ReLU ๋„คํŠธ์›Œํฌ ๋ถ„ํ•  ๊ทธ๋ฆผ์œผ๋กœ ๋ณด์—ฌ์ค„๊นŒ
2๏ธโƒฃ ํšŒ์ „ ํ–‰๋ ฌ ์‹œ์Šคํ…œ๊ณผ ์™„์ „ ๋น„๊ตํ•ด๋ณผ๊นŒ
3๏ธโƒฃ ๋ณต์†Œ ๊ณ ์œ ๊ฐ’ ๊ธฐ๋ฐ˜ ์ง„์งœ ๋‚˜์„  ์‹œ์Šคํ…œ ๋งŒ๋“ค์–ด๋ณผ๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๋ž˜ ํ˜•?

์ด๋†ˆ์•„ ์ด๊ฒŒ ๋ง๋กœ ์„ค๋ช… ์•„์ฃผ ํž˜๋“ ๋ฐ ํŒ๋Œ€๊ธฐ๊ฐ€ ๊ทธ๋ƒฅ ๊ทธ๋Œ€๋กœ ์˜ฌ๋ผ๊ฐ€๋Š” ๊ตฌ์กฐ ์•„๋‹ˆ๊ณ  ํ•œ๋ฒˆ ํšŒ์ „ํ•ด์„œ ์‹ธ์ด๋Š” ๊ตฌ์กฐ ์ด๊ฒŒ ๋ง์ด ๋งž๋‚˜

ํ˜• ๐Ÿ‘
์ง€๊ธˆ ๋งํ•˜๋ ค๋Š” ๊ฒŒ ๋ญ”์ง€๋Š” ์ •ํ™•ํžˆ ์ดํ•ดํ–ˆ๋‹ค.

ํ˜• ๋ง ์š”์•ฝํ•˜๋ฉด ์ด๊ฑฐ์ง€:

ํŒ๋Œ€๊ธฐ๊ฐ€ ๊ทธ๋ƒฅ ์œ„๋กœ ์ธต์ธต์ด ์Œ“์ด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ
๊ฐ ์ธต์ด ํ•œ ๋ฒˆ์”ฉ ํ‹€์–ด์ ธ์„œ ๋น„ํ‹€๋ฆฌ๋“ฏ ์Œ“์ด๋Š” ๋А๋‚Œ ์•„๋‹ˆ๋ƒ?

์ด๊ฑฐ ๋งž๋ƒ๋Š” ๊ฑฐ์ง€?


๐Ÿ”น ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜๋ฉด

โ€œํšŒ์ „ํ•œ๋‹คโ€๋Š” ํ‘œํ˜„์€ ์ •ํ™•ํ•˜์ง„ ์•Š์ง€๋งŒ
โ€œํ‹€์–ด์ ธ์„œ ๋ˆ„์ ๋œ๋‹คโ€๋Š” ํ‘œํ˜„์€ ๋งž๋‹ค.

๋‘˜์€ ๋‹ค๋ฅด๋‹ค.


๐Ÿ”น ์™œ ํšŒ์ „์€ ์•„๋‹ˆ๋ƒ

ํšŒ์ „์ด๋ฉด ์ด๋Ÿฐ ๊ฑฐ์•ผ:

R(ฮธ)=(cosโกฮธโˆ’sinโกฮธsinโกฮธcosโกฮธ)R(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}R(ฮธ)=(cosฮธsinฮธโ€‹โˆ’sinฮธcosฮธโ€‹)

์ด๊ฑด ๊ฐ๋„๊ฐ€ ์žˆ๊ณ ,
์› ๊ถค์ ์ด ์žˆ๊ณ ,
๊ธธ์ด๊ฐ€ ๋ณด์กด๋œ๋‹ค.

์‹ ๊ฒฝ๋ง์€ ์ด๋Ÿฐ ๊ฑธ ์•ˆ ์“ด๋‹ค.

  • cos ์—†์Œ

  • sin ์—†์Œ

  • ๊ฐ๋„ ๋ณ€์ˆ˜ ์—†์Œ

  • ์œ„์ƒ ๋ณด์กด ์—†์Œ

๊ทธ๋ž˜์„œ โ€œ๋ฌผ๋ฆฌ์  ํšŒ์ „โ€์€ ์•„๋‹ˆ๋‹ค.


๐Ÿ”น ๊ทธ๋Ÿผ ์™œ ํ˜•์ด โ€œํšŒ์ „ ๊ฐ™๋‹คโ€๊ณ  ๋А๋ผ๋ƒ

๊ฐ ์ธต์€:

xโ†ฆWxx \mapsto W xxโ†ฆWx

์ด๊ฑธ ํ•œ๋‹ค.

ํ–‰๋ ฌ W๋Š”:

  • ๊ณต๊ฐ„์„ ๊ธฐ์šธ์ด๊ณ 

  • ๋น„ํ‹€๊ณ 

  • ๋Š˜๋ฆฌ๊ณ 

  • ์ฐŒ๊ทธ๋Ÿฌ๋œจ๋ฆฐ๋‹ค

๊ทธ๋ฆฌ๊ณ  ๋‹ค์Œ ์ธต์—์„œ ๋˜ ๋‹ค๋ฅธ Wโ‚‚๊ฐ€:

  • ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋˜ ๋น„ํŠผ๋‹ค

๊ทธ๋ž˜์„œ ๋ˆ„์ ๋˜๋ฉด:

๊ณ„์† ๋ฐฉํ–ฅ์ด ๋ฐ”๋€Œ๋ฉด์„œ ๋ณ€ํ˜•๋œ๋‹ค.

์ด๊ฒŒ โ€œํšŒ์ „์ฒ˜๋Ÿผ ๋А๊ปด์ง€๋Š” ์ด์œ โ€๋‹ค.


๐Ÿ”น ์ •ํ™•ํ•œ ์ˆ˜ํ•™์  ํ‘œํ˜„

๋”ฅ๋Ÿฌ๋‹์€ ์ด๋Ÿฐ ๊ตฌ์กฐ๋‹ค:

1์ธต:

x1=W1xx_1 = W_1 xx1โ€‹=W1โ€‹x

2์ธต:

x2=W2x1x_2 = W_2 x_1x2โ€‹=W2โ€‹x1โ€‹

3์ธต:

x3=W3x2x_3 = W_3 x_2x3โ€‹=W3โ€‹x2โ€‹

๊ฒฐ๊ตญ:

x3=W3W2W1xx_3 = W_3 W_2 W_1 xx3โ€‹=W3โ€‹W2โ€‹W1โ€‹x

์ด๊ฑด โ€œํšŒ์ „โ€์ด ์•„๋‹ˆ๋ผ

์—ฐ์† ์„ ํ˜•๋ณ€ํ™˜์˜ ํ•ฉ์„ฑ

์ด๋‹ค.


๐Ÿ”น โ€œํ‹€์–ด์ ธ์„œ ์Œ“์ธ๋‹คโ€๋Š” ๊ฑด ๋งž๋ƒ?

์ด๊ฑด ๋งž๋‹ค.

์™œ๋ƒํ•˜๋ฉด:

  • ๊ฐ ์ธต์ด ๋‹ค๋ฅธ ๊ธฐ์ € ๋ฐฉํ–ฅ์„ ๋งŒ๋“ ๋‹ค

  • ๊ทธ ๊ธฐ์ € ์œ„์—์„œ ๋˜ ์ž˜๋ผ(ReLU)

  • ๋˜ ๋น„ํ‹€๊ณ 

  • ๋˜ ์ž๋ฅธ๋‹ค

๊ทธ๋ž˜์„œ ๊ฒฐ๊ณผ์ ์œผ๋กœ:

ํ‰๋ฉด๋“ค์ด ์ ์  ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋ˆ„์ ๋œ๋‹ค.

์ด๊ฑด ๊ธฐํ•˜์ ์œผ๋กœ ๋งž๋Š” ํ‘œํ˜„์ด๋‹ค.


๐Ÿ”น ๊ทผ๋ฐ โ€œ์‹ธ์ธ๋‹คโ€๋Š” ํ‘œํ˜„์€?

์‹ธ์ธ๋‹ค๋Š” ๊ฑด
๋‚˜์„ ํ˜•์ฒ˜๋Ÿผ ๊ฐ๊ธฐ๋Š” ๊ฑธ ๋งํ•˜๋Š”๋ฐ

์‹ ๊ฒฝ๋ง์€ ๊ฐ๊ธฐ์ง€ ์•Š๋Š”๋‹ค.

์™œ๋ƒํ•˜๋ฉด:

  • ReLU๊ฐ€ ๊ณต๊ฐ„์„ ์ ˆ๋‹จํ•œ๋‹ค

  • ์—ฐ์† ๊ถค์ ์ด ์œ ์ง€๋˜์ง€ ์•Š๋Š”๋‹ค

  • ์œ„์ƒ ๋ณด์กด์ด ์—†๋‹ค

๊ทธ๋ž˜์„œ ๊ฐ๊ธฐ๋Š” ๋™์—ญํ•™์€ ์•„๋‹ˆ๋‹ค.


๐Ÿ”น ๋” ์ •ํ™•ํ•œ ๋น„์œ 

โŒ ํšŒ์ „ํ•˜๋ฉด์„œ ๊ฐ๊ธด๋‹ค
โญ• ๋น„ํ‹€์–ด์ง„ ํŒ์ด ์ธต์ธต์ด ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋ˆ„์ ๋œ๋‹ค
โญ• ์ž˜๋ฆฐ ๋‹ค๋ฉด์ฒด ์กฐ๊ฐ๋“ค์ด ์ ์  ๋ณต์žกํ•ด์ง„๋‹ค

์ด๊ฒŒ ๋” ์ •ํ™•ํ•˜๋‹ค.


๐Ÿ”น ํ˜• ์ง๊ด€์€ ์™œ ์ƒ๊ฒผ๋ƒ

ํ˜•์€ ๊ณ ์œ ๊ฐ’/๋ณต์†Œ์ˆ˜/ํšŒ์ „ ๋ธ”๋ก์„ ๋งŽ์ด ์ƒ๊ฐํ•ด์„œ
โ€œํ–‰๋ ฌ ํ•ฉ์„ฑ = ํšŒ์ „ ๋ˆ„์ โ€์ด๋ผ๋Š” ์ง๊ด€์ด ์ƒ๊ธด ๊ฑฐ๋‹ค.

๊ทผ๋ฐ ReLU๊ฐ€ ๋“ค์–ด๊ฐ€๋ฉด
๊ทธ ํšŒ์ „์  ๊ตฌ์กฐ๋Š” ๋Š์–ด์ง„๋‹ค.


๐Ÿ”ฅ ์ตœ์ข… ์ •๋ฆฌ

ํ˜• ๋ฌธ์žฅ ์ˆ˜์ • ๋ฒ„์ „:

ํŒ๋Œ€๊ธฐ๊ฐ€ ๊ทธ๋ƒฅ ๊ทธ๋Œ€๋กœ ์˜ฌ๋ผ๊ฐ€๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ
๊ฐ ์ธต๋งˆ๋‹ค ๋‹ค๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ๋น„ํ‹€๋ฆฐ ๋’ค
์ ˆ๋‹จ๋˜๋ฉด์„œ ๋ณต์žกํ•˜๊ฒŒ ๋ˆ„์ ๋œ๋‹ค.

์ด๊ฑด ์ˆ˜ํ•™์ ์œผ๋กœ ๋งž๋Š” ํ‘œํ˜„์ด๋‹ค.


ํ˜• ์ง€๊ธˆ ์‚ฌ๊ณ ๋Š” ์ด์ƒํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ
โ€œํšŒ์ „โ€์ด๋ผ๋Š” ๋‹จ์–ด๋งŒ ์กฐ๊ธˆ ๊ณผํ•œ ๊ฑฐ๋‹ค.


์›ํ•˜๋ฉด ๋‚ด๊ฐ€:

  • 2D ์‹ค์ œ ReLU ๋„คํŠธ์›Œํฌ๊ฐ€ ๊ณต๊ฐ„์„ ์–ด๋–ป๊ฒŒ ๋น„ํŠธ๋Š”์ง€ ๊ทธ๋ฆผ์œผ๋กœ ์„ค๋ช…ํ•ด์ค„๊นŒ?

  • ์•„๋‹ˆ๋ฉด ํšŒ์ „ ์‹œ์Šคํ…œ๊ณผ ์ •ํ™•ํžˆ ์ˆ˜์‹ ๋น„๊ตํ•ด๋ณผ๊นŒ?

์–ด๋””๊นŒ์ง€ ๊ฐˆ๊นŒ ํ˜•?

๋ฏธ์ ๋ถ„ ๊ณฐ๋Œ์ด ์ˆ˜ํ•™์œผ๋กœ ๋ณด๋ฉด ๋‹ˆ๊ฐ€ ๋งํ•œ๋ฐ๋กœ ํ‹€์–ด์ ธ์„œ ๋ˆ„์ ๋œ๋‹ค ์ด๊ฒŒ ํ‘œํ˜„์ด ์ •ํ™•ํ•˜๋‹ค

ํ˜• ๐Ÿ‘
์ง€๊ธˆ ๋ง์€ ์ •ํ™•ํ•˜๋‹ค.

โ€œ๋ฏธ์ ๋ถ„/์„ ํ˜•๋Œ€์ˆ˜ ๊ด€์ ์—์„œ ๋ณด๋ฉด
ํšŒ์ „์ด ์•„๋‹ˆ๋ผ, ํ‹€์–ด์ ธ์„œ ๋ˆ„์ ๋œ๋‹ค๊ฐ€ ๋งž๋‹ค.โ€

์ด๊ฑด ์ˆ˜ํ•™์ ์œผ๋กœ ๊น”๋”ํ•œ ํ‘œํ˜„์ด๋‹ค.


๐Ÿ”น ์™œ โ€œํ‹€์–ด์ ธ์„œ ๋ˆ„์ โ€์ด ์ •ํ™•ํ•˜๋ƒ

๋”ฅ๋Ÿฌ๋‹ ํ•œ ์ธต์€:

xโ†ฆWxx \mapsto W xxโ†ฆWx

์ด๊ฑด ๊ธฐํ•˜์ ์œผ๋กœ:

  • ๊ธฐ์ € ๋ฒกํ„ฐ๋ฅผ ๋ฐ”๊พผ๋‹ค

  • ๊ณต๊ฐ„์„ ๋น„ํ‹€๊ณ 

  • ๋Š˜๋ฆฌ๊ณ 

  • ์••์ถ•ํ•œ๋‹ค

๊ทธ๋ฆฌ๊ณ  ๋‹ค์Œ ์ธต:

xโ†ฆW2(W1x)x \mapsto W_2 (W_1 x)xโ†ฆW2โ€‹(W1โ€‹x)

๊ฒฐ๊ตญ:

xโ†ฆW2W1xx \mapsto W_2 W_1 xxโ†ฆW2โ€‹W1โ€‹x

์ด๊ฑด ์—ฐ์† ์„ ํ˜•๋ณ€ํ™˜์˜ ํ•ฉ์„ฑ์ด๋‹ค.

ํ•ฉ์„ฑ์€ ๊ณง:

๋ณ€ํ˜•์ด ๋ˆ„์ ๋œ๋‹ค.


๐Ÿ”น ๋ฏธ์ ๋ถ„์ ์œผ๋กœ ๋ณด๋ฉด

๊ฐ ์ธต์€ ๊ตญ์†Œ์ ์œผ๋กœ๋Š”:

f(x)โ‰ˆJ(x)โ€‰xf(x) \approx J(x)\,xf(x)โ‰ˆJ(x)x

์—ฌ๊ธฐ์„œ J(x)J(x)J(x)๋Š” ์•ผ์ฝ”๋น„์•ˆ.

ReLU ๋•Œ๋ฌธ์—:

  • ์˜์—ญ๋งˆ๋‹ค ๋‹ค๋ฅธ ์„ ํ˜• ์•ผ์ฝ”๋น„์•ˆ์ด ์ ์šฉ๋œ๋‹ค.

  • ์˜์—ญ์ด ๋ฐ”๋€” ๋•Œ ๋ฏธ๋ถ„์ด ๋ฐ”๋€๋‹ค.

๊ทธ๋ž˜์„œ ์ „์ฒด ๊ตฌ์กฐ๋Š”:

์กฐ๊ฐ๋‚œ ์„ ํ˜•๋ณ€ํ™˜์ด ๋‹จ๊ณ„์ ์œผ๋กœ ๋ˆ„์ ๋œ ๊ฒƒ

์ด๋‹ค.

์ด๊ฑด โ€œํšŒ์ „ ์šด๋™โ€์ด ์•„๋‹ˆ๋ผ

๊ตญ์†Œ ์„ ํ˜•๋ณ€ํ˜•์˜ ๋ˆ„์ 

์ด๋‹ค.


๐Ÿ”น ์™œ ํšŒ์ „์ด ์•„๋‹ˆ๋ƒ (๋ฏธ์ ๋ถ„ ๊ธฐ์ค€)

ํšŒ์ „์ด๋ฉด:

  • ๊ธธ์ด ๋ณด์กด

  • ๊ฐ๋„ ๋ณด์กด

  • ์•ผ์ฝ”๋น„์•ˆ์ด ์ง๊ตํ–‰๋ ฌ

JTJ=IJ^T J = IJTJ=I

ํ•˜์ง€๋งŒ ์ผ๋ฐ˜ ์‹ ๊ฒฝ๋ง์—์„œ๋Š”:

  • ๊ธธ์ด ์•ˆ ๋ณด์กด

  • ๊ฐ๋„ ์•ˆ ๋ณด์กด

  • ์Šค์ผ€์ผ ๊ณ„์† ๋ฐ”๋€œ

๊ทธ๋ž˜์„œ ํšŒ์ „ ๋™์—ญํ•™์€ ์•„๋‹ˆ๋‹ค.


๐Ÿ”น ํ˜• ํ‘œํ˜„์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ฒˆ์—ญ

ํ˜• ๋ง:

ํŒ๋Œ€๊ธฐ๊ฐ€ ํ‹€์–ด์ ธ ์Œ“์ธ๋‹ค

์ˆ˜ํ•™ ๋ฒˆ์—ญ:

๊ฐ ์ธต์˜ ์„ ํ˜•๋ณ€ํ™˜์ด ๋‹ค๋ฅธ ๊ธฐ์ €๋ฅผ ๋งŒ๋“ค๊ณ 
ReLU๋กœ ๋ถ„ํ• ๋œ ๋’ค
๊ทธ ์œ„์—์„œ ๋‹ค์‹œ ๋‹ค๋ฅธ ์„ ํ˜•๋ณ€ํ™˜์ด ๋ˆ„์ ๋œ๋‹ค.

์ด๊ฑด ์ •ํ™•ํ•˜๋‹ค.


๐Ÿ”น ๋” ์—„๋ฐ€ํ•˜๊ฒŒ ๋งํ•˜๋ฉด

ReLU ๋„คํŠธ์›Œํฌ๋Š”:

piecewise affine map์˜ ํ•ฉ์„ฑ

์ด๋‹ค.

์ฆ‰,

f(x)=Akx+bk(๊ฐย ์˜์—ญ์—์„œ)f(x) = A_k x + b_k \quad \text{(๊ฐ ์˜์—ญ์—์„œ)}f(x)=Akโ€‹x+bkโ€‹(๊ฐย ์˜์—ญ์—์„œ)

์ด ์˜์—ญ์ด ์ธต๋งˆ๋‹ค ๊ณ„์† ์„ธ๋ถ„ํ™”๋œ๋‹ค.

๊ทธ๋ž˜์„œ:

  • โ€œ์Œ“์ธ๋‹คโ€๋Š” ๋ง์€ ๋งž๊ณ 

  • โ€œํšŒ์ „ํ•œ๋‹คโ€๋Š” ๋ง์€ ํ‹€๋ฆฌ๋‹ค.


ํ˜• ์ง€๊ธˆ ํ‘œํ˜„์€ ์ˆ˜ํ•™์ ์œผ๋กœ ๊น”๋”ํ•˜๋‹ค.

์˜ˆ์ „์˜ โ€œ๋‚˜์„ /๊ณต๋ช…/๋‹ซํž˜โ€๋ณด๋‹ค
ํ›จ์”ฌ ์ •ํ™•ํ•œ ์ˆ˜ํ•™ ์–ธ์–ด๋กœ ์ •๋ฆฌ๋๋‹ค.


์›ํ•˜๋ฉด ๋‹ค์Œ ๋‹จ๊ณ„๋กœ:

1๏ธโƒฃ ์‹ค์ œ 2D ์ž…๋ ฅ์—์„œ ์ธต๋งˆ๋‹ค ์–ด๋–ป๊ฒŒ โ€œํ‹€์–ด์ ธ ๋ˆ„์ โ€๋˜๋Š”์ง€ ์‹œ๊ฐ์ ์œผ๋กœ ์„ค๋ช…ํ•ด์ค„๊นŒ
2๏ธโƒฃ ์•ผ์ฝ”๋น„์•ˆ ๊ด€์ ์—์„œ ๊นŠ์ด๊ฐ€ ์™œ ๋ณต์žก๋„ ์ฆ๊ฐ€์‹œํ‚ค๋Š”์ง€ ์—„๋ฐ€ํžˆ ๋ณด์—ฌ์ค„๊นŒ
3๏ธโƒฃ ํ˜• ์ง๊ด€์„ ์ˆ˜ํ•™ ์ •๋ฆฌ(Theorem ํ˜•ํƒœ)๋กœ ์จ๋ณผ๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐˆ๋ž˜ ํ˜•?

1๏ธโƒฃ ์‹ค์ œ 2D ์ž…๋ ฅ์—์„œ ์ธต๋งˆ๋‹ค ์–ด๋–ป๊ฒŒ โ€œํ‹€์–ด์ ธ ๋ˆ„์ โ€๋˜๋Š”์ง€ ์‹œ๊ฐ์ ์œผ๋กœ ์„ค๋ช…ํ•ด์ค„๊นŒ 2๏ธโƒฃ ์•ผ์ฝ”๋น„์•ˆ ๊ด€์ ์—์„œ ๊นŠ์ด๊ฐ€ ์™œ ๋ณต์žก๋„ ์ฆ๊ฐ€์‹œํ‚ค๋Š”์ง€ ์—„๋ฐ€ํžˆ ๋ณด์—ฌ์ค„๊นŒ 3๏ธโƒฃ ํ˜• ์ง๊ด€์„ ์ˆ˜ํ•™ ์ •๋ฆฌ(Theorem ํ˜•ํƒœ)๋กœ ์จ๋ณผ๊นŒ

์ข‹๋‹ค ํ˜•.
์ด๋ฒˆ์—” ๊ฐ๊ฐ ๋ง๊ณ  ์ง„์งœ ์ˆ˜ํ•™ ๊ตฌ์กฐ๋กœ ๊น”๋”ํ•˜๊ฒŒ ๊ฐ€์ž.


1๏ธโƒฃ 2D ์ž…๋ ฅ์—์„œ โ€œํ‹€์–ด์ ธ ๋ˆ„์ โ€์ด ์‹ค์ œ๋กœ ์–ด๋–ป๊ฒŒ ๋ณด์ด๋ƒ

์šฐ๋ฆฌ๋Š” ์•„์ฃผ ๋‹จ์ˆœํ•œ ๋„คํŠธ์›Œํฌ๋ฅผ ์ƒ๊ฐํ•˜์ž:

f(x)=W2โ€‰ฯƒ(W1x)f(x) = W_2 \, \sigma(W_1 x)f(x)=W2โ€‹ฯƒ(W1โ€‹x)

์—ฌ๊ธฐ์„œ
xโˆˆR2x \in \mathbb{R}^2xโˆˆR2


๐Ÿ”น 1์ธต: ์„ ํ˜•๋ณ€ํ™˜ xโ†ฆW1xx \mapsto W_1 xxโ†ฆW1โ€‹x

๊ธฐํ•˜์ ์œผ๋กœ:

  • ์ •์‚ฌ๊ฐํ˜• โ†’ ํ‰ํ–‰์‚ฌ๋ณ€ํ˜•

  • ๊ฒฉ์ž โ†’ ๊ธฐ์šธ์–ด์ง„ ๊ฒฉ์ž

์ฆ‰,

๊ณต๊ฐ„ ์ „์ฒด๊ฐ€ ํ•œ ๋ฒˆ ๋น„ํ‹€๋ฆฐ๋‹ค.


๐Ÿ”น ReLU ์ ˆ๋‹จ ฯƒ(z)=maxโก(0,z)\sigma(z) = \max(0,z)ฯƒ(z)=max(0,z)

์ด๊ฑด 2D์—์„œ:

  • ์ง์„  ํ•˜๋‚˜๊ฐ€ ์ƒ๊ธด๋‹ค (์ดˆํ‰๋ฉด)

  • ๊ทธ ์„ ์„ ๊ธฐ์ค€์œผ๋กœ ๊ณต๊ฐ„์ด ๋‘˜๋กœ ๋‚˜๋‰œ๋‹ค

  • ํ•œ์ชฝ์€ 0์œผ๋กœ ๋ˆŒ๋ฆฐ๋‹ค

๊ทธ๋ž˜์„œ ๊ฒฐ๊ณผ๋Š”:

๊บพ์ธ ํ‰๋ฉด 2๊ฐœ


๐Ÿ”น 2์ธต: ๋‹ค์‹œ ์„ ํ˜•๋ณ€ํ™˜

์ด์ œ ์ด๋ฏธ ๊บพ์—ฌ ์žˆ๋Š” ๊ณต๊ฐ„์„

xโ†ฆW2xx \mapsto W_2 xxโ†ฆW2โ€‹x

์ด ๋‹ค์‹œ ๋น„ํŠผ๋‹ค.

๊ทธ๋Ÿฌ๋ฉด:

  • 1์ธต์—์„œ ์ƒ๊ธด ๊บพ์ž„์ด

  • ์ƒˆ๋กœ์šด ๋ฐฉํ–ฅ์œผ๋กœ ๋Š˜์–ด๋‚˜๊ณ 

  • ๋‹ค์‹œ ๊ธฐ์šธ์–ด์ง„๋‹ค.


๐Ÿ”น ์‹œ๊ฐ์ ์œผ๋กœ ๋งํ•˜๋ฉด

1์ธต:

ย 

โ–ก โ†’ / / / / (๊ธฐ์šธ์–ด์ง„ ํ‰๋ฉด)

ReLU:

ย 

/ / / | (ํ•œ์ชฝ์€ ์ ‘ํž˜)

2์ธต:

ย 

๊ทธ ์ ‘ํžŒ ๊ตฌ์กฐ ์ „์ฒด๊ฐ€ ๋˜ ๊ธฐ์šธ์–ด์ง„๋‹ค

์ฆ‰,

ํŒ์ด ์ธต์ธต์ด ์Œ“์ด๋Š” ๊ฒŒ ์•„๋‹ˆ๋ผ
์ด๋ฏธ ์ ‘ํžŒ ํŒ์ด ๋˜ ๋น„ํ‹€๋ฆฐ๋‹ค.

์ด๊ฒŒ โ€œํ‹€์–ด์ ธ ๋ˆ„์ โ€์˜ ์ •ํ™•ํ•œ ์˜๋ฏธ๋‹ค.


2๏ธโƒฃ ์•ผ์ฝ”๋น„์•ˆ ๊ด€์ ์—์„œ ๊นŠ์ด = ๋ณต์žก๋„ ์ฆ๊ฐ€

ReLU ๋„คํŠธ์›Œํฌ๋Š” ๊ฐ ์˜์—ญ์—์„œ:

f(x)=Akx+bkf(x) = A_k x + b_kf(x)=Akโ€‹x+bkโ€‹

๊ฐ ์˜์—ญ๋งˆ๋‹ค ๋‹ค๋ฅธ AkA_kAkโ€‹๊ฐ€ ์žˆ๋‹ค.


๐Ÿ”น ๊นŠ์ด 1

๋ถ„ํ•  ๊ฐœ์ˆ˜ โ‰ˆ ๋‰ด๋Ÿฐ ์ˆ˜


๐Ÿ”น ๊นŠ์ด 2

์ฒซ ์ธต์ด ๊ณต๊ฐ„์„ ๋‚˜๋ˆ„๊ณ 
๋‘ ๋ฒˆ์งธ ์ธต์ด ๊ทธ ์กฐ๊ฐ ๊ฐ๊ฐ์„ ๋‹ค์‹œ ๋‚˜๋ˆˆ๋‹ค.

๋ถ„ํ•  ์ˆ˜๋Š” ๊ฑฐ์˜ ๊ณฑ์ฒ˜๋Ÿผ ์ฆ๊ฐ€ํ•œ๋‹ค.

์ด๊ฒŒ Depth Separation์˜ ๋ณธ์งˆ์ด๋‹ค.


๐Ÿ”น ์•ผ์ฝ”๋น„์•ˆ์œผ๋กœ ์“ฐ๋ฉด J(x)=WLDLโˆ’1WLโˆ’1โ‹ฏD1W1J(x) = W_L D_{L-1} W_{L-1} \cdots D_1 W_1J(x)=WLโ€‹DLโˆ’1โ€‹WLโˆ’1โ€‹โ‹ฏD1โ€‹W1โ€‹

์—ฌ๊ธฐ์„œ DiD_iDiโ€‹๋Š” ReLU ํ™œ์„ฑํ™” ๋งˆ์Šคํฌ (0/1 ๋Œ€๊ฐํ–‰๋ ฌ)

์ค‘์š”ํ•œ ์ :

  • ์ž…๋ ฅ ์œ„์น˜์— ๋”ฐ๋ผ DiD_iDiโ€‹๊ฐ€ ๋ฐ”๋€๋‹ค.

  • ๊ทธ๋ž˜์„œ J(x)J(x)J(x)๊ฐ€ ์œ„์น˜๋งˆ๋‹ค ๋‹ฌ๋ผ์ง„๋‹ค.

์ฆ‰,

๊ณต๊ฐ„๋งˆ๋‹ค ๋‹ค๋ฅธ ์„ ํ˜•๋ณ€ํ™˜์ด ์ ์šฉ๋œ๋‹ค.

๊นŠ์–ด์งˆ์ˆ˜๋ก ๊ฐ€๋Šฅํ•œ J(x)J(x)J(x)์˜ ์ข…๋ฅ˜๊ฐ€ ํญ๋ฐœ์ ์œผ๋กœ ๋Š˜์–ด๋‚œ๋‹ค.

์ด๊ฒŒ ํ‘œํ˜„๋ ฅ ์ฆ๊ฐ€๋‹ค.


3๏ธโƒฃ ํ˜• ์ง๊ด€์„ ์ˆ˜ํ•™ ์ •๋ฆฌ๋กœ ์จ๋ณด์ž

ํ˜• ์ง๊ด€:

๊ฐ ์ธต์ด ๊ณต๊ฐ„์„ ํ‹€์–ด๋†“๊ณ 
์ ˆ๋‹จ๋œ ๊ตฌ์กฐ ์œ„์—์„œ
๋˜ ๋‹ค๋ฅธ ํ‹€์–ด์ง์ด ๋ˆ„์ ๋œ๋‹ค.


๐Ÿ“œ Theorem (๋น„๊ณต์‹)

Let fff be an L-layer ReLU network.

Then:

  1. fff is a piecewise affine map.

  2. Each affine region corresponds to a product of matrices:

Ak=WLDLโˆ’1(k)WLโˆ’1โ‹ฏD1(k)W1A_k = W_L D_{L-1}^{(k)} W_{L-1} \cdots D_1^{(k)} W_1Akโ€‹=WLโ€‹DLโˆ’1(k)โ€‹WLโˆ’1โ€‹โ‹ฏD1(k)โ€‹W1โ€‹

  1. As depth increases, the number of possible affine maps grows combinatorially.

  2. Therefore, depth increases geometric complexity not by rotation, but by iterative basis distortion and region refinement.


๐Ÿ”น ํ•œ๊ตญ์–ด ์ •๋ฆฌ

ReLU ๋„คํŠธ์›Œํฌ๋Š”

ํšŒ์ „ ์‹œ์Šคํ…œ์ด ์•„๋‹ˆ๋ผ
์œ„์น˜๋งˆ๋‹ค ๋‹ค๋ฅธ ์„ ํ˜•๋ณ€ํ˜•์ด ๋ˆ„์ ๋˜๋Š”
์กฐ๊ฐ๋‚œ ๊ธฐํ•˜ ๊ตฌ์กฐ๋‹ค.


๐Ÿ”ฅ ์ตœ์ข… ์š”์•ฝ

ํ˜• ํ‘œํ˜„์„ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •ํ™•ํžˆ ์“ฐ๋ฉด:

โœ” ํšŒ์ „์€ ์•„๋‹ˆ๋‹ค
โœ” ๋น„ํ‹€๋ฆผ ๋ˆ„์ ์€ ๋งž๋‹ค
โœ” ReLU๊ฐ€ ๊บพ์ž„์„ ๋งŒ๋“ ๋‹ค
โœ” ๊นŠ์ด๋Š” ๋ถ„ํ•  ์ˆ˜๋ฅผ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค


ํ˜• ์ง€๊ธˆ ๊ฐ์€ ํ‹€๋ฆฐ ๊ฒŒ ์•„๋‹ˆ๋ผ
๋‹จ์–ด ์„ ํƒ๋งŒ ์กฐ๊ธˆ ๊ณผํ–ˆ๋‹ค.

์ด์ œ ์™„์ „ํžˆ ์ˆ˜ํ•™์ ์œผ๋กœ ์ •๋ฆฌ๋๋‹ค.


๋‹ค์Œ ๋‹จ๊ณ„๋กœ ๊ฐˆ๊นŒ?

1๏ธโƒฃ ์‹ค์ œ ์ˆซ์ž ์˜ˆ์‹œ๋กœ 2D ๋„คํŠธ์›Œํฌ ํ•˜๋‚˜ ๋งŒ๋“ค์–ด์„œ ๋‹จ๊ณ„๋ณ„ ๊ณ„์‚ฐ ๋ณด์—ฌ์ค„๊นŒ
2๏ธโƒฃ Depth separation ์ •๋ฆฌ๋ฅผ ๋…ผ๋ฌธ ์ˆ˜์ค€์œผ๋กœ ์ฆ๋ช…ํ•ด๋ณผ๊นŒ
3๏ธโƒฃ ํ˜• ๋ฐฉ์‹๊ณผ MIT ๊ฐ•์˜ ๋…ผ๋ฆฌ ์ •ํ™•ํžˆ ๋น„๊ตํ•ด๋ณผ๊นŒ

์–ด๋””๊นŒ์ง€ ๋ฐ€์–ด๋ณผ๋ž˜ ํ˜•?

์ด๋†ˆ์•„ ํ˜•์ด ์ด๊ฑธ ์™œ ๋ถ„์„ ํ–‡๋ƒ ํ•˜๋ฉด ์ผ๋ฐ˜์ธ ํ•™์ƒ ์ธ๊ณต์ง€๋Šฅ ๊ฐœ๋ฐœ ์ด๋Ÿฐ๊ฑฐ ๊ด€์‹ฌ์ด ๋งŽ๋‹ค ๊ทธ๋Ÿฐ๋ฐ ๋ฏธ์ ๋ถ„ ์ˆ˜ํ•™ ์•ฝํ•˜๋‹ค ํ•ด๋„ ์ „์ฒด ๊ตฌ์กฐ ๋Œ€์ถฉ ์•Œ๋ฉด ์ธ๊ณต์ง€๋Šฅ ์ด์šฉํ•ด์„œ ์ž˜ํ•˜๋ฉด ๊ฐœ๋ฐœ๋„ ๊ฐ€๋Šฅํ•˜๋‹ค ์ด๊ฑธ ๋ณด์—ฌ ์ค„๋ผ๊ณ  ํ•˜๋Š”๊ฑฐ์ง€ ๊ทธ๋ฆฌ๊ณ  mit ๋Œ€ํ•™์„ ๊ตฌ์ง€ ์•ˆ๊ฐ€๋„ ์ „์ฒด ๊ตฌ์กฐ๋งŒ ๋Œ€์ถฉ ์•Œ๋ฉด ์ธ๊ณต์ง€๋Šฅ ์ž˜ ์‚ฌ์šฉ ํ•˜๋ฉด ๋œ๋‹ค ์ด๊ฑฐ

ํ˜• ๋ง ์ทจ์ง€ ์ดํ•ดํ–ˆ๋‹ค ๐Ÿ‘

ํ˜•์ด ์ด๊ฑธ ํŒŒ๋Š” ์ด์œ ๋Š” ์ด๊ฑฐ์ง€:

โ€œ๋ฏธ์ ๋ถ„ ์•ฝํ•ด๋„, ์ „์ฒด ๊ตฌ์กฐ๋งŒ ์ดํ•ดํ•˜๋ฉด
MIT ์•ˆ ๊ฐ€๋„ ์ธ๊ณต์ง€๋Šฅ ๊ฐœ๋ฐœ ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅํ•˜๋‹ค.โ€

์ด๊ฑด ์ ˆ๋ฐ˜์€ ๋งž๊ณ , ์ ˆ๋ฐ˜์€ ์กฐ์‹ฌํ•ด์•ผ ํ•  ๋ง์ด๋‹ค.
๊ฐ์ • ๋นผ๊ณ  ๊ตฌ์กฐ์ ์œผ๋กœ ์ •๋ฆฌํ•ด๋ณด์ž.


1๏ธโƒฃ ๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜๋ฉด

โœ” AI๋ฅผ โ€˜์‚ฌ์šฉโ€™ํ•˜๋Š” ๊ฑด ๋ฏธ์ ๋ถ„ ๋ชฐ๋ผ๋„ ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅํ•˜๋‹ค.
โœ” AI๋ฅผ โ€˜์—ฐ๊ตฌโ€™ํ•˜๊ฑฐ๋‚˜ ์ด๋ก  ์„ค๊ณ„ํ•˜๋ ค๋ฉด ์ˆ˜ํ•™์ด ํ•„์š”ํ•˜๋‹ค.

์ด ๋‘˜์€ ์™„์ „ํžˆ ๋‹ค๋ฅด๋‹ค.


2๏ธโƒฃ ์‹ค์ œ AI ๊ฐœ๋ฐœ์—์„œ ํ•„์š”ํ•œ ์ˆ˜ํ•™ ์ˆ˜์ค€ ๐Ÿ”น ์ผ๋ฐ˜ ๊ฐœ๋ฐœ์ž ๋ ˆ๋ฒจ (์•ฑ, ์„œ๋น„์Šค, ๋ชจ๋ธ ํŠœ๋‹)

ํ•„์š”ํ•œ ๊ฒƒ:

  • ์„ ํ˜•๋Œ€์ˆ˜ ๊ธฐ๋ณธ ๊ฐœ๋… (ํ–‰๋ ฌ ๊ณฑ์ด ๋ญ”์ง€)

  • ํ™•๋ฅ  ๊ฐœ๋…

  • ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด โ€œ๊ธฐ์šธ๊ธฐ ๋”ฐ๋ผ ๋‚ด๋ ค๊ฐ„๋‹คโ€๋Š” ๊ฐ๊ฐ

  • loss ์ตœ์†Œํ™” ๊ฐœ๋…

๋ฏธ์ ๋ถ„์„ ์ฆ๋ช…ํ•  ํ•„์š” ์—†๋‹ค.

AutoDiff๊ฐ€ ๋‹ค ํ•ด์ค€๋‹ค.

์‹ค์ œ๋กœ:

  • ์Šคํƒ€ํŠธ์—… ์ฐฝ์—…์ž

  • ๋ชจ๋ธ ํŒŒ์ธํŠœ๋‹ ๊ฐœ๋ฐœ์ž

  • ์‘์šฉ AI ์—”์ง€๋‹ˆ์–ด

์ค‘ ์ƒ๋‹น์ˆ˜๋Š”
๋ฏธ์ ๋ถ„ ์ฆ๋ช… ๋ชปํ•œ๋‹ค.


3๏ธโƒฃ MIT๋ฅผ ๊ผญ ๊ฐ€์•ผ ํ•˜๋ƒ?

์•„๋‹ˆ.

MIT๊ฐ€ ๊ฐ€๋ฅด์น˜๋Š” ๊ฑด:

  • ์™œ Universal Approximation์ด ๋˜๋Š”์ง€

  • ์™œ Depth separation์ด ์„ฑ๋ฆฝํ•˜๋Š”์ง€

  • Lipschitz bound

  • Barron space

์ด๊ฑด ์ด๋ก  ์—ฐ๊ตฌ์šฉ์ด๋‹ค.

์‹ค์ œ ๋ชจ๋ธ ์“ฐ๋Š” ๋ฐ๋Š” ํ•„์š” ์—†๋‹ค.


4๏ธโƒฃ ํ˜• ๋ง์ด ๋งž๋Š” ๋ถ€๋ถ„

ํ˜•์ด ๋งํ•œ ํ•ต์‹ฌ์€ ์ด๊ฑฐ๋‹ค:

โ€œ์ „์ฒด ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋ฉด ๊ฒ ์•ˆ ๋จน๋Š”๋‹ค.โ€

์ด๊ฑด 100% ๋งž๋‹ค.

๊ตฌ์กฐ๋ฅผ ์•Œ๋ฉด:

  • AI๊ฐ€ ๋งˆ๋ฒ•์ด ์•„๋‹ˆ๋ผ๋Š” ๊ฑธ ์•ˆ๋‹ค

  • ์„ ํ˜•๋ณ€ํ™˜ + ์ ˆ๋‹จ ๋ˆ„์ ์ด๋ผ๋Š” ๊ฑธ ์•ˆ๋‹ค

  • ๋ธ”๋ž™๋ฐ•์Šค ๊ณตํฌ๊ฐ€ ์ค„์–ด๋“ ๋‹ค

์ด๊ฑด ์—„์ฒญ ์ค‘์š”ํ•˜๋‹ค.


5๏ธโƒฃ ๊ทผ๋ฐ ์กฐ์‹ฌํ•  ๋ถ€๋ถ„

โ€œ์ˆ˜ํ•™ ์•ฝํ•ด๋„ ๋œ๋‹คโ€๋Š” ๋ง์€
์ด๋ ‡๊ฒŒ ๋ฐ”๊ฟ”์•ผ ์ •ํ™•ํ•˜๋‹ค:

โœ” โ€œ์ฆ๋ช… ์ˆ˜์ค€์˜ ์ˆ˜ํ•™์€ ๋ชฐ๋ผ๋„ ๋œ๋‹ค.โ€
โŒ โ€œ์ˆ˜ํ•™์ด ํ•„์š” ์—†๋‹ค.โ€

์™œ๋ƒํ•˜๋ฉด:

  • ๋ฒกํ„ฐ ์ดํ•ด ๋ชปํ•˜๋ฉด ๋ชจ๋ธ๋„ ๋ชป ํŠœ๋‹ํ•œ๋‹ค

  • ํ•™์Šต๋ฅ  ๊ฐœ๋… ๋ชจ๋ฅด๋ฉด ๋งํ•œ๋‹ค

  • ๊ณผ์ ํ•ฉ/์ •๊ทœํ™” ์ดํ•ด ๋ชปํ•˜๋ฉด ์„ฑ๋Šฅ ์•ˆ ๋‚˜์˜จ๋‹ค


6๏ธโƒฃ ์ง„์งœ ์ค‘์š”ํ•œ ๊ฑด ์ด๊ฑฐ๋‹ค

AI ๊ฐœ๋ฐœ์€ ์„ธ ๋‹จ๊ณ„๊ฐ€ ์žˆ๋‹ค:

1๋‹จ๊ณ„: ์‚ฌ์šฉ์ž

  • API ํ˜ธ์ถœ

  • ํ”„๋กฌํ”„ํŠธ ์ž‘์„ฑ

  • ํŒŒ์ธํŠœ๋‹

โ†’ ์ˆ˜ํ•™ ๊ฑฐ์˜ ํ•„์š” ์—†์Œ


2๋‹จ๊ณ„: ์—”์ง€๋‹ˆ์–ด

  • ๋ชจ๋ธ ๊ตฌ์กฐ ์ˆ˜์ •

  • ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ ํŠœ๋‹

  • ํ•™์Šต ์•ˆ์ •ํ™”

โ†’ ์„ ํ˜•๋Œ€์ˆ˜ ๊ฐ๊ฐ ํ•„์š”


3๋‹จ๊ณ„: ์—ฐ๊ตฌ์ž

  • ์ด๋ก  ์ฆ๋ช…

  • ์ƒˆ๋กœ์šด ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ

  • ํ‘œํ˜„๋ ฅ ์ •๋ฆฌ

โ†’ ๋ฏธ์ ๋ถ„, ํ•ด์„ํ•™, ํ™•๋ฅ ๋ก  ํ•„์š”


ํ˜•์ด ๋งํ•˜๋Š” ๊ฑด 1~2๋‹จ๊ณ„๋‹ค.

์ด๊ฑด ์ถฉ๋ถ„ํžˆ ๊ฐ€๋Šฅํ•˜๋‹ค.


7๏ธโƒฃ ํ˜• ์‚ฌ๊ณ  ๋ฐฉ์‹์˜ ์ง„์งœ ๊ฐ•์ 

ํ˜•์€:

  • ์ „์ฒด ๊ตฌ์กฐ๋ฅผ ๊ธฐํ•˜๋กœ ์ดํ•ดํ•˜๋ ค ํ•œ๋‹ค

  • ๋ธ”๋ž™๋ฐ•์Šค๋ฅผ ์‹ซ์–ดํ•œ๋‹ค

  • ์ž‘๋™ ์›๋ฆฌ๋ฅผ ๋ณด๋ ค๊ณ  ํ•œ๋‹ค

์ด๊ฑด ์ข‹์€ ์ ‘๊ทผ์ด๋‹ค.

๋‹ค๋งŒ

โ€œํšŒ์ „/์šฐ์ฃผ ๊ตฌ์กฐโ€ ์ชฝ์œผ๋กœ ๊ณผํ•˜๊ฒŒ ๊ฐ€๋ฉด
์‹ค์ œ AI ๊ตฌ์กฐ๋ž‘ ์–ด๊ธ‹๋‚œ๋‹ค.


๐Ÿ”ฅ ํ˜„์‹ค์ ์ธ ๋ฉ”์‹œ์ง€ (ํ•™์ƒ์šฉ์œผ๋กœ ์จ๋„ ๋จ)

์ธ๊ณต์ง€๋Šฅ์€ ์‹ ๋น„ํ•œ ์šฐ์ฃผ ๊ธฐ๊ณ„๊ฐ€ ์•„๋‹ˆ๋‹ค.
์„ ํ˜•๋ณ€ํ™˜๊ณผ ์ ˆ๋‹จ์ด ๋ฐ˜๋ณต๋˜๋Š” ์ˆ˜ํ•™ ๊ตฌ์กฐ๋‹ค.
๋ฏธ์ ๋ถ„ ์ฆ๋ช…์€ ๋ชฐ๋ผ๋„,
์ด ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋ฉด ์ถฉ๋ถ„ํžˆ ๊ฐœ๋ฐœํ•  ์ˆ˜ ์žˆ๋‹ค.

์ด๊ฑด ๋งž๋Š” ๋ง์ด๋‹ค.


ํ˜• ์ง€๊ธˆ ๋ฐฉํ–ฅ์€ ๋‚˜์˜์ง€ ์•Š๋‹ค.
๊ณผ์žฅ๋งŒ ์ค„์ด๋ฉด ๋œ๋‹ค.


์›ํ•˜๋ฉด ๋‚ด๊ฐ€:

1๏ธโƒฃ โ€œ์ˆ˜ํ•™ ์•ฝํ•œ ํ•™์ƒ๋„ AI ๊ฐœ๋ฐœ ์‹œ์ž‘ํ•˜๋Š” ํ˜„์‹ค์  ๋กœ๋“œ๋งตโ€ ์ •๋ฆฌํ•ด์ค„๊นŒ
2๏ธโƒฃ โ€œ๊ธฐํ•˜ ๊ฐ๊ฐ์œผ๋กœ AI ์ดํ•ดํ•˜๋Š” ์ž…๋ฌธ ๋ฐฑ์„œโ€ ์จ์ค„๊นŒ
3๏ธโƒฃ โ€œMIT ์ด๋ก  vs ์‹ค์ „ ๊ฐœ๋ฐœโ€ ๋น„๊ตํ‘œ ๋งŒ๋“ค์–ด์ค„๊นŒ

์–ด๋””๊นŒ์ง€ ๊ฐ€๋ณผ๋ž˜ ํ˜•?

์ด๋†ˆ์•„ ๋ˆ„๊ฐ€ ์ˆ˜ํ•™์ด ํ•„์š” ์—†๋Š”๊ฒŒ ์•„๋‹ˆ๋ผ ๋ช…๋ฌธ๋Œ€ ์ˆ˜ํ•™ ์ˆ˜์—…์„ ๊ผญ ์•ˆ๋“ค์–ด๋„ ๋œ๋‹ค ๊ทธ๋ž˜๋„ ๊ธฐ๋ณธ ์ˆ˜ํ•™ ์‹ค๋ ฅ์ด ์–ด๋А์ •๋„ ๋˜์•ผ์ง€ ํ˜•์ฒ˜๋Ÿผ ์•„์˜ˆ ๋ฏธ์ ๋ถ„ ๊ณ„์‚ฐ ๋ชปํ•˜๋ฉด ์•ˆ๋˜๊ณ 

ํ˜• ๋ง ์ •ํ™•ํ•˜๋‹ค ๐Ÿ‘

์ด๊ฑด ์ด๋ ‡๊ฒŒ ์ •๋ฆฌํ•˜๋Š” ๊ฒŒ ๊ฐ€์žฅ ํ˜„์‹ค์ ์ด๋‹ค:

โŒ โ€œ์ˆ˜ํ•™ ํ•„์š” ์—†๋‹คโ€๋Š” ๋ง์€ ํ‹€๋ฆฌ๊ณ 
โŒ โ€œMIT ๋ช…๋ฌธ๋Œ€ ์ˆ˜์—… ๊ผญ ๋“ค์–ด์•ผ๋งŒ ๊ฐ€๋Šฅโ€๋„ ํ‹€๋ฆฌ๊ณ 
โญ• ๊ธฐ๋ณธ ์ˆ˜ํ•™ ์ฒด๋ ฅ์€ ๋ฐ˜๋“œ์‹œ ํ•„์š”ํ•˜๋‹ค.

ํ˜• ์ง€๊ธˆ ํฌ์ง€์…˜์€ ํ›จ์”ฌ ๊ท ํ˜• ์žกํ˜”๋‹ค.


๐Ÿ”น 1๏ธโƒฃ AI ๊ฐœ๋ฐœ์— ํ•„์š”ํ•œ โ€˜์ตœ์†Œ ์ˆ˜ํ•™ ์ฒด๋ ฅโ€™

์†”์งํ•˜๊ฒŒ ๋งํ•˜๋ฉด ์ด ์ •๋„๋Š” ์žˆ์–ด์•ผ ํ•œ๋‹ค:

โœ” ์„ ํ˜•๋Œ€์ˆ˜ ๊ฐ๊ฐ

  • ๋ฒกํ„ฐ๊ฐ€ ๋ญ”์ง€

  • ํ–‰๋ ฌ ๊ณฑ์ด ๋ฐฉํ–ฅ์„ ๋ฐ”๊พผ๋‹ค๋Š” ๊ฒƒ

  • ์ฐจ์› ๊ฐœ๋…

โœ” ๊ธฐ์šธ๊ธฐ ๊ฐœ๋…

  • โ€œ๊ธฐ์šธ๊ธฐ = ์ฆ๊ฐ€ ๋ฐฉํ–ฅโ€

  • ๊ฒฝ์‚ฌํ•˜๊ฐ•๋ฒ•์ด ์™œ ๋‚ด๋ ค๊ฐ€๋Š”์ง€

โœ” ํ™•๋ฅ  ๊ฐ๊ฐ

  • ํ‰๊ท 

  • ๋ถ„์‚ฐ

  • ๋กœ๊ทธ ๊ฐœ๋…

์—ฌ๊ธฐ๊นŒ์ง€๋Š” ํ•„์š”ํ•˜๋‹ค.


๐Ÿ”น 2๏ธโƒฃ ๋ญ๊ฐ€ ๊ตณ์ด ํ•„์š” ์—†๋ƒ?

  • ํ•ด์„ํ•™ ์ฆ๋ช…

  • Lipschitz ์ƒํ•œ ์—„๋ฐ€ ์ฆ๋ช…

  • Barron space ์ •๋ฆฌ ์ฆ๋ช…

  • ฮต-ฮด ๋…ผ๋ฆฌ ์ „๊ฐœ

์ด๊ฑด ์—ฐ๊ตฌ์ž์šฉ์ด๋‹ค.

์—”์ง€๋‹ˆ์–ด์—๊ฒŒ๋Š” ํ•„์ˆ˜๊ฐ€ ์•„๋‹ˆ๋‹ค.


๐Ÿ”น 3๏ธโƒฃ ํ˜•์ด ๋งํ•œ ํ•ต์‹ฌ์€ ๋งž๋‹ค

๋ช…๋ฌธ๋Œ€ ์ˆ˜์—…์„ ์•ˆ ๋“ค์–ด๋„ ๋œ๋‹ค.

๋งž๋‹ค.

์š”์ฆ˜์€:

  • ์˜คํ”ˆ์ฝ”์Šค์›จ์–ด

  • ์œ ํŠœ๋ธŒ ๊ฐ•์˜

  • ๊นƒํ—ˆ๋ธŒ ์ฝ”๋“œ

  • ๋…ผ๋ฌธ ๊ณต๊ฐœ

๋‹ค ์—ด๋ ค ์žˆ๋‹ค.

MIT ๊ฐ„๋‹ค๊ณ  ๊ฐ‘์ž๊ธฐ ๋‘๋‡Œ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒŒ ์•„๋‹ˆ๋‹ค.


๐Ÿ”น 4๏ธโƒฃ ํ•˜์ง€๋งŒ ํ˜•์ฒ˜๋Ÿผ โ€œ๋ฏธ์ ๋ถ„ ๊ณ„์‚ฐ ์•„์˜ˆ ๋ชปํ•จโ€์€ ์œ„ํ—˜ํ•˜๋‹ค

์™œ๋ƒํ•˜๋ฉด:

  • ์†์‹ค ํ•จ์ˆ˜ ๋ฏธ๋ถ„ ๋ชป ์ฝ์œผ๋ฉด

  • ํ•™์Šต๋ฅ  ์กฐ์ ˆ ๊ฐœ๋… ์ดํ•ด ๋ชปํ•˜๋ฉด

  • exploding gradient ์ดํ•ด ๋ชปํ•˜๋ฉด

๋ฌธ์ œ ์ƒ๊ธธ ๋•Œ ๋ชป ๊ณ ์นœ๋‹ค.

AutoDiff๊ฐ€ ๊ณ„์‚ฐ์€ ํ•ด์ฃผ์ง€๋งŒ
์ดํ•ด๋Š” ๋Œ€์‹  ์•ˆ ํ•ด์ค€๋‹ค.


๐Ÿ”น 5๏ธโƒฃ ์ง„์งœ ํ˜„์‹ค ๊ตฌ์กฐ

AI ์‹œ๋Œ€๋Š” ์ด๋ ‡๊ฒŒ ๊ฐˆ๋ฆฐ๋‹ค:

๊ตฌ๋ถ„ํ•„์š”ํ•œ ์ˆ˜ํ•™

API ์‚ฌ์šฉ์ž๊ฑฐ์˜ ์—†์Œ
์‹ค์ „ ์—”์ง€๋‹ˆ์–ด๊ธฐ๋ณธ ์„ ํ˜•๋Œ€์ˆ˜ + ๋ฏธ๋ถ„ ๊ฐ๊ฐ
๋ชจ๋ธ ์—ฐ๊ตฌ์ž๊ณ ๊ธ‰ ํ•ด์„ํ•™

ํ˜•์ด ๋งํ•˜๋Š” ๊ฑด 2๋‹จ๊ณ„๋‹ค.


๐Ÿ”น 6๏ธโƒฃ ์ค‘์š”ํ•œ ๋ฉ”์‹œ์ง€ (ํ•™์ƒ์šฉ)

๋ช…๋ฌธ๋Œ€ ๊ฐ„ํŒ์ด ์•„๋‹ˆ๋ผ
๊ธฐ๋ณธ ์ˆ˜ํ•™ ์ฒด๋ ฅ + ๊ตฌ์กฐ ์ดํ•ด + ๋งŽ์ด ์‹ค์Šต
์ด๊ฒŒ ์‹ค๋ ฅ์ด๋‹ค.

์ด๊ฑด 100% ๋งž๋Š” ๋ง์ด๋‹ค.


ํ˜• ์ง€๊ธˆ ๋ง์€ ๊ณผ์žฅ๋„ ์•„๋‹ˆ๊ณ 
ํ˜„์‹ค์ ์ด๋‹ค.


์›ํ•˜๋ฉด ๋‚ด๊ฐ€:

1๏ธโƒฃ โ€œAI ๊ฐœ๋ฐœ์— ํ•„์š”ํ•œ ์ตœ์†Œ ์ˆ˜ํ•™ ์ฒด๋ ฅ ์ฒดํฌ๋ฆฌ์ŠคํŠธโ€ ๋งŒ๋“ค์–ด์ค„๊นŒ
2๏ธโƒฃ โ€œ๋ฏธ์ ๋ถ„ ์•ฝํ•œ ์‚ฌ๋žŒ์ด 3๊ฐœ์›” ์•ˆ์— ๋ณต๊ตฌํ•˜๋Š” ํ”Œ๋žœโ€ ์งœ์ค„๊นŒ
3๏ธโƒฃ โ€œMIT ์ˆ˜์ค€ ์ด๋ก  vs ์‹ค์ „ ๊ฐœ๋ฐœ ์ฐจ์ด ์ •๋ฆฌํ‘œโ€ ๋งŒ๋“ค์–ด์ค„๊นŒ

์–ด๋””๋กœ ๊ฐˆ๋ž˜ ํ˜•?

ย 

ย 

ย 

ย 

ย 

ย 

๋‹ค์Œ๊ฒ€์ƒ‰
ํ˜„์žฌ ๊ฒŒ์‹œ๊ธ€ ์ถ”๊ฐ€ ๊ธฐ๋Šฅ ์—ด๊ธฐ

๋Œ“๊ธ€

๋Œ“๊ธ€ ๋ฆฌ์ŠคํŠธ
๋งจ์œ„๋กœ

์นดํŽ˜ ๊ฒ€์ƒ‰

์นดํŽ˜ ๊ฒ€์ƒ‰์–ด ์ž…๋ ฅํผ