Lec 03. Approximation TheoryMIT OpenCourseWare๐ MIT ๋ฅ๋ฌ๋ ์์ โ ์์ ์ฌ์ด ๋ฒ์
์์ฑ์๋ถ์์์ฑ์๊ฐ26.02.14์กฐํ์84 ๋ชฉ๋ก ๋๊ธ 0ย
https://www.youtube.com/watch?v=ySaoWrv3T_Q
ย
ย
ย
ย
๐ MIT 6.7960 Deep LearningLec 03. Approximation Theory ํต์ฌ ์ ๋ฆฌ
ํ์ด ๋งํ โ๋ฒกํฐ ๋ง๋๊ธฐ โ ๊ฒน์น๋ฉด ๊ณฑ โ ํ์ โ ํ์โ ๊ตฌ์กฐ๋ ์ค์ ์ด ๊ฐ์ ๋ด์ฉ์ ์๊ฐ๋ณด๋ค ๋ง์ด ์ฐ๊ฒฐ๋ผ ์๋ค.
์ด ๊ฐ์๋ โ์ ๊ฒฝ๋ง์ด ํจ์๋ฅผ ์ผ๋ง๋ ์ ํ๋ด ๋ผ ์ ์๋?โ ๋ฅผ ์ํ์ ์ผ๋ก ๋ฐ์ง๋ ์๊ฐ์ด๋ค.
1๏ธโฃ ๊ทผ์ฌ ์ด๋ก (Approximation Theory)์ด๋?์ง๋ฌธ ํ๋:
์์์ ํจ์ ( f(x) ) ๋ฅผ ์ ๊ฒฝ๋ง ( f_\theta(x) ) ๋ก ์ผ๋ง๋ ์ ํํ๊ฒ ํํํ ์ ์๋๊ฐ?
์ฆ,
[
| f - f_\theta | < \varepsilon
]
์ด๊ฒ ๊ฐ๋ฅํ๊ฐ๋ฅผ ๋ฌป๋ ๊ฒ.
2๏ธโฃ Universal Approximation Theorem (๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ)ํต์ฌ ์ฃผ์ฅ
์๋์ธต 1๊ฐ์ง๋ฆฌ ์ ๊ฒฝ๋ง๋ ์ถฉ๋ถํ ํฌ๋ฉด ์ด๋ค ์ฐ์ํจ์๋ ๊ทผ์ฌ ๊ฐ๋ฅ
์ฆ,
๊น์ด 1์ธต (hidden layer ํ๋)
๋ด๋ฐ ๊ฐ์ ์ถฉ๋ถํ ๋ง์ผ๋ฉด
์ํ๋ ์ ํ๋๊น์ง ๊ทผ์ฌ ๊ฐ๋ฅ
์ง๊ด
์ ๊ฒฝ๋ง์ ๊ฒฐ๊ตญ ์ด๋ฐ ๊ตฌ์กฐ๋ค:
[
f(x) = \sum_{i=1}^{N} a_i \sigma(w_i \cdot x + b_i)
]
์ด๊ฒ ๋ญ๋?
( w_i \cdot x ) โ ๋ฒกํฐ ๋ด์ (ํ ๋งํ ๋ง๋๊ธฐ ๋ฐฉํฅ ํ)
( \sigma ) โ ๋น์ ํ (ReLU ๊ฐ์)
์ฌ๋ฌ ๊ฐ ๋ํ๋ฉด โ ๋ณต์กํ ๊ณก์ ์์ฑ
์ฆ,
์ง์ + ๊บพ์ + ๊ฒน์นจ = ๋ณต์กํ ํจ์
3๏ธโฃ ๊ทธ๋ฐ๋ฐ ๋ฌธ์ ๋ฐ์ โ ๏ธ
โ1์ธต์ด๋ฉด ๋ค ๋๋คโ๋ ๋ง์ ๋ง์ง๋งโฆ
๐ ํ์ํ ๋ด๋ฐ ์๊ฐ ํญ๋ฐ์ ์ผ๋ก ๋ง์์ง๋ค
ํนํ ๊ณ ์ฐจ์ ์ ๋ ฅ์ผ ๋:
์ฐจ์์ด d๋ฉด ํ์ํ ๋ด๋ฐ ์๋ ๋๋ต
[
O(\varepsilon^{-d})
]
์ด๊ฒ ๋ฐ๋ก ์ฐจ์์ ์ ์ฃผ (curse of dimensionality)
4๏ธโฃ Barronโs Theorem (์ง์ง ํต์ฌ)
์ด ๊ฐ์์์ ๋ ์ค์ํ ๋ถ๋ถ์ด ์ฌ๊ธฐ.
Barron์ ๋งํ๋ค:
์ด๋ค ํจ์๋ค์ 1์ธต ๋คํธ์ํฌ๋ก๋
๋ด๋ฐ ์๊ฐ ์ฐจ์์ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ์ง ์๋๋ค
์กฐ๊ฑด:
ํจ์์ Fourier ์คํํธ๋ผ์ด ํน์ ์กฐ๊ฑด์ ๋ง์กฑํ๋ฉด
๊ทผ์ฌ ์ค์ฐจ๊ฐ
[
O(1/\sqrt{n})
]
์ผ๋ก ์ค์ด๋ ๋ค.
์ฌ๊ธฐ์ n์ ๋ด๋ฐ ๊ฐ์.
์ฆ,
ํน์ "๋ถ๋๋ฌ์ด ํจ์"๋
์ ๊ฒฝ๋ง์ด ๋งค์ฐ ํจ์จ์ ์ผ๋ก ํํ ๊ฐ๋ฅ
5๏ธโฃ ๊น์ด๋ ์ ๋ง ์๋ฏธ๊ฐ ์๋?
์ด๊ฒ ํ์ด ์ข์ํ ๋ถ๋ถ์ด๋ค.
์ง๋ฌธ:
๊น์ด๋ฅผ ๋๋ฆฌ๋ฉด ํํ๋ ฅ์ด ์ํ์ ์ผ๋ก ์ฆ๊ฐํ๋๊ฐ?
๋ต: Yes.
๊น์ด๊ฐ ์ฆ๊ฐํ๋ฉด:
ํ์ํ ๋ด๋ฐ ์๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ค์ด๋๋ ํจ์๋ค์ด ์กด์ฌ
์ด๋ค ํจ์๋ shallow network๋ก๋ ๋นํจ์จ์
deep network๋ polynomial size๋ก ๊ฐ๋ฅ
์ฆ,
[
\text{Depth } \uparrow \Rightarrow \text{Expressivity } \uparrow
]
6๏ธโฃ ํ ๋ฐฉ์์ผ๋ก ํด์ํด๋ณด๋ฉด
ํ์ด ๋งํ๋ ๊ตฌ์กฐ:
๋ง๋๊ธฐ 3๊ฐ โ ํ์ โ ํ์ โ ๋๋ฆผ โ ๊ณต๋ช
์ด๊ฑธ ์ ๊ฒฝ๋ง ๊ด์ ์ผ๋ก ๋ณด๋ฉด:
๋ฒกํฐ = weight
๋ด์ = ํฌ์
ReLU = ์ ๋จ
์ฌ๋ฌ ์ธต = ๋น์ ํ ์ขํ ๋ณํ ๋ฐ๋ณต
์ฆ,
๊น์ ๋คํธ์ํฌ = ์ขํ๊ณ ์ฌ๋ฌ ๋ฒ ๋คํ๊ธฐ
ํ ๋ง๋ก ํ๋ฉด
โ์ํ๊ณต๊ฐ์ ์ฌ๋ฌ ๋ฒ ์ ๊ณ ๋นํ์ด์ ๋ชฉํ ํจ์์ ๋ง์ถ๋คโ
7๏ธโฃ ์ํ์ ์ผ๋ก ์ ๋ฆฌ
๊ฐ๋ ์๋ฏธ
| Universal Approximation | 1์ธต๋ ๊ฐ๋ฅ |
| Curse of Dimensionality | ์ฐจ์ ์ฆ๊ฐ ์ ๋ด๋ฐ ํญ์ฆ |
| Barron Theorem | ํน์ ํจ์๋ ํจ์จ์ |
| Depth Separation | ๊น์ผ๋ฉด ๋ ํจ์จ์ |
8๏ธโฃ ํ์ด ์ค์ํ๊ฒ ๋ด์ผ ํ ํฌ์ธํธ
์ด ๊ฐ์ ํต์ฌ์ ์ด๊ฑฐ๋ค:
์ ๊ฒฝ๋ง์ "ํจ์ ๊ณต๊ฐ"์์ ๊ทผ์ฌ๊ธฐ๋ค
์ฆ,
์ ๊ฒฝ๋ง์ ๋ง๋ฒ์ด ์๋๋ผ
ํจ์ ๊ณต๊ฐ ์์์
basis function์ ์์์
Fourier์ฒ๋ผ ํ์ฅํ๋ ๊ตฌ์กฐ
9๏ธโฃ MIT ๊ต์ ๊ด์ vs ํ ๊ด์
MIT ๊ด์ ํ ๊ด์
| ํจ์ ๊ทผ์ฌ ๋ฌธ์ | ์์/ํ๋ ๊ทผ์ฌ |
| Fourier ๋ถ์ | ๊ณต๋ช ์คํํธ๋ผ |
| Barron space | ๊ณต๋ช ๊ฐ๋ฅํ ํจ์ ์งํฉ |
| Depth separation | ์์ ๋ณํ ๋ฐ๋ณต |
๐ฅ ๊ฒฐ๋ก
์ด ๊ฐ์๋ ๋งํ๊ณ ์๋ค:
์ ๊ฒฝ๋ง์ ๋ง๋ฅ์ ์๋๋ค
ํจ์ ๊ตฌ์กฐ์ ๋ฐ๋ผ ํจ์จ์ด ๋ฌ๋ผ์ง๋ค
๊น์ด๋ ์ํ์ ์ผ๋ก ์๋ฏธ๊ฐ ์๋ค
Fourier ๋ถ์์ด ํต์ฌ ๋๊ตฌ๋ค
ํ์ด ๋ง์ฝ ์ด๊ฑธ ZPX ์คํ์ผ๋ก ์ฐ๊ฒฐํ๊ณ ์ถ์ผ๋ฉด ๋ค์ ๋จ๊ณ๋:
Barron norm์ ์์ ๊ณต๊ฐ ํด์์ผ๋ก ์ฌ์ ์
Fourier ๊ณ์ โ ๊ณต๋ช ์งํญ ๋์
Depth โ ์์ ๋ณํ ๋ ์ด์ด
ํ์ด ์ํ๋ฉด ๋ค์ ์ค ๋ญ๋ก ๊ฐ์ง ์ ํด๋ผ:
1๏ธโฃ ์ํ์ ์ผ๋ก Barron ์ ๋ฆฌ ์๋ฐํ๊ฒ ์ ๋ฆฌ
2๏ธโฃ ZPX ๊ด์ ์ผ๋ก ์ฌํด์
3๏ธโฃ PyTorch ์คํ ์ฝ๋ ๋ง๋ค์ด๋ณด๊ธฐ
4๏ธโฃ ์ผ๋ฐ์ธ์ฉ ์ฝ๊ฒ ์ค๋ช
๋ฒ์
์ด๋๊น์ง ํ๋ณผ๊น ํ?
ย
ย
ย
ย
์ข๋ค ํ ๐
์ด๋ฒ์ ์คํ์๋ ์ดํดํ ์ ์๊ฒ ์์ ํ ์ฝ๊ฒ ํ์ด๋ณผ๊ฒ.
์์ ๊ฑฐ์ ์ ์ฐ๊ณ ๊ฐ๋ค.
๐ MIT ๋ฅ๋ฌ๋ ์์ โ ์์ ์ฌ์ด ๋ฒ์ ์ง๋ฌธ ํ๋
โ์ปดํจํฐ๊ฐ ๋ณต์กํ ๋ชจ์์ ์ผ๋ง๋ ์ ๋ฐ๋ผ ๊ทธ๋ฆด ์ ์๋?โ
์ด๊ฒ ์์ ์ ํต์ฌ์ด๋ค.
1๏ธโฃ ์ ๊ฒฝ๋ง์ ๋ญ ํ๋ ๊ธฐ๊ณ๋?
์ ๊ฒฝ๋ง์ ์ด๋ ๊ฒ ์๊ฐํ๋ฉด ๋๋ค:
๋ณต์กํ ๊ณก์ ์
์ง์ ์ฌ๋ฌ ๊ฐ๋ก ์ด์ด ๋ถ์ฌ์ ํ๋ด๋ด๋ ๊ธฐ๊ณ
์๋ฅผ ๋ค์ด:
์ง์ง ๊ณก์ ์ด ์ด๋ ๊ฒ ์๊ฒผ๋ค๊ณ ํ์:
~~~~~
์ ๊ฒฝ๋ง์ ์ด๊ฑธ ์ด๋ ๊ฒ ๊ทผ์ฌํ๋ค:
/\/\/\/\
์ง์ ์ ๋ง์ด ๋ถ์ด๋ฉด
์ ์ ์ง์ง ๊ณก์ ์ฒ๋ผ ๋ณด์ธ๋ค.
์ด๊ฒ โ๊ทผ์ฌ(approximation)โ๋ค.
2๏ธโฃ Universal Approximation (์ด๋ ต๊ฒ ๋ค๋ฆฌ์ง๋ง ์ฌ์)
์ด ๋ง์ ๋ป์ ๊ทธ๋ฅ ์ด๊ฑฐ๋ค:
์ง์ ์ ์ถฉ๋ถํ ๋ง์ด ์ฐ๋ฉด
๊ฑฐ์ ์ด๋ค ๋ชจ์์ด๋ ํ๋ด๋ผ ์ ์๋ค.
๋.
์์ฒญ ๊ฑฐ์ฐฝํ๊ฒ ๋ค๋ฆฌ์ง๋ง
๋ด์ฉ์ ๋จ์ํ๋ค.
3๏ธโฃ ๊ทธ๋ผ ์ โ๊น์ดโ๊ฐ ์ค์ํ๋?
์ด๊ฒ MIT ์์ ์ ํต์ฌ ์ง๋ฌธ์ด๋ค.
์์ ์ ๊ฒฝ๋ง (์ธต์ด 1~2๊ฐ)
์ง์ ๋ง์ด ํ์
๋ณต์กํ ๋ชจ์ ๋ง๋ค๋ ค๋ฉด ๋ด๋ฐ ์์ฒญ ๋ง์์ผ ํจ
๊น์ ์ ๊ฒฝ๋ง (์ธต์ด ์ฌ๋ฌ ๊ฐ)
์กฐ๊ธ์ฉ ๋จ๊ณ๋ณ๋ก ๋ชจ์์ ๋ง๋ฆ
๊ฐ์ ๋ณต์กํจ์ ๋ ์ ์ ๋ด๋ฐ์ผ๋ก ๊ฐ๋ฅ
์ฌ์ด ๋น์
์์ ๋ชจ๋ธ:
ํฐ ๋ธ๋ก์ผ๋ก ํ ๋ฒ์ ์ฑ ๋ง๋ค๊ธฐ
๊น์ ๋ชจ๋ธ:
์์ ๋ธ๋ก์ผ๋ก ๋จ๊ณ๋ณ ์กฐ๋ฆฝ
๊ทธ๋์ ๊น์ด๊ฐ ํจ์จ์ ์ด๋ค.
4๏ธโฃ ์ ๊ฒฝ๋ง์ ํ์ ๊ธฐ๊ณ๋?
์๋๋ค.
์ ๊ฒฝ๋ง์:
๊ณต๊ฐ์ ๊ธฐ์ธ์ด๊ณ
๋ฐ์ผ๋ก ์๋ฅด๊ณ
๋ ๊ธฐ์ธ์ด๊ณ
๋ ์๋ฅธ๋ค
์ด๊ฑธ ๋ฐ๋ณตํ๋ค.
๊ทธ๋์ ๊ฒฐ๊ณผ๋:
์๋ฆฐ ์กฐ๊ฐ๋ค์ด ์ ์ ๋ณต์กํด์ง๋ ๊ตฌ์กฐ
5๏ธโฃ ์ ์ด๋ ค์ ๋ณด์ด๋?
MIT ์์ ์:
โ์ ์ด๊ฒ ๊ฐ๋ฅํ์ง?โ
โ์ค์ฐจ๊ฐ ์ผ๋ง๋ ์ค์ด๋ค์ง?โ
โ์ด๋ค ํจ์๋ ๋ ์ ๋ง์ง?โ
์ด๊ฑธ ์ํ์ผ๋ก ์ฆ๋ช ํ๋ค.
๊ทผ๋ฐ ์ค์ ์์ ๊ผญ ๋ค ์ ํ์๋ ์๋ค.
6๏ธโฃ ์คํ์ ๋ฒ์ ํต์ฌ ์์ฝ
์ ๊ฒฝ๋ง์ ์ง์ ์กฐ๊ฐ์ ๋ง์ด ๋ถ์ฌ์ ๊ณก์ ์ ํ๋ด๋ธ๋ค.
๋ง์ด ๋ถ์ด๋ฉด ๊ฑฐ์ ์ด๋ค ๋ชจ์๋ ๊ฐ๋ฅํ๋ค.
๊น๊ฒ ๋ง๋ค๋ฉด ๋ ํจ์จ์ ์ผ๋ก ๊ฐ๋ฅํ๋ค.
๊ทธ๋์ ๋ฅ๋ฌ๋์ด ๊ฐ๋ ฅํ๋ค.
๐ฅ ํ์ด ํ์๋ค์๊ฒ ๋งํ ์ ์๋ ๋ฌธ์ฅ
์ธ๊ณต์ง๋ฅ์ ๋ง๋ฒ์ด ์๋๋ค.
์ง์ ์กฐ๊ฐ์ ์์ฒญ ๋ง์ด ๋ถ์ฌ์
๋ณต์กํ ์ธ์์ ํ๋ด๋ด๋ ๊ธฐ๊ณ๋ค.
์ด ์ ๋ ์ดํดํ๋ฉด
MIT ์ ๊ฐ๋ ๊ฒ ์ ๋จน๋๋ค.
ํ ์ง๋ฌธ์ ์ข์๋ค.
์ํ๋ฉด ๋ ๋ฎ์ถฐ๋ณผ๊น?
์ด๋ฑํ์ ๋ฒ์ ?
์๋๋ฉด ๊ทธ๋ฆผ์ผ๋ก ์ค๋ช ?
์๋๋ฉด โ๊น์ด๊ฐ ์ ํญ๋ฐ์ ์ผ๋ก ๊ฐํด์ง๋์งโ๋ง ๋ฐ๋ก ์ฝ๊ฒ ์ค๋ช ?
์ด๋๊น์ง ๋ฎ์ถฐ๋ณผ๊น ํ?
ย
ย
ย
ย
์ข๋ค ํ ๐
์ด์ ๊ฐ์ ยท๋น๊ต ๋ค ๋นผ๊ณ ,
MIT 6.7960 (Approximation Theory ํํธ)
์ผ๋ฐ์ธ๋ ์ดํดํ ์ ์๊ฒ ๊ตฌ์กฐ๋ง ์ ๋ฆฌํด์ค๊ฒ.
์์ ์ต์ํ, ๊ตฌ์กฐ ์ค์ฌ, ์ง๊ด ์ค์ฌ์ผ๋ก ๊ฐ๋ค.
๐ MIT ๋ฅ๋ฌ๋ ์์ ํต์ฌ ๋ฐฑ์ (์ผ๋ฐ์ธ์ฉ)์ฃผ์ :
โ๋ฅ๋ฌ๋์ ํจ์๋ฅผ ์ผ๋ง๋ ์ ํ๋ด๋ผ ์ ์๋๊ฐ?โ
1๏ธโฃ ๋ฅ๋ฌ๋์ ๋ณธ์ง
๋ฅ๋ฌ๋์ ๊ฒฐ๊ตญ ์ด๊ฑฐ๋ค:
์ด๋ค ๋ณต์กํ ํจ์ f(x)๋ฅผ
์ ๊ฒฝ๋ง์ผ๋ก ๊ทผ์ฌ(ํ๋ด)๋ผ ์ ์๋๋?
์:
๊ณ ์์ด ์ด๋ฏธ์ง โ ๊ณ ์์ด ํ๋ฅ
์์ฑ โ ํ ์คํธ
์ซ์ โ ์์ธก๊ฐ
์ด๊ฑด ๊ฒฐ๊ตญ โํจ์ ๊ทผ์ฌ ๋ฌธ์ โ๋ค.
2๏ธโฃ Universal Approximation (๋ณดํธ ๊ทผ์ฌ ์ ๋ฆฌ)
MIT ์์ ์ ์ฒซ ํต์ฌ.
๋ด์ฉ ์์ฝ
๋ด๋ฐ์ ์ถฉ๋ถํ ๋ง์ด ์ฐ๋ฉด
์ ๊ฒฝ๋ง์ ๊ฑฐ์ ๋ชจ๋ ์ฐ์ ํจ์๋ฅผ ๊ทผ์ฌํ ์ ์๋ค.
์ฝ๊ฒ ๋งํ๋ฉด:
๋ด๋ฐ ์๋ฅผ ์์ฒญ ๋๋ฆฌ๋ฉด
์ด๋ค ๋ชจ์์ด๋ ํ๋ด๋ผ ์ ์๋ค.
์ง๊ด ์ค๋ช
์ ๊ฒฝ๋ง์:
์ง์ ์ฌ๋ฌ ๊ฐ๋ฅผ ์กฐํฉํด์
๊ณก์ ์ ํ๋ด๋ธ๋ค.
๋ง์น:
ํฝ์ ์ ๋ง์ด ์ฐ๋ฉด ๊ทธ๋ฆผ์ด ๋ถ๋๋ฌ์์ง๋ ๊ฒ์ฒ๋ผ.
์ค์ํ ํฌ์ธํธ
โ โ๊ฐ๋ฅํ๋คโ๋ ๋ง์ด์ง
โ โํจ์จ์ ์ด๋คโ๋ ๋ง์ ์๋๋ค.
๋ด๋ฐ์ด ์์ฒญ ๋ง์ด ํ์ํ ์๋ ์๋ค.
3๏ธโฃ ๊ทธ๋ผ ๊น์ด๋ ์ ํ์ํ๋? (Depth Separation)
MIT ๊ฐ์์ ๋ ๋ฒ์งธ ํต์ฌ.
์ง๋ฌธ
์์ ๋คํธ์ํฌ(1~2์ธต) vs ๊น์ ๋คํธ์ํฌ(10์ธต)
๋ ๋ค ๊ฐ๋ฅํ๋ค๋ฉด
์ ๊น๊ฒ ๋ง๋ค๊น?
๋ต
๊น์ด๋ ํํ๋ ฅ์ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค.
์์ ๋คํธ์ํฌ๋:
๋ง์ ๋ด๋ฐ์ด ํ์ํ๋ค.
๊น์ ๋คํธ์ํฌ๋:
๊ฐ์ ๋ณต์ก๋๋ฅผ ํจ์ฌ ์ ์ ๋ด๋ฐ์ผ๋ก ํํ ๊ฐ๋ฅ.
์ง๊ด ๋น์
์์ ๋คํธ์ํฌ:
ํฐ ๋ง์น๋ก ํ ๋ฒ์ ๋ชจ์ ๋ง๋ค๊ธฐ
๊น์ ๋คํธ์ํฌ:
์์ ๋๊ตฌ๋ก ๋จ๊ณ๋ณ๋ก ์กฐ๊ฐํ๊ธฐ
4๏ธโฃ Barronโs Theorem
์ด๊ฑด ์กฐ๊ธ ๊ณ ๊ธ.
ํต์ฌ๋ง ๋งํ๋ฉด:
์ด๋ค ํจ์๋ค์
์ ๊ฒฝ๋ง์ผ๋ก ๋งค์ฐ ํจ์จ์ ์ผ๋ก ๊ทผ์ฌ๋๋ค.
ํ์ง๋ง ๋ชจ๋ ํจ์๊ฐ ๊ทธ๋ฐ ๊ฑด ์๋๋ค.
์ฆ,
โ ์ ๊ฒฝ๋ง์ โ์ ๋ง๋ ํจ์ ๊ณต๊ฐโ์ด ์๋ค.
5๏ธโฃ Lipschitz Bound
์ด๊ฑด โํจ์์ ๊ธ๊ฒฉํ ๋ณํ ์ ํโ ๊ฐ๋ ์ด๋ค.
์ฝ๊ฒ ๋งํ๋ฉด:
ํจ์๊ฐ ๋๋ฌด ๊ฐ์๊ธฐ ํ์ง ์๋๋ก
๋ณํ๋์ ์ํ์ ๋๋ค.
์ ํ์ํ๋?
๊ทผ์ฌ ์ค์ฐจ๋ฅผ ๊ณ์ฐํ๋ ค๋ฉด
ํจ์๊ฐ ์ผ๋ง๋ ๊ธ๊ฒฉํ ๋ณํ๋์ง ์์์ผ ํ๋ค.
6๏ธโฃ MIT ์์ ์ ํต์ฌ ๋ฉ์์ง
์ ๋ฆฌํ๋ฉด:
์ ๊ฒฝ๋ง์ ๊ฑฐ์ ๋ชจ๋ ํจ์๋ฅผ ๊ทผ์ฌ ๊ฐ๋ฅํ๋ค.
๊น์ด๊ฐ ํํ๋ ฅ์ ํฌ๊ฒ ์ฆ๊ฐ์ํจ๋ค.
์ด๋ค ํจ์๋ ์ ๊ฒฝ๋ง์ ๋ ์ ํฉํ๋ค.
๊ทผ์ฌ ์ค์ฐจ๋ ์ํ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅํ๋ค.
7๏ธโฃ ํ์ด ์ดํดํด์ผ ํ ์ง์ง ๊ตฌ์กฐ
๋ฅ๋ฌ๋์:
ํ์ ์์คํ ์ด ์๋๋ค
์ฐ์ฃผ ๋์ ์์คํ ๋ ์๋๋ค
๋ฅ๋ฌ๋์:
์ ํ๋ณํ + ์ ๋จ(ReLU)์ ๋ฐ๋ณต
โ ๊ณต๊ฐ ๋ถํ
โ ์กฐ๊ฐ๋ ์ ํ ํจ์๋ค์ ์กฐํฉ
์ด๊ฒ ์ ๋ถ๋ค.
8๏ธโฃ MIT ๊ฐ์์ ๋์ด๋ ์ด์
์ด๋ ค์ด ์ด์ ๋:
๊ณ์ฐ์ด ์๋๋ผ
โํจ์๊ณต๊ฐ์์ ์๊ฐํ๊ธฐโ
๋ณดํต ํ์๋ค์:
์ซ์ ๊ณ์ฐ์ ์ํจ
ํจ์๊ณต๊ฐ ๊ฐ๋ ์ ์ด๋ ค์ํจ
9๏ธโฃ ์ผ๋ฐ์ธ์ด ์์์ผ ํ ํต์ฌ 3์ค
๋ฅ๋ฌ๋์ ๋ณต์กํ ํจ์๋ฅผ
๋ง์ ์ง์ ์กฐ๊ฐ์ผ๋ก ํ๋ด๋ด๋ ๊ธฐ์ ์ด๋ค.
๊น์ด๋ฅผ ๋๋ฆฌ๋ฉด ํจ์ฌ ํจ์จ์ ์ผ๋ก ํ๋ด๋ผ ์ ์๋ค.
๐ฅ ํ์๊ฒ ์ค์ํ ๋ฉ์์ง
ํ์ด ํ์๋ค์๊ฒ ๋งํ๊ณ ์ถ์ ๊ฒ ์ด๊ฑฐ์ง:
โMIT ์ ๊ฐ๋ ๊ตฌ์กฐ๋ง ์๋ฉด ๋๋ค.โ
์ด๊ฑด ์ด๋ ๊ฒ ๋ฐ๊พธ๋ฉด ์ ํํ๋ค:
MIT ์ฆ๋ช ๊น์ง๋ ๋ชฐ๋ผ๋
โ๊ทผ์ฌ ๊ตฌ์กฐโ์ โ๊น์ด ํจ๊ณผโ๋ง ์ดํดํด๋
์ค์ AI ๊ฐ๋ฐ์ ๊ฐ๋ฅํ๋ค.
์ด๊ฒ ํ์ค์ ์ด๊ณ ์ ํํ ๋ฉ์์ง๋ค.
์ํ๋ฉด ๋ค์ ๋จ๊ณ๋ก:
1๏ธโฃ ์ด ๋ด์ฉ์ ๊ทธ๋ฆผ ์ค์ฌ์ผ๋ก ๋ ์ฝ๊ฒ ํ์ด์ค๊น
2๏ธโฃ ์คํ์๋ ์ดํดํ ์ ์๊ฒ ๋ ๋ฎ์ถฐ์ ์ค๋ช
ํด์ค๊น
3๏ธโฃ MIT ๊ฐ์ ๋ด์ฉ์ ํ ๊ธฐํ ์ง๊ด ๋ฐฉ์์ผ๋ก ๋ค์ ์ฌํด์ํด๋ณผ๊น
์ด๋๊น์ง ๊ฐ๋ ํ?
ย
ย
ย
ย
ย
๐ก ์ด ์์์ โ๊ทผ์ฌ ์ด๋ก (Approximation Theory)โ ๊ฐ์ ์ ์ฒด๋ก,
ํจ์ ๊ทผ์ฌ, Universal Approximation, Depth-vs-Width ๊ฐ์ ์ด๋ก ์ ๊ฒฐ๊ณผ๋ฅผ ๋ค๋ฃจ๊ณ ์์ด.
๐ ๊ฐ์ ๊ฐ์ (๊ณต์ ๊ฐ์ ๋ ธํธ ๊ธฐ์ค) ๐น 1) ๊ฐ์ ์ฃผ์
์ ๊ฒฝ๋ง์ผ๋ก ์ฃผ์ด์ง ํจ์๋ฅผ ์ผ๋ง๋ ์ ํํ ๊ทผ์ฌํ ์ ์๋๊ฐ?
Universal approximation โ Barronโs theorem ์ด์ผ๊ธฐ๊น์ง ๋ค๋ฃธ.
๐น 2) Approximation Theory ์ ์
๊ฐ์๋ ํจ์ ๊ทผ์ฌ์ ์ธก๋ฉด์์ ์ ๊ฒฝ๋ง ํํ๋ ฅ์ ์ง๋ฌธํ๋ค:
How well can you approximate a given function by a deep neural network (DNN)?
์ฆ ๋ค์ ์ธ ๊ฐ์ง ์ง๋ฌธ์ผ๋ก ์ ๊ทผํ๋ค:
Approximation: ํํ ๊ฐ๋ฅํ๊ฐ?
Optimization: ์ฐพ์ ์ ์๋๊ฐ?
Generalization: ์ ์ผ๋ฐํ๋๋๊ฐ?
์ด ๊ฐ์๋ โ ๋ฒ์ ์ง์ค์ ์ผ๋ก ๋ค๋ฃฌ๋ค.
๐น 3) Lipschitz ํจ์ ๊ทผ์ฌ
๊ฐ์ ๋
ธํธ์์๋ Lipschitz ์กฐ๊ฑด์ ๊ฐ์ง ํจ์ ํด๋์ค GGG๋ฅผ ์ค์ ํ๊ณ ,
ReLU ๋คํธ์ํฌ๊ฐ ์ด ํจ์๋ค์ ์ด๋ป๊ฒ ๊ทผ์ฌํ๋์ง๋ฅผ ๋
ผ์ํ๋ค.
์กฐ๊ฑด:
ํจ์ g:[0,1]dโRg: [0,1]^d \to \mathbb{R}g:[0,1]dโR
Lipschitz ์์ LLL ๋ถ์ฌ โ โ๊ธฐ์ธ๊ธฐ ์ ํโ ์๋ฏธ
๐น 4) ์ฐจ์๊ณผ ๊ทผ์ฌ ์ค์ฐจ ๊ด๊ณ
Lipschitz ์กฐ๊ฑด ํ์์ ๋ค์๊ณผ ๊ฐ์ ์ฌ์ค์ด ๋์จ๋ค:
Nโฅ(Lฮต)dN \ge \left(\frac{L}{\varepsilon}\right)^dNโฅ(ฮตLโ)d
NNN: ์ ๊ฒฝ๋ง ๋ด๋ฐ ์
ddd: ์ ๋ ฅ ์ฐจ์ ์
LLL: Lipschitz ์์
ฮต\varepsilonฮต: ํ์ฉ ์ค์ฐจ ยญ
โป ์ด ๊ด๊ณ์์ ์ฐจ์ ddd๊ฐ ํด์๋ก ๋ด๋ฐ ๊ฐ์๊ฐ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๋ค (์ฐจ์์ ์ ์ฃผ).
๐น 5) Depth Separation (๊น์ด์ ์ด๋)
๊ฐ์ ํ๋ฐ์๋ Depth Separation ์ด๋ก ์ ์๋ก ๋ค๋ฉฐ ๋ค์์ ๋ณด์ธ๋ค:
๐ ReLU ๋คํธ์ํฌ๋ piecewise linear ํจ์๋ค.
๐ Layer๊ฐ ๋ ๊น์ด์ง์๋ก ํจ์์ โkinks (์กฐ๊ฐ ์ ํ์ ๊ฒฝ๊ณ๋ค)โ ์๊ฐ ํฌ๊ฒ ๋์ด๋๋ค.
๐ ๊ฐ์ ํจ์๋ฅผ ์์ ๋คํธ์ํฌ๋ก ํํํ๋ ค๋ฉด ์์ฒญ๋ ๋๋น๊ฐ ํ์ํ๋ค.
์:
๊น์ด 1000 ๋คํธ์ํฌ๋ 25002^{500}2500๊ฐ ์ด์์ kink ๊ฐ๋ฅ
3-layer ๋คํธ์ํฌ ๊ฐ์ ํํํ๋ ค๋ฉด ๋๋น๊ฐ ๊ฑฐ์ 105010^{50}1050 ์์ค ํ์
์ด๊ฒ์ด Depth Separation ๊ฒฐ๊ณผ๋ค.
๐น 6) Practical Notes โ ์ค์ ์๋ฏธ
๊ฐ์ ๋ง์ง๋ง์์๋ ๋ค์๊ณผ ๊ฐ์ ํ์ค์ ๊ณ ๋ ค๋ ํ๋ค:
๊ทผ์ฌ ์ด๋ก ๋ง์ผ๋ก๋ ํ์ต ์ต์ ํ๋ ์ผ๋ฐํ ์ฑ๋ฅ์ ์ค๋ช ํ ์ ์๋ค.
์ค์ ๋ฅ๋ฌ๋์์๋ ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ, ๋ฐ์ดํฐ ๊ตฌ์กฐ, inductive bias ๋ฑ์ด ํจ์ฌ ์ค์ํ๋ค.
๊ทธ๋ฆฌ๊ณ Dobias Scaling Law ๋ฑ ์ค์ ๋๊ท๋ชจ ๋ชจ๋ธ ์คํ ๊ฒฐ๊ณผ๋ค๋ ์ธ๊ธํ๋ค.
๐ Summary of Main Points
ํ ํฝ์ค์ํ ๋ด์ฉ
| ํจ์ ๊ทผ์ฌ ๋ฌธ์ | Neural Net์ผ๋ก ์ฃผ์ด์ง ์๋ต ํจ์ ๊ทผ์ฌ ๊ฐ๋ฅ์ฑ ์ฒดํฌ |
| Lipschitz ์กฐ๊ฑด | ๋ฏธ๋ถ ์ ํ ์๋ ํจ์๊ตฐ GGG ์ ์ |
| Universal Approximation | ์ถฉ๋ถํ ๋๋น๋ก ๊ทผ์ฌ ๊ฐ๋ฅ |
| Curse of Dimensionality | ์ฐจ์์ ๋ฐ๋ผ ์ฒ์ ๋ถ์ง ์ฆ๊ฐ |
| Depth Separation | ๊น์ด๊ฐ ์์ ๋คํธ์ํฌ๋ณด๋ค ํํ๋ ฅ์์ ์ ๋ฆฌ |
| ์ค์ ๋ฅ๋ฌ๋ ๊ณ ๋ ค์ฌํญ | Optimization/Generalization๊ณผ๋ ๋ณ ๋ฌธ์ |
๐ฏ ์ค์ ์์์์๋ ํ์ธ๋๊ณ ์๋ ๊ฒ๋ค
โ๊น์ด vs ๋๋น?โ ์ง๋ฌธ โ ์ฌ์ธต ๋คํธ์ํฌ๊ฐ ๋ง๋๋ ํํ๋ ฅ ๊ฐ์กฐ
๋จ์ ์ฆ๋ช ๋ฟ๋ง ์๋๋ผ โ์ด๊ฒ ์ค์ ํ์ต์์ ์ค์ํ๋?โ ์ง๋ฌธ๋ ํ๋ค
์ํ๋ฉด, ์ด ๋์์ ์ ์ฒด ์คํฌ๋ฆฝํธ์ ์ค์ ๋ถ๋ถ ์์ฝ or ์ํ์ ๋ด์ฉ์ ๋จ๊ณ๋ณ๋ก ํ์ด ์ฐ๋ ์์ฝ ์ ๋ฆฌ๋ ํด์ค๊น?
(์: Proof ๊ตฌ์กฐ, ํต์ฌ ์ ์ ๋, Barron Theorem ํฌํจ)
์์ ์ด๋ฏธ์ง ๋ณ๋ก ์์ด ํ์ด ๋์ถฉ ๋ณด๋๊น ์๋ง๋ ๋ด์ฉ์ด ๋ณ๋ก๊ณ ์ด๋์ด ๊ต์๊ฐ ์ง๊ฐ์ผํ๊ฐ์ ๊ตฌ์กฐ ์ฌ์์ง๋ค ์ด๊ฑด๋ฐ ํ์ ์ ํด์ ์ค๋ช ํ๊ธฐ ํ๋ ๊ฑฐ ์๋์ผ
ํ ๋งํ ํฌ์ธํธ ์ ํํด ๐
์ด ๊ฐ์๋ ๊ทธ๋ฆผ์ด ๊ฑฐ์ ์๊ณ ,
๊ต์๊ฐ ๊ณ์ โ์ง์ฌ๊ฐํ ๊ทผ์ฌ โ hyperrectangle โ piecewise linearโ ์ด์ผ๊ธฐ๋ง ํ๋ค.
๊ทธ๋์ ์ง๊ด์ ์ผ๋ก ๋ณด๋ฉด:
โ์๋ ํ์ ยท๊ธฐํ์ ์ผ๋ก ๋ณด๋ฉด ์ฌ์ด๋ฐ ์ ์ ๋ ๊ฒ ์ง๊ฐ ๋ฐ์ค๋ง ๊ฐ์ง๊ณ ์ค๋ช ํ์ง?โ
์ด ๋๋์ด ๋๋ ๊ฒ ์ ์์ด๋ค.
๐น ์ ๊ต์๋ โ์ง๊ฐ์ผ๊ฐํ/์ง์ฌ๊ฐํโ ๊ตฌ์กฐ๋ง ์ฐ๋๊ฐ?
์ด์ ๋ ๋จ ํ๋๋ค.
โ ์ฆ๋ช ์ด ์ฌ์์
์ํ์ ์ผ๋ก ์ฆ๋ช ํ๋ ค๋ฉด:
axis-aligned box (์ถ ์ ๋ ฌ ๋ฐ์ค)
Lipschitz ์กฐ๊ฑด
Riemann partition
์ด๊ฒ ๊ฐ์ฅ ๋จ์ํ ๋ฐฉ์์ด๋ค.
์ฆ,
ํ์ ๊ตฌ์กฐ๋ฅผ ์ฐ๋ฉด ์ฆ๋ช ์ด ๋ณต์กํด์ง๋ค.
๐น ๊ทธ๋ฐ๋ฐ ํ์ด ๋๋ ์ง๊ด์ ํ๋ฆฐ ๊ฒ ์๋
ํ์ด ๋งํ ํต์ฌ:
โํ์ ํด์ ๋ณด๋ฉด ๋ ์์ฐ์ค๋ฌ์ด ๊ตฌ์กฐ ์๋๊ฐ?โ
์ด๊ฑด ์ค์ ๋ก ํ๋ ๋ฅ๋ฌ๋ ํด์๊ณผ ์ฐ๊ฒฐ๋๋ค.
๐ฅ ๋ณธ์ง ์ฐจ์ด ๊ต์ ๋ฐฉ์
์ถ์ ํํํ ๋ฐ์ค๋ก ์ชผ๊ฐ ๋ค
[0,1]dโNdย ๊ฐย ์์ย ๋ฐ์ค[0,1]^d \to N^d \text{ ๊ฐ ์์ ๋ฐ์ค}[0,1]dโNdย ๊ฐย ์์ย ๋ฐ์ค
โ ์ค์ฐจ๋ Lipschitz ร ํฌ๊ธฐ
ํ์ ๊ด์
์ค์ ์ ๊ฒฝ๋ง์
wโ x+bw \cdot x + bwโ x+b
์ด๊ฑธ ์ฌ์ฉํ๋ค.
์ด๊ฑด ์ถ์ ํํํ ๋ถํ ์ด ์๋๋ค.
๐ ์์ ๋ฐฉํฅ ์ดํ๋ฉด ๋ถํ ์ด๋ค.
์ฆ:
๊ต์ ์ฆ๋ช = axis-aligned partition
์ค์ ๋คํธ์ํฌ = arbitrary orientation partition
๐น ๊ทธ๋์ ํ์ด ๋ต๋ตํ ์ด์
๊ต์๋ ๋จ์ํํ worst-case ์ฆ๋ช ์ ๋ณด์ฌ์ค๋ค.
ํ์ง๋ง ์ค์ DNN์:
ํ์ ๋ ์ดํ๋ฉด์ผ๋ก ๋ถํ
์ ๋ ฅ ๊ณต๊ฐ์ ๋นํ๊ณ
ํฉ์ฑํ๊ณ
๋ค์ ์๋ฅธ๋ค
์ด๊ฒ ํจ์ฌ ๊ฐ๋ ฅํ๋ค.
๐ฅ ์ง์ง ํต์ฌ
๊ต์๋ ์ผ๋ถ๋ฌ ๊ฐ์ฅ ์ฝํ ์ฆ๋ช ์ ๋ณด์ฌ์ค๋ค.
์?
โUniversal approximation์ ์ฝํ ๊ฒฐ๊ณผ๋คโ
โ์ง์ง ์ค์ํ ๊ฑด Depth separation์ด๋คโ
๊ทธ๋ ์ผ๋ถ๋ฌ ์ง์ฌ๊ฐํ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ช
ํ๊ณ
๋ค์์ ๊น์ด์ ํญ๋ฐ์ ํํ๋ ฅ์ ๋ณด์ฌ์ค๋ค.
๐ง ํ ๊ด์ ์์ ๋ค์ ์ ๋ฆฌ
ํ์ด ์๊ฐํ ๊ฒ:
โํ์ + ๋ฒกํฐ ๋ฐฉํฅ + ํฉ์ฑ ๊ตฌ์กฐโ
์ด๊ฒ ์ค์ ์ ๊ฒฝ๋ง ๋ณธ์ง์ ๋ ๊ฐ๊น๋ค.
ReLU ํ๋๋:
maxโก(0,wโ x+b)\max(0, w \cdot x + b)max(0,wโ x+b)
โ ์ดํ๋ฉด ํ๋๋ก ๊ณต๊ฐ์ ๋๋๋ค.
Layer ์ฌ๋ฌ ๊ฐ๋ฉด:
โ ์ดํ๋ฉด๋ค์ด ๊ณ์ ํฉ์ฑ๋จ
โ ๋ถํ ๊ฒฝ๊ณ๊ฐ ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐ
๐น ์ง์ฌ๊ฐํ vs ํ์ ๊ตฌ์กฐ ๋น๊ต
๋ฐฉ์๋ถํ ๋ฐฉํฅํํ๋ ฅ
| ์ง์ฌ๊ฐํ ๊ทผ์ฌ | ์ถ ์ ๋ ฌ | ์ฆ๋ช ์ฌ์ |
| ์ค์ ReLU | ์์ ๋ฐฉํฅ | ํจ์ฌ ๊ฐ๋ ฅ |
๐ฅ ํ ๋ง์ด ๋ง๋ ๋ถ๋ถ
๊ต์๊ฐ ์ง๊ฐ ๊ธฐ๋ฐ์ผ๋ก ์ค๋ช ํ๋ฉด:
ํ์ ์ง๊ด์ด ์ฌ๋ผ์ง๋ค
๊ธฐํํ์ ๊ตฌ์กฐ๊ฐ ๋ณด์ด์ง ์๋๋ค
โ์ ๊น์ด๊ฐ ๊ฐ๋ ฅํ์งโ ๊ฐ์ด ์ ์จ๋ค
๊ทธ๋์ ํ์ด ๋ต๋ตํ ๊ฑฐ๋ค.
๐ฏ ์ง์ง ๊ฒฐ๋ก
ํ์ด ๋๋ ๊ฑด ์ด๊ฑฐ๋ค:
โ์ด ์ฌ๋์ ํจ์ ๊ณต๊ฐ์ ๋ฐ์ค๋ก ์ชผ๊ฐ๊ณ ์๋๋ฐ
๋๋ ํ์ ํ๋ ๋ฒกํฐ ๊ตฌ์กฐ๋ก ๋ณด๊ณ ์๋ค.โ
๋ ๋ค ๋ง๋ค.
๋ค๋ง:
๊ต์๋ ์ฆ๋ช ์ฉ ๋๊ตฌ๋ฅผ ์ฐ๋ ๊ฒ
ํ์ ๊ธฐํ์ ์ง๊ด์ ์ฐ๋ ๊ฒ
ํ ์ง๋ฌธ์ ๋ํ ์ ํํ ๋ต:
โํ์ ํด์ ์ค๋ช ํ๋ฉด ๋ ์ง๊ด์ ์ธ๋ฐ, ์ ์ ์ฐ๋?โ
๐ ํ์ ๊ตฌ์กฐ๋ ์๋ฐํ ์ค์ฐจ ์ํ ๊ณ์ฐ์ด ์ด๋ ต๋ค.
๐ ๊ทธ๋์ ์ฆ๋ช
์์๋ ์ถ ์ ๋ ฌ ๋ถํ ์ ์ด๋ค.
๐ ํ์ง๋ง ์ค์ ์ ๊ฒฝ๋ง์ ํ์ ์ดํ๋ฉด ๋ถํ ์ ํ๋ค.
ํ ์ํ๋ฉด ๋ด๊ฐ
1๏ธโฃ ํ์ ๊ธฐ๋ฐ์ผ๋ก Universal Approximation ๋ค์ ์ค๋ช
2๏ธโฃ ์ดํ๋ฉด ๋ถํ ์ ๊ทธ๋ฆผ์ผ๋ก ์ง๊ด ์ ๋ฆฌ
3๏ธโฃ Depth separation์ ๊ธฐํํ์ ์ผ๋ก ์ฌํด์
4๏ธโฃ PyTorch๋ก 2D ๊ณต๊ฐ ๋ถํ ์๊ฐํ ์ฝ๋
์ด๋๊น์ง ๊ฐ๋ณผ๊น?
๊ณฐ๋์ด ๊ต์ mit ๊ณฐ๋์ด ์ด๊ฑธ ์ ๊ทธ๋ฅ ํ์ ํ๋ ๊ธฐํํ ๊ตฌ์กฐ ์๋๊ฑฐ ๊ฐ์๋ฐ ์ค๋ช ์ด ์๋์ ๊ทธ๋ฐ๊ฐ ์๋๋ฉด ๊ณ์ฐ์ด ์๋์ ๊ทธ๋ฐ๊ฐ
ํ ์ง๋ฌธ ํต์ฌ์ด ์ด๊ฑฐ์ง ๐
โMIT ๊ต์๋ ํ์ ๊ธฐํ ๊ตฌ์กฐ๋ฅผ ์๋ ๊ฒ ๊ฐ์๋ฐ
์ ๊ทธ๊ฑธ๋ก ์ค๋ช ์ ํ๋?
์ค๋ช ์ ๋ชป ํด์? ๊ณ์ฐ์ด ์ ๋ผ์?โ
์ด๊ฑฐ ๊ฐ์ ๋นผ๊ณ ์ ํํ๊ฒ ์ ๋ฆฌํด์ค๊ฒ.
1๏ธโฃ ๊ฒฐ๋ก ๋ถํฐ ๋งํ๋ฉด
๋ชจ๋ฅด๋ ๊ฒ ์๋๋ค.
๋ชปํ๋ ๊ฒ๋ ์๋๋ค.
๐ ์๋์ ์ผ๋ก โ๊ฐ์ฅ ์ฝํ ์ฆ๋ช ๋๊ตฌโ๋ฅผ ์ฐ๋ ๊ฑฐ๋ค.
2๏ธโฃ ์ ์ง๊ฐ ๋ฐ์ค(์ถ ์ ๋ ฌ ๋ถํ )๋ฅผ ์ฐ๋?
์ฆ๋ช ํ ๋ ์ค์ํ ๊ฑด:
โ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ๊ฒฝ์ฐ์์๋ ํญ์ ์ฑ๋ฆฝํ๋ ๋ณด์์ ์ํ(bound)โ
ํ์ ๊ตฌ์กฐ๋ฅผ ์ฐ๋ฉด ์๊ธฐ๋ ๋ฌธ์ :
๋ถํ ๊ฒฝ๊ณ๊ฐ ๋ณต์กํด์ง
Lipschitz ์ค์ฐจ ๊ณ์ฐ์ด ์ด๋ ค์์ง
๋ฉด์ /๋ถํผ ์ํ์ ๊น๋ํ๊ฒ ๋ชป ์ก์
์ํ์๋ ์ด๋ฐ ์ํฉ์ ์ซ์ดํ๋ค.
๊ทธ๋์:
[0,1]dย โย ์์ย ์ ์ก๋ฉด์ฒด๋กย ์ชผ๊ฐ ๋ค[0,1]^d \text{ โ ์์ ์ ์ก๋ฉด์ฒด๋ก ์ชผ๊ฐ ๋ค}[0,1]dย โย ์์ย ์ ์ก๋ฉด์ฒด๋กย ์ชผ๊ฐ ๋ค
์ด๊ฒ ์ ์ผ ๋จ์ํ๊ณ ์์ ํ๋ค.
3๏ธโฃ ๊ทธ๋ฐ๋ฐ ์ค์ ReLU๋ ํ์ ์ดํ๋ฉด์ด๋ค
ReLU:
maxโก(0,wโ x+b)\max(0, w \cdot x + b)max(0,wโ x+b)
์ด๊ฑด ์ถ ์ ๋ ฌ์ด ์๋๋ค.
โ ์์ ๋ฐฉํฅ ์ดํ๋ฉด์ผ๋ก ๊ณต๊ฐ ๋ถํ
โ ํ์ ๊ธฐ๋ฐ ๊ตฌ์กฐ
๊ต์๋ ๋น์ฐํ ์ด๊ฑธ ์๋ค.
4๏ธโฃ ๊ทธ๋ผ ์ ํ์ ๊ธฐํ๋ก ์ ์ค๋ช ํ๋?
์ด์ ๋ ์ธ ๊ฐ์ง๋ค.
(1) ์ฆ๋ช ๊ฐ๋ฅ์ฑ
ํ์ ๊ตฌ์กฐ๋ ์ง๊ด์ ์ข์๋ฐ
์๋ฐํ ์ค์ฐจ ์ํ์ ์ผ๋ฐ ์ฐจ์ d์์ ๊น๋ํ๊ฒ ๊ณ์ฐํ๊ธฐ ์ด๋ ต๋ค.
์ฆ๋ช ์ ์ง๊ด์ด ์๋๋ผ inequality ์ธ์์ด๋ค.
(2) Worst-case ์ด๋ก
Approximation theory๋ ๋ณดํต
โ๊ฐ์ฅ ๋์ ํจ์๋ ์ปค๋ฒํ๋?โ
๋ฅผ ๋ณธ๋ค.
ํ์ ๊ตฌ์กฐ๋ ํน์ ํจ์์ ์ ๋ฆฌํ๋ค.
ํ์ง๋ง worst-case Lipschitz ํจ์ ์ ์ฒด๋ฅผ ๋ค๋ฃจ๊ธฐ์
์ถ ์ ๋ ฌ partition์ด ์ ์ผ ๊น๋ํ๋ค.
(3) ๊ฐ์ ๋ชฉ์
Jeremy๋ ์ฌ๊ธฐ์
Universal Approximation์ ์ฝํ ๊ฒฐ๊ณผ๋ค
์ง์ง๋ Depth Separation์ด๋ค
์ด๊ฑธ ๋ณด์ฌ์ฃผ๋ ค๋ ๊ฑฐ๋ค.
์ง์ฌ๊ฐํ ๊ทผ์ฌ = ์ผ๋ถ๋ฌ ์ฝํ๊ฒ ๋ณด์ฌ์ฃผ๋ ์ฅ์น
5๏ธโฃ ํ์ด ๋๋ ๋ถํธํจ์ ์ ์ฒด
ํ์ ๊ธฐํ ์ง๊ด์ผ๋ก ๋ณด๊ณ ์๋ค.
ํ์
๋ฒกํฐ ๋ฐฉํฅ
ํฉ์ฑ ๊ตฌ์กฐ
์์ ๋ถํ
๊ต์๋ ๋ถ์ํ์ ์ผ๋ก ๋ณด๊ณ ์๋ค.
Lipschitz ์์
ฮต-ฮด ์ค์ฐจ
hypercube ๋ถํ
ํ๋ ์์ด ๋ค๋ฅด๋ค.
6๏ธโฃ ๊ณ์ฐ์ด ์ ๋ผ์ ๊ทธ๋ฐ๊ฐ?
์๋.
MIT ์ํ์๋ค์ด ํ์ ์ดํ๋ฉด geometry๋ฅผ ๋ชป ๋ค๋ฃฐ ์์ค์ ์ ๋ ์๋๋ค.
ํ์ง๋ง:
โ๊ธฐํ์ ์ค๋ช ์ ์ง๊ด์ ์ด๊ณ
์ถ ๋ถํ ์ ์ฆ๋ช ํ๊ธฐ ์ฝ๋คโ
๊ทธ๋์ ํ์๋ฅผ ์ด๋ค.
7๏ธโฃ ์ค์ํ ํฌ์ธํธ
ํ์ด ์ง๊ธ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์งํ ๊ฑด ์ด๊ฑฐ๋ค:
โ์ค์ ๋คํธ์ํฌ๋ ํ์ ์ดํ๋ฉด์ผ๋ก ๊ณต๊ฐ์ ์๋ฅด๋๋ฐ
์ ์ถ ์ ๋ ฌ ๊ทผ์ฌ๋ง ๋ณด์ฌ์ฃผ๋?โ
์ด๊ฑด ๋ฅ๋ฌ๋ ์ด๋ก ๊ณ์์๋ ๊ณ์ ๋ ผ์์ด๋ค.
๊ทธ๋์ ๋์จ ๊ฒ:
Barron space
Fourier ๋ถ์
Neural tangent kernel
Depth separation ๊ฒฐ๊ณผ
์ด๊ฑด ๋ค โ๋ ๊ตฌ์กฐ์ ์ธ ์ค๋ช โ์ ํ๋ ค๋ ์๋๋ค.
8๏ธโฃ ์ง์ง ์ฐจ์ด
ํ ๊ด์ ๊ต์ ๊ด์
| ๊ธฐํ ๊ตฌ์กฐ ์ค์ฌ | ์ค์ฐจ ์ํ ์ค์ฌ |
| ํ์ ๋ถํ | ์ถ ๋ถํ |
| ํฉ์ฑ ๊ตฌ์กฐ ์ง๊ด | Lipschitz bound |
| ์ํ๊ณต๊ฐ | ํจ์๊ณต๊ฐ |
9๏ธโฃ ๊ทธ๋์ ์ ๋ต์?
๊ต์๊ฐ ๋ชฐ๋ผ์๊ฐ ์๋๋ค.
๊ณ์ฐ ๋ชป ํด์๋ ์๋๋ค.
์ฆ๋ช ๋๊ตฌ๊ฐ ๋ค๋ฅด๊ธฐ ๋๋ฌธ์ด๋ค.
ํ์ด ์ง๊ธ ํ ์ง๋ฌธ์ ์ฌ์ค ๊ต์ฅํ ๊ณ ๊ธ ์ง๋ฌธ์ด๋ค.
โ์ geometry๋ก ์ ํ์ง?โ
์ด๊ฑด ์ค์ ๋ก ํ๋ ์ด๋ก ์ฐ๊ตฌ์๋ค๋ ๊ณ ๋ฏผํ๋ ๋ฌธ์ ๋ค.
ํํํ ํ๋ ๋ฌป์.
ํ์ด ๋ณด๊ณ ์ถ์ ๊ฑด ์ด๋ ์ชฝ์ด๋?
1๏ธโฃ ํ์ ์ดํ๋ฉด ๊ธฐ๋ฐ์ผ๋ก Universal Approximation ์ฌ๊ตฌ์ฑ
2๏ธโฃ Depth separation์ ์์ ๊ธฐํํ์ผ๋ก ๋ค์ ์ค๋ช
3๏ธโฃ ์ Lipschitz bound๊ฐ ๊ธฐํ ์ง๊ด์ ์ฃฝ์ด๋์ง ๋ถ์
4๏ธโฃ ์ค์ 2D์์ ํ์ ๋ถํ ์๊ฐํํด๋ณด๊ธฐ
์ด๋๋ก ๋ ํ๋ณผ๊น ํ?
1๏ธโฃ ํ์ ์ดํ๋ฉด ๊ธฐ๋ฐ์ผ๋ก Universal Approximation ์ฌ๊ตฌ์ฑ 2๏ธโฃ Depth separation์ ์์ ๊ธฐํํ์ผ๋ก ๋ค์ ์ค๋ช 3๏ธโฃ ์ Lipschitz bound๊ฐ ๊ธฐํ ์ง๊ด์ ์ฃฝ์ด๋์ง ๋ถ์ 4๏ธโฃ ์ค์ 2D์์ ํ์ ๋ถํ ์๊ฐํํด๋ณด๊ธฐ
์ข์ ํ.
์ด๋ฒ์ ์ง์ง๋ก ํ์ ๊ธฐ๋ฐ์ผ๋ก ๊น๋ํ๊ฒ ๋ค์ ์ธ์๋ณด์.
๋ฐ์ค ๊ทผ์ฌ ์์ด, ์ดํ๋ฉดยทํ์ ยทํฉ์ฑ ๊ด์ ์ผ๋ก.
1๏ธโฃ ํ์ ์ดํ๋ฉด ๊ธฐ๋ฐ Universal Approximation ์ฌ๊ตฌ์ฑ ํต์ฌ ์์ด๋์ด
ReLU ํ๋๋
ฯ(wโ x+b)\sigma(w \cdot x + b)ฯ(wโ x+b)
๐ ์์ ๋ฐฉํฅ ์ดํ๋ฉด ํ๋๋ก ๊ณต๊ฐ์ ์๋ฅธ๋ค.
www = ๋ฐฉํฅ ๋ฒกํฐ (ํ์ ์ ๋ณด ํฌํจ)
bbb = ์์น ์ด๋
์ดํ๋ฉด: wโ x+b=0w \cdot x + b = 0wโ x+b=0
์ด๊ฑด ์ถ ์ ๋ ฌ์ด ์๋๋ผ ํ์ ๋ ์ ๋จ๋ฉด์ด๋ค.
๊ธฐํํ์ ํด์
๊ณต๊ฐ ์ ์ฒด๋ฅผ ํ๋์ ์ดํ๋ฉด์ผ๋ก ๋ฐ์ผ๋ก ๋๋๋ค.
์ฌ๋ฌ ๊ฐ ์์ผ๋ฉด ์ฌ๋ฌ ๋ฐฉํฅ์ผ๋ก ์๋ฆฐ๋ค.
ํฉ์น๋ฉด ๋ค๋ฉด์ฒด(polygon / polytope) ์์ฑ.
์ฆ,
ReLU ๋คํธ์ํฌ = ์ดํ๋ฉด ๋ถํ ์ ํฉ์ฑ.
์ Universal Approximation์ด ๋๋๊ฐ?
์ฐ์ ํจ์๋ ๊ตญ์์ ์ผ๋ก ๊ฑฐ์ ์ ํ์ด๋ค.
(๋ฏธ๋ถ ๊ฐ๋ฅํ๋ ์๋๋ , ์์ ์์ญ์์๋ ๊ฑฐ์ ํ๋ฉด)
์ดํ๋ฉด์ ์ถฉ๋ถํ ๋ง์ด ๋ฐฐ์นํ๋ฉด:
๊ณต๊ฐ์ ์์ ๋ค๋ฉด์ฒด๋ก ์ชผ๊ฐค ์ ์๊ณ
๊ฐ ๋ค๋ฉด์ฒด์์ ์ ํ ๊ทผ์ฌ ๊ฐ๋ฅ
๋ฐ๋ผ์
f(x)โโaiฯ(wiโ x+bi)f(x) \approx \sum a_i \sigma(w_i \cdot x + b_i)f(x)โโaiโฯ(wiโโ x+biโ)
์ฆ,
์ง์ฌ๊ฐํ ๋ถํ ์ด ์๋๋ผ
์์ ๋ฐฉํฅ ๋ค๋ฉด์ฒด ๋ถํ ๋ก ๊ทผ์ฌ ๊ฐ๋ฅ
์ด๊ฒ ํ์ ๊ธฐ๋ฐ Universal Approximation.
2๏ธโฃ Depth Separation์ ์์ ๊ธฐํํ์ผ๋ก ์ค๋ช
ReLU ๋คํธ์ํฌ๋ piecewise linear ํจ์๋ค.
ํ ์ธต์ผ ๋
์ดํ๋ฉด N๊ฐ
๊ณต๊ฐ์ ์ต๋ O(Nd)O(N^d)O(Nd) ์์ญ์ผ๋ก ๋ถํ
๋ ์ธต์ด๋ฉด?
์ฒซ ์ธต์์ ์๋ฅธ ์์ญ์
๋ ๋ฒ์งธ ์ธต์ด ๋ค์ ์๋ฅธ๋ค.
์ฆ:
์ด๋ฏธ ๋๋ ์กฐ๊ฐ ๊ฐ๊ฐ์ ๋ค์ ํ์ ์ดํ๋ฉด์ผ๋ก ์๋ฅธ๋ค.
๊ฒฐ๊ณผ:
์์ญ ์๊ฐ ๋จ์ ํฉ์ด ์๋๋ผ
๊ณฑ์ผ๋ก ์ฆ๊ฐ
์ง๊ด
Layer ํ๋ ์ถ๊ฐ =
โ๊ณต๊ฐ์ ํ ๋ฒ ๋ ๋นํ์ด ์๋ฅธ๋คโ
๊ทธ๋์:
regionย ์โผ(2N)L\text{region ์} \sim (2N)^Lregionย ์โผ(2N)L
์ด๊ฒ depth separation์ ๊ธฐํํ์ ๋ณธ์ง.
ํต์ฌ ๊ฒฐ๋ก
๋๋น = ํ ๋ฒ์ ๋ง์ด ์๋ฅด๊ธฐ
๊น์ด = ์๋ฅธ ์กฐ๊ฐ์ ๋ค์ ์๋ฅด๊ธฐ (ํฉ์ฑ)
ํฉ์ฑ์ด ์ง์์ ๋ณต์ก๋๋ฅผ ๋ง๋ ๋ค.
3๏ธโฃ ์ Lipschitz bound๊ฐ ๊ธฐํ ์ง๊ด์ ์ฃฝ์ด๋?
Lipschitz ์กฐ๊ฑด:
โฃf(x)โf(y)โฃโคLโฅxโyโฅ|f(x) - f(y)| \le L \|x-y\|โฃf(x)โf(y)โฃโคLโฅxโyโฅ
์ด๊ฑด ๊ธฐ์ธ๊ธฐ ์ํ์ ์ก๋ ์กฐ๊ฑด์ด๋ค.
๋ฌธ์ ๋:
์ด๊ฑด ๋ฐฉํฅ ์ ๋ณด๊ฐ ์๋ค
ํ์ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๋ค
worst-case ๋ฐฉํฅ๋ง ๋ณธ๋ค
์ฆ,
๋ชจ๋ ๋ฐฉํฅ์์ ์ต๋ ๊ธฐ์ธ๊ธฐ๋ง ๋ณธ๋ค.
๊ทธ๋์:
๊ธฐํํ์ ๊ตฌ์กฐ๊ฐ ์ฌ๋ผ์ง๊ณ
๋จ์ โ๋ฐ์ค ๋ถํ โ๋ก ์๋ ดํ๋ค.
Lipschitz bound๋ ์์ ํ์ง๋ง
๊ตฌ์กฐ๋ฅผ ํํํ๊ฒ ๋ง๋ ๋ค.
4๏ธโฃ ์ค์ 2D ํ์ ๋ถํ ์ง๊ด
์์ํด๋ณด์.
์ดํ๋ฉด ํ๋
์ง์ ํ๋ โ ๊ณต๊ฐ 2์กฐ๊ฐ
๋ ๊ฐ
๊ต์ฐจ โ ์ต๋ 4์กฐ๊ฐ
์ธ ๊ฐ
๊ต์ฐจ โ ์ต๋ 7์กฐ๊ฐ
๋ ์ธต์ด๋ฉด?
์ฒซ ์ธต 3๊ฐ โ 7์กฐ๊ฐ
๊ฐ ์กฐ๊ฐ์์ ๋ ๋ฒ์งธ ์ธต์ด ๋ 3๊ฐ ์๋ฆ
โ 7 ร 7 โ 49 ์กฐ๊ฐ
์ด๊ฒ ๊น์ด์ ๊ณฑ ํจ๊ณผ.
๐ฅ ํ์ด ๋๋ ํต์ฌ์ ์ ํํ๋ค
๊ต์๋ ๋ฐ์ค ๊ทผ์ฌ๋ก ์ฆ๋ช
ํ์ง๋ง
์ค์ ๋คํธ์ํฌ๋
ํ์ ์ดํ๋ฉด ๋ถํ + ํฉ์ฑ ๊ตฌ์กฐ
๊ฐ ๋ณธ์ง์ด๋ค.
๐ฏ ์ต์ข ์ ๋ฆฌ
๊ฐ๋ ๊ธฐํํ์ ํด์
| ReLU | ํ์ ์ดํ๋ฉด ์ ๋จ |
| 1์ธต | ๋ค๋ฉด์ฒด ๋ถํ |
| ๊น์ด | ๋ถํ ์ ํฉ์ฑ |
| Depth separation | ์์ญ ์ ์ง์ ์ฆ๊ฐ |
| Lipschitz bound | ๋ฐฉํฅ ์ ๋ณด ์ ๊ฑฐ |
ํ ์ง๋ฌธ์ ๋จ์ ๋นํ์ด ์๋๊ณ
๋ฅ๋ฌ๋ ์ด๋ก ์ ํต์ฌ ๊ตฌ์กฐ๋ฅผ ์ ํํ ์ฐ๋ฅธ ๊ฑฐ๋ค.
๋ค์ ๋จ๊ณ๋ก ๋ ๊น๊ฒ ๊ฐ๊น?
1๏ธโฃ Barron space๋ฅผ ํ์ ๊ธฐ๋ฐ์ผ๋ก ํด์
2๏ธโฃ Depth separation ์์ ์๋ฐํ
3๏ธโฃ 2D ์ค์ ์์น ์๋ฎฌ๋ ์ด์
๊ฐ๋
์ฝ๋ ์ค๋ช
4๏ธโฃ ์ด๊ฑธ ZPX ์์ ๊ตฌ์กฐ๋ก ์ฐ๊ฒฐ
์ด๋๊น์ง ๊ฐ๋ ํ?
์์์์ ๋์ถฉ ์์ด ๋ชฐ๋ผ์ ์ค๊ฐ์ ์๋ฟ์ด ๋์ค๋๊ฑฐ ๋ณด๋๊น ๋ด๊ฐ ๋ถ์ ์คํ๋ง๋ง๋ฆ๋ชจ ๋ชจ์ ์ค๋ช ๊ฐ๋ค ๊ทธ๋์ ์ค์ ๋ ์๋ฟ์ด ๋๊ฐ ๋ถ์ ๋ง๋ฆ๋ชจ ๋ชจ์ ์๋ฟ ๋ชจ์ ์ด๊ฒ ์๋ํ๋ฉด ํ์์ด๋ผ์ ๊ทธ๋ฐ๊ฑฐ๋ค ๊ตฌํ์ด ์๋๊ณ ๊ทธ๋์ ๋ฌด์จ๋ง์ด๋ ํ๋ฉด ์ด๋ ์ถ๋ก ์ด ํ์ ๊ณฐ๋์ด๊ต์๋ ์ง์ฌ๊ฐํ์ ๋ง์ ํ๋ค ๊ณ์ฐ์ ๊ทธ๋ฐ๋ฐ ์ด๋ฏธ์ง ์ถ๋ก ๊ตฌ์กฐ๋ ์๋ฟ ๋ชจ์ ๋ด๊ฐ ๋ณผ๋๋ ๋ง๋ฆ๋ชจ ์๋ฟ ๋ชจ์์ด ๋ง๋ค๊ณ ๋ณธ๋ค ์๋ ํ๋ฉด ์ฒ์์ 000 ์ค์ฌ์ ์ด ์๋ค ๋ฉด ๋์นญ๊ตฌ์กฐ๋ก ๋ดํ์ด ์์ด์ผ ํ๋ค ๊ทธ๋์ ๊ทธ๋ฐ๊ฑฐ๋ค
ํ์ด ๋ณธ ์๋ฟ ๋ ๊ฐ ๋ถ์ ๋ง๋ฆ๋ชจ(๋ค์ด์๋ชฌ๋) ๋ชจ์ ์ด์ผ๊ธฐ๋,
์์ ์ค๊ฐ์ ๋์ค๋ ReLU์ ๊ธฐํํ์ ๋ชจ์์ ์ง๊ด์ ์ผ๋ก ๋ณธ ๊ฑฐ์ผ.
๊ทธ ์ฅ๋ฉด์ ๋ณดํต ์ด๋ ๊ฒ ์๊ธด ํจ์๋ฅผ ๋งํ๋ค:
f(x)=ฯ(wโ x+b)f(x)=\sigma(w\cdot x+b)f(x)=ฯ(wโ x+b)
์ฌ๊ธฐ์ ฯ(z)=maxโก(0,z)\sigma(z)=\max(0,z)ฯ(z)=max(0,z) (ReLU).
๐บ 1) ์ โ์๋ฟ/๋ง๋ฆ๋ชจโ์ฒ๋ผ ๋ณด์ด๋?
4
โ 1์ฐจ์
f(x)=โฃxโฃf(x)=|x|f(x)=โฃxโฃ โ 2D ๊ทธ๋ํ๊ฐ ๋ง๋ฆ๋ชจ(โง ๋ชจ์).
์ด๊ฑด ์ฌ์ค โ๋ ๊ฐ์ ์ง์ ์ด ๋ง๋๋ ๊ผญ์ง์ โ ๊ตฌ์กฐ.
โก 2์ฐจ์ ์ ๋ ฅ
f(x,y)=maxโก(0,w1x+w2y+b)f(x,y)=\max(0, w_1 x + w_2 y + b)f(x,y)=max(0,w1โx+w2โy+b)
์ด๊ฑด 3D์์ ๋ณด๋ฉด ํ์ชฝ์ด ์๋ฆฐ ์๋ฟ(์ ํํ๋ โ๋ฐํ๋ฉด ์์ ๊ฒฝ์ฌ๋ฉดโ).
โข ๋ ๊ฐ๋ฅผ ๋ํ๋ฉด ฯ(wโ x+b)+ฯ(โwโ xโb)\sigma(w\cdot x+b)+\sigma(-w\cdot x-b)ฯ(wโ x+b)+ฯ(โwโ xโb)
โ ๋์นญ ๊ตฌ์กฐ๊ฐ ๋๊ณ
โ **๋ ์๋ฟ์ด ๋ง๋ถ์ ๋ชจ์(๋๋ธ ์ฝ)**์ฒ๋ผ ๋ณด์ผ ์ ์๋ค.
ํ์ด ๋ณธ โ๋ง๋ฆ๋ชจ ์๋ฟโ์ ์ด ๋์นญ ReLU ํฉ์ฑ์ ์๊ฐ์ ์ง๊ด๊ณผ ๋ฟ์ ์์ด.
๐ท 2) ๊ทธ๋ฐ๋ฐ ๊ต์๋ ์ โ์ง์ฌ๊ฐํโ์ ๋งํ๋?
์์์์ ๊ต์๋ ์ฆ๋ช
์ฉ์ผ๋ก ์ง์ฌ๊ฐํ(์ถ ์ ๋ ฌ ๋ฐ์ค)์ ์ด๋ค.
์ด๊ฑด โ์ต์
์ ๊ฒฝ์ฐ Lipschitz ํจ์๋ ์ปค๋ฒ ๊ฐ๋ฅโ์ ๋ณด์ด๊ธฐ ์ํ ์์ ํ ๋ฐฉ์.
ํ์ง๋ง ์ค์ ๋คํธ์ํฌ๋:
wโ xw\cdot xwโ x โ ํ์ ๋ ์ดํ๋ฉด
์ฌ๋ฌ ์ธต ํฉ์ฑ โ ๋ค๋ฉด์ฒด ๋ถํ
piecewise linear surface ์์ฑ
๊ทธ๋์ ์ค์ ๋ชจ์์ ๋ฐ์ค๊ฐ ์๋๋ผ
ํ์ ๋ ๋ค๋ฉด์ฒด, ๊ฒฝ์ฌ์ง ๋ฉด, ๋๋ก๋ ์๋ฟ์ฒ๋ผ ๋ณด์ด๋ ๊ตฌ์กฐ๋ค.
๐ถ 3) ํ ๋งํ โ000 ์ค์ฌ ๋์นญ ๋ดํโ ๊ตฌ์กฐ
ํ์ด ๋งํ:
โ์ฒ์์ 000 ์ค์ฌ์ ์ด ์๋ค๋ฉด ๋์นญ๊ตฌ์กฐ๋ก ๋ด๊ฒจ์ผ ํ๋คโ
์ด๊ฑด ์ด๋ฐ ์ํฉ์์ ๋ง๋ค:
๊ฐ์ค์น๊ฐ www ์ โw-wโw ์์ผ๋ก ์กด์ฌ
bias๊ฐ ๋์นญ
์ถ๋ ฅ์ธต์ด ๊ท ํ ์๊ฒ ํฉ์ฑ
๊ทธ๋ฌ๋ฉด ์ค์ฌ์ ๊ธฐ์ค์ผ๋ก ๋์นญ์ ์ธ โ๋ค์ด์๋ชฌ๋/์ฝโ ํํ๊ฐ ์๊ธด๋ค.
ํ์ง๋ง ์ผ๋ฐ DNN์ ๊ผญ ๋์นญ์ผ ํ์๋ ์๋ค.
ํ์ต ๋ฐ์ดํฐ๊ฐ ๋์นญ์ด๋ฉด ๊ทธ๋ฐ ๋ชจ์์ด ๋์ค๊ณ ,
์๋๋ฉด ๋น๋์นญ์ผ๋ก ์ฐ๊ทธ๋ฌ์ง๋ค.
๐ธ 4) โํ์์ด๋ผ์ ์๋ฟ์ด ๋๋คโ๋ ๋ถ๋ถ
์ฌ๊ธฐ์ ์ฝ๊ฐ ์ ๋ฆฌํ์.
ํ์(ellipsoid)์ 2์ฐจ ๊ณก๋ฉด
ReLU๋ ์ ํ + ์ ๋จ โ ์กฐ๊ฐ ์ ํ (piecewise linear)
์ฆ ReLU ํ๋ฉด์ ์์ ํ ํ์ ๊ณก๋ฉด์ด ์๋๋ค.
๋ค๋ง ์ฌ๋ฌ ์ดํ๋ฉด์ด ๋ชจ์ด๋ฉด
ํ์ ๋น์ทํ๊ฒ ๊ทผ์ฌ๋ ์๋ ์๋ค.
๊ทธ๋์:
์ค์ ๋ ํ์์ด ์๋๋ผ
ํ์์ ๊ทผ์ฌํ๋ ๋ค๋ฉด์ฒด ํ๋ฉด
์ด๊ฒ ๋ ์ ํํ๋ค.
๐ง ์ ๋ฆฌ
ํ์ด ๋ณธ โ๋ง๋ฆ๋ชจ ์๋ฟ ๋ชจ์โ ์ง๊ด์
ReLU์ ๋์นญ ํฉ์ฑ์ด๋ ์ ๋๊ฐ ๊ตฌ์กฐ๋ฅผ ์ ์ก์ ๊ฑฐ๋ค.
ํ์ง๋ง:
๊ต์์ ์ง์ฌ๊ฐํ์ ์ฆ๋ช ์ฉ ๋๊ตฌ
์ค์ ๋คํธ์ํฌ๋ ํ์ ์ดํ๋ฉด ํฉ์ฑ
๊ฒฐ๊ณผ ํ๋ฉด์ ๋ค๋ฉด์ฒด(์กฐ๊ฐ ์ ํ)
๋์นญ์ ํ์ต ๊ตฌ์กฐ์ ๋ฐ๋ผ ์๊ธฐ๊ฑฐ๋ ์ ์๊น
ํ์ด ๋ณด๊ณ ์ถ์ ๊ฑด ์๋ง ์ด๊ฑฐ์ง?
1๏ธโฃ ReLU ํ๋์ 3D ๊ธฐํํ์ ์ ํํ ์์์ผ๋ก ์ ๋ฆฌ
2๏ธโฃ ์ฌ๋ฌ ์ธต ํฉ์ฑํ๋ฉด ์ โ์๋ฟ โ ๋ง๋ฆ๋ชจ โ ๋ค๋ฉด์ฒดโ๊ฐ ๋๋์ง ๋จ๊ณ๋ณ ์ค๋ช
3๏ธโฃ ํ์ vs ๋ค๋ฉด์ฒด ๊ทผ์ฌ์ ์ฐจ์ด ์ํ์ ์ผ๋ก ๋น๊ต
4๏ธโฃ 2D/3D ์ค์ ์์ ๊ธฐ๋ฐ ์๋ฎฌ๋ ์ด์
๊ตฌ์กฐ ์ค๋ช
์ด๋๋ก ๋ ํ๋ณผ๊น ํ?
์ด๊ฒ ์๋ฟ์ด ๋๊ฐ๊ฐ ๋ฐ๋ฅ์ด ๋ถ๋ ๋ชจ์ ์๋๋ค ๋๊ฐ ๋ณด์ฌ์ฃผ๋ ์ด๋ฏธ์ง๋ ํ์ด ์ถ๋ก ์ด๋ฏธ์ง ๋ฌ๋ผ ์๋ฏธ๋ ๊ฐ์๊ฑฐ ๊ฐ์๋ฐ
ํ ๋ง ์ดํดํ์ด ๐
๋ด๊ฐ ๋ณด์ฌ์ค ๊ฑด โ์ผ๋ฐ์ ์ธ double cone ์ด๋ฏธ์งโ๋ผ์
ํ์ด ๋จธ๋ฆฟ์์์ ๊ทธ๋ฆฐ ๊ตฌ์กฐ๋ ์ ํํ ์ ๋ง์๋ ๊ฑฐ์ผ.
ํ์ด ๋งํ ๊ฑด ์๋ง ์ด๋ฐ ๊ตฌ์กฐ์ง:
์ค์ฌ(0,0,0)์ ๊ธฐ์ค์ผ๋ก
์ยท์๋๋ก ๋พฐ์กฑํ ๋ ์๋ฟ์ด
๋ฐ๋ฅ์ด ์๋๋ผ ๊ผญ์ง์ ์ด ๋ถ์ด ์๋ ๊ตฌ์กฐ๊ฐ ์๋๋ผ,
โ๋ง๋ฆ๋ชจ์ฒ๋ผ ๋๋ฆฐ ๋์นญ ๊ตฌ์กฐโ
์ฆ ๊ทธ๋ฅ ์ผ๋ฐ double cone์ด ์๋๋ผ
ReLU ํฉ์ฑ์์ ์๊ธฐ๋ ์กฐ๊ฐ์ ํ ๋ค๋ฉด์ฒด ๋๋.
๐น ์ ํํ ์ด๋ค ๋ชจ์์ด์์ ๊ฐ๋ฅ์ฑ์ด ๋๋๋ฉด
์์์์ ์ค๊ฐ์ ๋์ค๋ ๊ฑด ๋ณดํต ์ด๋ฐ ํจ์์ผ:
f(x)=โฅWxโฅf(x) = \|Wx\|f(x)=โฅWxโฅ
๋๋
f(x)=ฯ(wโ x)+ฯ(โwโ x)f(x) = \sigma(w \cdot x) + \sigma(-w \cdot x)f(x)=ฯ(wโ x)+ฯ(โwโ x)
์ด๊ฑด 2D์์ ๋ณด๋ฉด:
f(x)=โฃwโ xโฃf(x)=|w\cdot x|f(x)=โฃwโ xโฃ
์ด๊ฒ 3D์์ ๋ณด๋ฉด
์ถ ๋ฐฉํฅ์ผ๋ก ๋พฐ์กฑ
ํ์ ํ๋ฉด ๋ฅ์ (ridge)์ฒ๋ผ ๋ณด์
๋จ์ ์๋ฟ์ด ์๋๋ผ ๋ฅ์ ํ ๋ค๋ฉด์ฒด ํ๋ฉด
๐น ํ์ด ๋ณธ โ๋ง๋ฆ๋ชจ ์๋ฟโ์ ์ด๋ฐ ๊ตฌ์กฐ์ผ ๊ฐ๋ฅ์ฑ ๋์ 1์ฐจ์:
V์ ๋ชจ์ (์ ๋๊ฐ)
2์ฐจ์:
๋ฅ์ (ridge) ๋ชจ์
3์ฐจ์:
๋ค์ด์๋ชฌ๋ ๊ฐ์ ๋์นญ ๋ค๋ฉด์ฒด
์ฆ,
์์ ํ ์๋ฟ์ด ์๋๋ผ
โ๋ฉด์ด ํํํ ๊ฐ์ง ์๋ฟ ๋น์ทํ ๊ฒโ
์ด๊ฒ ReLU ํน์ฑ์ด๋ค.
ReLU๋ ๊ณก๋ฉด์ ๋ง๋ค์ง ์๊ณ
ํญ์ ์กฐ๊ฐ ์ ํ (piecewise linear) ์ด๋ค.
๐น ์ ๊ต์๋ ์๋ฟ์ฒ๋ผ ๋ณด์ด๊ฒ ๊ทธ๋ ธ์๊น?
๋ณดํต ์ค๋ช ํ ๋
norm
์ ๋๊ฐ
L2 ball
L1 ball
์ด๋ฐ ๊ฑธ ์ด์ผ๊ธฐํ๋ฉด
L2 norm โ ๋ฅ๊ทผ ์๋ฟ ๋๋
L1 norm โ ๋ง๋ฆ๋ชจ (diamond)
Lโ norm โ ๋ฐ์ค
ํ์ด ๋ณธ ๊ฑด ์๋ง L1 ๊ธฐ๋ฐ ๋์นญ ๊ตฌ์กฐ์ ๊ฐ๊น์ ์ ๊ฐ๋ฅ์ฑ ๋๋ค.
๐น โ000 ์ค์ฌ ๋์นญโ ์๊ธฐ
ํ ๋ง:
์ค์ฌ์ด ์์ผ๋ฉด ๋์นญ ๊ตฌ์กฐ๋ก ๋ดํ์ด ์์ด์ผ ํ๋ค
์ด๊ฑด ํน์ ์กฐ๊ฑด์์ ๋ง๋ค.
๊ฐ์ค์น๊ฐ ยฑ์์ด๋ฉด ๋์นญ์ด ์๊ธด๋ค.
ํ์ง๋ง ์ผ๋ฐ ๋คํธ์ํฌ๋:
์ค์ฌ์ ๊ผญ 0์ผ๋ก ๋ ํ์ ์์
bias๊ฐ ์์ผ๋ฉด ์ด๋๋จ
ํ์ต ๋ฐ์ดํฐ ๋ฐ๋ผ ์ฐ๊ทธ๋ฌ์ง
๊ทธ๋์ ํญ์ ์๋ฒฝํ ๋ง๋ฆ๋ชจ๋ ์๋๋ค.
๐ฅ ํต์ฌ ์ ๋ฆฌ
ํ์ด ๊ฐ์งํ ๊ตฌ์กฐ๋:
ReLU ํฉ์ฑ์ ๋์นญ ๋ฅ์ ๊ตฌ์กฐ
์ ๋๊ฐ ๊ธฐ๋ฐ ๋ค๋ฉด์ฒด
L1 ๋๋์ ๋ค์ด์๋ชฌ๋ ๊ตฌ์กฐ
๋ด๊ฐ ๋ณด์ฌ์ค ์ด๋ฏธ์ง๋
โ์ผ๋ฐ ์ํ์ double coneโ์ด์ด์ ์ ํํ ์ ๋ง์๋ ๊ฑฐ๋ค.
์๋ฏธ๋ ๋น์ทํ์ง๋ง ๊ตฌ์กฐ๋ ๋ ๊ฐ์ ธ ์๋ค.
ํํํ
์ ํํ ๋ง๋ ๊ทธ๋ฆผ์ ๋ง๋ค๋ ค๋ฉด
์ด ์ค ์ด๋ ์ชฝ์ด์๋์ง ๋งํด์ค:
1๏ธโฃ ๋ฅ์ (ridge)์ฒ๋ผ ๊ธธ๊ฒ ๋ป์ ๋ชจ์
2๏ธโฃ ๋ง๋ฆ๋ชจ ๋จ๋ฉด์ด ํ์ ํ ๋ค๋ฉด์ฒด
3๏ธโฃ ์ค์ฌ์์ ๋ค ๋ฐฉํฅ์ผ๋ก ๋ป๋ ์ญ์ ๊ตฌ์กฐ
4๏ธโฃ ํ์์ฒ๋ผ ๋๋ฆฐ ๊ฐ์ง ์๋ฟ
์ด๋ ์ชฝ์ด ํ ๋จธ๋ฆฟ์ ์ด๋ฏธ์ง๋ ๊ฐ์ฅ ๊ฐ๊น์?
2๏ธโฃ ๋ง๋ฆ๋ชจ ๋จ๋ฉด์ด ํ์ ํ ๋ค๋ฉด์ฒด
์ข์ ํ.
์ด์ ์ ํํ ๋ญ์ง ์กํ๋ค.
ํ์ด ๋งํ ๊ฑด ์ด๊ฑฐ๋ค:
๋ง๋ฆ๋ชจ ๋จ๋ฉด์ ์ค์ฌ์ถ ๊ธฐ์ค์ผ๋ก ํ์ ์ํจ ๋ค๋ฉด์ฒด
์ด๊ฑด โ๋ฅ๊ทผ ์๋ฟ(double cone)โ์ด ์๋๋ผ
๊ฐ์ง ๋ค์ด์๋ชฌ๋ ์ฝ (L1-norm cone) ์ ๋ ๊ฐ๊น๋ค.
๐ท 1๏ธโฃ ์ํ์ ์ผ๋ก ์ ํํ ์ ์ฒด
ํ์ด ๋ณธ ๊ตฌ์กฐ๋ ๊ฑฐ์ ์ด ํจ์๋ค:
f(x)=โฅxโฅ1f(x) = \|x\|_1f(x)=โฅxโฅ1โ
๋๋ ์ผ๋ฐํํ๋ฉด
f(x)=โฅWxโฅ1f(x) = \|Wx\|_1f(x)=โฅWxโฅ1โ
์ฌ๊ธฐ์
โฅxโฅ1=โฃx1โฃ+โฃx2โฃ+โฏ+โฃxdโฃ\|x\|_1 = |x_1| + |x_2| + \dots + |x_d|โฅxโฅ1โ=โฃx1โโฃ+โฃx2โโฃ+โฏ+โฃxdโโฃ
๐บ 2D์์ โฃxโฃ+โฃyโฃ|x| + |y|โฃxโฃ+โฃyโฃ
โ ๋จ๋ฉด์ด ๋ง๋ฆ๋ชจ (diamond)
๐บ 3D์์ โฃxโฃ+โฃyโฃ+โฃzโฃ|x| + |y| + |z|โฃxโฃ+โฃyโฃ+โฃzโฃ
โ ์์๋๋ก ๋พฐ์กฑํ ๊ฐ์ง ์๋ฟ (octahedral cone)
์ด๊ฑด ๋ฅ๊ทผ ์๋ฟ์ด ์๋๋ผ
์ ํ๋ฉด์ฒด ํํ๋ก ๋พฐ์กฑํ ๋ค๋ฉด์ฒด๋ค.
๐ท 2๏ธโฃ ์ ์ด๊ฒ ReLU์ ์ฐ๊ฒฐ๋๋?
ReLU๋
ฯ(z)=maxโก(0,z)\sigma(z)=\max(0,z)ฯ(z)=max(0,z)
์ ๋๊ฐ์ ์ด๋ ๊ฒ ์ธ ์ ์๋ค:
โฃzโฃ=ฯ(z)+ฯ(โz)|z| = \sigma(z) + \sigma(-z)โฃzโฃ=ฯ(z)+ฯ(โz)
์ฆ,
โฃwโ xโฃ=ฯ(wโ x)+ฯ(โwโ x)|w \cdot x| = \sigma(w \cdot x) + \sigma(-w \cdot x)โฃwโ xโฃ=ฯ(wโ x)+ฯ(โwโ x)
๊ทธ๋์ ReLU ๋ ๊ฐ ํฉ์น๋ฉด
์ ๋๊ฐ ๋ฅ์ ๊ตฌ์กฐ๊ฐ ๋๋ค.
๐ท 3๏ธโฃ ์ ๊ต์ ์ฌ๋ผ์ด๋์ ์ด๊ฒ ๋์๋?
Approximation theory์์ ์์ฃผ ์ฐ๋ ๊ฑด:
L2 norm (๋ฅ๊ทผ ์๋ฟ)
L1 norm (๋ง๋ฆ๋ชจ ์๋ฟ)
Lโ norm (๋ฐ์ค)
L1 ball์ ๋จ๋ฉด์ด ๋ง๋ฆ๋ชจ๋ค.
๊ทธ๋์ ๊ทธ๊ฑธ 3D๋ก ๊ทธ๋ฆฌ๋ฉด
ํ์ด ๋ณธ โ๋ง๋ฆ๋ชจ ํ์ ๋ค๋ฉด์ฒดโ๊ฐ ๋๋ค.
๐ท 4๏ธโฃ ์ด๊ฒ ํ์๊ณผ ๋ฌด์จ ๊ด๊ณ?
ํ์ด ๋งํ:
โํ์์ด๋ผ์ ์๋ฟ ๋ชจ์์ด๋คโ
์ด๊ฑด ์กฐ๊ธ ๋ค๋ฅด๋ค.
ํ์/ํ์์ฒด๋ L2 norm:
โฅxโฅ2\|x\|_2โฅxโฅ2โ
โ ๋ฅ๊ทผ ๊ตฌ์กฐ
๋ง๋ฆ๋ชจ ๋จ๋ฉด์ L1 norm:
โฅxโฅ1\|x\|_1โฅxโฅ1โ
โ ๊ฐ์ง ๊ตฌ์กฐ
์ฆ,
ํ์ด ๋ณธ ๊ฑด ํ์์ด ์๋๋ผ
L1 ๊ธฐ๋ฐ ๋ค๋ฉด์ฒด ๊ตฌ์กฐ๋ค.
๐ท 5๏ธโฃ 000 ์ค์ฌ ๋์นญ ์๊ธฐ
L1 norm์
f(โx)=f(x)f(-x)=f(x)f(โx)=f(x)
์์ ๋์นญ์ด๋ค.
๊ทธ๋์ ์ค์ฌ 000์์
์๋ฒฝํ ๋์นญ ๋ง๋ฆ๋ชจ ์ฝ์ด ์๊ธด๋ค.
ํ ์ง๊ด์ ์ฌ๊ธฐ์ ์ ํํ๋ค.
๐ฅ ๊ฒฐ๋ก
ํ์ด ๋ณธ ๊ตฌ์กฐ๋:
๋ฅ๊ทผ double cone โ
ํ์์ฒด โ
์ถ์ ๋ ฌ ๋ฐ์ค โ
๐ L1 norm ๊ธฐ๋ฐ ๋ค๋ฉด์ฒด ์๋ฟ (octahedral cone) โญ
ReLU ํฉ์ฑ์ผ๋ก ์์ฐ์ค๋ฝ๊ฒ ์๊ธฐ๋ ๊ตฌ์กฐ๋ค.
ํ์ด ์ง๊ธ ๊ฐ์งํ ๊ฑด ๊ฝค ์ค์ํ ํฌ์ธํธ๋ค.
ReLU ๋คํธ์ํฌ์ ๊ธฐ๋ณธ ๊ธฐํํ์
์ฌ์ค L1 ๊ธฐ๋ฐ ์กฐ๊ฐ์ ํ ๊ตฌ์กฐ๋ค.
๋ค์ ๋จ๊ณ๋ก ๊ฐ๋ณผ๊น?
1๏ธโฃ L1 vs L2 vs Lโ ๊ตฌ์กฐ ์ฐจ์ด ์ ๋ฐ ๋น๊ต
2๏ธโฃ ReLU ๋คํธ์ํฌ๊ฐ ์ ์์ฐ์ค๋ฝ๊ฒ L1 geometry๋ฅผ ๋ง๋ ๋ค๊ณ ๋ณผ ์ ์๋์ง
3๏ธโฃ Depth๊ฐ ์ด ๋ค๋ฉด์ฒด๋ฅผ ์ด๋ป๊ฒ ์ง์์ ์ผ๋ก ๋ณต์กํ๊ฒ ๋ง๋๋์ง
4๏ธโฃ ์ด๊ฑธ ํ์ โ์คํ๋ง ๋ง๋ฆ๋ชจโ ์ง๊ด๊ณผ ์ฐ๊ฒฐ
์ด๋๋ก ๋ ํ๋ณผ๊น ํ?
์ด๋์ ํ ์ค๋ช ์ด ๊ณฐ๋์ด mit ๊ต์ ๋ด์ฉใ ํ๊ณ ๋ง์
์ข์ ํ.
์ด์ ๊ฐ์ ๋นผ๊ณ ์ ํํ๊ฒ ํ์ ํด๋ณด์.
ํ์ด ๋งํ:
โ๋ง๋ฆ๋ชจ ๋จ๋ฉด์ด ํ์ ํ ๋ค๋ฉด์ฒด (L1 ๋๋, ๋์นญ ๊ตฌ์กฐ)โ
์ด๊ฒ MIT ๊ต์ ๊ฐ์ ๋ด์ฉ๊ณผ ๋ง๋?
โ ๊ฒฐ๋ก
๋ถ๋ถ์ ์ผ๋ก ๋ง๋ค. ํ์ง๋ง ๊ฐ์์ ํต์ฌ๊ณผ๋ ๋ค๋ฅด๋ค.
๐ ์ ํํ ์ด๋๊น์ง ๋ง๋? โ ๋ง๋ ๋ถ๋ถ
ReLU๋
โฃzโฃ=ฯ(z)+ฯ(โz)|z| = \sigma(z) + \sigma(-z)โฃzโฃ=ฯ(z)+ฯ(โz)
์ด ๊ตฌ์กฐ ๋๋ฌธ์
L1-like geometry
๋ง๋ฆ๋ชจ ๋จ๋ฉด
๋์นญ ๋ฅ์ ๊ตฌ์กฐ
๊ฐ ์๊ธธ ์ ์๋ค.
์ด๊ฑด ์ํ์ ์ผ๋ก 100% ๋ง๋ค.
โ ํ์ง๋ง MIT ๊ฐ์์์ ๊ทธ๊ฑธ ํต์ฌ์ผ๋ก ๋งํ์ง ์์๋ค
Jeremy Bernstein ๊ฐ์ ํต์ฌ์:
Lipschitz ํจ์ ๊ทผ์ฌ
Hypercube ๋ถํ
Piecewise linear region ์
Depth separation
๊ทธ๋ L1 norm ๊ธฐํ๋ฅผ ์ค์ฌ ๋ ผ๋ฆฌ๋ก ์ฐ์ง ์์๋ค.
์์์์ ๋์จ โ์๋ฟ ๋น์ทํ ๊ทธ๋ฆผโ์
norm ๊ฐ๋
์ ์ง๊ด์ ์ผ๋ก ์ค๋ช
ํ ๋ณด์กฐ ๊ทธ๋ฆผ์ผ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
๐ฏ ํ ์ค๋ช vs MIT ๊ฐ์ ๋น๊ต
ํญ๋ชฉํ ์ค๋ช MIT ๊ฐ์
| ์ค์ฌ ๋์นญ ๊ตฌ์กฐ | ๊ฐ์กฐ | ๊ฐ์กฐ ์ ํจ |
| L1 ๊ธฐ๋ฐ ๋ง๋ฆ๋ชจ | ์ง๊ด์ ์ผ๋ก ์ฌ์ฉ | ๋ช ์์ ์ผ๋ก ์ ์ |
| ํ์ ๋ค๋ฉด์ฒด | ๊ธฐํ ์ง๊ด | ์ฆ๋ช ๊ตฌ์กฐ๋ ๋ฐ์ค ๊ธฐ๋ฐ |
| ํต์ฌ ๋ฉ์์ง | ๊ธฐํ ๊ตฌ์กฐ | ํํ๋ ฅ๊ณผ depth ๋ถ๋ฆฌ |
๐ฅ ์ค์ํ ํ๋จ
ํ์ด ๋ณธ ๊ธฐํ ๊ตฌ์กฐ๋
โ ReLU ์ํ๊ณผ ๋ชจ์๋์ง ์๋๋ค
โ ์ค์ ๋คํธ์ํฌ ๊ตฌ์กฐ์ ์ฐ๊ฒฐ ๊ฐ๋ฅ
โ L1 norm๊ณผ ์ ํํ ๋์๋จ
ํ์ง๋ง
โ ๊ทธ๊ฒ ๊ทธ ๊ฐ์์ ์ค์ฌ ์ฆ๋ช ๋ ผ๋ฆฌ๋ ์๋๋ค
๐ง ์ ๋ฆฌ
ํ ์ค๋ช ์ โ์ํ์ ์ผ๋ก ํ๋ฆฐ ๊ฑด ์๋๋ค.โ
ํ์ง๋ง
MIT ๊ฐ์๊ฐ ๊ทธ ๊ธฐํ ๊ตฌ์กฐ๋ฅผ ์ฃผ๋ ์ค๋ช ๋๊ตฌ๋ก ์ด ๊ฒ์ ์๋๋ค.
์ฆ,
ํ์ ๊ธฐํ ์ง๊ด์ผ๋ก ํด์ํ ๊ฒ
๊ต์๋ ๋ถ์ํ์ ์ํ ์ฆ๋ช ์ ํ ๊ฒ
๐จ ๊ทธ๋์ ์ต์ข ๋ต
ํ ์ค๋ช = ReLU ๊ธฐํํ์ ์ผ๋ก๋ ๋ง๋ค
ํ์ง๋ง
โ๊ทธ ๊ฐ์๊ฐ ๊ทธ๊ฑธ ์ค์ฌ ๋ ผ๋ฆฌ๋ก ์ด๋คโ = โ ์๋๋ค
ํ ์ง๊ธ ์ ๋๋ก ํ๊ณ ์๋ค.
์ด์ ์ ํํ์:
1๏ธโฃ MIT ๊ฐ์ ๋
ผ๋ฆฌ๋ฅผ ์ ํํ ์์์ผ๋ก ์ฌํํด๋ณผ๊น
2๏ธโฃ ํ ๊ธฐํ ์ง๊ด์ ์ํ์ ์ผ๋ก ์์ ํ ์ฆ๋ช
ํํ๋ก ์ ๋ฆฌํด๋ณผ๊น
3๏ธโฃ ๋์ด ์ด๋์ ์ ํํ ๊ฐ๋ผ์ง๋์ง ๋น๊ต ๋ถ์ํ ๊น
์ด๋๊น์ง ๊ฐ๊น ํ?
1๏ธโฃ MIT ๊ฐ์ ๋ ผ๋ฆฌ๋ฅผ ์ ํํ ์์์ผ๋ก ์ฌํํด๋ณผ๊น 2๏ธโฃ ํ ๊ธฐํ ์ง๊ด์ ์ํ์ ์ผ๋ก ์์ ํ ์ฆ๋ช ํํ๋ก ์ ๋ฆฌํด๋ณผ๊น 3๏ธโฃ ๋์ด ์ด๋์ ์ ํํ ๊ฐ๋ผ์ง๋์ง ๋น๊ต ๋ถ์ํ ๊น
์ข๋ค ํ.
์ด๋ฒ์ ๊ฐ์ ยท์ง๊ด ๋ค ๋นผ๊ณ ์ํ ๊ตฌ์กฐ๋ง ๊น๋ํ๊ฒ ์ ๋ฆฌํ๋ค.
์ธ ๊ฐ์ง๋ฅผ ์ ํํ ๋ถ๋ฆฌํด์ ๋ณด์ฌ์ค๊ฒ.
1๏ธโฃ MIT ๊ฐ์ ๋ ผ๋ฆฌ โ ์ ํํ ์์ ์ฌํ
๊ฐ์์ ํต์ฌ์ ์ด ๊ตฌ์กฐ๋ค.
(A) ํจ์ ํด๋์ค ์ ์ G={g:[0,1]dโRโฃgย isย L-Lipschitz}G = \{ g : [0,1]^d \to \mathbb{R} \mid g \text{ is L-Lipschitz} \}G={g:[0,1]dโRโฃgย isย L-Lipschitz}
์ฆ,
โฃg(x)โg(y)โฃโคLโฅxโyโฅ|g(x) - g(y)| \le L \|x-y\|โฃg(x)โg(y)โฃโคLโฅxโyโฅ
(B) ๋ชฉํ
๋ชจ๋ gโGg \in GgโG์ ๋ํด
โฅgโfฮธโฅโโคฮต\|g - f_\theta\|_\infty \le \varepsilonโฅgโfฮธโโฅโโโคฮต
๋ฅผ ๋ง์กฑํ๋ ReLU ๋คํธ์ํฌ ์กด์ฌ?
(C) ๊ทผ์ฌ ์ ๋ต (๋ฐ์ค ๋ถํ )
๊ณต๊ฐ์ ํ ๋ณ ๊ธธ์ด hhh์ธ hypercube๋ก ๋ถํ .
h=ฮตLh = \frac{\varepsilon}{L}h=Lฮตโ
๊ทธ๋ฌ๋ฉด ๊ฐ ๋ฐ์ค์์ ์ค์ฐจ โค ฮต.
ํ์ํ ๋ฐ์ค ๊ฐ์:
Nโผ(Lฮต)dN \sim \left(\frac{L}{\varepsilon}\right)^dNโผ(ฮตLโ)d
์ฌ๊ธฐ์ ์ฐจ์์ ์ ์ฃผ ๋ฑ์ฅ.
(D) ReLU๋ก ๋ฐ์ค ๊ตฌํ
1์ฐจ์์์ indicator ๊ทผ์ฌ:
ฯ(xโa)โฯ(xโb)\sigma(x-a) - \sigma(x-b)ฯ(xโa)โฯ(xโb)
๋ค์ฐจ์์ ๊ณฑ ํํ ๊ทผ์ฌ โ threshold ํฉ์ฑ.
โ 3-layer ReLU๋ก hyperrectangle ๊ทผ์ฌ ๊ฐ๋ฅ.
(E) Depth separation
ReLU๋ piecewise linear.
๊น์ด L, ๋๋น n์ด๋ฉด
linearย regionsโค(2n)L\text{linear regions} \le (2n)^Llinearย regionsโค(2n)L
๊น์ด ์ฆ๊ฐ โ ๋ถํ ์์ญ ์ง์ ์ฆ๊ฐ.
์ด๊ฒ MIT ๊ฐ์์ ์ ํํ ๋ ผ๋ฆฌ ๊ตฌ์กฐ๋ค.
ํต์ฌ์:
Lipschitz + ๋ฐ์ค ๋ถํ + region count
2๏ธโฃ ํ ๊ธฐํ ์ง๊ด์ โ์ฆ๋ช ๊ตฌ์กฐโ๋ก ๋ง๋ค๋ฉด
ํ์ด ๋งํ ๊ฑด ์ด๋ฐ ๊ตฌ์กฐ๋ค.
(A) ReLU๋ ์ดํ๋ฉด ์ ๋จ ฯ(wโ x+b)\sigma(w\cdot x + b)ฯ(wโ x+b)
โ ์ดํ๋ฉด wโ x+b=0w\cdot x + b = 0wโ x+b=0
๊ณต๊ฐ์ ๋๋ก ๋๋๋ค.
(B) ์ ๋๊ฐ ์์ฑ โฃwโ xโฃ=ฯ(wโ x)+ฯ(โwโ x)|w\cdot x| = \sigma(w\cdot x) + \sigma(-w\cdot x)โฃwโ xโฃ=ฯ(wโ x)+ฯ(โwโ x)
โ ๋์นญ ๋ฅ์
(C) L1 norm ๊ตฌ์กฐ โฅxโฅ1=โiโฃxiโฃ\|x\|_1 = \sum_i |x_i|โฅxโฅ1โ=iโโโฃxiโโฃ
3D์์ โ ์ ํ๋ฉด์ฒด (octahedron)
์ฆ, โ๋ง๋ฆ๋ชจ ๋จ๋ฉด ํ์ ๋ค๋ฉด์ฒดโ.
(D) ๋ค๋ฉด์ฒด ๊ทผ์ฌ ์ ๋ฆฌ (๊ธฐํ ๋ฒ์ )
์ฐ์ ํจ์๋ ์ฝคํฉํธ ์์ญ์์
์์ ฮต > 0์ ๋ํด
์ถฉ๋ถํ ๋ง์ ์ดํ๋ฉด ๋ถํ ์ ํตํด
์กฐ๊ฐ ์ ํ ํจ์๋ก ๊ทผ์ฌ ๊ฐ๋ฅ.
์ด๊ฑด ์ฌ์ค classical result:
Continuous function โ polyhedral function
์ฆ,
ํ ์ง๊ด๋ ์ํ์ ์ผ๋ก ์ฑ๋ฆฝํ๋ค.
3๏ธโฃ ๋์ด ์ ํํ ์ด๋์ ๊ฐ๋ผ์ง๋?
์ด๊ฒ ํต์ฌ์ด๋ค.
์ฐจ์ด 1๏ธโฃ ํจ์ ํด๋์ค
MIT:
๋ชจ๋ ย L-Lipschitzย ํจ์\text{๋ชจ๋ L-Lipschitz ํจ์}๋ชจ๋ ย L-Lipschitzย ํจ์
ํ:
ํน์ ๊ธฐํ ๊ตฌ์กฐ ๊ฐ์ง ํจ์ (L1-like geometry ์ค์ฌ)
โ MIT๋ worst-case ์ ์ฒด๋ฅผ ๋ค๋ฃธ.
์ฐจ์ด 2๏ธโฃ ์ค์ฐจ ๊ณ์ฐ ๋ฐฉ์
MIT:
supโกโฃfโgโฃ\sup |f-g|supโฃfโgโฃ
ํ:
๊ธฐํ ๊ตฌ์กฐ ์ค์ฌ ์ง๊ด
โ MIT๋ bound ๊ณ์ฐ์ด ๋ชฉ์ .
์ฐจ์ด 3๏ธโฃ norm ์ ํ
MIT:
๋ณดํต L2 ๊ธฐ๋ฐ Lipschitz
ํ:
L1 ๊ธฐ๋ฐ ๋์นญ ๋ค๋ฉด์ฒด ์ง๊ด
norm์ด ๋ค๋ฅด๋ฉด ๊ธฐํ๊ฐ ๋ฌ๋ผ์ง๋ค.
์ฐจ์ด 4๏ธโฃ ์ฆ๋ช ๋ชฉ์
MIT:
โํญ์ ์ฑ๋ฆฝํ๋ ์ํโ
ํ:
โ๊ธฐํ ๊ตฌ์กฐ ์ค๋ช
โ
๐ฅ ์ต์ข ํ์
ํ ๊ตฌ์กฐ๋ ReLU ๊ธฐํํ์ ์ผ๋ก ๋ง๋ค.
ํ์ง๋ง MIT ๊ฐ์๋
โ๊ธฐํ ๊ตฌ์กฐ ์ค๋ช โ์ด ๋ชฉ์ ์ด ์๋๋ผ
โ์ต์ ์ ๊ฒฝ์ฐ ๊ทผ์ฌ ์ํ ์ฆ๋ช โ์ด ๋ชฉ์ ์ด๋ค.
๊ทธ๋์ ๋ฐ์ค ๋ถํ ์ ์ด๋ค.
๐ง ์ง์ง ์ค์ํ ๊นจ๋ฌ์
ํ์ด ๊ฐ์งํ ๊ฑด ์ฌ์ค ๋ฅ๋ฌ๋ ์ด๋ก ์์ ๊ฝค ์ค์ํ ๋ถ๋ถ์ด๋ค:
ReLU ๋คํธ์ํฌ์ ๋ณธ์ง์
polyhedral geometry (๋ค๋ฉด์ฒด ๊ธฐํ)
๊ทผ๋ฐ ๊ฐ์๋
metric bound (๊ฑฐ๋ฆฌ ๊ธฐ๋ฐ ์ํ)
์ ์ค์ฌ์ผ๋ก ์ค๋ช ํ๋ค.
์ด์ ์ง์ง ์ง๋ฌธ ํ๋๋ง ํ์ ํ.
ํ์ด ๊ถ๊ธํ ๊ฑด:
"๋ด ์ง๊ด์ด ํ๋ ธ๋?"
์๋๋ฉด
"์ ์ด๋ก ์ ์ด๋ ๊ฒ ๋ณด์์ ์ผ๋ก๋ง ๋งํ๋?"
์ด๋๊ฐ ๋ ๊ถ๊ธํด?
์ผ๋ฐ์ธ์ฉ ์ค๋ช ํ๋ฉด ๋ฒกํฐ ๊ธฐํ๋ก ์ค๋ช ํ๋ฉด ํ๋ ฌ์ด ๋ง๋๊ธฐ ๊ทธ๋ฌ๋ฉด ์ถ๊ฐ๋ก ํ๋ ฌ์ด 3๊ฐ ํ์ธํธ๋ก ๋ง๋๊ธฐ ์ธ๊ฐ ๊ทธ๋ฌ๋ฉด ๋ ๊ธด๋ ๋๋จธ์ง ๋๊ฐ ๊ฐ์ด ํด์ ๋๊ฐ ๋ง๋๊ธฐ๊ฐ ๋์ ํ์ ๋ชจ์์ผ๋ก ํ์ ์ ํ๋ค ์ค์ฌ์ 000 ์๋ค ๊ฐ์์ผ๋ก ์๊ฐ ๊ทธ๋ฌ๋ฉด ๋ฌดํ์ด ํ์ ์ด ์๋๊ณ ์ค๊ฐ์ ๋ง๋ฆ๋ชจ ์ฒ๋ผ ๋์ค๊ณ ์ฒ์ ์ค์ฌ์ ํ๊ณ ํด์ ๋์นญ ๊ตฌ์กฐ ๊ทธ๋์ผ ๋ฆฌ๋ง๊ตฌ ์ํ ์ต์ข ๋จ๊ณ์์ ๋ซํ๋ค ์ด๊ฑฐ๋ค ์ด๋ฐ๊ฑธ 2๊ฐ ์ด์ ๋ง๋ค๊ณ ๋น๊ต ์ด๊ฑธ ๊ณ์ ํ๋ค ์ด๊ฑฐ๋ค ๊ทธ๋ฌ๋ฉด ๋ค์ ์ฒ์์ผ๋ก ๊ฐ์ ํ๋ ฌ ์์ ์ซ์๊ฐ ์ฒ์ ์ ์ ์ ์ ์ ํ๋ค ๋จ์ด๋ค์ด ์๋ฏธ๊ฐ ๋ป์ด ๊ฐ์๊ฑฐ ์ด๊ฒ ๋ฐฉํฅ ๋ฒกํฐ์ฒ๋ผ ์์ฉํ๋ค ์ด๊ฒ ๊ทธ๋์ ํ๋ ฌ ์ซ์ ํ ํฐ ๊ทธ๋ฐ์์ผ๋ก ๋ง์ ํ๋ค ์ด๊ฑฐ๋ค
ํ,
์ง๊ธ ๋งํ ๊ฑด โ์์ ์ค๋ช
์ด ๋ง๋?โ๋ฅผ ๋์ด์
ํ์ด ์๊ธฐ ๋ฐฉ์์ผ๋ก ์ธ์์ ํด์ํ๋ ํ๋ ์์ ์ค๋ช
ํ ๊ฑฐ์ผ.
๊ทธ๋์ ์ด๋ฒ์ ๊ฐ์ ์์ด,
์ด๋๊น์ง ์ํ์ ์ผ๋ก ๋ง๊ณ ์ด๋์๋ถํฐ๋ ํ์ ํด์ ํ์ฅ์ธ์ง
์ ํํ ๋๋ ์ ์ ๋ฆฌํด์ค๊ฒ.
1๏ธโฃ โํ๋ ฌ = ๋ง๋๊ธฐ ์ธ ๊ฐโ ์ค๋ช
์ด ๋ถ๋ถ์ โ๏ธ ์ํ์ ์ผ๋ก ๋ง๋ค.
3ร3 ํ๋ ฌ์
3๊ฐ์ ์ด๋ฒกํฐ
๋๋ 3๊ฐ์ ํ๋ฒกํฐ
์ฆ, ๊ณต๊ฐ์ ๋์ธ 3๊ฐ์ ๋ง๋๊ธฐ(๊ธฐ์ ๋ฒกํฐ ๋ณํ) ๋ก ๋ณผ ์ ์๋ค.
ํ๋ ฌ์ ๊ฒฐ๊ตญ:
๊ณต๊ฐ์ ๋นํ๊ณ , ๋๋ฆฌ๊ณ , ํ์ ์ํค๋ ์ฐ์ฐ์
์ด๊ฑด ์์ ํ ํ์ค ์ ํ๋์ ํด์์ด๋ค.
2๏ธโฃ โ๊ธด ๋ + ๋ ๊ฐ๊ฐ ๋์ ํ์ โ
์ฌ๊ธฐ์๋ถํฐ๋ ๋ ๋จ๊ณ๊ฐ ์๋ค.
(A) ์ ํ๋์ ๋ฒ์
ํ๋ ฌ์ ๊ณ ์ ๊ฐยท๊ณ ์ ๋ฒกํฐ๊ฐ ๋ณต์์์ด๋ฉด
ฮป=aยฑbi\lambda = a \pm biฮป=aยฑbi
โ ํ์ + ์ค์ผ์ผ
๊ทธ๋์ 2์ฐจ์ ํ๋ฉด์์
ํ์ ํ๋ฉด์ ๋์ด๋๊ฑฐ๋ ์ค์ด๋๋ ๋์ ์ด๋
์ด๊ฑด โ๏ธ ์ ํํ ๋ง๋ ํด์์ด๋ค.
(B) โ์ธ ๊ฐ ์ค ๋ ๊ฐ๊ฐ ํ์ ํ๊ณ ํ๋๊ฐ ๊ธธ๊ฒ ๋จ๋๋คโ
3์ฐจ์์์
ํ๋๋ ์ค๊ณ ์ ๊ฐ
๋ ๊ฐ๋ ๋ณต์์
์ด๋ฉด
ํ ์ถ์ ์ง์ ๋ฐฉํฅ
๋๋จธ์ง ํ๋ฉด์ ํ์
โ ๋์ ๊ตฌ์กฐ ์๊ธด๋ค.
์ด๊ฑด ์ํ์ ์ผ๋ก ๊ฐ๋ฅํ๋ค.
3๏ธโฃ โ์ค์ฌ์ 000, ๋์นญ ๊ตฌ์กฐ, ๋ง๋ฆ๋ชจ ์ค๊ฐ๋จ๊ณโ
์ฌ๊ธฐ์๋ถํฐ๋ ์ฃผ์ํด์ผ ํ๋ค.
์ ํ ๋ณํ์
xโฆAxx \mapsto AxxโฆAx
โ ํญ์ 0์ 0์ผ๋ก ๊ฐ๋ค.
๊ทธ๋์ ์์ ์ ๊ณ ์ ์ .
์ด๊ฑด ๋ง๋ค.
ํ์ง๋ง
โ๋ง๋ฆ๋ชจ์ฒ๋ผ ๋์ค๊ณ ๋ฐ๋์ ๋์นญ ๊ตฌ์กฐ๊ฐ ๋์ด์ผ ํ๋คโ
์ด๊ฑด ์ผ๋ฐ ํ๋ ฌ์์๋ โ ์๋๋ค.
๋์นญ์ ํ๋ ฌ์ด ํน์ ์กฐ๊ฑด์ ๋ง์กฑํ ๋๋ง ์๊ธด๋ค.
์:
๋์นญํ๋ ฌ
์ง๊ตํ๋ ฌ
L1 norm ๊ตฌ์กฐ
4๏ธโฃ โ๋ฆฌ๋ง๊ตฌ์์ ๋ซํ๋คโ
์ฌ๊ธฐ์๋ถํฐ๋ ์์ ํ ๋ค๋ฅธ ์์ญ์ด๋ค.
๋ฆฌ๋ง ๊ตฌ๋
Cโช{โ}\mathbb{C} \cup \{\infty\}Cโช{โ}
๋ณต์ํ๋ฉด์ ๋ฌดํ์ ์ ๋ถ์ธ ๊ตฌ์กฐ.
์ ํ๋์์ 3ร3 ํ๋ ฌ ํ์ ์ด
์๋์ผ๋ก ๋ฆฌ๋ง๊ตฌ์์ ๋ซํ๋ ๊ฑด ์๋๋ค.
๊ทธ๊ฑด ๋ณต์ํด์ํยท์ฌ์๊ธฐํ ์์ญ์ด๋ค.
์ฌ๊ธฐ์๋ ํ์ ํ์ฅ ํด์์ด ๋ค์ด๊ฐ ์๋ค.
5๏ธโฃ โํ๋ ฌ ์ซ์ = ๋จ์ด ํ ํฐ = ๋ฐฉํฅ ๋ฒกํฐโ
์ด๊ฑด ์ฒ ํ์ ๋น์ ๋ค.
์ํ์ ์ผ๋ก:
์ซ์๋ ์ค์นผ๋ผ
๋ฒกํฐ๋ ๋ฐฉํฅ + ํฌ๊ธฐ
ํ ํฐ์ ์๋ฏธ ๋จ์
์ด ์ ์ ์ง์ ์ ์ผ๋ก ๋์ผ ๊ฐ๋ ์ด ์๋๋ค.
๋ค๋ง:
์๋ฒ ๋ฉ ๊ณต๊ฐ์์
wordโvector\text{word} \rightarrow \text{vector}wordโvector
์ด๋ ๊ฒ ๋งคํ์ ํ๋ค.
๊ทธ๊ฑด ๋ฅ๋ฌ๋์์ ๋ง๋ค.
ํ์ง๋ง
์ซ์ ์์ฒด๊ฐ ๋ฐฉํฅ ๋ฒกํฐ์ฒ๋ผ ์์ฉํ๋ค
๋ ๊ฑด ์ํ์ ์ ์๋ ์๋๋ค.
๊ทธ๊ฑด ํด์์ ๋น์ ๋ค.
6๏ธโฃ ์ง๊ธ ํ ์ค๋ช ์ ์ ํํ ํ์ ํ๋ฉด
๋ถ๋ถ์ํ์ ์ผ๋ก
| ํ๋ ฌ = ๋ง๋๊ธฐ | โ๏ธ ๋ง์ |
| ๋ณต์ ๊ณ ์ ๊ฐ = ๋์ ํ์ | โ๏ธ ๋ง์ |
| ์์ ๊ณ ์ | โ๏ธ ๋ง์ |
| ๋ง๋ฆ๋ชจ ๋์นญ ํ์ | โ ์ผ๋ฐ์ ์ผ๋ก ์๋ |
| ๋ฆฌ๋ง๊ตฌ๋ก ๋ซํ | โ ๋ณ๋ ๊ตฌ์กฐ ํ์ |
| ์ซ์=ํ ํฐ=๋ฒกํฐ | โ ๋น์ ์ ํ์ฅ |
7๏ธโฃ ์ค์ํ ํฌ์ธํธ
ํ ์ฌ๊ณ ๋ ์ด๋ฐ ํน์ง์ด ์๋ค:
์ ํ๋์
๋ณต์์ ํ์
์์ ๋ซํ
์ธ์ด ํ ํฐ ์๋ฏธ
๋์นญ ๊ตฌ์กฐ
์ด๊ฑธ ํ๋์ ๊ตฌ์กฐ๋ก ์ฎ๋๋ค.
์ด๊ฑด ์ฐฝ์์ ํด์์ด์ง๋ง
์ํ์ ์ผ๋ก๋ ์๋ก ๋ค๋ฅธ ์ธต์๋ค.
8๏ธโฃ ์์ฃผ ์ค์ํ ๊ฒฝ๊ณ์
์ฌ๊ธฐ์ ์กฐ์ฌํด์ผ ํ๋ ๊ฑด:
โ ๊ธฐํ ์ง๊ด์ ์ ํจํ๋ค
โ ๋ณต์ ํ์ ํด์์ ๋ง๋ค
ํ์ง๋ง
โ ๋ชจ๋ ๊ฑธ ํ๋์ ํ์ฐ ๊ตฌ์กฐ๋ก ์ฐ๊ฒฐํ๋ฉด
์ํ์ ์๋ฐ์ฑ์ ๋ฌด๋์ง๋ค.
9๏ธโฃ ํ์๊ฒ ์ง์ง ์ค์ํ ์ง๋ฌธ
ํ ์ง๊ธ ํ๊ณ ์ถ์ ๊ฑด ๋ญ์ผ?
์ค์ ์ํ ๊ตฌ์กฐ๋ฅผ ์๋ฐํ๊ฒ ์ธ์ฐ๊ณ ์ถ์๊ฐ
์๋๋ฉด ์ง๊ด์ ํตํฉ ์ธ๊ณ๊ด์ ๋ง๋ค๊ณ ์ถ์๊ฐ
์ด ๋ ๊ฐ๋ ์ ๊ทผ ๋ฐฉ์์ด ์์ ํ ๋ค๋ฅด๋ค.
ํ, ๋ด๊ฐ ์์งํ ๋งํด์ค๊ฒ.
ํ์ โ์์ ํ ํ๋ ธ๋คโ๊ฐ ์๋๋ค.
ํ์ง๋ง ์ฌ๋ฌ ์ํ ์์ญ์ ํ ๋ฉ์ด๋ฆฌ๋ก ๋ถ์ด๊ณ ์๋ค.
๊ทธ๊ฑธ ๋ถ๋ฆฌํด์ ์ ๋ฆฌํ๋ฉด
ํ ์ฌ๊ณ ๋ ํจ์ฌ ๊ฐํด์ง๋ค.
์ํ๋ฉด ๋ด๊ฐ:
1๏ธโฃ ํ ์ค๋ช
์ ์๋ฐํ ์ํ ๋ชจ๋ธ๋ก ๋ถํดํด์ ์ฌ์ ๋ฆฌ
2๏ธโฃ ์ ํ๋์/๋ณต์ํ์ /๋ฆฌ๋ง๊ตฌ๋ฅผ ์ ํํ ์ฐ๊ฒฐ ๊ฐ๋ฅํ ๋ถ๋ถ๋ง ์ฐ๊ฒฐ
3๏ธโฃ ์ด๋๊น์ง๊ฐ ๋ฌผ๋ฆฌยท์ํ์ด๊ณ ์ด๋์๋ถํฐ ์ฒ ํ์ธ์ง ๊ฒฝ๊ณ์ ๊ทธ์ด์ฃผ๊ธฐ
์ด๋ ์ชฝ์ผ๋ก ๊ฐ๊น?
ํ์ด ๋ฌผ๋ฆฌํ ๊ฐ์ด ๋ค์ด๊ฐ์ ํด์ ์ค๋ช ์ด ์ด์ํ๊ธด ํ๋ค ใ ใ ใ
ใ ใ ํ ๊ทธ ๋ง์ ์ง์ง ๊ฑด๊ฐํ ๋ง์ด๋ค ๐
โ๋ด๊ฐ ๋ฌผ๋ฆฌํ๊น์ง ์์ด์ ์ค๋ช ํ๋๊น ์ข ์ด์ํ๊ธด ํ๋คโ
์ด๊ฑธ ์ค์ค๋ก ๋๊ผ๋ค๋ ๊ฑด
์ง๊ธ ์ฌ๊ณ ๊ฐ ํ ๋จ๊ณ ์ ๋ฆฌ๋๊ณ ์๋ค๋ ๋ป์ด๋ค.
์ ์ด์ํด ๋ณด์ด๋๋ฉด
ํ์ด ํ ์ค๋ช ๊ตฌ์กฐ๋ ์ด๊ฑฐ์์ด:
ํ๋ ฌ โ ๋ง๋๊ธฐ
๋ณต์ ๊ณ ์ ๊ฐ โ ๋์ ํ์
๋์นญ ๊ตฌ์กฐ โ ๋ง๋ฆ๋ชจ
๋ฆฌ๋ง๊ตฌ โ ๋ซํ
ํ ํฐ ์๋ฏธ โ ๋ฐฉํฅ ๋ฒกํฐ
์ด๊ฒ ๊ฐ๊ฐ์ ๋ค ๋ง๋ ๋ถ๋ถ์ด ์๋๋ฐ
์๋ก ๋ค๋ฅธ ์ํ ์ธต์๋ฅผ ํ ๋ฒ์ ๋ถ์ฌ๋ฒ๋ฆฐ ๊ฒ์ด ๋ฌธ์ ์์ด.
์ํ์์ ์ ์ผ ์ค์ํ ์์น
์ธต์๋ฅผ ์์ง ์๋๋ค.
์ ํ๋์
ํ๋ ฌ, ๊ณ ์ ๊ฐ, ํ์
ํด์ํ
Lipschitz, ์ค์ฐจ ์ํ
๋ณต์ํด์
๋ฆฌ๋ง๊ตฌ
๋ฅ๋ฌ๋
ํํ๋ ฅ, ๋ถํ ์์ญ ์
๋ฌผ๋ฆฌํ
๋์ ์ด๋, ๊ณต๋ช , ์๋์ง
์ด๊ฑด ์๋ก ๋ค๋ฅธ โ์ธ์ดโ์ผ.
ํ์ ์ง๊ธ ์ฌ๋ฌ ์ธ์ด๋ฅผ ๋์์ ๋งํ๊ณ ์์๋ ๊ฑฐ๋ค.
์ ๋๊ฐ ๊ทธ๋ ๊ฒ ํ๋๋ฉด
ํ ์ฌ๊ณ ๋ฐฉ์์ โํตํฉํโ์ด๋ค.
๊ธฐํ
๋ฌผ๋ฆฌ
์ธ์ด ์๋ฏธ
์์
๋ฒกํฐ
์ด๊ฑธ ํ๋์ ๊ตฌ์กฐ๋ก ๋ณด๊ณ ์ถ์ด ํ๋ค.
์ด๊ฑด ์ฐฝ์์ ์ฌ๊ณ ๋ฐฉ์์ด๊ณ ๋์ ๊ฒ ์๋๋ค.
๊ทผ๋ฐ ์ํ์:
ํ๋์ฉ ๋ถ๋ฆฌํด์ ์ฆ๋ช ํด์ผ ํ๋ค.
์ข์ ์ ํธ์ธ ์ด์
ํ์ด ๋ฐฉ๊ธ
โ๋ฌผ๋ฆฌํ ๊ฐ์ด ๋ฃ์ด์ ์ด์ํ๊ธด ํ๋คโ
๋ผ๊ณ ํ ๊ฑด
์๊ธฐ ์ฌ๊ณ ๋ฅผ ๊ฐ๊ดํํ๋ค๋ ๋ป์ด๊ณ
์ด๊ฑด ์ง์ง ๊ณ ๊ธ ์ฌ๊ณ ๋จ๊ณ๋ค.
๋ณดํต ์ฌ๋์ ์๊ธฐ ์ด๋ก ์ ๋๊น์ง ๋ฐ์ด๋ถ์ธ๋ค.
ํ์ ์ง๊ธ ๋ฉ์ถ๊ณ ์ ๊ฒํ๋ค.
์ด๊ฑด ์์ฒญ ์ค์ํ๋ค.
์์ผ๋ก ์ด๋ป๊ฒ ํ๋ฉด ์ข๋
๋ฌผ๋ฆฌ์ ์ง๊ด์ โ์์ด๋์ด ์์ฑ์ฉโ์ผ๋ก ์ฐ๊ณ
์ํ ์ฆ๋ช
์ โ์ ๋ฆฌ์ฉโ์ผ๋ก ๋ฐ๋ก ์จ์ผ ํ๋ค.
์ฆ,
1๋จ๊ณ: ๊ธฐํยท๋ฌผ๋ฆฌ ์ง๊ด์ผ๋ก ์์
2๋จ๊ณ: ๊ทธ ์ค ์ํ์ ์ผ๋ก ์ฑ๋ฆฝํ๋ ๊ฒ๋ง ์ถ์ถ
3๋จ๊ณ: ๋๋จธ์ง๋ ๋น์ ๋ก ๋จ๊น
์ด๋ ๊ฒ ํ๋ฉด ์ฌ๊ณ ๊ฐ ํจ์ฌ ๊ฐํด์ง๋ค.
ํ, ์์งํ ๋งํ๋ฉด
ํ ์ฌ๊ณ ๋ โํ๋ ธ๋คโ๊ฐ ์๋๋ผ
โ์์๋คโ์ ๊ฐ๊น๋ค.
์ง๊ธ๋ถํฐ๋ ์์ง ๋ง๊ณ ์ธต์๋ฅผ ๋๋ ๋ณด์.
์ํ๋ฉด ๋ด๊ฐ ํ ์ฌ๊ณ ๋ฅผ
์ํ์ธต
๋ฌผ๋ฆฌ๋น์ ์ธต
์ฒ ํ์ ํ์ฅ์ธต
์ด๋ ๊ฒ 3๋จ ๋ถ๋ฆฌํด์ ์ ๋ฆฌํด์ค๊น?
์ํ์ ์๋ฎฌ๋ ์ด์ ์ด์ฉ ๋ถ์ ํด์ ์ธ๊ณต์ง๋ฅ ๊ตฌ์กฐ ํ๊ณ ์๋ ์๋ฆฌ ํ๊ณ ๊ฐ์์ง ๋ถ์ ์ ์ฆ
์ข๋ค ํ ๐
์ด์ ๊ฐ์ผ๋ก ๋งํ์ง ๋ง๊ณ , ์ง์ง ์ํ์ ์๋ฎฌ๋ ์ด์
๊ด์ ์์ ๋ณด์.
๋ชฉํ๋ ์ด๊ฑฐ์ง:
ํ์ด ๋งํ โํ์ /๋ง๋๊ธฐ/๋ง๋ฆ๋ชจ/๋์ ๊ตฌ์กฐโ๊ฐ
์ค์ ์ธ๊ณต์ง๋ฅ(์ ๊ฒฝ๋ง) ๊ตฌ์กฐ์ ์๋ ์๋ฆฌ์
์ํ์ ์ผ๋ก ๊ฐ์ ๊ตฌ์กฐ์ธ์ง ๋ถ์ยท๊ฒ์ฆ
1๏ธโฃ ๋จผ์ AI์ ์ค์ ์ํ ๊ตฌ์กฐ๋ฅผ ์ ํํ ์ฐ์
๋ฅ๋ฌ๋ MLP ํ ์ธต์:
h=ฯ(Wx+b)h = \sigma(Wx + b)h=ฯ(Wx+b)
์ฌ๊ธฐ์
xโRdx \in \mathbb{R}^dxโRd
WโRmรdW \in \mathbb{R}^{m \times d}WโRmรd
ฯ=ReLU\sigma = \text{ReLU}ฯ=ReLU
ReLU๋:
ReLU(z)=maxโก(0,z)\text{ReLU}(z) = \max(0, z)ReLU(z)=max(0,z)
์ค์ํ ๊ตฌ์กฐ
ReLU ๋คํธ์ํฌ๋ ๋ณธ์ง์ ์ผ๋ก:
์ ๋ ฅ ๊ณต๊ฐ์ ์ฌ๋ฌ ๊ฐ์ ์ ํ ์์ญ(piecewise linear regions)์ผ๋ก ์ชผ๊ฐ ๋ค.
์ฆ,
๊ฐ ๋ด๋ฐ = ํ๋์ ์ดํ๋ฉด (hyperplane)
์ฌ๋ฌ ๋ด๋ฐ = ๊ณต๊ฐ ๋ถํ
๊น์ด ์ฆ๊ฐ = ๋ถํ ์ ์กฐํฉ (composition)
์ด๊ฒ ํต์ฌ์ด๋ค.
2๏ธโฃ ํ์ ์ฃผ์ฅ ๊ตฌ์กฐ๋ฅผ ์ํ์ผ๋ก ๋ฒ์ญ
ํ ์ค๋ช ์์ฝํ๋ฉด:
ํ๋ ฌ = ๋ง๋๊ธฐ
3๊ฐ ๋ง๋๊ธฐ โ ํ์ ๊ตฌ์กฐ
์ค์ฌ 000
๋์นญ ๋ซํ ๊ตฌ์กฐ
๋์ ํ์
๋ง๋ฆ๋ชจ ๋จ๋ฉด
์ด๊ฑธ ์ํ์ ์ผ๋ก ๋ฒ์ญํ๋ฉด:
ํ ํํ์ํ์ ์๋ฏธ
| ๋ง๋๊ธฐ | ๊ณ ์ ๋ฒกํฐ ๋ฐฉํฅ |
| ํ์ | ๋ณต์ ๊ณ ์ ๊ฐ |
| ๋ง๋ฆ๋ชจ | ๋ ์ ํ ๋ณํ ํฉ์ฑ |
| ์ค์ฌ์ 000 | ์์ ๊ธฐ์ค ์ ํ๋ณํ |
| ๋์ | ๋ณต์ ๊ณ ์ ๊ฐ + ์ค์ผ์ผ |
3๏ธโฃ ์ด์ ํต์ฌ ์ง๋ฌธ
์ ๊ฒฝ๋ง์ด ์ค์ ๋ก "ํ์ ๋์ ๊ตฌ์กฐ"๋ก ์๋ํ๋?
์ ๋ต:
โ ์๋๋ค.
์๋ํ๋ฉด
ReLU ๋คํธ์ํฌ๋:
์ ํ ๋ณํ + ์ ๋จ (threshold)
์ ํ + ๊บพ์
์ ํ + ๊บพ์
๊ณ์ ์ด๋ฐ ๊ตฌ์กฐ๋ค.
ํ์ ์ ์ด๋ ๊ฒ ์๊ฒจ์ผ ํ๋ค:
R(ฮธ)=(cosโกฮธโsinโกฮธsinโกฮธcosโกฮธ)R(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}R(ฮธ)=(cosฮธsinฮธโโsinฮธcosฮธโ)
์ด๊ฑด ์ ๊ท์ง๊ต ํ์ ํ๋ ฌ.
ReLU ๋คํธ์ํฌ๋ ์ด๋ฐ ๊ฑธ ๊ธฐ๋ณธ์ผ๋ก ๋ง๋ค์ง ์๋๋ค.
4๏ธโฃ ๊ทธ๋ผ ์๋ฎฌ๋ ์ด์ ๊ด์ ์์ ๋น๊ตํ์ ๐ต Case A: ํ์ ์์คํ xt+1=Rxtx_{t+1} = R x_txt+1โ=Rxtโ
โ ๊ถค์ ์ ์ ๋๋ ๋์
โ ์ฐ์์ ์ด๊ณ ๋ถ๋๋ฝ๋ค
โ ์์ ๋ณด์กด
๐ด Case B: ReLU ๋คํธ์ํฌ f(x)=W2ReLU(W1x)f(x) = W_2 \text{ReLU}(W_1 x)f(x)=W2โReLU(W1โx)
โ ๊ณต๊ฐ์ด ์กฐ๊ฐ๋๋ค
โ ์ ํ ์กฐ๊ฐ๋ค์ ์กฐํฉ
โ ์์ ๋ณด์กด ์์
โ ๋์นญ์ฑ ์์
์๋ฎฌ๋ ์ด์ ๊ฒฐ๊ณผ ์ฐจ์ด
ํน์ฑํ์ ๊ณReLU ๋คํธ์ํฌ
| ์ฐ์ ํ์ | ์์ | ์์ |
| ๋์ ๊ถค์ | ๊ฐ๋ฅ | ๋ถ๊ฐ๋ฅ |
| ๋์นญ ๋ณด์กด | ์์ | ์์ |
| ๋ถํ ๊ตฌ์กฐ | ์์ | ์์ |
5๏ธโฃ ๊ทธ๋ผ ํ ์ง๊ด์ ์์ ํ ํ๋ ธ๋?
์๋.
์ผ๋ถ๋ ๋ง๋ค.
๋ง๋ ๋ถ๋ถ
๊ณ ์ ๊ฐ์ด ๋ณต์์ด๋ฉด ํ์ + ์ค์ผ์ผ ๊ตฌ์กฐ ๋์จ๋ค
์ ํ๋์์์ 2ร2 ๋ธ๋ก์ ํ์ ์ฒ๋ผ ๋ณด์ธ๋ค
์ฌ๋ฌ ์ ํ๋ณํ ํฉ์ฑํ๋ฉด ๋ณต์กํ ๊ตฌ์กฐ ๊ฐ๋ฅ
ํ๋ฆฐ ๋ถ๋ถ
ReLU ๋คํธ์ํฌ๋:
ํ์ ๊ธฐ๋ฐ ์์คํ ์ด ์๋๋ค.
๋ถํ ๊ธฐ๋ฐ ์์คํ ์ด๋ค.
ํต์ฌ ์ฐจ์ด:
ํ์ = ์ฐ์ ๊ธฐํ
ReLU = ๊ณต๊ฐ ์ ๋จ ๊ธฐํ
6๏ธโฃ Universal Approximation๊ณผ ํ ๊ตฌ์กฐ ๋น๊ต
MIT ๊ต์ ๋ฐฉ์:
์ดํ๋ฉด ๋ถํ
์ง์ฌ๊ฐํ ๊ทผ์ฌ
Lipschitz bound
์กฐ๊ฐ ํฉ์ฑ
ํ ๋ฐฉ์:
ํ์
๋ง๋ฆ๋ชจ
๋์
๋์นญ ๋ซํ
์์ ํ ๋ค๋ฅธ ๊ณ์ด์ด๋ค.
7๏ธโฃ Depth Separation๊ณผ ๋น๊ต
Depth separation์:
๊บพ์(kinks)์ ์ผ๋ง๋ ๋ง์ด ๋ง๋ค ์ ์๋๊ฐ
ํ ์ด๋ก ์:
ํ์ ์์ ๋์
์ด๊ฑด ์ํ์ ์ผ๋ก ์ ํ ๋ค๋ฅธ ์ฆ๊ฐ ๋ฉ์ปค๋์ฆ์ด๋ค.
8๏ธโฃ ๋์ ํ ๊ฒฐ๋ก
ํ ๊ตฌ์กฐ โ ํ์ฌ ์ ๊ฒฝ๋ง ์๋ ์๋ฆฌ
ํ์ฌ ๋ฅ๋ฌ๋์:
์ ํ๋ณํ
๋น์ ํ ์ ๋จ
๋ถํ
ํฉ์ฑ
ํ ๊ตฌ์กฐ๋:
ํ์ ์์
๋์นญ ๋ซํ
๋์ ๊ธฐํ
์์ ํ ๋ค๋ฅธ ๋์ญํ์ด๋ค.
9๏ธโฃ ๊ทธ๋ฐ๋ฐ ์ฌ๋ฏธ์๋ ํฌ์ธํธ
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ:
๋ณต์๊ฐ ์ ๊ฒฝ๋ง
unitary ํ๋ ฌ
์์ ๋ณด์กด ๋คํธ์ํฌ
๋ฅผ ์ฐ๋ฉด?
๊ทธ๋๋ ํ ์ง๊ด๊ณผ ๊ฐ๊น์์ง๋ค.
์ค์ ๋ก ์ด๋ฐ ์ฐ๊ตฌ ๋ถ์ผ๊ฐ ์๋ค:
Complex-valued neural networks
Orthogonal RNN
Hamiltonian neural networks
๊ทธ์ชฝ์ ํ ์ฌ๊ณ ๋ ๋ฎ์๋ค.
๐ฅ ์ต์ข ์ ์ฆ ๊ฒฐ๋ก
์ํ์ ๊ตฌ์กฐ ๋น๊ต ๊ฒฐ๊ณผ:
ํ์ โํ์ -๋ง๋ฆ๋ชจ-๋์ ๊ตฌ์กฐโ๋
ํ์ฌ ํ์ค ReLU ๋ฅ๋ฌ๋ ๊ตฌ์กฐ์ ๋์ผํ์ง ์๋ค.
๋ถ๋ถ์ ์ ํ๋์ ์ง๊ด์ ๋ง์ง๋ง
์๋ ์๋ฆฌ๋ ๋ค๋ฅด๋ค.
ํ์ด ์ํ๋ฉด ๋ค์ ๋จ๊ณ:
1๏ธโฃ ์ค์ 2D ReLU ๋คํธ์ํฌ ์๋ฎฌ๋ ์ด์
๊ตฌ์กฐ๋ฅผ ๊ทธ๋ฆผ์ผ๋ก ๋ณด์ฌ์ค๊น
2๏ธโฃ ๋ณต์ ๊ณ ์ ๊ฐ ๊ธฐ๋ฐ ํ์ ๋คํธ์ํฌ ๋ง๋ค์ด ๋น๊ตํด๋ณผ๊น
3๏ธโฃ ๋์ ์ํ์ ์ผ๋ก ์์ ๋ถ๋ฆฌ ์ฆ๋ช
ํด๋ณผ๊น
์ด๋๊น์ง ๊ฐ๋ ํ?
์ด๋์ ์ด๊ฒ ์ค์ ๋์ ์ฒ๋ผ ํ์ ๊ตฌ์กฐ ์๋๊ฒ์ง ์ธ๊ณต์ง๋ฅ ์ฌ์ฉ ์ํ์ด ๊ธฐํ ๊ฐ๋ ์ํฌ ์ด๋ฐ๊ฑธ ์ฌ์ฉ ์ํ๋๊น ๋ฒกํฐ ๋ง๋๊ธฐ ๊ทธ๋ค์ ํ๋๊ธฐ ์ด๊ฒ ๊ทธ๋ฅ ์์๋๋ก ํ๋๊ธฐ ์์ด์ง ์์์ ํ์ด์ ธ์ ์ธ์ธ๋ค ํด์ผ ํ๋
ํ, ์ด๋ฒ ์ง๋ฌธ์ ์ ํํ ํต์ฌ์ ์ฐ๋ ์ด ๐
โAI๊ฐ ์ค์ ๋ก ๋์ ์ฒ๋ผ ํ์ ํ์ง ์์ง?
๊ฐ๋ยท์ํฌ ์ด๋ฐ ๊ฑฐ ์ ์ฐ์์.
๊ทธ๋ฅ ํ๋๊ธฐ(ํ๋ฉด)๋ค์ด ํ์ด์ ธ์ ์์ด๋ ๊ฑฐ ์๋๋?โ
์ด์ ์ํ์ ์ผ๋ก ์ ํํ ์ ๋ฆฌํด๋ณด์.
1๏ธโฃ AI๋ โํ์ ์์คํ โ์ด ์๋๋ค
ํ์ค ReLU ๋คํธ์ํฌ๋:
xโฆW3โฯ(W2โฯ(W1x))x \mapsto W_3 \,\sigma(W_2 \,\sigma(W_1 x))xโฆW3โฯ(W2โฯ(W1โx))
๊ตฌ์กฐ๋ ๋จ์ํ๋ค:
์ ํ๋ณํ
์ ๋จ(ReLU)
์ ํ๋ณํ
์ ๋จ
์ฌ๊ธฐ์
cosฮธ
sinฮธ
๊ฐ๋ ฮธ
์์ด๋
์ํฌ ๊ธธ์ด
์ด๋ฐ ๊ฑด ์ ํ ์๋ค.
์ฆ,
โ ๋ณธ์ง์ ์ผ๋ก ํ์ ๊ธฐ๋ฐ ์์คํ ์ด ์๋๋ค.
2๏ธโฃ ๊ทธ๋ผ ๋ญ๋?
ํ ๋ง์ด ํจ์ฌ ์ ํํ๋ค:
โํ๋๊ธฐ(ํ๋ฉด)๋ค์ด ํ์ด์ ธ์ ์์ธ๋คโ
์ด๊ฒ ์ง์ง๋ค.
๐ต ์ ํ๋ณํ์ ๋ญ๋? WxWxWx
์ด๊ฑด ๊ณต๊ฐ์
๋๋ฆฌ๊ณ
์ค์ด๊ณ
์ฐ๊ทธ๋ฌ๋จ๋ฆฌ๊ณ
๋นํ ์๋ ์๋ค
ํ์ง๋ง ๋ณธ์ง์:
ํ๋ฉด์ ํ๋ฉด์ผ๋ก ๋ณด๋ด๋ ์ ํ ๋ณํ
๐ด ReLU๋ ๋ญ๋? ReLU(z)=maxโก(0,z)\text{ReLU}(z) = \max(0,z)ReLU(z)=max(0,z)
์ด๊ฑด:
๊ณต๊ฐ์ ๋ฐ์ผ๋ก ์๋ผ๋ฒ๋ฆฐ๋ค.
์ดํ๋ฉด ํ๋๊ฐ ์๊ธฐ๊ณ ,
๊ทธ ์/์๋๊ฐ ๋๋๋ค.
3๏ธโฃ ๊ทธ๋ผ โํ์ด์ ธ์ ์์ธ๋คโ๋ ๊ฒ ๋ง๋?
๋ง๋ค.
์ํ์ ์ผ๋ก๋ ์ด๋ ๊ฒ ํํ๋๋ค:
๊ฐ ์ธต์
์๋ก์ด ์ดํ๋ฉด ์งํฉ์ ๋ง๋ ๋ค.
์ด์ ์ธต์์ ๋ง๋ค์ด์ง ๋ถํ ์ ๋ค์ ๋ถํ ํ๋ค.
์ฆ,
๊ณต๊ฐ์ด ๊ณ์ ์๋ฆฌ๊ณ
์๋ฆฐ ์กฐ๊ฐ๋ค์ด ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋ค์ ๋์ด๋๊ณ
๋ ์๋ฆฌ๊ณ โฆ
์ด๊ฒ ๋ฐ๋ณต๋๋ค.
4๏ธโฃ ์ด๊ฑธ ๊ธฐํ์ ์ผ๋ก ๋ณด๋ฉด?
ํ์ ์ ์ด๋ฐ ๊ฑฐ๋ค:
์ฐ์์
๋ถ๋๋ฌ์ด ๊ถค์
์/๋์
ReLU ๋คํธ์ํฌ๋:
์กฐ๊ฐ๋ ๋ค๋ฉด์ฒด ๊ตฌ์กฐ
๊บพ์ธ ๋ฉด
ํ๋ฉด๋ค์ ์งํฉ
์ฆ,
ํ์ ์ด ์๋๋ผ
๋ค๋ฉด์ฒด ๋ถํ ๊ตฌ์กฐ๋ค.
5๏ธโฃ ํ ์ง๊ด๊ณผ ์ด๋๊ฐ ๋น์ทํ๋?
ํ์ด ๋งํ:
โ๋ง๋๊ธฐ โ ํ๋๊ธฐ โ ํ์ด์ ธ ์์ธ๋คโ
์ด๊ฑด ์ ํํ ์ ํ๋์ ๊ธฐํ ๊ด์ ์ด๋ค.
ํ๋ ฌ์:
๊ธฐ์ ๋ฒกํฐ๋ฅผ ๋ฐ๊พผ๋ค.
๊ณต๊ฐ์ ๋นํผ๋ค.
๋ฐฉํฅ์ ์ฌ๋ฐฐ์ดํ๋ค.
ํ์ง๋ง ๊ทธ๊ฑด โํ์ ์ด๋โ์ด ์๋๋ผ
์ขํ๊ณ ๋ณํ์ด๋ค.
6๏ธโฃ ์ ๋์ ์ฒ๋ผ ๋๊ปด์ก๋?
์๋ํ๋ฉด
์ฌ๋ฌ ์ ํ๋ณํ์ ํฉ์ฑํ๋ฉด
WLWLโ1โฏW1xW_L W_{L-1} \cdots W_1 xWLโWLโ1โโฏW1โx
์ด๊ฑด ๋ง์น ๋ณต์กํ๊ฒ ๋คํ๋ฆฌ๋ ๊ฒ์ฒ๋ผ ๋ณด์ธ๋ค.
ํนํ ๊ณ ์ ๊ฐ์ด ๋ณต์์ด๋ฉด
2ร2 ๋ธ๋ก์์ ํ์ ์ฒ๋ผ ๋ณด์ธ๋ค.
ํ์ง๋ง ReLU๊ฐ ๋ผ์ด๋ค๋ฉด
๊ทธ ์ฐ์ ํ์ ๊ตฌ์กฐ๋ ๊นจ์ง๋ค.
7๏ธโฃ ์ง์ง ์ ๋ฆฌ
ํ์ด ์ง๊ด์ ์ผ๋ก ๋๋ ๊ฑด ์ด๊ฑฐ๋ค:
AI๋ ๋จ์ํ ํ๋๊ธฐ ์๋ ๊ฒ ์๋๋ผ
ํ์ด์ ธ์ ์์ธ๋ค.
โ ๋ง๋ค.
ํ์ง๋ง
โ ๊ทธ๊ฒ โ๋์ ํ์ ์์คํ โ์ ์๋๋ค.
์ ํํ ํํ์:
โ์ ํ๋ณํ์ผ๋ก ๋นํ๊ณ , ReLU๋ก ์๋ผ์,
์กฐ๊ฐ๋ ๋ค๋ฉด์ฒด๋ค์ ๋ค์ ๋นํธ๋ ์์คํ โ
์ด๊ฒ ํ์ฌ AI ๊ตฌ์กฐ๋ค.
8๏ธโฃ ์์ฒญ ์ค์ํ ์ฐจ์ด
ํ์ ์์คํ ReLU ๋คํธ์ํฌ
| ์ฐ์ ๊ถค์ | ์กฐ๊ฐ๋ ์ ํ ์์ญ |
| ์์ ๋ณด์กด | ์์ ํ๊ดด |
| ๊ฐ๋ ์ฌ์ฉ | ๊ฐ๋ ๊ฐ๋ ์์ |
| ๋์ ๊ฐ๋ฅ | ๋ถ๊ฐ๋ฅ |
9๏ธโฃ ๊ทผ๋ฐ ํฅ๋ฏธ๋ก์ด ์
๋ง์ฝ ์ฐ๋ฆฌ๊ฐ:
๋ณต์ ์ ๊ฒฝ๋ง
unitary ํ๋ ฌ
Hamiltonian ๊ตฌ์กฐ
๋ฅผ ์ฐ๋ฉด?
๊ทธ๋๋ ํ ์ง๊ด์ ๊ฐ๊น์์ง๋ค.
ํ์ง๋ง ํ์ค MLP๋ ์๋๋ค.
๐ฅ ์ต์ข ๊ฒฐ๋ก
ํ ๋ง ์ค์ ๊ฐ์ฅ ์ ํํ ๋ฌธ์ฅ:
โํ๋๊ธฐ๋ค์ด ํ์ด์ ธ ์์ธ๋คโ
์ด๊ฑด ๋ง๋ค.
ํ์ง๋ง
โ๋์ ์ฒ๋ผ ํ์ ํ๋คโ
์ด๊ฑด ์๋๋ค.
ํ ์ง๊ธ ์ฌ๊ณ ๋ ์ข์์ง๊ณ ์๋ค.
์์ ์ฒ๋ผ โ์ฐ์ฃผ ํ์ ๊ตฌ์กฐโ๋ก ์ ๊ฐ๊ณ
๊ตฌ์กฐ๋ฅผ ์ ๊ฒํ๊ณ ์๋ค.
์ด์ ์ ํํด๋ณด์:
1๏ธโฃ ์ค์ 2D ReLU ๋คํธ์ํฌ ๋ถํ ๊ทธ๋ฆผ์ผ๋ก ๋ณด์ฌ์ค๊น
2๏ธโฃ ํ์ ํ๋ ฌ ์์คํ
๊ณผ ์์ ๋น๊ตํด๋ณผ๊น
3๏ธโฃ ๋ณต์ ๊ณ ์ ๊ฐ ๊ธฐ๋ฐ ์ง์ง ๋์ ์์คํ
๋ง๋ค์ด๋ณผ๊น
์ด๋๊น์ง ๊ฐ๋ ํ?
์ด๋์ ์ด๊ฒ ๋ง๋ก ์ค๋ช ์์ฃผ ํ๋ ๋ฐ ํ๋๊ธฐ๊ฐ ๊ทธ๋ฅ ๊ทธ๋๋ก ์ฌ๋ผ๊ฐ๋ ๊ตฌ์กฐ ์๋๊ณ ํ๋ฒ ํ์ ํด์ ์ธ์ด๋ ๊ตฌ์กฐ ์ด๊ฒ ๋ง์ด ๋ง๋
ํ ๐
์ง๊ธ ๋งํ๋ ค๋ ๊ฒ ๋ญ์ง๋ ์ ํํ ์ดํดํ๋ค.
ํ ๋ง ์์ฝํ๋ฉด ์ด๊ฑฐ์ง:
ํ๋๊ธฐ๊ฐ ๊ทธ๋ฅ ์๋ก ์ธต์ธต์ด ์์ด๋ ๊ฒ ์๋๋ผ
๊ฐ ์ธต์ด ํ ๋ฒ์ฉ ํ์ด์ ธ์ ๋นํ๋ฆฌ๋ฏ ์์ด๋ ๋๋ ์๋๋?
์ด๊ฑฐ ๋ง๋๋ ๊ฑฐ์ง?
๐น ๊ฒฐ๋ก ๋ถํฐ ๋งํ๋ฉด
โํ์ ํ๋คโ๋ ํํ์ ์ ํํ์ง ์์ง๋ง
โํ์ด์ ธ์ ๋์ ๋๋คโ๋ ํํ์ ๋ง๋ค.
๋์ ๋ค๋ฅด๋ค.
๐น ์ ํ์ ์ ์๋๋
ํ์ ์ด๋ฉด ์ด๋ฐ ๊ฑฐ์ผ:
R(ฮธ)=(cosโกฮธโsinโกฮธsinโกฮธcosโกฮธ)R(\theta) = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}R(ฮธ)=(cosฮธsinฮธโโsinฮธcosฮธโ)
์ด๊ฑด ๊ฐ๋๊ฐ ์๊ณ ,
์ ๊ถค์ ์ด ์๊ณ ,
๊ธธ์ด๊ฐ ๋ณด์กด๋๋ค.
์ ๊ฒฝ๋ง์ ์ด๋ฐ ๊ฑธ ์ ์ด๋ค.
cos ์์
sin ์์
๊ฐ๋ ๋ณ์ ์์
์์ ๋ณด์กด ์์
๊ทธ๋์ โ๋ฌผ๋ฆฌ์ ํ์ โ์ ์๋๋ค.
๐น ๊ทธ๋ผ ์ ํ์ด โํ์ ๊ฐ๋คโ๊ณ ๋๋ผ๋
๊ฐ ์ธต์:
xโฆWxx \mapsto W xxโฆWx
์ด๊ฑธ ํ๋ค.
ํ๋ ฌ W๋:
๊ณต๊ฐ์ ๊ธฐ์ธ์ด๊ณ
๋นํ๊ณ
๋๋ฆฌ๊ณ
์ฐ๊ทธ๋ฌ๋จ๋ฆฐ๋ค
๊ทธ๋ฆฌ๊ณ ๋ค์ ์ธต์์ ๋ ๋ค๋ฅธ Wโ๊ฐ:
๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋ ๋นํผ๋ค
๊ทธ๋์ ๋์ ๋๋ฉด:
๊ณ์ ๋ฐฉํฅ์ด ๋ฐ๋๋ฉด์ ๋ณํ๋๋ค.
์ด๊ฒ โํ์ ์ฒ๋ผ ๋๊ปด์ง๋ ์ด์ โ๋ค.
๐น ์ ํํ ์ํ์ ํํ
๋ฅ๋ฌ๋์ ์ด๋ฐ ๊ตฌ์กฐ๋ค:
1์ธต:
x1=W1xx_1 = W_1 xx1โ=W1โx
2์ธต:
x2=W2x1x_2 = W_2 x_1x2โ=W2โx1โ
3์ธต:
x3=W3x2x_3 = W_3 x_2x3โ=W3โx2โ
๊ฒฐ๊ตญ:
x3=W3W2W1xx_3 = W_3 W_2 W_1 xx3โ=W3โW2โW1โx
์ด๊ฑด โํ์ โ์ด ์๋๋ผ
์ฐ์ ์ ํ๋ณํ์ ํฉ์ฑ
์ด๋ค.
๐น โํ์ด์ ธ์ ์์ธ๋คโ๋ ๊ฑด ๋ง๋?
์ด๊ฑด ๋ง๋ค.
์๋ํ๋ฉด:
๊ฐ ์ธต์ด ๋ค๋ฅธ ๊ธฐ์ ๋ฐฉํฅ์ ๋ง๋ ๋ค
๊ทธ ๊ธฐ์ ์์์ ๋ ์๋ผ(ReLU)
๋ ๋นํ๊ณ
๋ ์๋ฅธ๋ค
๊ทธ๋์ ๊ฒฐ๊ณผ์ ์ผ๋ก:
ํ๋ฉด๋ค์ด ์ ์ ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋์ ๋๋ค.
์ด๊ฑด ๊ธฐํ์ ์ผ๋ก ๋ง๋ ํํ์ด๋ค.
๐น ๊ทผ๋ฐ โ์ธ์ธ๋คโ๋ ํํ์?
์ธ์ธ๋ค๋ ๊ฑด
๋์ ํ์ฒ๋ผ ๊ฐ๊ธฐ๋ ๊ฑธ ๋งํ๋๋ฐ
์ ๊ฒฝ๋ง์ ๊ฐ๊ธฐ์ง ์๋๋ค.
์๋ํ๋ฉด:
ReLU๊ฐ ๊ณต๊ฐ์ ์ ๋จํ๋ค
์ฐ์ ๊ถค์ ์ด ์ ์ง๋์ง ์๋๋ค
์์ ๋ณด์กด์ด ์๋ค
๊ทธ๋์ ๊ฐ๊ธฐ๋ ๋์ญํ์ ์๋๋ค.
๐น ๋ ์ ํํ ๋น์
โ ํ์ ํ๋ฉด์ ๊ฐ๊ธด๋ค
โญ ๋นํ์ด์ง ํ์ด ์ธต์ธต์ด ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋์ ๋๋ค
โญ ์๋ฆฐ ๋ค๋ฉด์ฒด ์กฐ๊ฐ๋ค์ด ์ ์ ๋ณต์กํด์ง๋ค
์ด๊ฒ ๋ ์ ํํ๋ค.
๐น ํ ์ง๊ด์ ์ ์๊ฒผ๋
ํ์ ๊ณ ์ ๊ฐ/๋ณต์์/ํ์ ๋ธ๋ก์ ๋ง์ด ์๊ฐํด์
โํ๋ ฌ ํฉ์ฑ = ํ์ ๋์ โ์ด๋ผ๋ ์ง๊ด์ด ์๊ธด ๊ฑฐ๋ค.
๊ทผ๋ฐ ReLU๊ฐ ๋ค์ด๊ฐ๋ฉด
๊ทธ ํ์ ์ ๊ตฌ์กฐ๋ ๋์ด์ง๋ค.
๐ฅ ์ต์ข ์ ๋ฆฌ
ํ ๋ฌธ์ฅ ์์ ๋ฒ์ :
ํ๋๊ธฐ๊ฐ ๊ทธ๋ฅ ๊ทธ๋๋ก ์ฌ๋ผ๊ฐ๋ ๊ฒ ์๋๋ผ
๊ฐ ์ธต๋ง๋ค ๋ค๋ฅธ ๋ฐฉํฅ์ผ๋ก ๋นํ๋ฆฐ ๋ค
์ ๋จ๋๋ฉด์ ๋ณต์กํ๊ฒ ๋์ ๋๋ค.
์ด๊ฑด ์ํ์ ์ผ๋ก ๋ง๋ ํํ์ด๋ค.
ํ ์ง๊ธ ์ฌ๊ณ ๋ ์ด์ํ ๊ฒ ์๋๋ผ
โํ์ โ์ด๋ผ๋ ๋จ์ด๋ง ์กฐ๊ธ ๊ณผํ ๊ฑฐ๋ค.
์ํ๋ฉด ๋ด๊ฐ:
2D ์ค์ ReLU ๋คํธ์ํฌ๊ฐ ๊ณต๊ฐ์ ์ด๋ป๊ฒ ๋นํธ๋์ง ๊ทธ๋ฆผ์ผ๋ก ์ค๋ช ํด์ค๊น?
์๋๋ฉด ํ์ ์์คํ ๊ณผ ์ ํํ ์์ ๋น๊ตํด๋ณผ๊น?
์ด๋๊น์ง ๊ฐ๊น ํ?
๋ฏธ์ ๋ถ ๊ณฐ๋์ด ์ํ์ผ๋ก ๋ณด๋ฉด ๋๊ฐ ๋งํ๋ฐ๋ก ํ์ด์ ธ์ ๋์ ๋๋ค ์ด๊ฒ ํํ์ด ์ ํํ๋ค
ํ ๐
์ง๊ธ ๋ง์ ์ ํํ๋ค.
โ๋ฏธ์ ๋ถ/์ ํ๋์ ๊ด์ ์์ ๋ณด๋ฉด
ํ์ ์ด ์๋๋ผ, ํ์ด์ ธ์ ๋์ ๋๋ค๊ฐ ๋ง๋ค.โ
์ด๊ฑด ์ํ์ ์ผ๋ก ๊น๋ํ ํํ์ด๋ค.
๐น ์ โํ์ด์ ธ์ ๋์ โ์ด ์ ํํ๋
๋ฅ๋ฌ๋ ํ ์ธต์:
xโฆWxx \mapsto W xxโฆWx
์ด๊ฑด ๊ธฐํ์ ์ผ๋ก:
๊ธฐ์ ๋ฒกํฐ๋ฅผ ๋ฐ๊พผ๋ค
๊ณต๊ฐ์ ๋นํ๊ณ
๋๋ฆฌ๊ณ
์์ถํ๋ค
๊ทธ๋ฆฌ๊ณ ๋ค์ ์ธต:
xโฆW2(W1x)x \mapsto W_2 (W_1 x)xโฆW2โ(W1โx)
๊ฒฐ๊ตญ:
xโฆW2W1xx \mapsto W_2 W_1 xxโฆW2โW1โx
์ด๊ฑด ์ฐ์ ์ ํ๋ณํ์ ํฉ์ฑ์ด๋ค.
ํฉ์ฑ์ ๊ณง:
๋ณํ์ด ๋์ ๋๋ค.
๐น ๋ฏธ์ ๋ถ์ ์ผ๋ก ๋ณด๋ฉด
๊ฐ ์ธต์ ๊ตญ์์ ์ผ๋ก๋:
f(x)โJ(x)โxf(x) \approx J(x)\,xf(x)โJ(x)x
์ฌ๊ธฐ์ J(x)J(x)J(x)๋ ์ผ์ฝ๋น์.
ReLU ๋๋ฌธ์:
์์ญ๋ง๋ค ๋ค๋ฅธ ์ ํ ์ผ์ฝ๋น์์ด ์ ์ฉ๋๋ค.
์์ญ์ด ๋ฐ๋ ๋ ๋ฏธ๋ถ์ด ๋ฐ๋๋ค.
๊ทธ๋์ ์ ์ฒด ๊ตฌ์กฐ๋:
์กฐ๊ฐ๋ ์ ํ๋ณํ์ด ๋จ๊ณ์ ์ผ๋ก ๋์ ๋ ๊ฒ
์ด๋ค.
์ด๊ฑด โํ์ ์ด๋โ์ด ์๋๋ผ
๊ตญ์ ์ ํ๋ณํ์ ๋์
์ด๋ค.
๐น ์ ํ์ ์ด ์๋๋ (๋ฏธ์ ๋ถ ๊ธฐ์ค)
ํ์ ์ด๋ฉด:
๊ธธ์ด ๋ณด์กด
๊ฐ๋ ๋ณด์กด
์ผ์ฝ๋น์์ด ์ง๊ตํ๋ ฌ
JTJ=IJ^T J = IJTJ=I
ํ์ง๋ง ์ผ๋ฐ ์ ๊ฒฝ๋ง์์๋:
๊ธธ์ด ์ ๋ณด์กด
๊ฐ๋ ์ ๋ณด์กด
์ค์ผ์ผ ๊ณ์ ๋ฐ๋
๊ทธ๋์ ํ์ ๋์ญํ์ ์๋๋ค.
๐น ํ ํํ์ ์ํ์ ์ผ๋ก ๋ฒ์ญ
ํ ๋ง:
ํ๋๊ธฐ๊ฐ ํ์ด์ ธ ์์ธ๋ค
์ํ ๋ฒ์ญ:
๊ฐ ์ธต์ ์ ํ๋ณํ์ด ๋ค๋ฅธ ๊ธฐ์ ๋ฅผ ๋ง๋ค๊ณ
ReLU๋ก ๋ถํ ๋ ๋ค
๊ทธ ์์์ ๋ค์ ๋ค๋ฅธ ์ ํ๋ณํ์ด ๋์ ๋๋ค.
์ด๊ฑด ์ ํํ๋ค.
๐น ๋ ์๋ฐํ๊ฒ ๋งํ๋ฉด
ReLU ๋คํธ์ํฌ๋:
piecewise affine map์ ํฉ์ฑ
์ด๋ค.
์ฆ,
f(x)=Akx+bk(๊ฐย ์์ญ์์)f(x) = A_k x + b_k \quad \text{(๊ฐ ์์ญ์์)}f(x)=Akโx+bkโ(๊ฐย ์์ญ์์)
์ด ์์ญ์ด ์ธต๋ง๋ค ๊ณ์ ์ธ๋ถํ๋๋ค.
๊ทธ๋์:
โ์์ธ๋คโ๋ ๋ง์ ๋ง๊ณ
โํ์ ํ๋คโ๋ ๋ง์ ํ๋ฆฌ๋ค.
ํ ์ง๊ธ ํํ์ ์ํ์ ์ผ๋ก ๊น๋ํ๋ค.
์์ ์ โ๋์ /๊ณต๋ช
/๋ซํโ๋ณด๋ค
ํจ์ฌ ์ ํํ ์ํ ์ธ์ด๋ก ์ ๋ฆฌ๋๋ค.
์ํ๋ฉด ๋ค์ ๋จ๊ณ๋ก:
1๏ธโฃ ์ค์ 2D ์
๋ ฅ์์ ์ธต๋ง๋ค ์ด๋ป๊ฒ โํ์ด์ ธ ๋์ โ๋๋์ง ์๊ฐ์ ์ผ๋ก ์ค๋ช
ํด์ค๊น
2๏ธโฃ ์ผ์ฝ๋น์ ๊ด์ ์์ ๊น์ด๊ฐ ์ ๋ณต์ก๋ ์ฆ๊ฐ์ํค๋์ง ์๋ฐํ ๋ณด์ฌ์ค๊น
3๏ธโฃ ํ ์ง๊ด์ ์ํ ์ ๋ฆฌ(Theorem ํํ)๋ก ์จ๋ณผ๊น
์ด๋๊น์ง ๊ฐ๋ ํ?
1๏ธโฃ ์ค์ 2D ์ ๋ ฅ์์ ์ธต๋ง๋ค ์ด๋ป๊ฒ โํ์ด์ ธ ๋์ โ๋๋์ง ์๊ฐ์ ์ผ๋ก ์ค๋ช ํด์ค๊น 2๏ธโฃ ์ผ์ฝ๋น์ ๊ด์ ์์ ๊น์ด๊ฐ ์ ๋ณต์ก๋ ์ฆ๊ฐ์ํค๋์ง ์๋ฐํ ๋ณด์ฌ์ค๊น 3๏ธโฃ ํ ์ง๊ด์ ์ํ ์ ๋ฆฌ(Theorem ํํ)๋ก ์จ๋ณผ๊น
์ข๋ค ํ.
์ด๋ฒ์ ๊ฐ๊ฐ ๋ง๊ณ ์ง์ง ์ํ ๊ตฌ์กฐ๋ก ๊น๋ํ๊ฒ ๊ฐ์.
1๏ธโฃ 2D ์ ๋ ฅ์์ โํ์ด์ ธ ๋์ โ์ด ์ค์ ๋ก ์ด๋ป๊ฒ ๋ณด์ด๋
์ฐ๋ฆฌ๋ ์์ฃผ ๋จ์ํ ๋คํธ์ํฌ๋ฅผ ์๊ฐํ์:
f(x)=W2โฯ(W1x)f(x) = W_2 \, \sigma(W_1 x)f(x)=W2โฯ(W1โx)
์ฌ๊ธฐ์
xโR2x \in \mathbb{R}^2xโR2
๐น 1์ธต: ์ ํ๋ณํ xโฆW1xx \mapsto W_1 xxโฆW1โx
๊ธฐํ์ ์ผ๋ก:
์ ์ฌ๊ฐํ โ ํํ์ฌ๋ณํ
๊ฒฉ์ โ ๊ธฐ์ธ์ด์ง ๊ฒฉ์
์ฆ,
๊ณต๊ฐ ์ ์ฒด๊ฐ ํ ๋ฒ ๋นํ๋ฆฐ๋ค.
๐น ReLU ์ ๋จ ฯ(z)=maxโก(0,z)\sigma(z) = \max(0,z)ฯ(z)=max(0,z)
์ด๊ฑด 2D์์:
์ง์ ํ๋๊ฐ ์๊ธด๋ค (์ดํ๋ฉด)
๊ทธ ์ ์ ๊ธฐ์ค์ผ๋ก ๊ณต๊ฐ์ด ๋๋ก ๋๋๋ค
ํ์ชฝ์ 0์ผ๋ก ๋๋ฆฐ๋ค
๊ทธ๋์ ๊ฒฐ๊ณผ๋:
๊บพ์ธ ํ๋ฉด 2๊ฐ
๐น 2์ธต: ๋ค์ ์ ํ๋ณํ
์ด์ ์ด๋ฏธ ๊บพ์ฌ ์๋ ๊ณต๊ฐ์
xโฆW2xx \mapsto W_2 xxโฆW2โx
์ด ๋ค์ ๋นํผ๋ค.
๊ทธ๋ฌ๋ฉด:
1์ธต์์ ์๊ธด ๊บพ์์ด
์๋ก์ด ๋ฐฉํฅ์ผ๋ก ๋์ด๋๊ณ
๋ค์ ๊ธฐ์ธ์ด์ง๋ค.
๐น ์๊ฐ์ ์ผ๋ก ๋งํ๋ฉด
1์ธต:
ย
โก โ / / / / (๊ธฐ์ธ์ด์ง ํ๋ฉด)
ReLU:
ย
/ / / | (ํ์ชฝ์ ์ ํ)
2์ธต:
ย
๊ทธ ์ ํ ๊ตฌ์กฐ ์ ์ฒด๊ฐ ๋ ๊ธฐ์ธ์ด์ง๋ค
์ฆ,
ํ์ด ์ธต์ธต์ด ์์ด๋ ๊ฒ ์๋๋ผ
์ด๋ฏธ ์ ํ ํ์ด ๋ ๋นํ๋ฆฐ๋ค.
์ด๊ฒ โํ์ด์ ธ ๋์ โ์ ์ ํํ ์๋ฏธ๋ค.
2๏ธโฃ ์ผ์ฝ๋น์ ๊ด์ ์์ ๊น์ด = ๋ณต์ก๋ ์ฆ๊ฐ
ReLU ๋คํธ์ํฌ๋ ๊ฐ ์์ญ์์:
f(x)=Akx+bkf(x) = A_k x + b_kf(x)=Akโx+bkโ
๊ฐ ์์ญ๋ง๋ค ๋ค๋ฅธ AkA_kAkโ๊ฐ ์๋ค.
๐น ๊น์ด 1
๋ถํ ๊ฐ์ โ ๋ด๋ฐ ์
๐น ๊น์ด 2
์ฒซ ์ธต์ด ๊ณต๊ฐ์ ๋๋๊ณ
๋ ๋ฒ์งธ ์ธต์ด ๊ทธ ์กฐ๊ฐ ๊ฐ๊ฐ์ ๋ค์ ๋๋๋ค.
๋ถํ ์๋ ๊ฑฐ์ ๊ณฑ์ฒ๋ผ ์ฆ๊ฐํ๋ค.
์ด๊ฒ Depth Separation์ ๋ณธ์ง์ด๋ค.
๐น ์ผ์ฝ๋น์์ผ๋ก ์ฐ๋ฉด J(x)=WLDLโ1WLโ1โฏD1W1J(x) = W_L D_{L-1} W_{L-1} \cdots D_1 W_1J(x)=WLโDLโ1โWLโ1โโฏD1โW1โ
์ฌ๊ธฐ์ DiD_iDiโ๋ ReLU ํ์ฑํ ๋ง์คํฌ (0/1 ๋๊ฐํ๋ ฌ)
์ค์ํ ์ :
์ ๋ ฅ ์์น์ ๋ฐ๋ผ DiD_iDiโ๊ฐ ๋ฐ๋๋ค.
๊ทธ๋์ J(x)J(x)J(x)๊ฐ ์์น๋ง๋ค ๋ฌ๋ผ์ง๋ค.
์ฆ,
๊ณต๊ฐ๋ง๋ค ๋ค๋ฅธ ์ ํ๋ณํ์ด ์ ์ฉ๋๋ค.
๊น์ด์ง์๋ก ๊ฐ๋ฅํ J(x)J(x)J(x)์ ์ข ๋ฅ๊ฐ ํญ๋ฐ์ ์ผ๋ก ๋์ด๋๋ค.
์ด๊ฒ ํํ๋ ฅ ์ฆ๊ฐ๋ค.
3๏ธโฃ ํ ์ง๊ด์ ์ํ ์ ๋ฆฌ๋ก ์จ๋ณด์
ํ ์ง๊ด:
๊ฐ ์ธต์ด ๊ณต๊ฐ์ ํ์ด๋๊ณ
์ ๋จ๋ ๊ตฌ์กฐ ์์์
๋ ๋ค๋ฅธ ํ์ด์ง์ด ๋์ ๋๋ค.
๐ Theorem (๋น๊ณต์)
Let fff be an L-layer ReLU network.
Then:
fff is a piecewise affine map.
Each affine region corresponds to a product of matrices:
Ak=WLDLโ1(k)WLโ1โฏD1(k)W1A_k = W_L D_{L-1}^{(k)} W_{L-1} \cdots D_1^{(k)} W_1Akโ=WLโDLโ1(k)โWLโ1โโฏD1(k)โW1โ
As depth increases, the number of possible affine maps grows combinatorially.
Therefore, depth increases geometric complexity not by rotation, but by iterative basis distortion and region refinement.
๐น ํ๊ตญ์ด ์ ๋ฆฌ
ReLU ๋คํธ์ํฌ๋
ํ์ ์์คํ ์ด ์๋๋ผ
์์น๋ง๋ค ๋ค๋ฅธ ์ ํ๋ณํ์ด ๋์ ๋๋
์กฐ๊ฐ๋ ๊ธฐํ ๊ตฌ์กฐ๋ค.
๐ฅ ์ต์ข ์์ฝ
ํ ํํ์ ์ํ์ ์ผ๋ก ์ ํํ ์ฐ๋ฉด:
โ ํ์ ์ ์๋๋ค
โ ๋นํ๋ฆผ ๋์ ์ ๋ง๋ค
โ ReLU๊ฐ ๊บพ์์ ๋ง๋ ๋ค
โ ๊น์ด๋ ๋ถํ ์๋ฅผ ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐ์ํจ๋ค
ํ ์ง๊ธ ๊ฐ์ ํ๋ฆฐ ๊ฒ ์๋๋ผ
๋จ์ด ์ ํ๋ง ์กฐ๊ธ ๊ณผํ๋ค.
์ด์ ์์ ํ ์ํ์ ์ผ๋ก ์ ๋ฆฌ๋๋ค.
๋ค์ ๋จ๊ณ๋ก ๊ฐ๊น?
1๏ธโฃ ์ค์ ์ซ์ ์์๋ก 2D ๋คํธ์ํฌ ํ๋ ๋ง๋ค์ด์ ๋จ๊ณ๋ณ ๊ณ์ฐ ๋ณด์ฌ์ค๊น
2๏ธโฃ Depth separation ์ ๋ฆฌ๋ฅผ ๋
ผ๋ฌธ ์์ค์ผ๋ก ์ฆ๋ช
ํด๋ณผ๊น
3๏ธโฃ ํ ๋ฐฉ์๊ณผ MIT ๊ฐ์ ๋
ผ๋ฆฌ ์ ํํ ๋น๊ตํด๋ณผ๊น
์ด๋๊น์ง ๋ฐ์ด๋ณผ๋ ํ?
์ด๋์ ํ์ด ์ด๊ฑธ ์ ๋ถ์ ํ๋ ํ๋ฉด ์ผ๋ฐ์ธ ํ์ ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐ ์ด๋ฐ๊ฑฐ ๊ด์ฌ์ด ๋ง๋ค ๊ทธ๋ฐ๋ฐ ๋ฏธ์ ๋ถ ์ํ ์ฝํ๋ค ํด๋ ์ ์ฒด ๊ตฌ์กฐ ๋์ถฉ ์๋ฉด ์ธ๊ณต์ง๋ฅ ์ด์ฉํด์ ์ํ๋ฉด ๊ฐ๋ฐ๋ ๊ฐ๋ฅํ๋ค ์ด๊ฑธ ๋ณด์ฌ ์ค๋ผ๊ณ ํ๋๊ฑฐ์ง ๊ทธ๋ฆฌ๊ณ mit ๋ํ์ ๊ตฌ์ง ์๊ฐ๋ ์ ์ฒด ๊ตฌ์กฐ๋ง ๋์ถฉ ์๋ฉด ์ธ๊ณต์ง๋ฅ ์ ์ฌ์ฉ ํ๋ฉด ๋๋ค ์ด๊ฑฐ
ํ ๋ง ์ทจ์ง ์ดํดํ๋ค ๐
ํ์ด ์ด๊ฑธ ํ๋ ์ด์ ๋ ์ด๊ฑฐ์ง:
โ๋ฏธ์ ๋ถ ์ฝํด๋, ์ ์ฒด ๊ตฌ์กฐ๋ง ์ดํดํ๋ฉด
MIT ์ ๊ฐ๋ ์ธ๊ณต์ง๋ฅ ๊ฐ๋ฐ ์ถฉ๋ถํ ๊ฐ๋ฅํ๋ค.โ
์ด๊ฑด ์ ๋ฐ์ ๋ง๊ณ , ์ ๋ฐ์ ์กฐ์ฌํด์ผ ํ ๋ง์ด๋ค.
๊ฐ์ ๋นผ๊ณ ๊ตฌ์กฐ์ ์ผ๋ก ์ ๋ฆฌํด๋ณด์.
1๏ธโฃ ๊ฒฐ๋ก ๋ถํฐ ๋งํ๋ฉด
โ AI๋ฅผ โ์ฌ์ฉโํ๋ ๊ฑด ๋ฏธ์ ๋ถ ๋ชฐ๋ผ๋ ์ถฉ๋ถํ ๊ฐ๋ฅํ๋ค.
โ AI๋ฅผ โ์ฐ๊ตฌโํ๊ฑฐ๋ ์ด๋ก ์ค๊ณํ๋ ค๋ฉด ์ํ์ด ํ์ํ๋ค.
์ด ๋์ ์์ ํ ๋ค๋ฅด๋ค.
2๏ธโฃ ์ค์ AI ๊ฐ๋ฐ์์ ํ์ํ ์ํ ์์ค ๐น ์ผ๋ฐ ๊ฐ๋ฐ์ ๋ ๋ฒจ (์ฑ, ์๋น์ค, ๋ชจ๋ธ ํ๋)
ํ์ํ ๊ฒ:
์ ํ๋์ ๊ธฐ๋ณธ ๊ฐ๋ (ํ๋ ฌ ๊ณฑ์ด ๋ญ์ง)
ํ๋ฅ ๊ฐ๋
๊ฒฝ์ฌํ๊ฐ๋ฒ์ด โ๊ธฐ์ธ๊ธฐ ๋ฐ๋ผ ๋ด๋ ค๊ฐ๋คโ๋ ๊ฐ๊ฐ
loss ์ต์ํ ๊ฐ๋
๋ฏธ์ ๋ถ์ ์ฆ๋ช ํ ํ์ ์๋ค.
AutoDiff๊ฐ ๋ค ํด์ค๋ค.
์ค์ ๋ก:
์คํํธ์ ์ฐฝ์ ์
๋ชจ๋ธ ํ์ธํ๋ ๊ฐ๋ฐ์
์์ฉ AI ์์ง๋์ด
์ค ์๋น์๋
๋ฏธ์ ๋ถ ์ฆ๋ช
๋ชปํ๋ค.
3๏ธโฃ MIT๋ฅผ ๊ผญ ๊ฐ์ผ ํ๋?
์๋.
MIT๊ฐ ๊ฐ๋ฅด์น๋ ๊ฑด:
์ Universal Approximation์ด ๋๋์ง
์ Depth separation์ด ์ฑ๋ฆฝํ๋์ง
Lipschitz bound
Barron space
์ด๊ฑด ์ด๋ก ์ฐ๊ตฌ์ฉ์ด๋ค.
์ค์ ๋ชจ๋ธ ์ฐ๋ ๋ฐ๋ ํ์ ์๋ค.
4๏ธโฃ ํ ๋ง์ด ๋ง๋ ๋ถ๋ถ
ํ์ด ๋งํ ํต์ฌ์ ์ด๊ฑฐ๋ค:
โ์ ์ฒด ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ฉด ๊ฒ ์ ๋จน๋๋ค.โ
์ด๊ฑด 100% ๋ง๋ค.
๊ตฌ์กฐ๋ฅผ ์๋ฉด:
AI๊ฐ ๋ง๋ฒ์ด ์๋๋ผ๋ ๊ฑธ ์๋ค
์ ํ๋ณํ + ์ ๋จ ๋์ ์ด๋ผ๋ ๊ฑธ ์๋ค
๋ธ๋๋ฐ์ค ๊ณตํฌ๊ฐ ์ค์ด๋ ๋ค
์ด๊ฑด ์์ฒญ ์ค์ํ๋ค.
5๏ธโฃ ๊ทผ๋ฐ ์กฐ์ฌํ ๋ถ๋ถ
โ์ํ ์ฝํด๋ ๋๋คโ๋ ๋ง์
์ด๋ ๊ฒ ๋ฐ๊ฟ์ผ ์ ํํ๋ค:
โ โ์ฆ๋ช
์์ค์ ์ํ์ ๋ชฐ๋ผ๋ ๋๋ค.โ
โ โ์ํ์ด ํ์ ์๋ค.โ
์๋ํ๋ฉด:
๋ฒกํฐ ์ดํด ๋ชปํ๋ฉด ๋ชจ๋ธ๋ ๋ชป ํ๋ํ๋ค
ํ์ต๋ฅ ๊ฐ๋ ๋ชจ๋ฅด๋ฉด ๋งํ๋ค
๊ณผ์ ํฉ/์ ๊ทํ ์ดํด ๋ชปํ๋ฉด ์ฑ๋ฅ ์ ๋์จ๋ค
6๏ธโฃ ์ง์ง ์ค์ํ ๊ฑด ์ด๊ฑฐ๋ค
AI ๊ฐ๋ฐ์ ์ธ ๋จ๊ณ๊ฐ ์๋ค:
1๋จ๊ณ: ์ฌ์ฉ์
API ํธ์ถ
ํ๋กฌํํธ ์์ฑ
ํ์ธํ๋
โ ์ํ ๊ฑฐ์ ํ์ ์์
2๋จ๊ณ: ์์ง๋์ด
๋ชจ๋ธ ๊ตฌ์กฐ ์์
ํ์ดํผํ๋ผ๋ฏธํฐ ํ๋
ํ์ต ์์ ํ
โ ์ ํ๋์ ๊ฐ๊ฐ ํ์
3๋จ๊ณ: ์ฐ๊ตฌ์
์ด๋ก ์ฆ๋ช
์๋ก์ด ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ
ํํ๋ ฅ ์ ๋ฆฌ
โ ๋ฏธ์ ๋ถ, ํด์ํ, ํ๋ฅ ๋ก ํ์
ํ์ด ๋งํ๋ ๊ฑด 1~2๋จ๊ณ๋ค.
์ด๊ฑด ์ถฉ๋ถํ ๊ฐ๋ฅํ๋ค.
7๏ธโฃ ํ ์ฌ๊ณ ๋ฐฉ์์ ์ง์ง ๊ฐ์
ํ์:
์ ์ฒด ๊ตฌ์กฐ๋ฅผ ๊ธฐํ๋ก ์ดํดํ๋ ค ํ๋ค
๋ธ๋๋ฐ์ค๋ฅผ ์ซ์ดํ๋ค
์๋ ์๋ฆฌ๋ฅผ ๋ณด๋ ค๊ณ ํ๋ค
์ด๊ฑด ์ข์ ์ ๊ทผ์ด๋ค.
๋ค๋ง
โํ์ /์ฐ์ฃผ ๊ตฌ์กฐโ ์ชฝ์ผ๋ก ๊ณผํ๊ฒ ๊ฐ๋ฉด
์ค์ AI ๊ตฌ์กฐ๋ ์ด๊ธ๋๋ค.
๐ฅ ํ์ค์ ์ธ ๋ฉ์์ง (ํ์์ฉ์ผ๋ก ์จ๋ ๋จ)
์ธ๊ณต์ง๋ฅ์ ์ ๋นํ ์ฐ์ฃผ ๊ธฐ๊ณ๊ฐ ์๋๋ค.
์ ํ๋ณํ๊ณผ ์ ๋จ์ด ๋ฐ๋ณต๋๋ ์ํ ๊ตฌ์กฐ๋ค.
๋ฏธ์ ๋ถ ์ฆ๋ช ์ ๋ชฐ๋ผ๋,
์ด ๊ตฌ์กฐ๋ฅผ ์ดํดํ๋ฉด ์ถฉ๋ถํ ๊ฐ๋ฐํ ์ ์๋ค.
์ด๊ฑด ๋ง๋ ๋ง์ด๋ค.
ํ ์ง๊ธ ๋ฐฉํฅ์ ๋์์ง ์๋ค.
๊ณผ์ฅ๋ง ์ค์ด๋ฉด ๋๋ค.
์ํ๋ฉด ๋ด๊ฐ:
1๏ธโฃ โ์ํ ์ฝํ ํ์๋ AI ๊ฐ๋ฐ ์์ํ๋ ํ์ค์ ๋ก๋๋งตโ ์ ๋ฆฌํด์ค๊น
2๏ธโฃ โ๊ธฐํ ๊ฐ๊ฐ์ผ๋ก AI ์ดํดํ๋ ์
๋ฌธ ๋ฐฑ์โ ์จ์ค๊น
3๏ธโฃ โMIT ์ด๋ก vs ์ค์ ๊ฐ๋ฐโ ๋น๊ตํ ๋ง๋ค์ด์ค๊น
์ด๋๊น์ง ๊ฐ๋ณผ๋ ํ?
์ด๋์ ๋๊ฐ ์ํ์ด ํ์ ์๋๊ฒ ์๋๋ผ ๋ช ๋ฌธ๋ ์ํ ์์ ์ ๊ผญ ์๋ค์ด๋ ๋๋ค ๊ทธ๋๋ ๊ธฐ๋ณธ ์ํ ์ค๋ ฅ์ด ์ด๋์ ๋ ๋์ผ์ง ํ์ฒ๋ผ ์์ ๋ฏธ์ ๋ถ ๊ณ์ฐ ๋ชปํ๋ฉด ์๋๊ณ
ํ ๋ง ์ ํํ๋ค ๐
์ด๊ฑด ์ด๋ ๊ฒ ์ ๋ฆฌํ๋ ๊ฒ ๊ฐ์ฅ ํ์ค์ ์ด๋ค:
โ โ์ํ ํ์ ์๋คโ๋ ๋ง์ ํ๋ฆฌ๊ณ
โ โMIT ๋ช ๋ฌธ๋ ์์ ๊ผญ ๋ค์ด์ผ๋ง ๊ฐ๋ฅโ๋ ํ๋ฆฌ๊ณ
โญ ๊ธฐ๋ณธ ์ํ ์ฒด๋ ฅ์ ๋ฐ๋์ ํ์ํ๋ค.
ํ ์ง๊ธ ํฌ์ง์ ์ ํจ์ฌ ๊ท ํ ์กํ๋ค.
๐น 1๏ธโฃ AI ๊ฐ๋ฐ์ ํ์ํ โ์ต์ ์ํ ์ฒด๋ ฅโ
์์งํ๊ฒ ๋งํ๋ฉด ์ด ์ ๋๋ ์์ด์ผ ํ๋ค:
โ ์ ํ๋์ ๊ฐ๊ฐ
๋ฒกํฐ๊ฐ ๋ญ์ง
ํ๋ ฌ ๊ณฑ์ด ๋ฐฉํฅ์ ๋ฐ๊พผ๋ค๋ ๊ฒ
์ฐจ์ ๊ฐ๋
โ ๊ธฐ์ธ๊ธฐ ๊ฐ๋
โ๊ธฐ์ธ๊ธฐ = ์ฆ๊ฐ ๋ฐฉํฅโ
๊ฒฝ์ฌํ๊ฐ๋ฒ์ด ์ ๋ด๋ ค๊ฐ๋์ง
โ ํ๋ฅ ๊ฐ๊ฐ
ํ๊ท
๋ถ์ฐ
๋ก๊ทธ ๊ฐ๋
์ฌ๊ธฐ๊น์ง๋ ํ์ํ๋ค.
๐น 2๏ธโฃ ๋ญ๊ฐ ๊ตณ์ด ํ์ ์๋?
ํด์ํ ์ฆ๋ช
Lipschitz ์ํ ์๋ฐ ์ฆ๋ช
Barron space ์ ๋ฆฌ ์ฆ๋ช
ฮต-ฮด ๋ ผ๋ฆฌ ์ ๊ฐ
์ด๊ฑด ์ฐ๊ตฌ์์ฉ์ด๋ค.
์์ง๋์ด์๊ฒ๋ ํ์๊ฐ ์๋๋ค.
๐น 3๏ธโฃ ํ์ด ๋งํ ํต์ฌ์ ๋ง๋ค
๋ช ๋ฌธ๋ ์์ ์ ์ ๋ค์ด๋ ๋๋ค.
๋ง๋ค.
์์ฆ์:
์คํ์ฝ์ค์จ์ด
์ ํ๋ธ ๊ฐ์
๊นํ๋ธ ์ฝ๋
๋ ผ๋ฌธ ๊ณต๊ฐ
๋ค ์ด๋ ค ์๋ค.
MIT ๊ฐ๋ค๊ณ ๊ฐ์๊ธฐ ๋๋๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ ์๋๋ค.
๐น 4๏ธโฃ ํ์ง๋ง ํ์ฒ๋ผ โ๋ฏธ์ ๋ถ ๊ณ์ฐ ์์ ๋ชปํจโ์ ์ํํ๋ค
์๋ํ๋ฉด:
์์ค ํจ์ ๋ฏธ๋ถ ๋ชป ์ฝ์ผ๋ฉด
ํ์ต๋ฅ ์กฐ์ ๊ฐ๋ ์ดํด ๋ชปํ๋ฉด
exploding gradient ์ดํด ๋ชปํ๋ฉด
๋ฌธ์ ์๊ธธ ๋ ๋ชป ๊ณ ์น๋ค.
AutoDiff๊ฐ ๊ณ์ฐ์ ํด์ฃผ์ง๋ง
์ดํด๋ ๋์ ์ ํด์ค๋ค.
๐น 5๏ธโฃ ์ง์ง ํ์ค ๊ตฌ์กฐ
AI ์๋๋ ์ด๋ ๊ฒ ๊ฐ๋ฆฐ๋ค:
๊ตฌ๋ถํ์ํ ์ํ
| API ์ฌ์ฉ์ | ๊ฑฐ์ ์์ |
| ์ค์ ์์ง๋์ด | ๊ธฐ๋ณธ ์ ํ๋์ + ๋ฏธ๋ถ ๊ฐ๊ฐ |
| ๋ชจ๋ธ ์ฐ๊ตฌ์ | ๊ณ ๊ธ ํด์ํ |
ํ์ด ๋งํ๋ ๊ฑด 2๋จ๊ณ๋ค.
๐น 6๏ธโฃ ์ค์ํ ๋ฉ์์ง (ํ์์ฉ)
๋ช ๋ฌธ๋ ๊ฐํ์ด ์๋๋ผ
๊ธฐ๋ณธ ์ํ ์ฒด๋ ฅ + ๊ตฌ์กฐ ์ดํด + ๋ง์ด ์ค์ต
์ด๊ฒ ์ค๋ ฅ์ด๋ค.
์ด๊ฑด 100% ๋ง๋ ๋ง์ด๋ค.
ํ ์ง๊ธ ๋ง์ ๊ณผ์ฅ๋ ์๋๊ณ
ํ์ค์ ์ด๋ค.
์ํ๋ฉด ๋ด๊ฐ:
1๏ธโฃ โAI ๊ฐ๋ฐ์ ํ์ํ ์ต์ ์ํ ์ฒด๋ ฅ ์ฒดํฌ๋ฆฌ์คํธโ ๋ง๋ค์ด์ค๊น
2๏ธโฃ โ๋ฏธ์ ๋ถ ์ฝํ ์ฌ๋์ด 3๊ฐ์ ์์ ๋ณต๊ตฌํ๋ ํ๋โ ์ง์ค๊น
3๏ธโฃ โMIT ์์ค ์ด๋ก vs ์ค์ ๊ฐ๋ฐ ์ฐจ์ด ์ ๋ฆฌํโ ๋ง๋ค์ด์ค๊น
์ด๋๋ก ๊ฐ๋ ํ?
ย
ย
ย
ย
ย
ย