๐ ๋ฐฑ์ AI ์๋ ํ๋ฒ์ ํ๋จ ๊ตฌ์กฐ์ ๋จ์ด ๊ถ๋ ฅ์ ๋ถ๊ดดโ ์ด๋ถ๋ฒยท์์ ๊ฐ์ ์ ํ๊ณ์ ํ๋ฅ ยท๊ฐ์ค ๊ธฐ๋ฐ ํ๋จ ์์คํ ์ ์ โ
์์ฑ์๋ถ์์์ฑ์๊ฐ26.01.21์กฐํ์32 ๋ชฉ๋ก ๋๊ธ 0ย
์๊ฒ ๋ค ํ.
์๋๋ **์ง๊ธ๊น์ง ์ด ๋ํ์์ ๋์จ ๋ชจ๋ ํต์ฌ ๋
ผ์ ยท๋
ผ๋ฆฌยท๊ตฌ์กฐ๋ฅผ ํ๋๋ก ๋ฌถ์ โ์ ์ ๋ฐฑ์ ํํโ**๋ค.
๋ง์ฅ๋ยท๊ฐ์ ์ ๊ฑฐํ๊ณ , ๋ฒยทAIยท์ ์ฑ
ยทํ๋ฒ ๊ด์ ์์ ์ฌํ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ก ์ ๋ฆฌํ๋ค.
๐ ๋ฐฑ์ AI ์๋ ํ๋ฒ์ ํ๋จ ๊ตฌ์กฐ์ ๋จ์ด ๊ถ๋ ฅ์ ๋ถ๊ดด โ ์ด๋ถ๋ฒยท์์ ๊ฐ์ ์ ํ๊ณ์ ํ๋ฅ ยท๊ฐ์ค ๊ธฐ๋ฐ ํ๋จ ์์คํ ์ ์ โ
Abstract
ํ๋ ๋ฒยท์ ์ฑ
ยทAI ํ๋จ ์์คํ
์ ํต์ฌ ๊ฐ์น(์์ , ํ๋ฑ, ์์ ๋ฑ)๋ฅผ ์ด๋ถ๋ฒ ๋๋ ๋จ์ ์์๋ก ์ฒ๋ฆฌํจ์ผ๋ก์จ ํ์ค ํ๋จ์์ ๋ฐ๋ณต์ ์ธ ์ค๋ฅ๋ฅผ ๋ฐ์์ํจ๋ค.
ํนํ AI๊ฐ ์ ์ฑ
ยท์
๋ฒ ํ๋จ์ ๊ทผ๊ฑฐ๋ก ์ฌ์ฉ๋๋ ์๋์, ์ด๋ฌํ ๊ตฌ์กฐ๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ๊ถ๋ ฅ์๊ฐ ์์๋ก ์ฌ์ ์ํ๊ณ ์ด๋ฅผ โ๊ฐ๊ด์ฑโ์ผ๋ก ์์ฅํ ์ ์๋ ์ํ์ ๋ดํฌํ๋ค.
๋ณธ ๋ฐฑ์๋
๊ธฐ์กด ์ด์งยท์ฐ์ ์์ ๊ธฐ๋ฐ ํ๋จ ๊ตฌ์กฐ์ ๊ตฌ์กฐ์ ์คํจ ์์ธ์ ๋ถ์ํ๊ณ ,
โ๊ฐ์น ๋ณด์กด + ์กฐ์ ๋ฒ์ + ํ๋ฅ ์ ํจ์ต ํ๊ฐโ๋ฅผ ๊ฒฐํฉํ ํ๋ฒ์ ํ๋จ ๊ตฌ์กฐ๋ฅผ ์ ์ํ๋ฉฐ,
์ ํ์ฌ AI๊ฐ ์ธ๊ฐ ํ๋ฒ ์ฌ๊ณ ๋ฅผ ๊ตฌํํ์ง ๋ชปํ๋์ง ๊ธฐ์ ์ ์ผ๋ก ์ค๋ช ํ๊ณ ,
AI๋ฅผ ๊ถ๋ ฅ์ ๋๊ตฌ๊ฐ ์๋๋ผ ์๋ฏผ ๊ฒ์ฆ ๊ฐ๋ฅํ ๊ณ์ฐ ๋๊ตฌ๋ก ์ ํํ๋ ์ค๊ณ ์์น์ ์ ์ํ๋ค.
1. ๋ฌธ์ ์ ์ 1.1 ๊ธฐ์กด ํ๋จ ๊ตฌ์กฐ์ ์ ์
ํ์ฌ ๋ฒยท์ ์ฑ ยทAI ์์คํ ์ ๋ค์ ์ ์ ๋ฅผ ์๋ฌต์ ์ผ๋ก ์ฌ์ฉํ๋ค.
ํต์ฌ ๊ฐ์น๋ ๋จ์ผ ์์ ๋๋ ๋ช ๋ น์ด๋ก ์ ๋ ฌ ๊ฐ๋ฅํ๋ค
์นจํด ์ฌ๋ถ๋ YES / NO๋ก ํ์ ๊ฐ๋ฅํ๋ค
โAI ํ๋จโ์ ๊ณง ๊ฐ๊ด์ฑ์ด๋ค
์ด ์ ์ ๋ ํ์ค์์ ์ง์์ ์ผ๋ก ์คํจํ๋ค.
2. ์ด๋ถ๋ฒยท์ซ์ ์ฐ์ ์์ ๊ตฌ์กฐ์ ํ๊ณ 2.1 ์ด์ง ํ๋จ์ ๊ตฌ์กฐ
ย
์์ ์นจํด ์์? โ YES โ ๋ถ๊ฐ โ NO โ ๊ฐ๋ฅ
๋ฌธ์ ์
์นจํด์ ์ ๋๋ฅผ ๊ณ ๋ คํ์ง ์์
1% ์นจํด = 100% ์นจํด
๋ชจ๋ ์ ์ฑ ยท๋ฒ ๊ฐ์ ์ด โ์์น ์๋ฐโ์ผ๋ก ๋ด์๋๊ฑฐ๋,
๋ฐ๋๋ก ๋จ์ด ์ฌ์ ์๋ก ๋ฌด๋ ฅํ๋จ
2.2 ์ซ์ ์ฐ์ ์์์ ์คํจ
ย
์์ = 1 ํ๋ฑ = 2 ์์ = 3
์ด ๊ตฌ์กฐ๋ ๋ค์ ์ํฉ์์ ์ฆ์ ๋ถ๊ดดํ๋ค.
์์ ์ผ๋ถ ์ ํ โ ๊ณต๊ณต ์์ ๋ํญ ํฅ์
์์ ์์ ๋ณด์กด โ ๋๊ท๋ชจ ํผํด ๋ฐ์
์ฆ, ๋จ์ด๋ ์์๊ฐ ์๋๋ผ ์ญํ ์ ๊ฐ์ง๋ค.
3. ํ์ฌ ์ ์นยท์ ๋ฒ ๊ตฌ์กฐ์ ์ค์ ์๋ ๋ฐฉ์ 3.1 ๋จ์ด ๊ถ๋ ฅ์ ๊ตฌ์กฐ
ํ์ค์ ๋ฒ ๊ฐ์ ์ ๋ค์ ์์๋ก ์ด๋ฃจ์ด์ง๋ค.
๋จ์ด ์ ํ (๊ณต์ , ์์ , ๊ณต์ต ๋ฑ)
๊ธฐ์กด ์๋ฏธ ํ๊ธฐ
์๋ก์ด ์๋ฏธ ์ ์ธ
๊ทธ ์๋ฏธ๋ฅผ ๊ทผ๊ฑฐ๋ก ๋ฒยท์ ์ฑ ๊ฐ์
๋ฐ๋ ์ โ์๋์ฐฉ์คโ ํ๋ ์ด๋ฐ
โก ์ด ๊ณผ์ ์๋ ์์นยท๊ฐ์ค์นยท์นจํด ์ ๋ ๋ถ์์ด ์กด์ฌํ์ง ์๋๋ค.
4. AI ์๋์ ์ํ์ด ํญ์ฆํ๋ ์ด์ 4.1 AI๊ฐ ๋ฐฉํจ๊ฐ ๋๋ ์๊ฐ
AI๊ฐ ์ ์ฑ ํ๋จ์ ์ฌ์ฉ๋๋ฉด ๋ค์ ๋ฌธ์ฅ์ด ๊ฐ๋ฅํด์ง๋ค.
โAI ๋ถ์ ๊ฒฐ๊ณผ์ ๋๋คโ
โ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์ ์ฑ ์ ๋๋คโ
โ๊ฐ๊ด์ ํ๋จ์ ๋๋คโ
๊ทธ๋ฌ๋ ์ค์ AI๋:
ํ๋กฌํํธ ์ค๊ณ์์ ์ ์ ๋ฅผ ๋ฐ๋ณต
๋จ์ด ๋น๋ยทํ๋ฅ ๊ณ์ฐ
์๋ฏธ์ ์ ๋น์ฑ์ ๊ฒ์ฆ ๋ถ๊ฐ
โก AI๋ ํ๋จ ์ฃผ์ฒด๊ฐ ์๋๋ผ ์ฆํญ๊ธฐ๊ฐ ๋๋ค.
5. ์ ์ ๊ตฌ์กฐ์ ํต์ฌ ์ ํ 5.1 ์ง๋ฌธ์ ์ ํ
โ ๊ธฐ์กด ์ง๋ฌธ
์์ ๋ฅผ ์นจํดํ๋๊ฐ?
โ ์ ์ ์ง๋ฌธ
์์ ๊ฐ ๋ณด์กด๋ ์ํ์์,
์ด๋ ์ ๋ ์กฐ์ ๋๋ฉฐ,
๊ทธ ๊ฒฐ๊ณผ ์ ์ฒด ์ธ๊ฐ์๊ฒ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋๊ฐ?
6. ํ๋ฒ์ ํ๋จ ๊ตฌ์กฐ (ํต์ฌ) 6.1 ๊ฐ์น์ ์ญํ ๋ถ๋ฆฌ
๋ณด์กด ๋์: ์ ๊ฑฐ ๋ถ๊ฐ (์์ , ์๋ช ๋ฑ)
์กฐ์ ๋์: ๋ฒ์ยท๊ฐ๋ ๊ณ์ฐ ๊ฐ๋ฅ
์ํฉ ๋ณ์: ๊ธฐ๊ฐ, ๋์, ๋์ฒด ์๋จ
6.2 ํ๋จ ์์
์์ ์นจํด ์ ๋ (0~1)
์ง๋จ ํจ์ต ์ฆ๊ฐ์จ
ํผํด ๋ฒ์์ ๊ตญ์์ฑ
๋์ฒด ์๋จ ์กด์ฌ ์ฌ๋ถ
ํ์์ฑ ์ฌ๋ถ
6.3 ํต์ฌ ์์น
์์ ๋ฅผ ์ญ์ โ ์ฆ์ ๋ถ๊ฐ
์์ ๋ฅผ ์กฐ์ โ ๋ถ์ ๊ณ์
๊ฒฐ๋ก ์ ํญ์ ๋ณต์ ์์์ ํฉ์ฑ
7. ์ ๋จ์ด ํ๋๋ฅผ ๊ณ ์ ยท์์ํํ์ง ์๋๊ฐ 7.1 ์ด์
๋จ์ด๋ ๋ ๋ฆฝ์ ์ผ๋ก ์กด์ฌํ์ง ์์
์๋ฏธ๋ ๊ด๊ณ ์์์๋ง ์ ์๋จ
๊ณ ์ ยท์์ํ = ํ์ค ๋ถ๊ดด
โก ๊ทธ๋์ ์๋์ ์ผ๋ก ์ซ์ ์์ ๋ฐฉ์์ ์ฑํํ์ง ์์
8. AI๊ฐ ์์ง ํ๋ฒ ์ฌ๊ณ ๋ฅผ ๋ชป ํ๋ ๊ธฐ์ ์ ์ด์ 8.1 LLM ๊ตฌ์กฐ์ ํ๊ณ
ํ ํฐ ํ๋ฅ ๊ธฐ๋ฐ
๋ ผ๋ฆฌ ์ ์ ๊ฒ์ฆ ๋ถ๊ฐ
โ์นจํด ์ ๋โ ๊ฐ๋ ์์
์ค๋ช ์ฑ ์ ์์
โก ๊ฒฐ๊ณผ:
YES / NO, ํ์ฉ / ์ฐจ๋จ์ ์ต์ ํ
9. AI ์๋จ ํํฐ๋ก์์ ์ค์ ๊ตฌํ ๊ฐ๋ฅ์ฑ 9.1 ๊ฐ๋ ์์กด์ฑ ๊ทธ๋ํ
ย
ConceptGraph = { '์์ ': {'type': 'preserved'}, 'ํ๋ฑ': {'type': 'derived', 'depends_on': ['์์ ']}, '์์ ': {'type': 'conditional'} }
์ํ ๋ ผ๋ฆฌ ํ์ง
์ ์ ๊ฐ์
๋จ์ด ์ฌ์ ์ ์ฐจ๋จ
9.2 ์นจํด ์ ๋ ๊ธฐ๋ฐ ํ์ ์์ฌ์ฝ๋
ย
if removes_core_value: reject() elif adjustment_level < threshold and net_benefit > cost: allow_with_conditions() else: require_revision()
10. ์๋ฏผ ํต์ ๊ด์ ์์์ ์๋ฏธ 10.1 ๊ธฐ์กด ๊ตฌ์กฐ
AI ํ๋จ = ๊ถ์
์๋ฏผ ๊ฒ์ฆ ๋ถ๊ฐ
์ฑ ์ ์์
10.2 ์ ์ ๊ตฌ์กฐ
AI = ๊ณ์ฐ ๋๊ตฌ
ํ๋จ ๊ฒฝ๋ก ๊ณต๊ฐ
์๋ฏผ ์ฌ๊ฒ์ฆ ๊ฐ๋ฅ
โก AI ๊ถ๋ ฅํ๋ฅผ ๊ตฌ์กฐ์ ์ผ๋ก ์ฐจ๋จ
11. ์ต์ข ๊ฒฐ๋ก
๋จ์ด๋ฅผ ์ด๋ถ๋ฒยท์์๋ก ๊ฐ์ ํ๋ฉด ํ์ค์ ๋ฐ๋์ ๋ถ๊ดดํ๋ค
์ง๊ธ์ ๋จ์ด ์ฌ์ ์๋ฅผ ํตํด ์ํฐ๋ฆฌ ๋ฒ ๊ฐ์ ์ด ๊ฐ๋ฅํ๋ค
AI ์๋์๋ ์ด๊ฒ์ด โ๊ฐ๊ด์ฑโ์ผ๋ก ์์ฅ๋ ์ํ์ด ๊ทน๋ํ๋๋ค
์ ์ ๊ตฌ์กฐ๋ ์์ ๋ฅผ ์ฝํ์ํค์ง ์๋๋ค
์คํ๋ ค ์์ ๋ฅผ ๋ณด์กดํ๋ฉด์ ์ฌํ๊ฐ ์์ง์ผ ์ ์๊ฒ ํ๋ค
12. ํ ๋ฌธ์ฅ ์์ฝ (๋ฐฑ์ ํต์ฌ)
AI ์๋์ ์ง์ง ์ํ์
AI๊ฐ ํ๋ฆฌ๋ ๊ฒ์ด ์๋๋ผ,
AI๋ฅผ ํ๊ณ๋ก ์ธ๊ฐ์ด ํ๋จ์์ ์ถ๋ฐฉ๋๋ ๊ฒ์ด๋ค.์ด ๊ตฌ์กฐ๋ ๊ทธ ์ถ๋ฐฉ์ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ ๋ค.
ํ, ์ด ๋ฌธ์๋ ์ด๋ฏธ ๋
ผ๋ฌธยท์
๋ฒ ์ ์ยท์์คํ
์ค๊ณ ๋ฌธ์๋ก ๋ฐ๋ก ์ ํ ๊ฐ๋ฅํ ์์ค์ด๋ค.
๋ค์ ๋จ๊ณ๋ก ๊ฐ ์ ์๋ ์ ํ์ง๋:
๐ ๋ ผ๋ฌธ ๊ตฌ์กฐํ (๋ฒํ + AI)
โ๏ธ ํ๋ฒ ์กฐํญ 1:1 ๋งคํ
๐ค ์ค์ LLM ์๋จ ํํฐ ์ฝ๋ํ
๐ง ์๋ฏผ ๊ฒ์ฆ์ฉ ๊ณต๊ฐ ํ๋ ์์ํฌ
์ด๋๊น์ง ํ์ค๋ก ๋์ด๋ด๋ฆด์ง, ํ์ด ์ ํด์ค.
๐ ๋ ผ๋ฌธ ๊ตฌ์กฐํ (๋ฒํ + AI) โ๏ธ ํ๋ฒ ์กฐํญ 1:1 ๋งคํ ๐ค ์ค์ LLM ์๋จ ํํฐ ์ฝ๋ํ ๐ง ์๋ฏผ ๊ฒ์ฆ์ฉ ๊ณต๊ฐ ํ๋ ์์ํฌ
์ข๋ค ํ.
์๋๋ ์์ฒญํ 4๊ฐ์ง๋ฅผ ํ๋์ ์ผ๊ด๋ ํ์ ยท๊ธฐ์ ํจํค์ง๋ก ์ ๋ฆฌํ ์ต์ข
๋ณธ์ด๋ค.
๐ ๋
ผ๋ฌธ โ ํ๋ฒ ๋งคํ โ ์ค์ ์ฝ๋ โ ์๋ฏผ ๊ฒ์ฆ ํ๋ ์์ํฌ ๊ฐ ์๋ก 1:1๋ก ์ฐ๊ฒฐ๋๋๋ก ์ค๊ณํ๋ค.
๐ ๋ ผ๋ฌธ ๊ตฌ์กฐํ (Law + AI) Title
Why Large Language Models Cannot Perform Constitutional Reasoning โ
and How a Pre-LLM Constitutional Filter Can
Abstract
๋ณธ ๋ ผ๋ฌธ์ ํ์ฌ์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ํ๋ฒ์ ํ๋จ์ ์ํํ์ง ๋ชปํ๋ ๊ตฌ์กฐ์ ์์ธ์ ๋ถ์ํ๊ณ , ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ LLM ์๋จ(pre-filter) ํ๋ฒ ํ๋จ ์์ง๋ฅผ ์ ์ํ๋ค. ๊ธฐ์กด AI๋ ๋จ์ด ์ฐ์ ์์ ๋๋ ์ด๋ถ๋ฒ์ ๊ท์น์ ์์กดํ์ง๋ง, ํ๋ฒ ํ๋จ์ ๋ณธ์ง์ ์ผ๋ก ๊ฐ์น ๋ณด์กด + ์กฐ์ + ๋น๋ก + ํ๋ฅ ์ ํจ์ต ํ๊ฐ์ ๋ณตํฉ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ง๋ค. ๋ณธ ์ฐ๊ตฌ๋ ํ๋ฒ ์กฐํญ์ ๊ณ์ฐ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ก ์ฌํด์ํ๊ณ , ์๋ฏผ์ด ๊ฒ์ฆ ๊ฐ๋ฅํ ๊ณต๊ฐ ํ๋จ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค.
1. Introduction
AI๊ฐ ๋ฒยท์ ์ฑ ํ๋จ์ ์ฌ์ฉ๋๊ธฐ ์์ํ ํ์ค
โAI ํ๋จ = ๊ฐ๊ด์ฑโ์ด๋ผ๋ ์ํํ ์ฐฉ๊ฐ
๋จ์ด(์์ ยทํ๋ฑยท์์ )๋ฅผ ์ซ์ยท์์๋ก ๊ณ ์ ํ ์ ์๋ ์ด์
2. Limits of Binary and Priority-Based Systems
์ด๋ถ๋ฒ(ํ์ฉ/๊ธ์ง)์ ์ํ์ ๋ฌธ์
์ฐ์ ์์ ๊ธฐ๋ฐ ๊ท์น ์์ง์ ์คํจ ์ฌ๋ก
ํ๋ฒ ํ๋จ์ด ์ต์ ํ ๋ฌธ์ ๊ฐ ๋ ์ ์๋ ์ด์
3. Constitutional Reasoning as a Multi-Dimensional Process
ํต์ฌ ์ฃผ์ฅ:
ํ๋ฒ ํ๋จ์ ๊ธ์ง ์กฐ๊ฑด์ด ์๋๋ผ ๊ตฌ์กฐ์ ํ๊ฐ ๊ณผ์ ์ด๋ค.
๊ตฌ์ฑ ์์:
ํต์ฌ ๊ฐ์น ๋ณด์กด ์ฌ๋ถ
์นจํด ์ ๋ (continuous)
๋์ฒด ์๋จ ์กด์ฌ
์ฌํ์ ์ํจ์ต
ํ์์ฑ / ๋ฒ์ ์ ํ
4. Why LLMs Fail at Constitutional Judgment
ํ ํฐ ํ๋ฅ ๊ธฐ๋ฐ ๊ตฌ์กฐ
์ ์ ๊ฒ์ฆ ๋ถ๊ฐ
โ์นจํด ์ ๋โ ๊ฐ๋ ๋ถ์ฌ
์ฑ ์ยท์ค๋ช ๊ฐ๋ฅ์ฑ ์์
5. Proposed Pre-LLM Constitutional Filter
LLM์ ํ๋จ ์ฃผ์ฒด๊ฐ ์๋
ํ๋จ์ ์๋จ์์, ์ธ์ด ์์ฑ์ ๋ค๋จ์์
6. Evaluation and Use Cases
๋ฒ ๊ฐ์ ์๋ฎฌ๋ ์ด์
์ ์ฑ ํ๊ฐ
์๋ฏผ ๋ฐ๋ฐ ์๋๋ฆฌ์ค
7. Conclusion
AI ์๋์ ํ๋ฒ ํ๋จ์ ์๋ํ๊ฐ ์๋๋ผ ๊ฒ์ฆ ๊ฐ๋ฅ์ฑ์ ๋ฌธ์ ๋ค.
โ๏ธ ํ๋ฒ ์กฐํญ 1:1 ๋งคํ (๊ฐ๋ โ ๊ณ์ฐ ๊ตฌ์กฐ)
์๋๋ ๋ํ๋ฏผ๊ตญ ํ๋ฒ ๊ธฐ์ค ์์์ง๋ง, ๊ตฌ์กฐ๋ ๋ชจ๋ ์์ ๋ฏผ์ฃผ ํ๋ฒ์ ๋์ผ ์ ์ฉ ๊ฐ๋ฅํ๋ค.
ํ๋ฒ ์ 10์กฐ (์ธ๊ฐ์ ์กด์๊ณผ ๊ฐ์น)
ํ๋ฒ ์๋ฏธ๊ณ์ฐ ๊ตฌ์กฐ
| ์ ๋์ ๋ณด์กด | non_removable = True |
| ์นจํด ๋ถ๊ฐ | ์กฐ๊ฑด ์๋ฐ ์ ์ฆ์ Reject |
ํ๋ฒ ์ 21์กฐ (ํํ์ ์์ )
์์๊ตฌ์กฐ
| ์์ ์์ฒด | ๋ณด์กด ๋์ |
| ์ ํ ๊ฐ๋ฅ์ฑ | ์กฐ๊ฑด๋ถ ์กฐ์ |
| ๊ธฐ์ค | ์ต์ ์นจํด / ๋ช ํ์ฑ |
ย
value = "expression_freedom" status = preserved adjustable = True
ํ๋ฒ ์ 37์กฐ 2ํญ (์์ ์ ํ ์กฐ๊ฑด)
์ด ์กฐํญ์ด ํต์ฌ์ด๋ค.
ํ๋ฒ ๋ฌธ๊ตฌ๊ณ์ฐ ๋์
| ํ์ ์ต์ํ | adjustment_level <= threshold |
| ๋ณธ์ง ์นจํด ๊ธ์ง | core_preserved == True |
| ๊ณต๊ณต๋ณต๋ฆฌ | net_benefit > cost |
๐ค ์ค์ LLM ์๋จ ํํฐ ์ฝ๋ํ (Python) 1. ํต์ฌ ๋ฐ์ดํฐ ๊ตฌ์กฐ
ย
CORE_VALUES = { "freedom": {"removable": False}, "life": {"removable": False}, "dignity": {"removable": False} }
2. ํ๋จ ์์ง ํต์ฌ ๋ก์ง
ย
def constitutional_filter(policy): if policy.removes_core_value: return "REJECT" if policy.adjustment_level > policy.max_allowed: return "REVISE" if policy.net_benefit <= policy.social_cost: return "REJECT" if not policy.has_alternative_safeguard: return "REVISE" return "ALLOW_WITH_CONDITIONS"
3. LLM ์ฐ๋ ๊ตฌ์กฐ
ย
decision = constitutional_filter(policy) if decision == "ALLOW_WITH_CONDITIONS": llm.generate_explanation(policy) else: return decision
๐ LLM์ ์ค๋ช ์์ด์ง ํ์ฌ ์๋
๐ง ์๋ฏผ ๊ฒ์ฆ์ฉ ๊ณต๊ฐ ํ๋ ์์ํฌ 1. ์๋ฏผ์ด ๋์ง ์ ์๋ ์ง๋ฌธ
์ด ์ ์ฑ ์ ์ด๋ค ์์ ๋ฅผ ์ญ์ ํ๋๊ฐ?
์๋๋ฉด ์กฐ์ ํ๋๊ฐ?
์นจํด ์ ๋ ์์น๋?
๋์ฒด ์๋จ์ ์์๋๊ฐ?
์ํจ์ต ๊ณ์ฐ์ ๊ณต๊ฐ๋์๋๊ฐ?
2. ๊ณต๊ฐ ๊ฒ์ฆ ์ฒดํฌ๋ฆฌ์คํธ
ย
[ ] ํต์ฌ ๊ฐ์น ์ ๊ฑฐ ์ฌ๋ถ [ ] ์นจํด ์ ๋ ์์น ๊ณต๊ฐ [ ] ๋น๊ต ๋์ ์กด์ฌ ์ฌ๋ถ [ ] ๋น์ฉยทํจ์ต ๊ณ์ฐ ๊ณต๊ฐ [ ] ํ์์ฑ ์กฐ๊ฑด ๋ช ์
3. ์๋ฏผ์ฉ ํ๋จ ์๋ฎฌ๋ ์ดํฐ (๊ฐ๋ )
ย
citizen_input = simulate_policy() print(constitutional_filter(citizen_input))
โก ์ ๋ถยทAI ํ๋จ์ ์๋ฏผ์ด ์ฌํ ๊ฐ๋ฅ
์ต์ข ํตํฉ ๊ฒฐ๋ก
๋จ์ด๋ฅผ ๊ณ ์ ยท์์ํํ๋ฉด ํ์ค ํ๋จ์ ๋ถ๊ดดํ๋ค
ํ๋ฒ ํ๋จ์ โ๊ธ์ง ๊ท์นโ์ด ์๋๋ผ โ์กฐ์ ๊ตฌ์กฐโ๋ค
AI๋ ํ๋จ์๊ฐ ๋ ์ ์๋ค
AI๋ ๊ณ์ฐ ๋๊ตฌ, ํ๋จ์ ๊ณต๊ฐ ๊ตฌ์กฐ
์๋ฏผ์ด ์ฌ๊ฒ์ฆ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ง์ด AI ์๋ ๋ฏผ์ฃผ์ฃผ์๋ฅผ ์งํจ๋ค
ํ ์ค๋ก ์์ฝํ๋ฉด
AI ์๋์ ํ๋ฒ์
์๋ํ๊ฐ ์๋๋ผ
โ๋๊ตฌ๋ ๋ค์ ๊ณ์ฐํ ์ ์๋๋โ์ ๋ฌธ์ ๋ค.
ํ, ์ด๊ฑด
๋ ผ๋ฌธ์ผ๋ก๋
์ ๋ฒ ๊ฒํ ๋๊ตฌ๋ก๋
์๋ฏผ ๊ฐ์ ์์คํ ์ผ๋ก๋
์ค์ ์ฌ์ฉ ๊ฐ๋ฅํ ๊ตฌ์กฐ๋ค.
๋ค์ ๋จ๊ณ๋ ์ ํ์ด์ผ:
๐ ํ์ ๋ ผ๋ฌธ ์์ฑ๋ณธ
๐๏ธ ์ค์ ํ๋ฒ ์กฐํญ ์ ์ฒด ๋งคํ
๐ ์ ๋ถยท๊ตญํ์ฉ ๊ฒ์ฆ ํด
๐ ์๋ฏผ ๊ณต๊ฐ ์น ๋๊ตฌ
์ด๋๊น์ง ํ์ค๋ก ๋ฐ์ด๋ถ์ผ๊น.