검수요청.png검수요청.png

튜링 테스트

해시넷
이동: 둘러보기, 검색
앨런 튜링(Alan Turing)

튜링 테스트(Turing Test) 또는 튜링 검사는 인간의 것과 동등하거나 구별할 수 없는 지능적인 행동을 보여주는 기계의 능력에 대한 테스트이다. 1950년 앨런 튜링(Alan Turing)에 의해 개발되었다.

개요[편집]

앨런 튜링은 〈계산기계와 지성〉(Computing machinery and intelligence)이라는 논문에서 기계가 인간처럼 생각할 수 있다고 주장했다. 1940년대 후반, 앨런 튜링은 동료와 비평가들로부터 기계는 절대 인간 지능을 흉내 내지 못한다는 말을 듣게 된다. 튜링은 사람들의 의견에 의문을 가졌고 결국 논문을 통해 강한 인공지능을 판별하는 방법을 제시한다. 논문에서 튜링은 "기계도 생각할 수 있을까?"(Can machines think?)라는 질문을 던진다. 논문 첫 문장에 나오는 말이다. 또, '기계'와 '생각'이라는 개념도 정의했다. 튜링은 기계란 디지털 컴퓨터라고 말했고 생각은 그가 만든 튜링 테스트를 통과하면 증명된다고 설명했다. 튜링 테스트 수행 방법은 다음과 같이 이뤄진다. 인간과 기계를 다른 공간에 배치하고 심문자(interrogator)는 그들과 텍스트로 대화를 나눈다. 심문자는 어떤 공간에 누가 있는지 알지 못한다. 만약 대화를 통해 기계와 인간을 구분하지 못하면 기계가 지능을 가졌다고 판단한다. 튜링 테스트는 보통 이렇게 알려져 있다. 하지만 튜링이 실제 논문에서 제시한 실험은 더욱 디테일하다. 논문에는 튜링 테스트 수행 방법에 대해 자세히 적혀 있다. 참고로 튜링 테스트로 불리는 실험을 정작 튜링 본인은 '모방 게임(imitation game)'이라고 불렀다. 첫 번째 실험은 이번에도 최종 결론을 내릴 심문자가 있어야 한다. 한 공간에는 남자를 다른 공간에는 여자를 배치한다. 심문자는 둘의 존재를 알 수 없는 상황에서 필기한 질문을 둘에게 전달하고 답변을 받는다. 심문자는 둘 중 누가 남자고 누가 여자인지를 가려야 한다. 단, 남자는 심문자를 속이기 위해 여자인 척을 하게 된다. 두 번째 실험에 와서야 남자 대신 기계가 배치된다. 이번에는 기계가 여자인 것처럼 대화를 해야 한다. 인간을 모방하는 것에서 한발 더 나아가 성별을 모방할 것을 요구한 실험이다. 튜링 테스트는 인공지능을 판별하는 의미 있는 실험으로 받아들여지는 분위기였다.[1] 하지만 튜링은 논문의 나머지 부분에서 "기계들이 생각할 수 있다"는 명제에 대해서 반대 이론들을 제시했다. 튜링이 튜링 테스트를 제시한 이후에, 튜링 테스트는 이후 인공지능의 역사에 막대한 영향을 끼쳤고, 많은 비판 또한 받아왔다. 그렇게 튜링 테스트는 인공지능 이론에서 중요한 개념이 되었다.[2]

형태[편집]

사울 트라이거(Saul Traiger)는 튜링 테스트의 기초적인 형태가 최소 3가지라고 주장하는데, 그 중 2개는 컴퓨팅 기계와 지능(Computing Machinery and Intelligence)에서 제공되고, 1개는 표준 해석(Standard Interpretation)에서 제공된다고 한다. 표준 해석이 튜링으로 기술되는 것인지, 아니면 그의 논문을 잘못 해석한 것인지에 대한 논쟁이 있지만, 이 세가지 버전은 동등하지 않으며 그들의 강점과 약점은 구별된다.

표준 해석

튜링 테스트의 목적은 컴퓨터가 평가관이 컴퓨터를 인간으로 믿도록 속일 수 있는지를 판단하는 것이 아니라 컴퓨터가 인간을 모방할 수 있는지 여부를 판단하는 것이다. 이 해석이 튜링에 의해 의도된 것인지에 대해서는 약간의 논쟁이 있지만, 스터렛(Sterrett)은 이 해석이 의도된 것이어서 두번째 버전과 이 버전을 연결하는 반면, 트라이거는 그렇지 않다고 믿는다. 그럼에도 불구하고 이것은 표준 해석으로 볼 수 있는 결과를 가져왔다. 이 버전에서 A 선수는 컴퓨터이고 B 선수는 어느 한쪽 성별의 사람이다. 평가관의 역할은 누가 남자이고 누가 여자인지를 결정하는 것이 아니라, 어떤 것이 컴퓨터이고 어떤 것이 인간인지를 결정하는 것이다. 표준 해석의 근본적인 문제는 질문자가 어떤 응답자가 인간이고 어떤 응답자가 기계인지 구별할 수 없다는 것이다. 지속 기간에 관한 문제가 있지만, 일반적으로 표준 해석에서는 이러한 제한을 합리적인 것으로 간주한다.[2]

특징[편집]

강점[편집]

관리 용이성과 단순성​[편집]

튜링 테스트의 힘과 매력은 단순함에서 비롯된다. 심리학, 현대 신경과학의 철학은 기계에 적용할 수 있을 만큼 정밀하고 일반적인 '지능'과 '생각'의 정의를 제공할 수 없었다. 이러한 정의 없이는 인공 지능 철학의 핵심적인 질문에 답할 수 없다. 튜링 테스트는 불완전할지라도 실제로 측정할 수 있는 무언가를 제공한다. 그렇기 때문에 어려운 철학적 질문에 답하는 것은 실용적인 시도이다.

광범위한 주제​[편집]

시험 형식은 평가관이 기계에 광범위한 지적 직무를 부여할 수 있도록 한다. 튜링은 질문과 대답 방법은 우리가 포함시키고자 하는 인간 노력의 거의 모든 분야를 도입하기에 적합한 것으로 보인다고 썼다. 존 하우글랜드(John Haugeland)는 단어를 이해하는 것만으로는 충분하지 않고 주제를 이해해야 한다고 덧붙였다.[2]

약점[편집]

튜링은 튜링 테스트가 지능의 척도로 사용될 수 있다는 것을 명시적으로 진술하지 않았다. 그는 '생각'이라는 단어에 대해 명확하고 이해할 수 있는 대안을 제시하기를 원했는데, 이는 그가 '생각하는 기계'의 가능성에 대한 비판에 답하고 연구가 진전될 수 있는 방법을 제안하기 위해 사용할 수 있기 때문이다. 그럼에도 불구하고 튜링 테스트는 기계의 '사고 능력' 또는 '지능'의 척도로 제안되었다. 이 제안은 철학자들과 컴퓨터 과학자들로부터 비판을 받아 왔다. 그것은 평가관이 그것의 행동을 인간의 행동과 비교함으로써 기계가 생각하고 있는지 여부를 판단할 수 있다고 가정한다. 이러한 가정의 모든 요소, 즉 평가관의 판단의 신뢰성, 행동만 비교하는 가치 및 기계를 인간과 비교하는 가치에 대해 의문이 제기되었다. 이 같은 점 등을 고려해 일부 인공지능 연구원들은 이번 실험이 자신들의 분야와 관련이 있는지 의문을 제기했다.

인간의 지능 vs 지능의 일반적인 비교​[편집]

튜링 테스트는 컴퓨터가 지능적으로 동작하는지 여부를 직접적으로 테스트하지 않는다. 그것은 단지 컴퓨터가 인간처럼 행동하는지 여부를 테스트한다. 인간의 행동과 지적인 행동이 정확히 같은 것은 아니기 때문에 이 테스트는 두가지 방법으로 지능을 정확하게 측정하지 못할 수 있다. 튜링 테스트는 기계가 지능에 상관 없이 모든 인간 행동을 실행할 수 있도록 요구한다. 그것은 심지어 모욕에 대한 민감성, 거짓말거짓말에 대한 유혹, 또는 단순하게 타이핑 실수의 빈도와 같이 전혀 지능적이라고 여겨지지 않을 수도 있는 행동들에 대해서도 시험한다. 기계가 이러한 무지한 행동을 상세히 모방할 수 없다면 시험에 불합격하는 것이다. 이코노미스트는 1992년 로버너 상 1차 대회 직후 발표한 '인공적 어리석음'이라는 제목의 기사에서 이 같은 반론을 제기했다. 이 기사는 첫번째 뢰브너 우승자의 승리는 적어도 부분적으로는 사람의 타이핑 실수를 모방하는 능력 때문이라고 지적했다. 튜링 자신은 프로그램이 더 나은 게임의 게이머가 되기 위해 프로그램이 그들의 출력에 오류를 추가한다고 제안했다. 튜링 테스트는 어려운 문제를 해결하거나 독창적인 통찰력을 도출하는 능력과 같은 매우 지능적인 행동을 테스트하지 않는다. 사실, 그것은 특히 기계의 한 부분에 대한 속임수를 필요로 한다. 만약 기계가 인간보다 더 똑똑하다면 그것은 고의적으로 너무 지적으로 보이는 것을 피해야 한다. 만약 인간이 푸는 것이 실질적으로 불가능한 계산적인 문제를 해결한다면, 평가관은 프로그램이 인간이 아니라는 것을 알게 될 것이고, 기계는 테스트를 통과하지 못하게 될 것이다. 인간의 능력을 넘어서는 지능을 측정할 수 없기 때문에, 이 테스트는 인간보다 더 지능적인 시스템을 만들거나 평가하는 데 사용될 수 없다.

의식 vs 의식의 시뮬레이션​​[편집]

튜링 테스트는 대상이 어떻게 동작하는지, 즉 기계의 외부 동작과 엄격히 관련된다. 이런 점에서, 정신 연구에는 행동 주의적이거나 기능 주의적인 접근이 필요하다. 엘리자(ELizA)의 예는 시험을 통과하는 기계가 생각하거나, 전혀 생각하지 않고 기계적 규칙의 간단한 목록을 따름으로써 인간의 행동을 흉내낼 수 있다는 것을 제시한다. 존 설(John Searle)는 기계가 실제로 생각하는 것인지, 아니면 단순히 생각을 흉내내는 것인지를 결정하기 위해 외부 행동을 사용할 수 없다고 주장했다. 그의 주장은 튜링 테스트가 지능의 운영상의 좋은 정의라고 해도 기계가 마음이나 의식 또는 의도를 가지고 있다는 것을 나타내지 않을 수 있다는 것을 보여 주기 위한 주장이다. 또한 튜링은 그의 최초 논문에서 다음과 같은 비판을 예상했다.

"나는 의식에 대해 의문이 없다고 생각한다는 인상을 주고 싶지 않다. 예를 들어, 그것을 국소화하려는 시도와 관련된 역설이 있다. 그러나 나는 우리가 이 논문에서 다루고 있는 질문에 답하기 전에 이러한 미스터리들이 반드시 해결될 필요는 없다고 생각한다."

인간의 잘못된 식별​​​[편집]

튜링 테스트의 한가지 흥미로운 특징은 연합 효과의 빈도인데, 인간이 질문자에 의해 기계로 잘못 식별될 때이다. 질문자들이 인간의 반응으로 기대하는 것이 반드시 인간에게 전형적인 것은 아니라는 것이 제기되어 왔다. 결과적으로, 일부 개인은 기계로 분류될 수 있다. 그러므로 이것은 경쟁하는 기계에 유리하게 작용할 수 있다. 인간들은 행동하라는 가르침을 받지만, 때때로 그들의 대답은 심문자가 기계가 말하기를 기대하는 것과 더 비슷하다. 이것은 인간이 인간답게 행동하도록 동기를 부여 받도록 하는 방법에 대한 의문을 제기한다.

비효율과 비관리​​​[편집]

메인 스트림 인공지능 연구원들은 튜링 테스트를 통과하려는 시도는 더 생산적인 연구에서 벗어나는 것에 불과하다고 주장한다. 튜링 테스트는 실제로 학문적이거나 상업적인 노력의 초점이 아니다. 스튜어트 러셀(Stuart Russell)과 피터 노비히(Peter Norvig)는 다음과 같이 썼다. 인공지능 연구원들은 튜링 테스트 통과에 거의 관심을 기울이지 않았다. 여기에는 몇 가지 이유가 있다.

첫째, 그들의 프로그램을 테스트하는 더 쉬운 방법들이 있다. 현재 인공 지능 관련 분야에 대한 대부분의 연구는 자동화된 스케줄링, 물체 인식 또는 물류와 같은 일반적이고 구체적인 목표를 목표로 하고 있다. 인공지능 연구원들은 문제를 해결하는 프로그램의 지능을 테스트하기 위해 직접 과제를 내준다. 러셀과 노르비그는 비행의 역사와 유사한 점을 제안한다. 비행기들은 새와 비교하는 것이 아니라 얼마나 잘 나는지에 의해 시험된다. 그들은 "항공 공학 교과서는 그들의 분야의 목표를 비둘기처럼 날아서 다른 비둘기들을 속일 수 있는 기계를 만드는 것으로 정의하지 않는다"고 썼다.

둘째로, 인간의 실제와 같은 시뮬레이션을 만드는 것은 인공지능 연구의 기본적인 목표를 달성하기 위해 해결될 필요가 없는 그 자체로 어려운 문제이다. 믿을 수 있는 인간의 캐릭터들은 예술, 게임, 또는 정교한 사용자 인터페이스의 작품에서는 흥미로울 수 있지만 지능을 이용하여 문제를 해결하는 기계를 만드는 과학의 일부는 아니다.

튜링은 인공지능의 철학을 논의하는 데 도움이 되는 명확하고 이해하기 쉬운 예를 제공하고자 했다. 존 매카시(John McCarthy)는 인공지능 철학이 과학 철학과는 달리 인공지능 연구에 더 이상 영향을 미치지 않을 것으로 보고 있다.[2]

침묵​​​​[편집]

여러가지 논란에도 불구하고 반 세기 넘게 사용되어 온 튜링 테스트의 오류를 연구한 케빈 워윅(Kevin Warwick)과 샤(Shah)는 실제로 진행된 튜링 테스트의 대화를 보고 기계가 침묵을 지키고 있을 때마다 심사관은 기계와 사람을 구분할 수 없었다는 사실을 알아냈다. 사고를 하는 기계라면 대화에 답변을 할지 안 할지도 물론 스스로 결정할 수 있었겠지만, 이 연구에서 찾아낸 케이스들은 모두 기술적 문제로 기계가 대답을 못한 경우였다. 즉, 어떤 개체라도 단순히 답변을 안 함으로써 튜링 테스트를 통과할 수 있을지도 모른다는 것이다. 이 결과를 통해 연구자인 케빈 워윅은 도대체 튜링 머신을 통과한다는 게 과연 어떤 의미가 있는지를 다시 생각해 봐야 한다고 말한다. 튜링은 기계가 인간처럼 생각할 수 있는가에 대한 대답으로 이미테이션 게임을 개발했지만 그것이 단순히 침묵을 지킴으로써 통과할 수 있는 테스트임을 밝혀낸 이번 연구가 그동안 논란이 되어 왔던 튜링 테스트의 오류를 구체화시키는 계기가 되었다고 워윅은 덧붙혔다.[3]

사례[편집]

  • 일라이저(ELIZA)
1965년에 미국 엠아이티(MIT)의 컴퓨터 과학자 요제프 바이젠바움(Joseph Weizenbaum)은 자판을 통해 영어 문장을 입력하는 이용자와 대화를 하는 일라이저(ELIZA)라는 프로그램을 만들었다. 일라이저는 심리치료 의사를 흉내 내는 챗봇(chatbot, 채팅 로봇)이다. 일라이저는 대화 내용을 실제로 이해하지는 못하지만, 이용자가 먼저 던진 말에서 키워드를 따와서 그것으로 그럴듯한 문장을 만들어서 이용자와의 대화를 이어 나간다. 사람들은 몇 분 뒤에 일라이저가 진정으로 사람 말을 이해하지는 못한다는 것을 깨닫게 된다. 하지만, 적지 않은 사람들이 그전까지는 이 가짜 의사에 감정적으로 동조되고는 했다고 한다. 저명한 수학자이자 논리학자인 마틴 데이비스가 일라이저와 나눈 대화에서 일라이저의 마지막 말은 이렇다. “안녕히 가십시오. 75달러입니다. 감사합니다.”
  • 유진 구스트만(Eugene Goostman)
2014년 6월 영국 왕립협회에서 열린 2014 튜링 테스트에서 러시아에서 2001년에 처음 개발된 ‘유진’이라는 프로그램이 튜링 테스트를 통과했다는 발표가 있었다. 유진은 5분 길이의 텍스트 대화를 통해 심사위원 중 33% 이상에게 유진은 진짜 인간이라는 확신을 줬다는 것이다. 장장 64년 만에 컴퓨터 프로그램이 튜링 테스트를 통과했다. 유진은 우크라이나에 사는 13세 소년인 것처럼 사용자들과 대화를 나누게끔 설정되었다고 한다. 하지만 유진과 실제로 대화를 해 본 사람에 의하면, “어디서 왔니?”라고 물으면 “나는 우크라이나의 오데사시 출신이야”라고 답하지만, 곧 이어서 “우크라이나에 가본 적 있니?”라고 물으면, “우크라이나? 거긴 가본 적 없어”라고 한다는 것이다. 유진은 비록 그 이전과는 달리 성능이 뛰어나기는 하지만 본디 챗봇이라서 사람의 말이나 대화를 실제로 이해하는 것이 아니라, 여전히 단지 인간의 대화를 흉내 낼 뿐이다. 그래서 유진이 튜링 테스트를 통과했다는 것에 대해서 비판적인 인공지능 전문가들도 많다.[4] 게리 마르쿠스 뉴욕대 인지과학자는 기술 발전에 발맞춰 튜링 테스트를 판올림(업그레이드)해야 한다고 주장했다. 그는 “진짜 인공지능이라면 TV프로그램이나 유튜브 동영상을 보고 그 내용에 관한 질문에 대답할 수 있어야 한다”라고 주장했다. 사람처럼 정보를 모으고 종합적인 판단을 내릴 줄 알아야 진정한 인공지능이라는 뜻이다.[5]

각주[편집]

  1. 테크플러스, 〈오래된 AI 판별법 '튜링테스트'...여전히 유효한가?〉, 《네이버 블로그》, 2019-08-09
  2. 2.0 2.1 2.2 2.3 튜링 테스트 위키백과 - https://ko.wikipedia.org/wiki/%ED%8A%9C%EB%A7%81_%ED%85%8C%EC%8A%A4%ED%8A%B8
  3. Kevin Warwick&Huma Shah, 〈인공지능을 테스트하는 고전적인 방법에 심각한 오류 발견〉, 《NDSL》, 2016-07-08
  4. 이재현 문화평론가, 〈앨런 튜링, 생각할 수 있는 기계 판별하는 ‘모방 게임’ 제안〉, 《한국일보》, 2016-03-20
  5. 안상욱 블로터닷넷 기자, 〈(keyword로 읽는 과학)튜링테스트 통과한 유진, 생각하는 지능 갖고 있나〉, 《KISTI의 과학향기 스토리》

참고자료[편집]

같이 보기[편집]


  검수요청.png검수요청.png 이 튜링 테스트 문서는 인공지능 기술에 관한 글로서 검토가 필요합니다. 위키 문서는 누구든지 자유롭게 편집할 수 있습니다. [편집]을 눌러 문서 내용을 검토·수정해 주세요.