연구윤리 동향

인공지능을 활용한 표절검사기술의 현황과 과제

작성일
2017-07-11 17:32
조회
3316

2017년 7월 7일에 있었던 [대학연구윤리협의회 2017 하계 정기세미나]에서는 카피킬러의 김희수 프로가 '인공지능을 활용한 표절검사기술의 현황과 과제'라는 주제로 강연을 했습니다.
그 내용을 소개합니다.







최근 인사청문회로 인해 표절 이슈가 많고, 카피킬러는 '장관킬러'라는 말이 나올 만큼 공격적인 목적을 가지고 사용이 되고 있습니다.
대학이나 연구원에서 예방을 위한 목적으로 사용되는 것과는 굉장히 대비되는 상황이며, 아쉬운 점도 있습니다. 하지만 한가지 주목할 만한 점은 해당 분야에 대한 전문지식이 없는 비전공자가 카피킬러를 통해서 표절 여부를 확인할 수 있다는데 있습니다. 그리고 이러한 판단은 카피킬러에 적용되어 있는 인공지능을 전제로 합니다.
인공지능은 학계에서 전문가들에 의해서 다양하게 정의될 수 있겠지만, 김희수 프로는 다음과 같이 정의 했습니다.
'전통적으로 인간이 잘하는 일을 컴퓨터로 대체해 보려는 기술'
번역이나 암에 대한 진단과 같이 특정 분야의 전문가에 의해서 행해지던 것을 기계를 통해 일반인들도 쉽게 할 수 있게 되는 것입니다. 따라서 글쓰기 역시 기계가 하는 시대가 올 것이라 예상하고 있습니다.





예를 들어, '갓세돌'이라는 표현은 '갓+이세돌' 합성어로 신과 같은 이세돌, 이세돌을 추앙한다는 의미를 담고 있습니다. 따라서 사람은 갓세돌과 이세돌이 같은 대상을 표현한다는 것을 이해하고, 두 단어를 모두 사용하게 되는데, 지금까지의 기계는 별도의 입력값 없이는 두 단어를 전혀 다른 대상으로 이해할 수 밖에 없었습니다.
그러나, 스스로가 이것을 이해하고 인지하게 하는 것이 바로 인공지능 입니다.



기존의 카피킬러는 표현상의 일치도를 토대로 표절 여부를 판단했습니다. 때문에 동일한 의미의 다른 표현을 사용할 경우 그것이 같은 문장이라는 것을 인지할 방법이 없었습니다.
하지만 카피킬러가 보유한 빅데이터 처리 기술과 인공지능을 결합하여 의미적인 영역까지 확인 가능한 카피킬러 DS(Deep Structure)가 곧 출시될 예정입니다.



카피킬러 누적 사용자 데이터를 토대로 표절 유형을 분석한 결과, 크게 3가지로 구분이 됩니다.
 복사하여 붙여넣기
 복사한 후 편집하기
 표현바꿔 다시쓰기



인공지능을 활용하여 이 3가지 유형을 더 정확하게 분석하고 품질이 개선된 사례는 다음과 같습니다.
 개체 인식 기술 : 문서영역 인식, 출처표시 기법을 인식, 인명/기관명/약어 등을 인식
 내용 인식 기술 : 상투적인 표현 인식, 법령/성경 인식, 주제어 인식



현재도 표절검사의 기술 수준은 높습니다. 하지만 최종 판단은 해당 분야의 전문가가 해야한다는 점에서 한계가 있습니다. 김희수 프로는 2020년에는 카피킬러가 전문가의 역할을 대신할 수 있을 것이라고 미래를 그리고 있습니다. 그리고 이를 위해 다양한 시도를 계획 중입니다.




1. 논문 위변조 판별
논문위변조의 경우 케이스가 다양하기 때문에 사람이 직접 그 규칙을 찾고 판별하는 것이 매우 어렵습니다. 인공지능을 사용한다면 탐지 규칙을 생성하는 것이 가능해질 것이라 예상하고 있는데요. 이세돌과 알파고의 대결에서 이세돌의 수는 예측 가능했지만 알파고의 수는 사람이 예측할 수 없었던 것처럼 딥러닝은 인간이 해석할 수 없는 규칙을 생성하는 특징을 가지고 있습니다.
대량의 실험데이터를 대상으로 임의로 변조를 하여 규칙을 찾는 실험을 한다면 이를 딥러닝에 적용할 수 있을 것이라 예상하고 있지만 임의로 문서를 위변조하는 것 또한 일반인이 할 수 없는 일이기 때문에 산학 협력으로 위변조에 대한 규칙을 생성하는 과제를 진행하는 것도 가능할 것이라고 제안합니다.





2. 가짜 논문 찾아내기
MIT의 학생들이 만든 SCIgen이라는 가짜 논문 생성기가 있습니다. 실제로 한 신문사의 기자가 SCIgen을 사용하여 만든 가짜 논문을 중국의 한 학회에 투고하였는데, 이를 수락했던 것으로 이슈가 되었던 적이 있습니다. SCIgen의 가짜 논문을 생성하는 규칙을 역으로 추적해 보면 가짜 논문을 찾아내는 방법도 알 수 있을 것이라 예상됩니다.
실제 가짜로 생성된 논문을 카피킬러에서 검사해본 결과 표절률은 높게 나오지만 이것이 가짜인지, 진짜인지는 알 수 없는 한계가 있어서 추가적인 연구가 필요합니다.



3. 부당한 저자표시 필터링
부당한 저자표시의 경우 문제가 발생하더라도 기관 내에서 자체적으로 해결하고 공개되지 않기 때문에 누적된 데이터가 적습니다. 데이터 공개를 통해 확보한 정형화된 데이터가 있다면 1차적 필터링이 가능할 것이라 예상되며 학계와 공동으로 작업을 해볼 수 있을 것이라는 점을 제안했습니다.



4. 대필 문서 찾기
필체 감정과 유사한 방식으로 문체 감정을 시도해볼 예정입니다. 대필 문서 중에는 표절 문서가 높은 비중을 차지 합니다. 저자마다 선호하는 단어, 표현 등이 있기 때문에 이를 분석하여 상관도를 제시할 수 있을 것이라 예상됩니다.



5. 학술지 동료평가 자동화
학술지 동료평가는 사람이 하기 때문에 편견과 왜곡이 포함될 수밖에 없는 부분입니다. 또한 리뷰어를 확보하고, 리뷰를 진행하는 업무에 많은 시간이 소요됩니다. 인공지능이 이를 대신할 수 있도록 기술을 적용해 볼 수 있습니다.



이러한 다양한 시도가 가능한 것은 기술 뿐만 아니라 카피킬러가 보유한 누적 데이터가 있기 때문입니다. 카피킬러 사용 기관 1600개, 실사용자 71만명, 연간 검사문서수 2500만건, 비교대상 문서 50억건 이라는 수치가 이를 증명합니다. 구글과 같은 회사가 인공지능을 시도하는 것도 누적된 사용자들의 데이터가 있기 때문이며, 데이터, 사용자, 기술을 통해 사용의 형태를 분석하는 것이 가능해 지는 것입니다.




카피킬러는 딥러닝 기술을 통해 부정 논문 탐지 분야에 집중할 계획입니다. 기계가 글을 읽고, 이해하고, 해석할 수 있게 될 것입니다. 현재까지는 검색 위주의 기술이 대부분이었고 대량의 데이터 중에서 사람이 원하는 것을 찾아주는 것 까지만 진행되었습니다. 하지만 앞으로는 읽어주는 기술이 될 수 있도록 할 것이며, 카피킬러 자체적인 연구와 개발 뿐만 아니라 여러 대학과 함께 산학협력으로 진행해본다면 연구윤리 분야에 더 나은 발전을 가져올 것이라 예상됩니다.