Post

April 30, 2026 English Reading

April 30, 2026 English Reading

원문

https://www.snexplores.org/article/ai-agent-shield-prompt-injection-attack

해석

17세인 Kevin Lu는 다른 이들에게 피해를 입히거나 민감한 데이터를 훔치는 AI를 막기 위한 방법을 개발하고 있다. 오늘날, 사람들은 이메일 초안 작성부터 파일 처리 혹은 웹 검색 등 다양한 작업을 AI 에이전트를 사용해 처리한다. 하지만 이 에이전트들은 프롬포트 인잭션 공격이라고 알려진 공격 방법에 취약하다. 해커가 겉으로는 아무 문제 없어보이는 프롬포트 안에 공격용 텍스트를 숨겨두는 것을 의미한다. AI 모델이 이 텍스트를 해석하려고 하면, AI 모델은 사적인 데이터를 흘리거나 가짜 뉴스를 보여주거나 그 외 다양한 오작동을 일으킬 수 있다. 프롬포트 인잭션 공격을 완벽하게 막는 방법은 존재하지 않는다. 하지만 Kevin은 새로운 쉴드를 만들어냈다. 그의 소프트웨어는 AI 에이전트가 이런 유형의 공격을 막을 수 있도록 도와준다. 그의 프로그램은 의심스러운 프롬포트가 AI 모델까지 들어가기 전에 걸러준다. 그리고 그것은 AI가 프롬포트 인잭션 공격에 조작된 것인지 모니터링을 한다. 사이버 공격 시뮬레이션에서 Kevin의 쉴드를 뚫는 것은 없었다. 그는 이 시스템이 AI 에이전트를 더 안전하게 만들어주길 바란다. 그는 특히 사람들이 온라인 은행 계좌와 다른 사적인 데이터들까지도 AI에게 맡기는 것을 우려하고 있다. Kevin은 현재 캘리포니아 산호세에 있는 Bellarmine College Preparatory School의 고등학교 3학년 학생이다. 그의 연구는 2026년 Regeneron Science Talent Search에서 결승전까지 올려주었다. 인터뷰에서 Kevin은 연구 경험을 공유하였다.

당신의 시스템이 어떻게 동작하는지 볼 때 어떤 반응이였나요?

Kevin은 인터뷰에서 “저는 이 연구를 1년 좀 넘게 진행하였어요. 완전히 다른 해결책으로 시작했어요.” 라고 대답했다. 일반적으로, 그는 그의 AI 보호 프로그램을 개정하고 확장하였다. 또한 Kevin은 “저는 이 시스템이 어떻게 동작하는지 보면서 아하 모먼트를 느꼈다고 말하고 싶지 않아요. 하지만 계속해서 진행하면서 굉장히 많은 것을 얻었어요.”라고 답하였다.

가장 어려웠던 점은 무엇인가요?

Kevin은 “스스로 연구를 진행하면서, 내가 정말 올바른 방향으로 가고 있는 것인지를 확인하기가 어려웠어요” 라고 대답하였다. “저는 이 하 나의 웹로그에서 굉장히 많은 영감을 얻었어요.” 블로거인 Simon Willison은 프롬포트 인젝션 공격이 어떻게 동작하며 어떻게 해야 멈추는지에 대한 글을 작성하였다. Kevin은 Google DeepMind의 연구원인 Neel Nanda가 또 다른 영감을 주었다고 말했다. Nanda의 라이브스트리밍을 시청하면서 Kevin은 그의 프로젝트 중 일부의 코드를 배우는데 도움을 받았다.

가장 기억에 남는 부분은 무엇인가요?

Kevin은 “저는 그 프로젝트에서 굉장히 흥미로운 코딩을 많이 했어요.” 라고 대답했다. “적은 테크닉으로도 프로그램이 어떻게 동작하는지 표현할 수 있는 플로우 차트를 그릴 수 있기 때문에 포스터를 만드는 것도 정말 좋아해요.” 이것은 친구들, 가족들과 함께 그의 연구에 대해 얘기하는 것을 더 쉽게 만들어준다. “저는 제 가장 큰 장점은 커뮤니케이션이라는 것을 느꼈어요.”

GPT 첨삭

17세인 Kevin Lu는 민감한 데이터를 훔치거나 다른 피해를 일으키는 AI 기반 공격을 막기 위한 방법을 연구하고 있다. 오늘날 사람들은 이메일 작성부터 파일 처리, 웹 검색까지 다양한 작업을 수행하기 위해 AI 에이전트를 사용하고 있다. 하지만 이러한 에이전트들은 ‘프롬프트 인젝션 공격’이라는 방식에 취약하다. 이는 겉보기에는 정상적인 입력 안에 악의적인 지시를 숨겨 놓는 공격이다. AI 모델이 이런 입력을 처리하면, 사적인 데이터를 유출하거나 가짜 정보를 퍼뜨리는 등 다양한 문제를 일으킬 수 있다. 프롬프트 인젝션 공격을 완벽하게 막는 방법은 아직 없다. 하지만 Kevin은 새로운 방어 시스템을 개발했다. 그의 소프트웨어는 이러한 공격으로부터 AI 에이전트를 보호하는 데 도움을 준다. 이 프로그램은 의심스러운 입력이 AI 모델에 도달하기 전에 차단하며, 동시에 AI가 공격에 의해 조작되고 있는지 감시한다. 실험에서는 어떤 모의 사이버 공격도 그의 시스템을 뚫지 못했다. Kevin은 이 기술이 AI 에이전트를 더욱 안전하게 만들 수 있기를 기대하고 있다. 특히 그는 사람들이 온라인 은행 계좌와 같은 민감한 정보까지 AI에 맡기는 상황을 우려하고 있다. Kevin은 현재 캘리포니아 산호세에 있는 Bellarmine College Preparatory School의 고등학교 3학년 학생이다. 그의 연구는 2026년 Regeneron Science Talent Search에서 결선 진출로 이어졌다. 인터뷰에서 Kevin은 자신의 연구 경험을 공유했다.

시스템이 잘 작동하는 것을 보고 어떤 느낌이었나요?

Kevin은 “이 연구를 1년 넘게 진행했다. 처음에는 완전히 다른 해결책으로 시작했다”고 말했다. 그는 점차 자신의 AI 보호 프로그램을 수정하고 확장해 나갔다. 또한 “이 시스템이 잘 작동하는 것을 보고 특별한 ‘아하’ 순간이 있었다고는 말하기 어렵다. 하지만 꾸준히 작업하는 과정 자체가 매우 보람 있었다”고 말했다.

가장 큰 어려움은 무엇이었나요?

Kevin은 “혼자 작업하다 보니 내가 올바른 방향으로 가고 있는지 확신하기 어려웠다”고 말했다. 그는 한 블로그에서 많은 영감을 얻었다고 밝혔다. 블로거 Simon Willison은 프롬프트 인젝션 공격의 원리와 방어 방법에 대해 글을 작성했다. 또한 Neel Nanda 역시 큰 영감을 주었다고 한다. Kevin은 그의 라이브스트림을 보며 프로젝트 일부 코드를 배우는 데 도움을 받았다.

가장 즐거웠던 부분은 무엇이었나요?

Kevin은 “프로젝트를 코딩하는 과정이 매우 재미있었다”고 말했다. 또한 “포스터를 만드는 것도 좋았다. 다양한 흐름도를 그려서 기술적인 내용이 아닌 방식으로도 연구를 설명할 수 있었기 때문”이라고 덧붙였다. 덕분에 가족과 친구들에게 자신의 연구를 더 쉽게 설명할 수 있었다. 그는 “내 연구를 전달하는 능력이 향상됐다고 느꼈다”고 말했다.

몰랐던 단어

  • elevated: 높은
  • entrust: 맡기다, 위임하다, 위탁하다
  • manipulated: 조작된
  • suspicious: 의심스러운
  • forge: 단조하다, 만들어내다
  • ward off: 막다
  • coax: 구슬리다, 달래다
  • innocent: 무죄인
  • seemingly: 겉으로는
  • sensitive: 예민한
This post is licensed under CC BY 4.0 by the author.