스탠포드 대학의 스트리트 뷰 개발
스탠포드 컴퓨터 과학자 3명이 Google 스트리트 뷰 이미지의 위치를 파악하는 딥 러닝 모델을 개발했습니다. 즉, 사진을 보는 것만으로도 일반적으로 사진이 촬영된 위치를 파악할 수 있습니다.
이 소프트웨어는 인기 있는 온라인 위치 추측 게임인 GeoGuessr에서 최고의 플레이어를 이길 만큼 충분히 잘 작동한다고 합니다.
그렇다고 해서 학계의 모델이 거리 사진을 찍은 위치를 정확히 찾아낼 수 있다는 말은 아닙니다. 대신 국가를 확실하게 파악하고 정확한 위치에서 15마일 이내에서 많은 시간 동안 좋은 추측을 할 수 있습니다. 하지만 대부분의 경우 해당 거리보다 더 멀리 떨어져 있습니다.
"PIGEON: 이미지 지리적 위치 예측"이라는 제목의 사전 인쇄 논문에서 Lukas Haas, Michal Skreta 및 Silas Alberti는 PIGEON을 개발한 방법을 설명합니다.
이는 StreetCLIP이라는 사전 훈련된 자체 CLIP 모델에서 파생된 이미지 지리위치 모델입니다. 기술적으로 말하면, 모델은 도로 표시, 인프라 품질 및 거리 표지판과 같은 지역별 세부 사항을 고려하는 카운티 또는 지방과 유사한 토지의 경계 영역인 의미론적 지오셀 세트와 프로토넷을 사용하여 분류하는 기술로 보강됩니다. 단지 몇 가지 예입니다.
PIGEON은 최근 YouTube에서 Rainbolt로 간단히 알려진 GeoGuessr의 최고 플레이어인 Trevor Rainbolt와 경쟁하여 승리했습니다.
논문에 따르면 PIGEON은 "GeoGuessr에서 지속적으로 인간 플레이어를 능가하는 최초의 AI 모델로 플레이어 중 상위 0.01%에 속합니다."라고 주장합니다. 약 5천만 명 이상의 사람들이 GeoGuessr를 플레이했다고 합니다.
스탠포드의 박사 과정 후보자인 Alberti는 The Register에 "그것은 우리의 소규모 Deep Mind 경쟁과 비슷했습니다"라고 말했습니다. 이는 DeepMind AlphaCode 시스템이 인간 프로그래머와 비슷한 코드를 작성할 수 있다는 Google의 주장을 언급한 것입니다.
GeoGuessr에서 AI가 세계 최고의 인간을이긴 것은 이번이 처음인 것 같습니다.
그는 "GeoGuessr에서 AI가 세계 최고의 인간을이긴 것은 이번이 처음이라고 생각합니다"라고 말하면서 이전 두 번의 AI 시스템 경기에서 Rainbolt가 승리했다고 언급했습니다.
Bellingcat과 같은 저널리즘 연구 기관의 작업 덕분에 이미지 위치 파악은 오픈 소스 조사자들 사이에서 하나의 예술이 되었습니다. PIGEON의 성공은 이것이 개인 정보 보호에 중요한 영향을 미치는 과학이기도 함을 보여줍니다.
PIGEON은 스트리트 뷰 이미지의 위치정보를 찾는 훈련을 받았지만 Alberti는 이 기술을 사용하면 적어도 실외에서는 거의 모든 이미지의 위치정보를 더 쉽게 찾을 수 있을 것이라고 믿습니다. 그는 자신과 동료들이 스트리트 뷰 이미지가 포함되지 않은 이미지 데이터 세트로 시스템을 시험해 보았으며 매우 잘 작동했다고 말했습니다.
Alberti는 지리 위치 기술에 관심을 표명한 오픈 소스 인텔리전스 플랫폼 담당자와의 토론을 자세히 설명했습니다. "우리는 우리의 방법이 이러한 시나리오에도 적용될 수 있다고 생각합니다"라고 그는 말했습니다.
이 기술로 인해 이미지가 캡처된 위치를 숨기는 것이 더욱 어려워질 것인지 묻는 질문에 Alberti는 거리에 있다면 현재 위치에 대해 알 수 있는 징후가 너무 많기 때문에 지리적 위치가 발생할 가능성이 매우 높다고 말했습니다.
"얼마 전 '거리에서 벗어나 자연 한가운데에 있다면 어떨까요?'라는 질문을 받았습니다."라고 그는 말했습니다. "심지어 거기에도 나뭇잎의 상태, 하늘, 흙의 색깔과 같이 당신이 어디에 있을 수 있는지에 대한 많은 징후가 있습니다. 이를 통해 당신이 어느 나라에 있는지, 어느 지역에 있는지 확실히 알 수 있습니다. 하지만 특정 도시를 찾을 수는 없을 것입니다. 내부 사진은 찾기가 매우 어려울 것 같습니다."
내 생각엔 내부 사진을 찾기가 매우 어려울 것 같아요
Alberti는 PIGEON이 잘 작동하는 주요 이유 중 하나가 OpenAI의 CLIP을 기반 모델로 사용하기 때문이라고 말했습니다.
"이전의 많은 다른 지리 위치 모델은 처음부터 모델을 훈련하거나 ImageNet 기반 모델을 사용했습니다. 그러나 CLIP을 기본 모델로 사용하면 훨씬 더 많은 이미지와 작은 세부 사항이 표시됩니다. 따라서 작업에 훨씬 더 적합합니다."