The Price of the Commons
Three communities built the internet's knowledge for nothing. AI made it worth billions. The communities were the last to find out.
공유지의 대가
세 커뮤니티가 인터넷의 지식을 공짜로 만들었다. AI가 그것을 수십억 달러의 가치로 만들었다. 커뮤니티는 가장 늦게 알았다.
In December 2025, Stack Overflow received 3,862 new questions. That is the same number the site received in August 2008 — its first month of existence. Seventeen years of accumulated knowledge, the largest programming archive in history, and the community that built it had returned to the point where it started. In the same quarter, Stack Overflow's owner reported 17% revenue growth. The revenue came from selling the archive to AI companies. The AI companies' products were the reason the community had disappeared.
This would be a remarkable story on its own. It is not the only one. In the same year, Reddit — the platform where 17 billion comments document how humans argue, grieve, recommend, and change each other's minds — licensed its data to Google and OpenAI, sued Anthropic and Perplexity for scraping without paying, and posted $2.2 billion in revenue. Its first profitable year was built entirely on words its employees did not write. And Wikipedia, whose 65 million volunteer-written articles are cited in nearly half of all AI-generated answers, struck licensing deals with Amazon and Meta and Microsoft, but as a nonprofit with open licenses, found itself unable to claim more than a fraction of the value its data generates.
Three platforms. The same raw material — knowledge that millions of people wrote for free, contributed to freely, and understood to be a shared resource. A commons, in the oldest sense of the word. In 2025, the commons was priced. Reddit sold the harvest and posted $2.2 billion in revenue. Stack Overflow's owner sold the remains. Wikipedia could barely charge at all. The people who built the commons were not consulted.
2025년 12월, 스택 오버플로우에 올라온 신규 질문은 3,862건이었다. 2008년 8월, 사이트 출범 첫 달과 같은 숫자다. 17년간 축적된 지식, 역사상 가장 큰 프로그래밍 아카이브, 그리고 그것을 만든 커뮤니티가 출발점으로 돌아갔다. 같은 분기에 스택 오버플로우의 모기업은 매출 17% 성장을 보고했다. 수익은 아카이브를 AI 기업들에 판매한 데서 나왔다. 바로 그 AI 기업들의 제품이 커뮤니티가 사라진 이유였다.
그 자체로도 놀라운 이야기다. 유일한 이야기가 아닌 것이 문제다. 같은 해, 레딧은 — 인간이 어떻게 논쟁하고, 슬퍼하고, 추천하고, 서로의 생각을 바꾸는지를 170억 건의 댓글로 기록한 플랫폼 — 데이터를 Google과 OpenAI에 라이선싱하고, 무단 스크래핑 혐의로 Anthropic과 Perplexity를 소송하고, 매출 22억 달러를 기록했다. 첫 흑자 연도는 전적으로 직원들이 쓰지 않은 글 위에 세워졌다. 위키백과는 자원봉사자가 쓴 6,500만 개의 문서가 AI 생성 답변의 거의 절반에서 인용되면서도, Amazon, Meta, Microsoft와 라이선싱 딜을 맺었으나, 오픈 라이선스를 가진 비영리 단체로서 자신의 데이터가 생성하는 가치의 일부밖에 가져갈 수 없다는 것을 확인했다.
세 플랫폼. 같은 원재료 — 수백만 명이 공짜로 쓰고, 자유롭게 기여하고, 공유 자원이라고 이해했던 지식. 가장 오래된 의미의 공유지다. 2025년, 공유지에 가격이 매겨졌다. 레딧은 수확물을 팔아 매출 22억 달러를 올렸다. 스택 오버플로우의 모기업은 남은 것을 팔았다. 위키백과는 제값을 받는 것조차 어려웠다. 공유지를 만든 사람들은 의견을 구하는 자리에 불리지 않았다.
What Reddit's data is actually made of
레딧의 데이터가 실제로 담고 있는 것
To understand why Reddit captured more value from the AI economy than any other community platform, you have to understand what Reddit actually is — not the product, but the architecture.
Most social platforms are designed around individuals. Twitter is a broadcast network. Facebook is a social graph. Instagram is a portfolio. Reddit is none of these. It is a federation of self-governing communities — more than 100,000 active subreddits, each with its own rules, its own volunteer moderators, its own culture. r/AskHistorians requires academic citations in every answer. r/AmItheAsshole invites strangers to adjudicate moral disputes between people they have never met. r/wallstreetbets once moved the stock market. Reddit provides the infrastructure; the communities provide everything else.
This design was a philosophy, not an AI strategy. It was inherited from the forum culture of the early internet, where communities formed around shared interests and governed themselves. But the consequence of this architecture, from a data perspective, is profound. What accumulated inside Reddit over two decades was not a knowledge base. It was a behavioral archive — a record of how humans argue, recommend, grieve, celebrate, and change each other's minds. When someone asks r/parenting about sleep training a toddler, the thread that follows is not medical literature. It is lived experience, filtered through community norms, upvoted by parents who tried it last month. No AI model can generate this from first principles, because it does not exist in first principles. It exists in the specific, irreducible texture of human social life.
This is why Reddit is the most cited domain in AI model outputs — three times more frequently than Wikipedia, according to an analysis of 680 million AI citations by Profound AI. It is not cited for authority. It is cited because its data captures something no other source captures: what real people actually think, in their own words, about the problems they are currently facing.
Reddit's leadership saw what the data was worth before most observers did. In January 2024, the company signed $203 million in licensing contracts. A $60 million annual deal with Google was announced on the same day Reddit filed for its IPO. A deal with OpenAI followed, estimated at $70 million per year. By early 2025, AI licensing represented roughly 10% of Reddit's revenue — around $130 million annually. The year before, in June 2023, Reddit had raised API prices dramatically, killing most third-party apps and triggering the largest coordinated user protest in the platform's history. Thousands of subreddits went dark. The stated reason was sustainability. The practical effect was sealing the pipeline through which AI companies had been extracting Reddit data for free.
The enforcement arm followed. In June 2025, Reddit sued Anthropic, alleging over 100,000 unauthorized scraping requests — including of deleted posts. In October, it sued Perplexity and three data-scraping intermediaries. The legal strategy was deliberate: the claims centered on breach of contract and unjust enrichment, not copyright. Reddit does not own its users' copyrights. What it claims is something different — the right to control access to the space where those users contributed, and to charge for that access.
The strategy has worked commercially. Reddit's 2025 revenue reached $2.2 billion, up 69% year-over-year. Net income was $530 million — its first full year of GAAP profitability. Daily active users grew 19% to 121 million. The company authorized a $1 billion share buyback. In renegotiations with Google, Reddit is pushing for dynamic pricing — compensation that increases as Reddit content becomes more central to AI-generated answers. The field is productive. The harvest is being sold.
But the field was not planted by the company that now claims to own it. The FTC opened an inquiry in March 2024 into whether Reddit's sale of user-generated content for AI training constitutes an "unfair or deceptive trade practice." The investigation remains open. The EU AI Act has raised questions about Reddit's reliance on "legitimate interest" as a legal basis for selling data that users contributed under entirely different assumptions. And when Reddit polled its own users in 2023, the answer was unambiguous: the people who cultivated the community did not consent to having it sold. They were not offered a share of the proceeds. They were not consulted. The market has assigned a price to their words. The price was assigned in their absence.
레딧이 다른 어떤 커뮤니티 플랫폼보다 AI 경제에서 더 많은 가치를 포착한 이유를 이해하려면, 레딧이 실제로 무엇인지를 — 제품이 아니라 아키텍처를 — 이해해야 한다.
대부분의 소셜 플랫폼은 개인을 중심으로 설계된다. 트위터는 방송 네트워크다. 페이스북은 소셜 그래프다. 인스타그램은 포트폴리오다. 레딧은 이 중 어느 것도 아니다. 자치적인 커뮤니티들의 연방이다 — 10만 개 이상의 활성 서브레딧이 각자의 규칙, 각자의 자원봉사 모더레이터, 각자의 문화를 갖고 있다. r/AskHistorians는 모든 답변에 학술적 인용을 요구한다. r/AmItheAsshole은 한 번도 만난 적 없는 타인들 사이의 도덕적 분쟁을 낯선 사람들이 판결하도록 초대한다. r/wallstreetbets는 한때 주식 시장을 움직였다. 레딧은 인프라를 제공할 뿐이다. 나머지 모든 것은 커뮤니티가 만든다.
이 설계는 AI 전략이 아닌 철학이었다. 공통의 관심사를 중심으로 커뮤니티가 형성되고 자율적으로 운영되던 초기 인터넷의 포럼 문화에서 비롯된 것이다. 하지만 이 아키텍처가 데이터 관점에서 가져온 결과는 심원하다. 20년에 걸쳐 레딧 안에 축적된 것은 지식 기반이 아니었다. 행동의 아카이브였다 — 인간이 어떻게 논쟁하고, 추천하고, 슬퍼하고, 축하하고, 서로의 생각을 바꾸는지에 대한 기록. r/parenting에 누군가 아이의 수면 훈련에 대해 물으면, 그 뒤에 이어지는 스레드는 의학 문헌이 아니다. 커뮤니티의 규범을 통해 걸러지고, 지난달에 직접 시도해본 부모들이 추천한 경험의 기록이다. 어떤 AI 모델도 이것을 원리로부터 생성할 수 없다. 원리에 존재하지 않기 때문이다. 인간 사회생활의 구체적이고 환원 불가능한 결에만 존재한다.
이것이 레딧이 AI 모델 출력에서 가장 많이 인용되는 도메인인 이유다 — Profound AI의 6억 8천만 AI 인용 분석에 따르면, 위키백과의 세 배다. 권위 때문에 인용되는 게 아니다. 실제 사람들이 지금 직면한 문제에 대해 자기 말로 실제로 무엇을 생각하는지를 담은 데이터가 다른 어디에도 없기 때문이다.
레딧 경영진은 대부분의 관찰자보다 먼저 이 데이터의 가치를 알아봤다. 2024년 1월, 총 2억 300만 달러의 라이선싱 계약을 체결했다. 연간 6,000만 달러 규모의 Google 딜은 레딧이 IPO를 신청한 바로 그날 발표됐다. 연간 약 7,000만 달러로 추정되는 OpenAI 딜이 뒤따랐다. 2025년 초, AI 라이선싱은 레딧 매출의 약 10%, 연간 약 1억 3,000만 달러를 차지했다. 그 전해인 2023년 6월, 레딧은 API 가격을 대폭 인상해 대부분의 서드파티 앱을 죽이고, 플랫폼 역사상 최대 규모의 사용자 항의를 촉발했다. 수천 개의 서브레딧이 블랙아웃에 돌입했다. 명분은 지속가능성이었다. 실질적 효과는 AI 기업들이 레딧 데이터를 무료로 빨아가던 파이프라인을 봉쇄한 것이다.
법적 집행이 뒤따랐다. 2025년 6월, 레딧은 Anthropic을 소송했다 — 삭제된 게시물을 포함해 10만 건 이상의 무단 스크래핑 요청이 있었다는 주장이다. 10월에는 Perplexity와 데이터 스크래핑 중개업체 세 곳을 소송했다. 법률 전략은 의도적이었다: 저작권이 아닌 계약 위반과 부당이득을 핵심 청구 원인으로 삼았다. 레딧은 사용자의 저작권을 소유하지 않는다. 레딧이 주장하는 것은 다른 것이다 — 사용자들이 기여한 공간에 대한 접근을 통제하고, 그 접근에 대가를 요구할 권리.
전략은 상업적으로 성공했다. 2025년 레딧 매출은 전년 대비 69% 증가한 22억 달러. 순이익 5억 3,000만 달러 — 첫 GAAP 흑자 연도. 일일 활성 사용자 19% 증가, 1억 2,100만 명. 10억 달러 규모의 자사주 매입 승인. Google과의 재협상에서 레딧은 동적 가격 책정을 추진하고 있다 — 레딧 콘텐츠가 AI 생성 답변에서 차지하는 비중이 커질수록 보상이 늘어나는 구조. 밭은 생산적이다. 수확물은 팔리고 있다.
하지만 밭을 일군 것은 지금 소유권을 주장하는 회사가 아니다. FTC는 2024년 3월, 사용자 생성 콘텐츠를 AI 학습용으로 판매하는 것이 "불공정하거나 기만적인 거래 관행"에 해당하는지 조사에 착수했다. 조사는 현재 진행 중이다. EU AI Act는 전혀 다른 전제 하에 기여된 데이터를 판매하기 위한 법적 근거로 "정당한 이해관계"에 의존하는 레딧의 입장에 의문을 제기했다. 그리고 2023년 레딧이 자사 사용자에게 물었을 때, 답은 분명했다: 커뮤니티를 가꾼 사람들은 그것이 팔리는 데 동의하지 않았다. 수익의 몫을 제안받지 못했다. 의견을 구하는 자리에 불리지 않았다. 시장은 그들의 말에 가격을 매겼다. 가격은 그들의 부재 속에서 정해졌다.
What happened to Stack Overflow
스택 오버플로우에 일어난 일
Stack Overflow was, from its founding in 2008, designed to be the opposite of a social platform. Joel Spolsky and Jeff Atwood built it with an explicit anti-social philosophy: no greetings, no thank-you's, no tangential discussion. "This is not a discussion forum," the guidelines declared. Questions that invited opinions were closed. Answers that did not directly solve the stated problem were downvoted. The point was to create a library, not a community — a structured archive of programming problems and their definitive solutions.
This discipline produced extraordinary data. By 2014, Stack Overflow was receiving over 200,000 questions per month and had become the largest repository of programming knowledge in history. The moderation system, enforced by volunteers who earned "reputation" points for quality contributions, kept signal high and noise low. For a decade, "just Google it" effectively meant "just read the Stack Overflow answer."
The same discipline that made the data excellent also made the community brittle. The strict moderation culture — questions closed as duplicates, newcomers downvoted for imprecise phrasing, a pervasive atmosphere of judgment — drove away contributors for years before AI arrived. The question count had been declining since 2014, long before ChatGPT. What AI did was deliver the final blow. When a programmer could get an instant, patient, non-judgmental answer from a chatbot trained on Stack Overflow's own archive, the incentive to subject oneself to the forum's gauntlet vanished overnight.
In December 2025, Stack Overflow received 3,862 new questions. That is the same number the site received in its first month of existence in 2008. Fifteen years of growth, erased in three.
In the same period, Prosus — the Dutch investment company that acquired Stack Overflow for $1.8 billion in June 2021, five months before ChatGPT launched — reported 17% revenue growth to $115 million, with improved operating losses and cash flow breakeven. The growth was driven by OverflowAPI, a product that sells structured access to Stack Overflow's archive to AI and LLM providers. OpenAI is a partner. The knowledge that volunteers spent fifteen years building is now packaged and sold to the companies whose products are making volunteer contributions unnecessary.
The vulnerability was architectural. Stack Overflow's founding decision to suppress social behavior — to strip out the greetings and opinions and digressions that make human communication human — produced clean, structured data: every answer a discrete solution to a discrete problem. That data structure maps precisely to the pattern AI replicates natively: input a problem, output a solution. When the machine learned to do what Stack Overflow's community had been doing, the machine did not need the community anymore. The knowledge survived. The community did not.
There is a symmetry to this that bears stating plainly. The community built the knowledge. The knowledge trained the AI. The AI killed the community. The company sells the dead community's knowledge to the AI. Questions are down 78%. Revenue is up 17%. The yield comes from a field that no one is planting anymore.
스택 오버플로우는 2008년 창업 때부터 소셜 플랫폼의 정반대로 설계됐다. 조엘 스폴스키와 제프 앳우드가 명시적으로 반사회적인 철학 위에 세운 것이다. 인사말 금지, 감사 인사 금지, 곁가지 토론 금지. "여기는 토론 포럼이 아닙니다"라고 가이드라인이 선언했다. 의견을 유도하는 질문은 닫혔다. 제시된 문제를 직접 해결하지 못하는 답변은 다운보트됐다. 목표는 커뮤니티가 아니라 도서관을 만드는 것이었다 — 프로그래밍 문제와 그 결정적 해법의 구조화된 아카이브.
이 규율은 탁월한 데이터를 만들어냈다. 2014년까지 스택 오버플로우는 월 20만 건 이상의 질문을 받았고, 역사상 가장 큰 프로그래밍 지식 저장소가 되었다. 품질 기여에 대해 "레퓨테이션" 포인트를 부여하는 모더레이션 시스템이 신호 대 잡음비를 높게 유지했다. 10년간 "구글에 검색해 봐"는 사실상 "스택 오버플로우 답변을 읽어 봐"를 의미했다.
데이터를 탁월하게 만든 바로 그 규율이 커뮤니티를 취약하게 만들기도 했다. 엄격한 모더레이션 문화 — 중복으로 닫히는 질문들, 부정확한 표현 때문에 다운보트당하는 신규 사용자들, 만연한 심판의 분위기 — 는 AI가 등장하기 훨씬 전부터 기여자들을 쫓아냈다. 질문 수는 2014년부터 이미 감소하고 있었다. ChatGPT 훨씬 이전의 일이다. AI가 한 것은 최후의 일격을 가한 것이다. 스택 오버플로우 자체의 아카이브로 훈련된 챗봇이 즉각적이고, 인내심 있고, 판단하지 않는 답변을 주는 상황에서, 포럼의 시련에 자신을 맡길 유인은 하룻밤 사이에 사라졌다.
2025년 12월, 스택 오버플로우에 올라온 신규 질문은 3,862건이었다. 2008년 사이트 출범 첫 달과 같은 숫자다. 15년의 성장이 3년 만에 지워졌다.
같은 시기, 스택 오버플로우를 2021년 6월 18억 달러에 인수한 네덜란드 투자회사 Prosus는 — ChatGPT 출시 5개월 전이었다 — 매출 17% 성장, 1억 1,500만 달러를 보고했다. 영업 적자 개선과 현금흐름 손익분기 달성도 함께였다. 성장의 동력은 OverflowAPI, 스택 오버플로우의 아카이브에 대한 구조화된 접근을 AI 및 LLM 제공자에게 판매하는 상품이었다. OpenAI가 파트너다. 자원봉사자들이 15년간 쌓은 지식이 이제 포장되어, 자원봉사 기여를 불필요하게 만드는 제품을 만든 바로 그 회사들에게 팔리고 있다.
취약성은 아키텍처에 있었다. 사회적 행동을 억제하겠다는 스택 오버플로우의 창업 결정 — 인간적 소통을 인간적으로 만드는 인사와 의견과 곁가지를 벗겨낸 결정 — 은 깨끗하고 구조화된 데이터를 만들었다. 모든 답변이 개별 문제에 대한 개별 해법. 그 데이터 구조는 AI가 가장 자연스럽게 복제하는 패턴과 정확히 일치한다: 문제를 입력하면 해법을 출력하라. 기계가 스택 오버플로우의 커뮤니티가 해온 일을 배우자, 기계는 더 이상 커뮤니티가 필요하지 않았다. 지식은 살아남았다. 커뮤니티는 그러지 못했다.
이것의 대칭은 그냥 있는 그대로 말할 수밖에 없다. 커뮤니티가 지식을 만들었다. 지식이 AI를 훈련시켰다. AI가 커뮤니티를 죽였다. 회사는 죽은 커뮤니티의 지식을 AI에 판다. 질문은 78% 줄었다. 매출은 17% 올랐다. 수확은 아무도 씨를 뿌리지 않는 밭에서 나온다.
What Wikipedia can't do
위키백과가 할 수 없는 것
Wikipedia is the odd one out in this story. Its content is more heavily consumed by AI than either Reddit or Stack Overflow — 47.9% of ChatGPT's top-ten most-cited domains are Wikipedia pages, according to Profound AI — and yet it is the platform least equipped to capture any of the resulting value.
The reason is foundational. Wikipedia is a nonprofit. Its content is published under Creative Commons licenses. Anyone can use it, for any purpose, including training trillion-dollar AI models. The Wikimedia Foundation, which operates the encyclopedia, cannot sue for unauthorized scraping because the scraping was never unauthorized. The gate was always open. That was the entire point.
What Wikipedia's 250,000 active editors built over 25 years is something that AI models depend on but cannot replicate: a continuously maintained, cross-referenced, multilingual archive of verified facts, written and revised through an adversarial process of editorial consensus. The social process behind a Wikipedia article is intensely human — edit wars, talk-page debates, citation disputes — but the output is deliberately impersonal. Opinion is excluded. Unverified claims are flagged. The result is the closest thing the internet has to a canonical factual record, and it is precisely the kind of source that AI models need to stay grounded in reality. AI can summarize a Wikipedia article. It cannot produce one — not at the level of quality that requires hundreds of editors to negotiate, over months, what counts as true.
On January 15, 2026, Wikipedia's 25th birthday, the Wikimedia Foundation publicly announced a series of commercial partnerships under its Wikimedia Enterprise platform: Amazon, Meta, Microsoft, Mistral AI, Perplexity, joining Google, which had signed in 2022. The Enterprise product does not sell Wikipedia's content — which remains free under its licenses — but rather provides structured, high-speed, high-volume access to it. Financial details were not disclosed; analysts estimate the revenue at "tens of millions" annually, a fraction of the $150 million the Foundation receives in donations from eight million individual donors.
The economics are upside-down. In April 2025, Wikimedia reported that multimedia bandwidth consumption had risen 50%, driven largely by AI bots crawling the site at industrial scale — many of them disguised to evade detection. Human pageviews, meanwhile, fell 8% year-over-year. The Foundation's co-founder, Jimmy Wales, put it directly: "They're not donating in order to subsidize these huge AI companies." The donors pay to keep Wikipedia running. The AI companies extract the value. The editors who maintain the world's largest encyclopedia in their spare time receive nothing from either side.
Wikipedia cannot do what Reddit did. It cannot block crawlers and demand licensing fees, because its mission requires openness. It cannot sue for breach of contract, because the contract was always: take what you need, give credit, keep it free. The open-access principle that made Wikipedia one of the great achievements of the internet era is the same principle that now makes it incapable of capturing the value that its data generates in the AI economy. The most ethically run platform is the most extracted from.
위키백과는 이 이야기에서 가장 묘한 자리에 있다. 레딧이나 스택 오버플로우보다 AI에 의해 더 많이 소비되면서도 — Profound AI에 따르면 ChatGPT의 상위 10개 인용 도메인 중 47.9%가 위키백과 페이지다 — 그 결과로 발생하는 가치를 포착할 역량이 가장 부족한 플랫폼이다.
이유는 근본적이다. 위키백과는 비영리 단체다. 콘텐츠는 크리에이티브 커먼즈 라이선스로 공개된다. 누구나, 어떤 목적으로든 사용할 수 있다 — 수조 달러짜리 AI 모델 훈련을 포함해서. 위키백과를 운영하는 위키미디어 재단은 무단 스크래핑을 소송할 수 없다. 스크래핑이 애초에 무단이었던 적이 없기 때문이다. 문은 항상 열려 있었다. 그것이 처음부터 요점이었다.
위키백과의 25만 명의 활성 편집자가 25년에 걸쳐 만든 것은, AI 모델이 의존하면서도 복제할 수 없는 것이다: 지속적으로 관리되고, 상호 참조되며, 다국어로 된 검증된 사실의 아카이브. 편집 합의라는 대립적 과정을 통해 작성되고 수정된다. 위키백과 문서 뒤에 있는 사회적 과정은 극도로 인간적이다 — 편집 전쟁, 토론 페이지 논쟁, 인용 분쟁. 하지만 산출물은 의도적으로 비인격적이다. 의견은 배제된다. 검증되지 않은 주장에는 플래그가 붙는다. 결과물은 인터넷이 가진 것 중 사실의 정전(正典)에 가장 가까운 기록이며, AI 모델이 현실에 기반을 유지하기 위해 필요로 하는 정확히 그런 종류의 소스다. AI는 위키백과 문서를 요약할 수 있다. 문서를 생산할 수는 없다 — 수백 명의 편집자가 몇 달에 걸쳐 무엇이 참인지를 협상해야 하는 수준의 품질로는.
2026년 1월 15일, 위키백과 창립 25주년에 위키미디어 재단은 Wikimedia Enterprise 플랫폼을 통한 일련의 상업적 파트너십을 공식 발표했다: Amazon, Meta, Microsoft, Mistral AI, Perplexity가 2022년에 계약한 Google에 합류했다. Enterprise 제품은 위키백과의 콘텐츠를 파는 것이 아니다 — 콘텐츠는 라이선스에 따라 여전히 무료다 — 대신 구조화된 고속 대량 접근을 제공한다. 재정적 세부 사항은 공개되지 않았다. 분석가들은 연간 "수천만 달러" 수준으로 추정하는데, 이는 재단이 800만 명의 개인 기부자로부터 받는 기부금 1억 5,000만 달러의 일부에 불과하다.
경제 구조가 뒤집혀 있다. 2025년 4월, 위키미디어는 멀티미디어 대역폭 소비가 50% 증가했다고 보고했다. 대부분 탐지를 피하기 위해 위장한 AI 봇들이 산업적 규모로 사이트를 크롤링한 결과였다. 인간 페이지뷰는 같은 기간 8% 감소했다. 공동 창립자 지미 웨일즈는 직설적으로 말했다. "기부자들은 거대 AI 기업을 보조하려고 기부하는 게 아닙니다." 기부자가 위키백과를 유지하는 비용을 내고, AI 기업이 가치를 추출하고, 여가 시간에 세계 최대의 백과사전을 관리하는 편집자들은 어느 쪽에서도 아무것도 받지 못한다.
위키백과는 레딧이 한 것을 할 수 없다. 크롤러를 차단하고 라이선싱 비용을 요구할 수 없다. 개방이 사명이기 때문이다. 계약 위반으로 소송할 수 없다. 계약 조건이 처음부터 "필요한 것을 가져가고, 출처를 밝히고, 무료를 유지하라"였기 때문이다. 위키백과를 인터넷 시대의 위대한 성취 중 하나로 만든 오픈 액세스 원칙이, AI 경제에서 자신의 데이터가 생성하는 가치를 포착하는 것을 구조적으로 불가능하게 만드는 바로 그 원칙이다. 가장 윤리적으로 운영되는 플랫폼이 가장 많이 착취당한다.
| Stack Overflow | Wikipedia | ||
|---|---|---|---|
| Founded | 2005 | 2008 | 2001 |
| Structure | Public (NYSE: RDDT) | Private (Prosus, $1.8B acq.) | Nonprofit (Wikimedia) |
| Content | 17B comments, 1B+ posts | 58M answers | 65M articles, 300 languages |
| 2025 Revenue | $2.2B (+69% YoY) | $115M (+17%) | ~$150M (donations) |
| AI Licensing Rev | ~$130M/yr | Undisclosed (OverflowAPI) | Undisclosed ("tens of millions") |
| AI Citation Rank | #1 (3× Wikipedia) | N/A | #2 (47.9% of ChatGPT top-10) |
| Community Trend | Growing (+19% DAU) | Collapsing (−78% questions) | Declining (−8% human traffic) |
| Major AI Lawsuits | Anthropic, Perplexity | None | None |
| Contributor Compensation | $0 | $0 | $0 |
| Stack Overflow | Wikipedia | ||
|---|---|---|---|
| 설립 | 2005 | 2008 | 2001 |
| 법적 구조 | 상장 (NYSE: RDDT) | 비상장 (Prosus, $1.8B 인수) | 비영리 (Wikimedia) |
| 콘텐츠 | 댓글 170억, 포스트 10억+ | 답변 5,800만 | 문서 6,500만, 300개 언어 |
| 2025 매출 | $2.2B (+69% YoY) | $115M (+17%) | ~$150M (기부금) |
| AI 라이선싱 매출 | ~$130M/년 | 비공개 (OverflowAPI) | 비공개 ("수천만 달러") |
| AI 인용 순위 | 1위 (Wikipedia의 3배) | N/A | 2위 (ChatGPT 상위 10 중 47.9%) |
| 커뮤니티 추세 | 성장 (+19% DAU) | 붕괴 (질문 −78%) | 감소 (인간 트래픽 −8%) |
| 주요 AI 소송 | Anthropic, Perplexity | 없음 | 없음 |
| 기여자 보상 | $0 | $0 | $0 |
What separates the three
셋을 가르는 것
The easy explanation is legal structure. Reddit is a publicly traded company with the legal apparatus to enforce terms of service and sue scrapers. Stack Overflow is privately held by an investment firm with the latitude to monetize the archive however it sees fit. Wikipedia is a nonprofit with open licenses that make aggressive enforcement structurally impossible. Legal structure matters. It explains who can capture value. It does not explain why the value was there to capture in the first place.
The more interesting question is what kind of human activity each platform captured — and specifically, how much of that activity was social.
Reddit captured the full bandwidth of human social behavior. Its data contains not just information but the way people negotiate, comfort, provoke, and persuade one another. This is knowledge that AI cannot generate, because it is not derived from principles but from the ongoing, unpredictable activity of being a social animal. Every day, 121 million people contribute new data of this kind. The archive refreshes. The field stays fertile.
Stack Overflow captured the opposite: knowledge stripped of social context. Its founding decision to suppress human interaction — to close opinion-based questions, to penalize chattiness, to optimize for clean problem-solution pairs — produced data that was structurally identical to what AI would later learn to produce on its own. The machine learned to be Stack Overflow. The knowledge was mechanical, so a machine could replace it.
Wikipedia falls between the two, in an instructive way. The process of creating a Wikipedia article is deeply social — editors argue, revert, negotiate on talk pages. But the output erases all traces of that process. The final article is impersonal, declarative, stripped of voice. This means AI can summarize Wikipedia efficiently — it is already in the format that AI prefers — but it cannot produce Wikipedia, because production requires the social process that the output conceals.
Reddit cultivated a community and sold the harvest. Stack Overflow harvested the knowledge and watched the field go fallow. Wikipedia's field is open to everyone, and the volunteers who tend it cannot lock the gate.
The pattern suggests something counterintuitive: the platforms that best served human social instincts — the mess, the arguments, the inside jokes, the unstructured warmth of people talking to people — produced the data that AI finds most valuable. And the platform that most rigorously excluded human social behavior produced data so clean, so structured, so machine-readable, that a machine read it and made the humans unnecessary.
쉬운 설명은 법적 구조다. 레딧은 상장 기업으로서 이용 약관을 집행하고 스크래퍼를 소송할 법적 장치를 갖추고 있다. 스택 오버플로우는 아카이브를 원하는 대로 수익화할 수 있는 투자회사가 소유한 비상장 기업이다. 위키백과는 오픈 라이선스를 가진 비영리 단체로서 공격적 집행이 구조적으로 불가능하다. 법적 구조는 중요하다. 누가 가치를 포착할 수 있는지를 설명한다. 왜 포착할 가치가 애초에 거기 있었는지는 설명하지 않는다.
더 흥미로운 건 각 플랫폼이 어떤 종류의 인간 활동을 담았는가 — 구체적으로, 그 활동 중 얼마나 많은 부분이 사회적이었는가이다.
레딧은 인간 사회적 행동의 전체 대역폭을 담았다. 그 데이터에는 정보만이 아니라 사람들이 서로 협상하고, 위로하고, 도발하고, 설득하는 방식이 들어 있다. 이것은 AI가 생성할 수 없는 지식이다. 원리에서 도출되는 것이 아니라, 사회적 동물로 존재하는 과정에서 벌어지는 예측 불가능한 활동에서 나오기 때문이다. 매일 1억 2,100만 명이 이런 종류의 새로운 데이터를 기여한다. 아카이브가 갱신된다. 밭이 비옥하게 유지된다.
스택 오버플로우는 정반대를 담았다: 사회적 맥락이 제거된 지식. 인간적 상호작용을 억제하겠다는 창업 결정 — 의견 기반 질문을 닫고, 잡담에 패널티를 주고, 깨끗한 문제-해법 쌍에 최적화한 결정 — 은 AI가 나중에 스스로 생산하는 법을 배우게 될 것과 구조적으로 동일한 데이터를 만들어냈다. 기계가 스택 오버플로우가 되는 법을 배웠다. 지식이 기계적이었으므로 기계가 대체할 수 있었다.
위키백과는 둘 사이에 위치하는데, 시사점이 풍부하다. 위키백과 문서를 만드는 과정은 깊이 사회적이다 — 편집자들이 논쟁하고, 되돌리고, 토론 페이지에서 협상한다. 하지만 산출물은 그 과정의 모든 흔적을 지운다. 최종 문서는 비인격적이고, 선언적이며, 목소리가 제거되어 있다. 이는 AI가 위키백과를 효율적으로 요약할 수 있다는 뜻이다 — 이미 AI가 선호하는 형식이니까 — 하지만 위키백과를 생산할 수는 없다. 생산에는 산출물이 감추고 있는 바로 그 사회적 과정이 필요하기 때문이다.
레딧은 커뮤니티를 가꾸고 수확물을 팔았다. 스택 오버플로우는 지식을 수확하고 밭이 황폐해지는 것을 지켜봤다. 위키백과의 밭은 모두에게 열려 있고, 밭을 가꾸는 자원봉사자들은 문을 잠글 수 없다.
패턴을 보면 직관에 반하는 것이 드러난다: 인간의 사회적 본능을 가장 잘 반영한 플랫폼들 — 혼란, 논쟁, 안에서만 통하는 농담, 사람과 사람이 대화할 때 나오는 정돈되지 않은 온기 — 이 AI가 가장 가치 있게 여기는 데이터를 만들어냈다는 것. 그리고 인간의 사회적 행동을 가장 철저하게 배제한 플랫폼은, 너무 깨끗하고 너무 구조적이고 너무 기계가 읽기 좋은 데이터를 만들어서, 기계가 그것을 읽고 인간을 불필요하게 만들어버렸다는 것.
Google, as it does in every story about the modern internet, occupies the background like weather. Its $60 million annual licensing deal with Reddit is, by Google's standards, a rounding error — the company's search business generated $63 billion in a single quarter. But Google also has a deal with Wikipedia, dating to 2022, and its AI Overviews feature — which summarizes web content directly in search results — is among the forces reducing traffic to the very sites it pays to license. Google extracts from the ecosystem with one hand and subsidizes it with the other. The net flow of value is not in doubt.
Beneath the corporate strategies and licensing frameworks, there is a simpler story. Over the course of two decades, millions of people contributed their knowledge, their experience, and their time to three platforms, in exchange for nothing more than the satisfaction of being useful to strangers. They built something real. The question-and-answer archive that taught a generation of programmers. The encyclopedia that became the internet's factual backbone. The forum where people come to find out what other people actually think. These are not trivial accomplishments. They represent a form of collective generosity that the market did not account for and does not know how to compensate.
The AI economy has now assigned a price to that generosity. Reddit's $530 million in profit was built on contributions that its users made for free. Stack Overflow's revenue growth is funded by an archive whose contributors have largely dispersed. Wikipedia's licensing deals generate revenue for server infrastructure, not for the editors who maintain fifty-eight million answers across three hundred languages in their spare time. In each case, the people who created the value were not at the table when the price was set.
Whether this is unjust or simply how markets work is now a legal question, not just a philosophical one. The FTC's inquiry into Reddit. The EU AI Act's consent provisions. The Really Simple Licensing framework that Reddit, Yahoo, and Medium are backing. The question of who owes what to whom for AI training data is moving, slowly, from a philosophical concern to a legal one.
What is not uncertain is the pattern. The knowledge that AI finds most valuable is the knowledge that most faithfully records how humans behave — not how they answer test questions, not how they state verified facts, but how they argue, decide, feel, and relate to one another. The platforms that captured this knowledge did not do so intentionally. They simply built spaces where people could be people, and the data that accumulated was, it turned out, irreplaceable in ways that cleaner and more structured data was not. The messier the commons, the more it was worth.
But a commons is not a mine. A mine yields its resource regardless of who owns it. A commons produces only as long as people choose to contribute. Stack Overflow has already demonstrated what happens when they stop — the archive remains, but the field is fallow, and no amount of licensing revenue can make it grow again. Reddit's contributors are still planting. Whether they will continue, now that they know who profits from the harvest, is the question that $2.2 billion in revenue does not answer.
현대 인터넷에 관한 모든 이야기가 그렇듯, Google은 날씨처럼 배경을 차지한다. 레딧과의 연간 6,000만 달러 라이선싱 딜은 Google 기준으로 반올림 오차다 — 검색 사업은 한 분기에 631억 달러를 벌어들인다. 하지만 Google은 2022년부터 위키백과와도 딜을 맺고 있고, 검색 결과에서 웹 콘텐츠를 직접 요약하는 AI Overviews 기능은 정작 라이선싱 비용을 내는 사이트들의 트래픽을 줄이는 힘 중 하나다. Google은 한 손으로 생태계에서 추출하고 다른 손으로 보조한다. 가치의 순 흐름 방향은 의심의 여지가 없다.
기업 전략과 라이선싱 프레임워크 아래에는 더 단순한 이야기가 있다. 20년에 걸쳐 수백만 명의 사람들이 자신의 지식과 경험과 시간을 세 플랫폼에 기여했다. 낯선 사람에게 유용했다는 만족감 외에는 아무 대가 없이. 그들은 실재하는 무언가를 만들었다. 한 세대의 프로그래머를 가르친 질문-답변 아카이브. 인터넷의 사실적 뼈대가 된 백과사전. 다른 사람들이 실제로 무슨 생각을 하는지 알아보러 오는 포럼. 이것들은 사소한 성취가 아니다. 시장이 계산하지 않았고 보상할 방법을 모르는 형태의 집단적 관대함을 대표한다.
AI 경제는 이제 그 관대함에 가격을 매겼다. 레딧의 5억 3,000만 달러 순이익은 사용자들이 공짜로 한 기여 위에 세워졌다. 스택 오버플로우의 매출 성장은 기여자들이 대부분 흩어진 아카이브가 자금을 대고 있다. 위키백과의 라이선싱 딜은 서버 인프라를 위한 수익을 만들 뿐, 여가 시간에 300개 언어로 5,800만 개의 문서를 관리하는 편집자들을 위한 것이 아니다. 세 경우 모두, 가치를 만든 사람들은 가격이 정해지는 자리에 없었다.
이것이 부당한 것인지 아니면 시장이 원래 그런 것인지는 이제 철학적 물음이 아니라 법적 쟁점이다. FTC의 레딧 조사. EU AI Act의 동의 조항. 레딧, Yahoo, Medium이 뒤를 받치고 있는 RSL(Really Simple Licensing) 프레임워크. AI 학습 데이터에 대해 누가 누구에게 무엇을 빚지고 있는지의 문제가, 천천히, 철학적 우려에서 법적 쟁점으로 이동하고 있다.
불확실하지 않은 것은 패턴이다. AI가 가장 가치 있게 여기는 지식은 인간이 어떻게 행동하는지를 가장 충실하게 기록한 지식이다 — 시험 문제에 어떻게 답하는지가 아니고, 검증된 사실을 어떻게 진술하는지가 아니라, 어떻게 논쟁하고, 결정하고, 느끼고, 서로 관계 맺는지. 이 지식을 담은 플랫폼들은 의도적으로 그렇게 한 것이 아니다. 사람들이 사람일 수 있는 공간을 만들었을 뿐이고, 축적된 데이터가 더 깨끗하고 더 구조화된 데이터가 갖지 못한 방식으로 대체 불가능하다는 것이 밝혀진 것이다. 공유지가 지저분할수록, 가치가 높았다.
하지만 공유지는 광산이 아니다. 광산은 소유자가 누구든 자원을 내놓는다. 공유지는 사람들이 기여하기로 선택하는 한에서만 생산한다. 기여를 멈추면 어떻게 되는지는 스택 오버플로우가 이미 보여줬다 — 아카이브는 남아 있지만 밭은 휴경 상태이고, 어떤 라이선싱 수익으로도 다시 자라게 할 수 없다. 레딧의 기여자들은 아직 씨를 뿌리고 있다. 수확의 이익이 누구에게 돌아가는지 알게 된 지금도 계속할 것인지는, 22억 달러의 매출이 답하지 못하는 질문이다.
The author uses Reddit, Stack Overflow, and Wikipedia as regular reference sources. No company discussed here has reviewed or approved this analysis. Conversations with Claude, restructured by Claude.
필자는 Reddit, Stack Overflow, Wikipedia를 일상적 참고 자료로 사용한다. 이 기사에서 논의된 어떤 회사도 사전 검토나 승인에 관여하지 않았다. Claude와의 대화를 Claude로 재구성했다.