Licencje Creative Commons - jak legalnie zbudować dataset

Licencje Creative Commons decydują o tym, czy Twój dataset jest legalny, czy jest bombą z opóźnionym zapłonem. Gdy budowałem QuizBase z 12 otwartych źródeł, najtrudniejsza część nie była techniczna - była prawna. Które zbiory wolno ze sobą łączyć? Co wymaga podania autora? Co muszę udostępnić dalej, jeśli coś poprawię? W tym artykule przekładam licencje otwartych danych na praktykę, bo to wiedza, której brak kosztuje firmy najwięcej w erze AI.

To temat z rodziny compliance, który łączy się bezpośrednio z RODO a sztuczną inteligencją oraz obowiązkami z AI Act dla firm. Różnica jest taka, że tu mówimy nie o danych osobowych, lecz o prawach autorskich do treści, które wykorzystujesz.

Dlaczego “otwarte” nie znaczy “rób co chcesz”

Najczęstszy błąd: ktoś widzi “open source” albo “darmowe dane” i zakłada, że może z nimi zrobić wszystko. Otwarta licencja to nadal licencja - czyli umowa z warunkami. Złamanie tych warunków to naruszenie praw autorskich, niezależnie od tego, że dane były dostępne za darmo.

Przy QuizBase oznaczało to przejście każdego z 12 źródeł osobno i sprawdzenie, na jakiej dokładnie licencji jest udostępnione. Bo “otwarte” to parasol, pod którym kryją się licencje o bardzo różnych konsekwencjach.

Rodzina licencji Creative Commons

Creative Commons to nie jedna licencja, tylko zestaw klocków. Warto znać cztery warunki, z których są składane:

BY (Attribution) - musisz podać autora i źródło. To minimum obecne w niemal każdym wariancie CC.
SA (ShareAlike) - jeśli tworzysz coś pochodnego, musisz to udostępnić na tej samej licencji. To warunek “zaraźliwy”.
NC (NonCommercial) - zakaz użycia komercyjnego. Pułapka dla każdego, kto buduje produkt zarobkowy.
ND (NoDerivatives) - zakaz tworzenia dzieł pochodnych. Praktycznie wyklucza przetwarzanie danych.

Z tych klocków powstają konkretne licencje. CC BY jest najbardziej liberalna - rób, co chcesz, tylko podaj autora. CC BY-SA dokłada obowiązek udostępniania pochodnych tak samo. CC BY-NC wyklucza komercję. Do tego dochodzi MIT - popularna licencja z świata oprogramowania, bardzo liberalna, wymagająca jedynie zachowania noty o prawach.

Atrybucja: obowiązek, który łatwo zlekceważyć

Wspólny mianownik prawie wszystkich tych licencji to atrybucja - podanie autora, źródła i licencji. To brzmi banalnie, dopóki nie masz 1,2 mln rekordów z 12 źródeł.

W QuizBase rozwiązałem to tak, że każde pytanie niesie własną atrybucję: autora, nazwę źródła, typ licencji, link. To nie jest ozdoba - to spełnienie warunku licencyjnego na poziomie pojedynczego rekordu. Użytkownik API dostaje od razu komplet informacji potrzebny, żeby legalnie wykorzystać dane dalej. Atrybucja wbudowana w produkt jest dużo bezpieczniejsza niż atrybucja “gdzieś w stopce regulaminu”.

ShareAlike - warunek, który się rozprzestrzenia

Najbardziej podstępny jest warunek ShareAlike. Jeśli tworzysz dzieło pochodne na bazie materiału BY-SA - na przykład tłumaczysz albo poprawiasz pytania - musisz udostępnić efekt na tej samej licencji.

W QuizBase część wzbogaceń (tłumaczenia, korekty) dotyczy źródeł BY-SA, więc te konkretne pochodne udostępniam publicznie jako osobny dump zgodny z licencją. To świadoma decyzja compliance: zamiast unikać źródeł BY-SA albo udawać, że warunek nie istnieje, spełniam go wprost. Ignorowanie ShareAlike to najczęstsza droga, którą firmy nieświadomie wpadają w naruszenie.

Czego nie wolno mieszać

Najważniejsza praktyczna zasada: nie wszystkie licencje da się łączyć. Materiał NonCommercial nie wejdzie do produktu komercyjnego. Materiał ShareAlike narzuca licencję na to, co z nim połączysz. Łączenie zbiorów o sprzecznych warunkach tworzy dataset, którego nie da się legalnie używać w żadnym celu.

Dlatego przy QuizBase część potencjalnych źródeł świadomie odrzuciłem - nie dlatego, że były słabe, tylko dlatego, że ich licencja kolidowała z modelem produktu. To dokładnie ten rodzaj decyzji “czego NIE robić”, o którym pisałem przy okazji tego, jak zbudowałem to API. W compliance odrzucenie bywa ważniejsze od dodania.

Dlaczego to dotyczy każdej firmy używającej AI

Temat licencji danych przestał być niszowy w momencie, gdy firmy zaczęły masowo karmić modele AI cudzymi treściami. Pytanie “czy wolno nam użyć tych danych” jest dziś tak samo istotne jak “czy chronimy dane osobowe”. Jedno reguluje RODO, drugie prawo autorskie - oba potrafią zaboleć.

Budowanie czystego licencyjnie zbioru wymaga dyscypliny: sprawdzenia każdego źródła, zaprojektowania atrybucji, spełnienia warunków pochodnych i świadomego odrzucenia tego, co nie pasuje. To żmudne, ale to różnica między produktem, który można sprzedawać, a takim, który jest pozwem czekającym na powoda.

Jeśli Twoja organizacja buduje na danych - własnych modelach, zbiorach treningowych, integracjach - i nie masz pewności co do licencji, to temat, który pomagam uporządkować na konsultacjach i szkoleniach z AI dla firm. Lepiej zadać te pytania przed wdrożeniem niż po wezwaniu od prawnika.