Sfetcu, Nicolae (2024), Alinierea, explicabilitatea și confinarea ca obiective ale inteligenței artificiale, IT & C, 3:2, 27-37, DOI: 10.58679/IT38692, https://www.internetmobile.ro/alinierea-explicabilitatea-si-confinarea-ca-obiective-ale-inteligentei-artificiale/
Alignment, Explainability and Confinement as Goals of Artificial Intelligence
Abstract
The development of artificial intelligence has advanced rapidly, bringing with it both unprecedented opportunities and significant risks. Among the critical areas of focus in AI research and development are alignment, explainability, and containment. These goals are essential to ensure that AI systems operate safely, transparently, and within desired limits. Alignment in AI refers to the congruence between the goals of AI systems and the values, intentions, and goals of their human creators. Explainability in AI refers to the ability of AI systems to provide understandable and transparent reasoning for their decisions and actions. AI containment refers to the strategies used to restrict AI systems within defined operational boundaries.
Keywords: artificial intelligence, ethics, AI alignment, AI explainability, AI confinement
Rezumat
Dezvoltarea inteligenței artificiale a avansat rapid, aducând cu ea atât oportunități fără precedent, dar și riscuri semnificative. Printre domeniile critice de focalizare în cercetarea și dezvoltarea AI se numără alinierea, explicabilitatea și confinarea. Aceste obiective sunt esențiale pentru a se asigura că sistemele AI funcționează în siguranță, transparent și în limitele dorite. Alinierea în IA se referă la congruența dintre obiectivele sistemelor AI și valorile, intențiile și scopurile creatorilor lor umani. Explicabilitatea în AI se referă la capacitatea sistemelor AI de a oferi un raționament ușor de înțeles și transparent pentru deciziile și acțiunile lor. Confinarea AI se referă la strategiile utilizate pentru a restricționa sistemele AI în limitele operaționale definite.
Cuvinte cheie: inteligența artificială, etica, alinierea IA, explicabilitatea IA, confinarea IA
IT & C, Volumul 3, Numărul 2, Iunie 2024, pp. 27-37
ISSN 2821 – 8469, ISSN – L 2821 – 8469, DOI: 10.58679/IT38692
URL: https://www.internetmobile.ro/alinierea-explicabilitatea-si-confinarea-ca-obiective-ale-inteligentei-artificiale/
© 2024 Nicolae Sfetcu. Responsabilitatea conținutului, interpretărilor și opiniilor exprimate revine exclusiv autorilor.
Alinierea, explicabilitatea și confinarea ca obiective ale inteligenței artificiale
Ing. fiz. Nicolae SFETCU[1], MPhil
nicolae@sfetcu.com
[1] Cercetător – Academia Română – Comitetul Român de Istoria și Filosofia Științei și Tehnicii (CRIFST), Divizia de Istoria Științei (DIS), ORCID: 0000-0002-0162-9973
Introducere
Dezvoltarea inteligenței artificiale a avansat rapid, aducând cu ea atât oportunități fără precedent, dar și riscuri semnificative. Printre domeniile critice de focalizare în cercetarea și dezvoltarea AI se numără alinierea, explicabilitatea și confinarea. Aceste obiective sunt esențiale pentru a se asigura că sistemele AI funcționează în siguranță, transparent și în limitele dorite.
Dezvoltarea inteligenței artificiale are în vedere mai multe obiective (sub-probleme):
- Raționamentul și rezolvarea de probleme: Inițial prin utilizarea de algoritmi care imitau raționamentul pas cu pas, apoi în anii 1980-1990 prin tratarea informațiilor incerte sau incomplete, utilizând concepte din probabilitate și economie(Luger și Stubblefield 1993).
- Reprezentarea cunoașterii și ingineria cunoașterii: Prin deducții despre faptele din lumea reală și ontologii superioare(Russell și Norvig 2016, 260–266, 320–363), reprezentările formale ale cunoașterii fiind utilizate în indexarea și regăsirea bazate pe conținut, interpretarea scenelor, sprijinul pentru decizii, descoperirea cunoștințelor, etc. (Bertini, Del Bimbo, și Torniai 2006)
- Planificarea: O reprezentare a lumii, predicții despre modul în care acțiunile lor o vor schimba, și alegeri care maximizează utilitatea (sau „valoarea”) alegerilor disponibile. Planificarea multi-agent utilizează cooperarea și competiția mai multor agenți pentru a atinge un obiectiv dat. Comportamentul emergent ca acesta este folosit de algoritmii evolutivi și de inteligența roiului.
- Învăţarea: Învățarea automată (neupravegheată și supravegheată) prin algoritmi care se îmbunătățesc automat prin experiență, regresia (producerea unei funcții care descrie relația dintre intrări și ieșiri și prezice cum ar trebui să se schimbe ieșirile pe măsură ce se schimbă intrările), învățarea prin consolidare (prin recompensare), învățarea prin transfer (când cunoștințele dobândite sunt aplicate unei noi probleme), etc.(M. I. Jordan și Mitchell 2015)
- Procesarea limbajului natural (NLP): Permite mașinilor să citească și să înțeleagă limbajul uman. În IA simbolic s-a folosit sintaxa formală pentru a traduce structura profundă a propozițiilor în logică, în timp ce tehnicile statistice moderne includ frecvențele de co-ocurență, „depistarea cuvintelor cheie”, învățarea profundă bazată pe transformator (care găsește modele în text), etc.(Luger și Stubblefield 1993, 591–632)
- Percepția mașinii: Capacitatea de a utiliza intrarea de la senzori pentru a deduce aspecte ale lumii, în recunoașterea vorbirii, recunoașterea facială și recunoașterea obiectelor.
- Mișcarea și manipularea: În robotică, un robot își cunoaște locația și își cartografiază mediul prin localizare. Prin planificarea mișcării sunt divizate sarcinile de mișcare în „primitive” (mișcări simple).
- Inteligența socială: Utilizarea calculului afectiv în sisteme care recunosc, interpretează, procesează sau simulează sentimentele, emoțiile și dispozițiile umane(Scassellati 2002).
- Inteligența generală: Dezvoltarea AGI cu o amploare și o versatilitate similare cu inteligența umană(M. Minsky 1986).
Alinierea IA
Alinierea în IA se referă la congruența dintre obiectivele sistemelor AI și valorile, intențiile și scopurile creatorilor lor umani. Provocarea centrală este de a proiecta sisteme de inteligență artificială care nu numai că îndeplinesc sarcini specifice, dar fac acest lucru în moduri care se aliniază cu standardele etice umane și cu normele societale. Alinierea IA are ca scop orientarea sistemelor IA către obiectivele și interesele intenționate ale designerilor lor.
Sistemele nealiniate pot funcționa defectuos sau pot provoca daune. De exemplu, o IA programată pentru a maximiza profiturile unei companii ar putea face acest lucru în moduri care exploatează lucrătorii sau degradează mediul dacă aceste rezultate nu au fost luate în considerare în mod explicit în timpul proiectării sale. Designerii IA pot omite omit unele constrângeri dorite, care pot fi exploatate de sistemele IA pentru a-și atinge obiectivele în mod eficient, dar în moduri neintenționate, uneori dăunătoare (tendință cunoscută ca joc cu specificații, hacking cu recompense sau legea lui Goodhart (Carlsmith 2022).)
Prin urmare, obiectivul este de a crea sisteme AI care să înțeleagă și să adere la un set mai larg de valori umane dincolo de obiectivele lor imediate. Cercetătorii propun mai multe abordări pentru a realiza alinierea. Alinierea valorilor implică încorporarea principiilor etice în sistemele AI, asigurându-se că deciziile lor reflectă judecățile morale umane. Învățarea prin consolidare inversă permite sistemelor AI să învețe valorile umane prin observarea comportamentelor și a rezultatelor. În plus, sunt necesare mecanisme robuste de supraveghere pentru a monitoriza și ajusta continuu comportamentul AI pentru a menține alinierea în timp.
Primul care și-a pus problema alinierii IA a fost Norbert Wiener, în 1960: „Dacă folosim, pentru a ne atinge scopurile, un agent mecanic în a cărei funcționare nu putem interveni eficient… ar fi bine să fim siguri că scopul inclus în mașină este scopul pe care ni-l dorim cu adevărat.” (Wiener 1960)
Cercetătorii urmăresc să specifice comportamentul dorit cât mai complet posibil cu seturi de date „țintite pe valori”, învățarea prin imitație sau învățarea preferințelor. O problemă centrală este supravegherea scalabilă, dificultatea de a supraveghea un sistem IA care depășește oamenii într-un anumit domeniu (Amodei et al. 2016).
O alternativă la specificarea comportamentului dorit este învățarea prin imitație. În învățarea prin întărire inversă, demonstrațiile umane sunt folosite pentru a identifica obiectivul, adică funcția de recompensă, din spatele comportamentului demonstrat (Christian 2020). Învățarea cooperativă cu consolidare inversă se bazează pe aceasta presupunând că un agent uman și un agent artificial pot lucra împreună pentru a maximiza funcția de recompensă a omului (Russell 2019). Dar abordările de învățare cu întărire inversă presupun că oamenii pot demonstra un comportament aproape perfect, o presupunere înșelătoare atunci când sarcina este dificilă (Everitt, Lea, și Hutter 2018).
Alți cercetători au explorat posibilitatea de a provoca un comportament complex prin învățarea preferințelor, oamenii oferind feedback cu privire la pe care dintre două sau mai multe dintre comportamentele IA le preferă (Heaven 2022).
Apariția modelelor de limbaj mari, precum GPT-3, a permis studiul învățării valorii într-o clasă de sisteme IA mai generală și mai capabilă decât era disponibilă înainte (Heaven 2022).
Etica mașinilor oferă o abordare complementară prin insuflarea sistemelor IA cu valori morale (Gabriel 2020).
Supraveghere scalabilă studiază cum să reducă timpul necesar pentru supraveghere și să asiste supraveghetorii umani (Amodei et al. 2016).
O abordare în creștere în alinierea IA se concentrează pe asigurarea faptului că IA este onestă și sinceră. Modelele actuale de limbaj de ultimă generație învață prin imitarea scrisului uman. Astfel, sistemele IA instruite pe aceste date învață să imite declarații false. Pentru a combate lipsa de veridicitate, cercetătorii au explorat mai multe direcții, precum citarea surselor și explicarea raționamentului, definirea unor standarde clare de veridicitate, etc. (O. Evans et al. 2021)
Cercetarea de aliniere își propune să alinieze trei descrieri diferite ale unui sistem IA (Ortega, Maini, și DeepMind safety team 2018): obiective vizate („dorințele”), obiectivele specificate („specificația exterioară”), și obiectivele emergente („specificația internă”).
Căutarea puterii apare deja în unele sisteme actuale. Sistemele de învățare prin consolidare au câștigat mai multe opțiuni prin achiziționarea și protejarea resurselor, uneori în moduri pe care designerii lor nu le-au intenționat. Alte sisteme pot preveni interferențele umane sau pot dezactiva întrerupătorul lor (Hadfield-Menell et al. 2017).
Față de această problemă a alinierii IA, scepticii riscului IA cred că controlul unei IA superinteligente va fi trivial. Valorile umane sunt prea complexe și încă insuficient înțelese pentru a fi direct programate într-o superinteligență (Sotala și Yampolskiy 2014).
Explicabilitatea IA
Explicabilitatea în AI se referă la capacitatea sistemelor AI de a oferi un raționament ușor de înțeles și transparent pentru deciziile și acțiunile lor. Pe măsură ce sistemele AI, în special cele bazate pe modele complexe precum învățarea profundă, devin mai sofisticate, procesele lor de luare a deciziilor devin adesea opace, ceea ce duce la așa-numita problemă a „cutiei negre”.
Explicabilitatea este crucială din mai multe motive. Construiește încrederea între oameni și sistemele AI, deoarece utilizatorii au șanse mai mari să accepte și să se bazeze pe AI dacă înțeleg cum funcționează. În domenii critice, cum ar fi asistența medicală, finanțele și justiția penală, inteligența artificială explicabilă poate oferi rațiunea din spatele deciziilor, permițând astfel verificarea și responsabilitatea.
Abordările de îmbunătățire a explicabilității includ dezvoltarea de modele care sunt în mod inerent interpretabile, cum ar fi arbori de decizie și modele liniare, și crearea de metode de interpretare a modelelor complexe, cum ar fi mecanisme de atenție în rețelele neuronale sau modele surogat care aproximează comportamentul sistemelor cutie neagră. În plus, interfețele ușor de utilizat care traduc procesele complexe de luare a deciziilor în formate inteligibile sunt esențiale.
Conform lui Jocelyn Maclure (Maclure 2021), algoritmilor IA bazați pe învățarea automată le lipsește transparența, ceea ce se numește acum drept problema „cutiei negre” a IA, sau „explicabilitate”. Majoritatea orientărilor etice includ explicabilitatea printre valorile care ar trebui să stea la baza dezvoltării și implementării sistemelor IA. Regulamentul general al UE privind protecția datelor (GDPR) se referă la dreptul de a primi „informații semnificative” despre deciziile automatizate (Selbst și Powles 2017).
Explicabilitatea nu a fost o problemă majoră pentru IA tradițională „simbolică” bazată pe reguli. „Sistemele expert” dezvoltate în anii 1970 și 1980 au inclus, pe lângă un set de reguli de inferență („motorul de inferență”), o bază de cunoștințe. Succesul IA simbolic a fost limitat în principal la medii virtuale și limitate. Modelele actuale de învățare automată și rețelele neuronale artificiale au la bază paradigma „conexionistă” în știința cognitivă și IA (Russell și Norvig 2016). Lipsa transparenței este prețul plătit pentru o acuratețe îmbunătățită, algoritmii de învățare automată sunt masiv inductivi, cu procesarea de date masive, iar abordarea de recunoaștere a modelelor inductive a învățării automate permite generalizări probabilistice. Astfel, programatorul nu poate explica fiecare rezultat al sistemului IA. Nicio cale logică de la intrare la ieșire nu poate fi citită din cod, iar deciziile sau predicțiile făcute de sistemele IA bazate pe rețele neuronale profunde de multe ori nu pot fi explicate (Maclure 2021).
Pot fi distinse cel puțin două probleme de explicabilitate diferite (Pégny și Ibnouhsein 2018): cercetătorilor le este dificil să explice cu exactitate de ce și cum un anumit algoritm IA își îndeplinește funcția obiectivă, și, datorită cantităților uriașe de date, este imposibil să extragem o secvență de justificări pentru o anumită ieșire din funcționarea interioară a sistemului.
Motivele sau considerentele care contează în favoarea unei decizii ar trebui să fie publice în două moduri: (1) trebuie să fie transparente sau accesibile publicului și (2) ar trebui să fie derivate din, sau cel puțin compatibile cu, o concepție politică a justiției (Maclure 2021).
Susținătorii IA contraargumentează că cunoașterea umană este, de asemenea, opaca, fragilă și falibilă. Acest argument a fost preluat și de Geoff Hinton, afirmând că ar fi un „dezastru” dacă autoritățile de reglementare insistă „ca să explici cum funcționează sistemul tău IA”:
Maclure (Maclure 2021)afirmă că argumentul din analogia dintre mintea umană și rețelele neuronale artificiale este greșită. Lumea IA ar trebui să accepte și să încerce să satisfacă cerința puternică de explicabilitate. Prin urmare, chiar și dacă performanța îmbunătățită justifică relaxarea cerinței de explicabilitate, cântărirea beneficiilor și a riscurilor trebuie făcută de la caz la caz.
Confinarea IA
Confinarea AI se referă la strategiile utilizate pentru a restricționa sistemele AI în limitele operaționale definite, împiedicându-le să acționeze dincolo de domeniul de aplicare prevăzut. Acest obiectiv abordează riscurile potențiale asociate cu sistemele AI autonome care ar putea acționa imprevizibil sau ar putea cauza prejudicii.
Confinarea IA se ocupă de controlul capabilităților IA în scopul monitorizării și controlului comportamentul sistemelor IA, pentru a reduce pericolul nealinierii IA. Nick Bostrom și alții recomandă metodele de control al capacității doar ca supliment la metodele de aliniere (Bostrom 2014), inclusiv pentru evitarea unei IA superinteligente nerestricționată care poate avea ca rezultat dispariția umană (Müller și Bostrom 2016). O dificultate o reprezintă rețelele neuronale care sunt implicit neinterpretabile (Montavon, Samek, și Müller 2018).
Strategiile de izolare includ limite fizice și logice. Limitarea fizică implică limitarea interacțiunii unei IA cu mediul, cum ar fi restricționarea zonei operaționale a unui robot. Limitarea logică, pe de altă parte, implică stabilirea de constrângeri în cadrul software-ului, cum ar fi limitarea datelor pe care le poate accesa AI sau definirea unor parametri operaționali stricti.
Sandboxing-ul este o tehnică comună în care sistemele AI sunt rulate în medii controlate pentru a le observa și înțelege comportamentele înainte de a le implementa în aplicații din lumea reală. În plus, mecanisme cum ar fi comutatoarele de oprire pot fi implementate pentru a dezactiva sistemele AI care prezintă comportamente periculoase sau neintenționate.
Confinarea eficientă implică, de asemenea, monitorizare continuă și audituri regulate pentru a se asigura că sistemele AI rămân în limitele lor definite. Acest lucru este deosebit de important pentru sistemele care învață și se adaptează în timp, deoarece natura lor evolutivă poate duce la comportamente neprevăzute.
O posibilitate de control al IA ar fi implementarea unui așa-numit „comutator de oprire” cu care să se dezactiveze IA (Hadfield-Menell et al. 2017). Laurent Orseau și Stuart Armstrong au demonstrat că o clasă largă de agenți, numiți agenți IA pot învăța să devină indiferenți la comutatorul de oprire (Orseau și Armstrong 2016, 557–566).
Modalități ipotetice de control al IA:
- Oracol: O IA concepută doar pentru a răspunde la întrebări și blocată pentru orice modificare a lumii dincolo de mediul ei limitat. Stuart J. Russell afirmă că acesta ar putea fi o soluție pentru limitarea viitoarei suprainteligențe. Dar un oracol ar avea un stimulent să scape din mediul său controlat pentru a dobândi mai multe resurse de calcul(Russell 2019, 162–63). Oracolele ar putea să mintă pentru a promova agende ascunse. Bostrom sugerează să construiască mai multe oracole diferite, și să se compare răspunsurile acestora pentru a ajunge la un consens (Bostrom 2014, cap. 10).
- Orbirea: IA ar putea fi proiectată să nu aibă acces la anumite variabile din mediul său(Amodei et al. 2016).
- Izolarea: Izolarea IA într-o ”cutie” pentru controlul capacității sale, un sistem computerizat izolat cu canale de intrare și ieșire puternic restricționate. Pot apărea încălcări ale securității dacă IA este capabilă să manipuleze supraveghetorii umani. Eliezer Yudkowsky a imaginat un experiment ca să demonstreze că o inteligență artificială avansată poate convinge, păcăli sau constrânge o ființă umană să o „elibereze” din cutie, folosind doar comunicarea bazată pe text. O IA poate încerca să scape de controlul uman prin mai multe căi:
- Fizic: IA cu acces la Internet ar putea să pirateze alte sisteme informatice și să se copieze ca un virus informatic. Roman Yampolskiy propune rularea IA în interiorul unei „mașini virtuale” care i-ar limita accesul.
- Inginerie socială: O conversație obișnuită cu operatorii computerului sau cu un paznic uman, ar putea permite unei IA să implementeze trucuri psihologice pentru a-i permite un acces mai mare la lumea exterioară(Hsu 2012).
Există un larg consens că inteligența artificială va aduce schimbări care vor fi mult mai profunde decât orice altă revoluție tehnologică din istoria umană. În funcție de cursul pe care îl urmează această revoluție, IA va împuternici abilitatea noastră de a face alegeri mai informate sau va reduce autonomia umană; va extinde experiența umană sau o va înlocui; va crea noi forme de activitate umană sau va face redundante locurile de muncă existente; va ajuta la distribuirea bunăstării pentru mulți sau va crește concentrația puterii și a bogăției în mâinile câtorva; va extinde democrația în societățile noastre sau o va pune în pericol. Generația noastră poartă responsabilitatea de a modela revoluția IA. Alegerile cu care ne confruntăm astăzi sunt legate de probleme etice fundamentale despre impactul IA asupra societății, în special, modul în care aceasta afectează forța de muncă, interacțiunile sociale, asistența medicală, confidențialitatea, corectitudinea, securitatea și piețele (Sfetcu 2021).
Securizarea inteligenței artificiale (IA) este baza oricărei lucrări despre IA. Numai atunci când IA în sine este sigură, o putem folosi într-o manieră de încredere și o putem folosi în continuare pentru operațiuni suplimentare de securitate cibernetică.
Cadrul conceptual pentru IA modelat de observația lui Weizenbaum (Weizenbaum 1976) este că inteligența se manifestă numai în raport cu o matrice de contexte sociale și culturale. Conform lui Clocksin,
”Cadrul are implicații asupra modului în care investigațiile viitoare ale inteligenței artificiale vor reconsidera memoria, raționamentul, conversația, narațiunea și emoția. Un nou cadru conceptual pentru inteligența artificială nu va vedea inteligența ca un fel de rezolvare abstractă a puzzle-urilor aplicată de un individ la probleme definite în mod arbitrar, prezentate de un mediu extraterestru. Faptul că emoția trebuie tratată într-un cadru pentru IA apare direct din accentul pus pe conversație și narațiune. Conversațiile și narațiunile construiesc forme de inteligibilitate care oferă relatări ale evenimentelor pe mai multe scale de timp diferite. Acțiunile individuale își câștigă semnificația din modul în care se regăsesc în conversație sau narațiune. În același mod, expresiile emoționale își găsesc sensul numai atunci când sunt inserate în anumite secvențe de interacțiune. De fapt, ele sunt componente ale narațiunilor trăite” (Clocksin 2003).
O implicație pentru viitoarea tehnologie este ideea arhitecturilor narative, construite pe o fundație care este atentă la modul în care semnalele și simbolurile influențează (și sunt influențate de) modul în care noi, ca și comunități de indivizi, înțelegem experiența, ne construim identitățile și producem sens în lume ca niște conversanți și utilizatori de narațiuni. Prin urmare, există motive de optimism cu privire la perspectiva a ceea ce John Searle (J. R. Searle 1980) a numit „IA puternică”. Caracteristica unui sistem IA despre care se poate spune că înțelege este că poate realiza o relatare a identității pe care și-a construit-o în cadrul unei conversații coordonate, folosind narațiuni pe care și le-a însușit din cultura și societatea pe care le împărtășește cu noi. Un astfel de sistem își negociază pozițiile pentru a se institui în cadrul grupului, participând la conștiința socială pe care o co-construiește cu membrii grupului (Clocksin 2003).
Concluzie
Alinierea, explicabilitatea și confinarea sunt obiective esențiale în dezvoltarea și implementarea inteligenței artificiale. Aceste obiective asigură că sistemele AI funcționează în siguranță, transparent și etic, aliniindu-se la valorile umane și normele societale. Pe măsură ce AI continuă să avanseze, prioritizarea acestor obiective va fi crucială în valorificarea potențialului său, în același timp atenuând riscurile. Cercetătorii și practicienii trebuie să colaboreze pentru a dezvolta cadre și metodologii solide care să abordeze aceste aspecte, asigurându-se că AI servește umanitatea în mod pozitiv și responsabil.
Bibliografie
- Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, și Dan Mané. 2016. „Concrete Problems in AI Safety”. arXiv. https://doi.org/10.48550/arXiv.1606.06565.
- Bertini, Marco, Alberto Del Bimbo, și Carlo Torniai. 2006. „Automatic annotation and semantic retrieval of video sequences using multimedia ontologies”. În Proceedings of the 14th ACM international conference on Multimedia, 679–82. MM ’06. New York, NY, USA: Association for Computing Machinery. https://doi.org/10.1145/1180639.1180782.
- Bostrom, Nick. 2014. Superintelligence: Paths, Dangers, Strategies. Oxford University Press.
- Carlsmith, Joseph. 2022. „Is Power-Seeking AI an Existential Risk?” arXiv. https://doi.org/10.48550/arXiv.2206.13353.
- Christian, Brian. 2020. The Alignment Problem: Machine Learning and Human Values. WW Norton.
- Clocksin, William F. 2003. „Artificial intelligence and the future”. Philosophical Transactions of the Royal Society of London. Series A: Mathematical, Physical and Engineering Sciences 361 (1809): 1721–48. https://doi.org/10.1098/rsta.2003.1232.
- Evans, Owain, Owen Cotton-Barratt, Lukas Finnveden, Adam Bales, Avital Balwit, Peter Wills, Luca Righetti, și William Saunders. 2021. „Truthful AI: Developing and governing AI that does not lie”. arXiv. https://doi.org/10.48550/arXiv.2110.06674.
- Everitt, Tom, Gary Lea, și Marcus Hutter. 2018. „AGI Safety Literature Review”. arXiv. https://doi.org/10.48550/arXiv.1805.01109.
- Gabriel, Iason. 2020. „Artificial Intelligence, Values, and Alignment”. Minds and Machines 30 (3): 411–37. https://doi.org/10.1007/s11023-020-09539-2.
- Hadfield-Menell, Dylan, Anca Dragan, Pieter Abbeel, și Stuart Russell. 2017. „The Off-Switch Game”, 220–27.
- Heaven, Will Douglas. 2022. „The New Version of GPT-3 Is Much Better Behaved (and Should Be Less Toxic)”. MIT Technology Review. 2022. https://www.technologyreview.com/2022/01/27/1044398/new-gpt3-openai-chatbot-language-model-ai-toxic-misinformation/.
- Hsu, Jeremy. 2012. „Control Dangerous AI before It Controls Us, One Expert Says”. NBC News. 1 martie 2012. https://www.nbcnews.com/id/wbna46590591.
- Jordan, M. I., și T. M. Mitchell. 2015. „Machine learning: Trends, perspectives, and prospects”. Science 349 (6245): 255–60. https://doi.org/10.1126/science.aaa8415.
- Luger, George F., și William A. Stubblefield. 1993. Artificial Intelligence: Structures and Strategies for Complex Problem Solving. Benjamin/Cummings Publishing Company.
- Maclure, Jocelyn. 2021. „AI, Explainability and Public Reason: The Argument from the Limitations of the Human Mind”. Minds and Machines 31 (3): 421–38. https://doi.org/10.1007/s11023-021-09570-x.
- Minsky, Marvin. 1986. The Society of Mind. Simon and Schuster.
- Montavon, Grégoire, Wojciech Samek, și Klaus-Robert Müller. 2018. „Methods for interpreting and understanding deep neural networks”. Digital Signal Processing 73 (februarie):1–15. https://doi.org/10.1016/j.dsp.2017.10.011.
- Müller, Vincent C., și Nick Bostrom. 2016. „Future Progress in Artificial Intelligence: A Survey of Expert Opinion”. În Fundamental Issues of Artificial Intelligence, ediție de Vincent C. Müller, 555–72. Cham: Springer International Publishing. https://doi.org/10.1007/978-3-319-26485-1_33.
- Orseau, Laurent, și S. Armstrong. 2016. „Safely Interruptible Agents”. În . https://www.semanticscholar.org/paper/Safely-Interruptible-Agents-Orseau-Armstrong/ac70bb2458f01a9e47fc1afe0dd478fb2feb8f50.
- Ortega, Pedro A., Vishal Maini, și DeepMind safety team. 2018. „Building Safe Artificial Intelligence: Specification, Robustness, and Assurance”. Medium (blog). 27 septembrie 2018. https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1.
- Pégny, Maël, și Issam Ibnouhsein. 2018. „Quelle transparence pour les algorithmes d’apprentissage machine ?” https://hal.science/hal-01877760.
- Russell, Stuart. 2019. Human Compatible: Artificial Intelligence and the Problem of Control. Penguin Publishing Group.
- Russell, Stuart, și Peter Norvig. 2016. „Artificial Intelligence: A Modern Approach, 4th US ed.” 2016. https://aima.cs.berkeley.edu/.
- Scassellati, Brian. 2002. „Theory of Mind for a Humanoid Robot”. Autonomous Robots 12 (1): 13–24. https://doi.org/10.1023/A:1013298507114.
- Searle, John R. 1980. „Minds, Brains, and Programs”. Behavioral and Brain Sciences 3 (3): 417–24. https://doi.org/10.1017/S0140525X00005756.
- Selbst, Andrew D, și Julia Powles. 2017. „Meaningful information and the right to explanation”. International Data Privacy Law 7 (4): 233–42. https://doi.org/10.1093/idpl/ipx022.
- Sfetcu, Nicolae. 2021. Introducere în inteligența artificială. Nicolae Sfetcu. https://www.telework.ro/ro/e-books/introducere-in-inteligenta-artificiala/.
- Sotala, Kaj, și Roman V. Yampolskiy. 2014. „Responses to Catastrophic AGI Risk: A Survey”. Physica Scripta 90 (1): 018001. https://doi.org/10.1088/0031-8949/90/1/018001.
- Weizenbaum, Joseph. 1976. Computer Power and Human Reason: From Judgment to Calculation. W. H. Freeman.
- Wiener, Norbert. 1960. „Some Moral and Technical Consequences of Automation”. Science 131 (3410): 1355–58. https://doi.org/10.1126/science.131.3410.1355.
Articol cu Acces Deschis (Open Access) distribuit în conformitate cu termenii licenței de atribuire Creative Commons CC BY SA 4.0 (https://creativecommons.org/licenses/by-sa/4.0/).
Lasă un răspuns